1. 引言
近年来,数字化快速发展、大数据云计算技术崛起为航空维修领域带来了革命性的变化。随着ChatGPT,星火等大语言模型的诞生更是引爆了人工智能技术与现实世界的认知边界,加速了与传统工业技术的整合。民航局发布了《加快推动智慧民航建设发展的总体意见》。预测性维修 [1] 作为一种基于数据分析来预测和防止潜在故障的方法 [2] ,已经成为航空维修领域和评估航空器结构寿命 [3] 的热门研究方向。随着国家信创战略的要求,开发自主知识产权的飞机健康管理及预测性维修平台,确保飞机安全和高效运行已成了刻不容缓的任务。那么如何在纷繁、抽象的数据中,发现有价值的信息和洞见,通过直观的数据模型分析理解故障发生的时点、特征就成了开展预测性维修的关键。本文聚焦数据探索与可解释数据模型的结合提出一种实用、便捷的实践方法。
2. 总体框架
预测性维修依赖于大数据技术和数据分析工具收集和分析飞机的运行数据、维护数据,从而实现对飞机系统的实时监控,提供预测和维修建议。目前,国外先进航空公司和OEM厂商都已建立预测性维修平台,如:空客SKYWISE [4] ,汉莎AVIATAR [5] 等。本文经过对主流平台和相关文献的研究,归纳了以故障源和运行事件为导向,通过可视化分析软件进行数据探索,归纳规律并与可解释数据模型相结合,构建监控模型和预测性维修策略整体方法。
2.1. 数据收集与处理
数据可分为“故障与事件信息源”和“监控及维修数据源”。故障与事件信息源指:出现故障或发生特殊运行事件的时点、部件信息、异常值等。监控及维修数据源指飞机的基本信息、维修记录和监控参数等,包括:飞机寿命、QAR/SAR、ACMS报文、历史维修记录、部件性能设计标准等数据。当出现故障或特殊运行事件时,需要根据信息源识别匹配相应的数据源,包括结构化数据和非结构化数据。通过数据清洗和数据转换技术,使数据建立关联性和统一性,形成一个尽可能完整和准确的数据集,以便于提取数据特征,为后续的分析和模型开发奠定基础。
2.2. 可视化数据探索
在完成数据集构建后,进入可视化数据探索阶段。使用Tableau等可视化分析工具进行数据透视、探索。通过拖放、分类、叠加、关联等可视化交互操作,挖掘与故障或事件分析高度相关的数据,采用描述性统计分析以理解数据的基本特性和分布,识别数据中的任何异常值、趋势特性或故障模式,将“故障与事件信息源”和“监控及维修数据源”整合在统一维度的图示。例如:根据空客提供的全球机队A350吊架燃油管渗漏的信息(故障飞行小时和飞行循环),通过数据探索,综合平均值、中位数等统计学分析,归纳出故障集中发生区域。再通过正态分布,选取95%置信度分析估算维修间隔,如图1所示。

Figure 1. Calculation plot of the normal distribution of data in the area where the fault is concentrated
图1. 故障集中发生区域数据正态分布计算图
2.3. 模型选择与开发
在模型选择与开发阶段,需要根据数据探索结果选择适合的预测模型。这涉及到对不同模型的评估和比较,以确定哪个模型可以提供准确和可靠的预测结果。本文使用常见的统计学工具如正态分布、线性回归等,并根据实践经验融入以下数据模型,这些模型具有可解释性强、通用性好的特点,能够直观的反映故障特征和趋势。常用的模型有回归模型 [6] 、随机森林、卷积神经网络(CNN) [7] 、长短时记忆网络 (LSTM)等,此案例中只选择时间序列分析 [8] 和案例基本推理(CBR) [9] 模型,数据模型简介与优势,限制分析如表1所示。一旦模型被选择,接着需使用历史数据来训练模型。模型训练后,需要验证其性能,确保它可以准确地预测未来的故障。
2.4. 模型部署与监控
在模型得到充分验证并满足实际生产需求的前提下,进入部署阶段。此阶段涵盖实时监控、趋势分析和警戒值告警等多元化的监控机制,以实时触发预测结果和维修建议。航空公司和MRO需根据这些维修建议灵活调配资源,确保维修措施的精准实施。维修后,持续监控和跟踪维修效果及飞机状态,以优化模型和监控方案,确保其持续适应变化的运行环境和需求。

Table 1. Introduction and benefits of data models, analysis of limitations
表1. 数据模型简介与优势、限制分析
2.5. 预测性维修策略制定
基于故障预测的结果,需要人工或自动判断,制定有效的主动维护措施,如:提前采购航材准备预防性更换,根据部件的性能衰退情况选择合适的停场机会进行更换,结合部件的使用寿命提前送厂进行小修以避免性能持续衰退造成的部件大修。
2.6. 反馈、优化和记录
在实施预测性维修策略后,必须进行细致的效果评估,以验证模型的准确性和策略的成功率。这不仅仅是一个反馈环节,更是一个持续优化策略的过程,确保策略的持续适应和优化。此外,建立一个完善的维修记录系统是至关重要的,它不仅记录维修的细节和结果,更能够通过跟踪维修历史和性能来形成一个知识库,记录新的故障模式和历史故障的解决方案,为后续探索和研究提供参考和指导,从而实现预测性维修模型和解决方案的持续迭代和优化。
3. 方法与案例实践
根据上文研究的总体框架形成了基于故障源和运行事件为导向,实施数据探索和可解释数据模型构建的预测性维修方法。本节分别探讨CBR与警戒值分析和时间序列分析模型的应用并通过具体的案例实践,如图2所示。
3.1. CBR与警戒值分析
CBR(案例基础推理)与警戒值分析是一种基于历史案例和经验的问题解决策略,可更好地理解和预测飞机的维修需求。通过设置合适的警戒值,可更早地识别潜在的问题,从而避免飞机AOG和更高的维修成本。以下通过一个简化的数学表达式来描述这个组合模型:
1) 警戒值分析
首先,需要定义警戒值,它基于历史数据或专家知识。式1中,Ti:第i个参数的警戒值,Fi:计算警戒值的函数,X:相关的历史数据(即故障阈值)。
(1)
2) 问题检测

Figure 2. Overall framework and methodological diagram
图2. 总体框架及方法图
当实时数据超过警戒值时,将标识为一个问题。式2中Pj:第j个问题的标识,Dj:第j个问题的实时数据。
(2)
3) CBR问题解决
在确定了问题后,使用CBR来找到相应的解决方案。式3中Sj:第j个问题的标识,g:维修方案,C:案例库(包含历史数据和排故措施)。
(3)
4) 综合表达式
综合上述步骤,可以得到一个表达式4来表示整个系统:
(4)
基于上述理论研究,以A350飞机过热探测系统(OHDS)故障为例。根据总体框架,选择CBR与警戒值分析模型形成预测性维修策略。以“L/R WING LOOP INOP”和“AIR LEAK DET REDUNANCY”信息作为故障输入。梳理故障与事件信息流:2021年至今,东航A350机队共发生此类故障2起。2021年7月,A飞机反映“AIR LEAK DET REDUNANCY”的DM信息,查看ACMS 036报文显示左大翼A环路绝缘性阻值下降明显,停场更换了故障探测元件。2022年9月,通过AIRMAN监控到B飞机左侧交输引气探测环路的阻值SCI下降明显,如图3所示,便停场更换了故障探测元件。

Figure 3. B Aircraft performance degradation case left side versus right side
图3. B飞机性能衰退案例左侧与右侧对比
对于上述故障信息,运用可视化分析工具进行数据探索和可视化分析,发现左侧数据相较右侧呈明显下降趋势。空客手册给出了各环路位置最低SCI阻抗限制值,如图4所示。当环路性能衰退,阻抗值SCI会产生明显的变化。因此,可通过监控SCI值的变化趋势,确认故障位置和故障的探测元件。

Figure 4. Minimum SCI impedance limit for each loop location
图4. 各环路位置最低SCI阻抗限制值
根据上述数据收集、处理和探索结果。根据CBR与警戒值分析原理设置了监控模型:当监测值小于(手册限制值*1.2),触发预警。设置预警值触发后,发送预警邮件。航空公司或MRO可分析故障趋势数据,进行决策,下发排故指令在飞机上进行测量和验证。故障定位后,可提前订购航材,选择合适的停场机会进行更换。
3.2. 时间序列分析
时间序列分析侧重于通过分析数据点在时间上的序列来识别潜在的趋势和模式。这种方法可以帮助航空公司和MRO更好地理解飞机性能随时间和季节的变化和可能的故障模式,从而更有针对性地进行维护。空客曾介绍某航空公司通过在SKYWISE平台对IDG (整体驱动发电机)温度进行监控分析,实现了对IDG的趋势监控,提供预测性维修建议,每年可以节省大约320万元。受到该案例启发,以疫情停场封存是否会对VFG性能造成影响作为特殊运行事件输入。
数据收集及探索阶段,筛选ACMS 02号报文数据,提取4个滑油温度指标:VFGAOIT_1,VFGBOIT_1,VFGAOIT_2和VFGBOIT_2,并整合运行数据。运行数据集分为三个主要时间段:上海疫情大面积封存前(2021年1月~2022年4月),疫情封存期间(2022年4月至2023年1月),和疫情封存后(2023年1月-2023年4月)。数据收集、分割处理后,通过数据探索发现时点与滑油温度有一定相关性,如图5所示。
模型选择与开发阶段,使用STL分解方法(Seasonal and Trend decomposition using Loess)进行时间序列分析,该方法分为三个组件:趋势组件,描述数据中的长期趋势。季节性组件,揭示数据中的周期性波动。残余组件,表示去除趋势和季节性效应后的随机波动。

Figure 5. A350 VFG time series analysis
图5. A350 VFG时间序列分析

Figure 6. A350 VFG outlier detection
图6. A350 VFG异常值检测
在封存前阶段,所有变量显示出一致的趋势,表明在正常运行条件下,这些指标维持在一个稳定的范围内,没有明显的异常波动。封存期间(间歇性有航班),虽然观测数据点较少,但仍然可以识别出一致的趋势线,这表明即使在长时间停场期间,VFG也保持着相对稳定的状态。封存后恢复运行阶段,可以注意到所有变量都恢复到了一个稳定的趋势线,与封存前的趋势线相似。此外,通过计算残余组件的标准差(采用3倍标准差)未发现异常点,如图6所示。
通过上述模型分析表明飞机在重新投入运行后能够保持良好的性能,疫情长时间停场并未造成VFG的明显性能衰退。故无需在恢复运行阶段实施维修措施。
4. 探讨与思考
通过上述研究发现对于预测性维修仍然有许多值得业内探讨和思考的内容,包括多维度数据如何高效整合,尤其是对非结构化的维修记录;数据模型的可解释性不足,不能直观理解;数据质量如何保证,数据清洗如何实施;预测性维修带来换件的增多,成本与经济性如何平衡,经济效益如何计算等。
4.1. 多维度数据整合方式
在实施数据驱动的航空器预测性维修时,多维度数据整合成为一个核心环节。整合不同来源的数据,包括结构化数据和非结构化数据的整合,不同厂商数据的整合,运行数据与MRO维修记录的动态接入。这些情况都会对数据不一致和质量问题造成挑战。因此,需要深思如何更有效地整合多维度数据,以确保数据的准确性和一致性。
4.2. 数据模型的可解释性
数据模型的可解释性是确保预测性维修成功的另一个关键因素。一个可解释和理解的模型可以帮助维修工程体系更好地理解预测结果,从而做出更有根据的决策。但是目前基于机器学习的数据模型越来越复杂且难以理解,对于缺乏背景知识的人员来说理解困难。后续加强人员培训和简化模型,使其具备更好的可解释性是必由之路。
4.3. 数据质量与安全性管理
数据质量和安全性是任何数据驱动项目的基石,需要确保使用数据是准确和可靠的,同时也需要保护数据的安全性,避免数据泄露和未授权访问。尤其是对历史数据、非结构化数据及差异格式数据并轨时的兼容性需要格外关注,对模型训练的准确性起关键作用。
4.4. 成本与经济性分析
经济性方面,预测性维修会导致部件更换量增大。势必会产生衍生性问题,如模型预测不准确,NFF件增多。换件增多,备件不足,日常停场时间增加,成本增加,总经济效益如何动态累进计算也值得关注。
5. 结论
本文深入探讨了数据驱动航空器预测性维修的总体框架,强调了数据探索、识别、整合、预处理和可视化预测性模型构建过程中的核心作用。通过与可解释数据模型的结合形成监控系统,航空公司和MRO可以更好地预测和防止潜在的飞机故障,从而大大提高飞机的运行效率和安全性。本文主要基于CBR与警戒值分析和时间序列分析进行了具体研究。提出了预测性维修未来研究的一些挑战,如:模型可解释性,经济性动态评估等。相信通过全行业的共同努力,通过内外部共创,深入研究预测性维修的新方法,能够更好地提升航空维修整体的经济效益、维修效率和安全运行水平。