1. 引言
为了应对日趋严峻的气候变化和推动绿色低碳发展,中国在2020年9月明确提出“双碳”目标,即力争2030年前二氧化碳排放达到峰值,努力争取2060年前实现碳中和[1]。随着对环境保护和可持续发展的日益关注,低碳技术在能源领域的发展逐渐成为一种重要趋势。低碳技术涉及能源、交通、建筑等领域,旨在减少对传统高碳能源依赖,促进经济绿色转型[2]。低碳技术中风能发电具有诸多优势,包括零排放、资源丰富、可再生性强、运行维护成本低等。因此,在实现“双碳”目标、推动低碳技术应用的过程中,风能发展具有重要的战略意义和应用前景。然而风电场多位于偏远地区,暴露在强风、高温和其他多变恶劣的自然环境中[3]。风电机组承受着不断变化的负载,易导致传动链部件故障。传统上,机组运行和维护主要采用纠正性维护和预防性维护两种策略[4]。然而,纠正性维护是在故障发生后进行,增加计划外停机时间和维修成本。预防性维护主要通过定期检查和小规模维护操作来进行。虽然这种策略能减少故障次数,但不能充分利用设备的寿命,还会增加维护工作量。预测性维护作为一种基于设备状态和运行数据的策略,近年来成为研究的热点。预测性维护通过监测和分析设备运行状态和性能指标,提前预测设备故障和退化趋势,以便在故障发生前采取适当的维护措施。该策略能够提高机组关键部件的性能和使用寿命,有利于提高清洁能源发电系统的运行效率和经济性[5]。
齿轮箱是风电机组传动系统的关键部件之一,主要作用于传递和调节机组的转速和扭矩,对发电性能和可靠性十分重要。齿轮箱故障会导致机组无法正常运行,甚至引发重大事故,给风电场和电网造成巨大经济损失。风电机组传动链中轴承多为大型,根据尺寸和工作环境特殊性,通常受局部变形、振动和温升等原因造成轴承损伤。研究表明轴承故障约占齿轮箱故障的21%,及时发现轴承异常、减少故障及维修成本,对机组安全稳定运行至关重要[6]。目前,风电机组故障诊断研究方法主要包括振动信号分析、数据采集与监视控制系统(Supervisory Control And Data Acquisition, SCADA)数据分析、图像视觉检测、润滑油检测等。其中数据分析能够从大量数据中挖掘出潜在知识和规律,在复杂工业场景得到广泛研究和应用。随着人工智能浪潮袭来,数据驱动模型借助SCADA系统,逐步应用于风电机组状态监测、故障预警和诊断领域。状态监测通过建立设备部件的正常运行模型,分析正常模型对目标测点的评估值与实际观测值之间的残差实现状态判断[7]。张宁等[8]基于支持向量机(Support Vector Machine, SVM)和递归特征消除交叉验证(Recursive Feature Elimination with Cross-Validation, RFECV)算法对风电机组运行数据中的特征优化组合,提出一种融合反向传播(Back Propagation, BP)神经网络的齿轮箱进口油温异常预测方法。王健等[9]利用粒子群算法优化BP神经网络,结合加权移动平均法建立齿轮箱油温故障预警模型。吴九牛等[10]提出一种动态权重优化的风电机组齿轮箱轴承温度预测组合模型,包括SVM、灰色预测模型、BP神经网络。尹诗等[11]利用基于辅助分类生成对抗网络的数据重构算法监测风电机组主轴承温度,实现对主轴承运行状态判断。然而上述研究并未充分考虑监测过程中模型输入特征所在设备测点状态,模型预测显示异常时,无法区分是主轴承温度异常还是输入特征测点位置设备出现异常。
针对上述问题,本文提出一种基于多特征组合集成的风电机组齿轮箱主轴承温度异常预测方法,旨在抑制输入特征异常的影响,降低主轴承温度异常状态误报率。首先通过Spearman相关性分析从SCADA系统测点表中筛选相关性高的特征,并将这些特征划分为2个独立组合。然后将风电机组健康运行状态下的独立组合特征数据分别作为输入,齿轮箱主轴承温度作为输出,建立基于BP神经网络的温度评估模型,通过一致性投票策略综合判断主轴承温度是否异常。最后,在某海上风电场实例数据中分别验证该方法对风电机组齿轮箱主轴承温升模拟故障和发电机绕组温升模拟故障的判断能力。
2. 相关理论基础
2.1. Spearman相关性分析
为了提高风电机组齿轮箱主轴承温度评估模型的精度并降低训练时间,需要从SCADA测点表中选择与主轴承运行状态相关的特征。传统的特征筛选方法通常使用Pearson相关系数或基于风电场运维工程师经验,但这些方法对数据分布有特殊要求,且受异常值影响较大,并不适用于所有风电机组型号。基于此,本文采用非参数统计方法Spearman相关性分析衡量两个变量之间的单调关系强度。它基于两个变量的秩次而不是原始数值进行计算,因此对于数据的分布没有特殊要求[12]。通过Spearman相关性分析,可以提取直接或间接反映齿轮箱主轴承温度特征的测点作为特征,从而有效提高预测模型的准确性和稳定性。
Spearman相关系数的计算公式如下:
(1)
其中di为每对数据点在两个变量中的秩次差,n为样本数。
2.2. BP神经网络
BP神经网络通过反向传播算法训练网络权重,用于解决分类和回归等任务。BP神经网络可以有效地学习输入数据中的复杂特征,并被广泛应用于图像识别、自然语言理解、工业故障预测与健康管理[13]等领域,发挥着重要作用。其多层结构和学习能力使其在处理大规模数据和复杂任务时具有优势,成为深度学习的基础模型之一。该模型的核心机制在于通过网络中的层次结构,将误差反向传播,进而调整网络的权重和偏置参数,从而使网络能够逐步优化,提高对各种复杂函数的学习能力。BP神经网络通常由输入层、若干隐藏层和输出层组成,如图1所示。
Figure 1. Typical structure of BP neural network
图1. BP神经网络典型结构
BP神经网络每一层包含多个神经元,通过带权重的连接相互作用,表达式如下:
(2)
(3)
(4)
(5)
其中,H表示隐藏层的输出信息;O是预测的网络输出;Y是目标值;esum是预测误差;
和
是相应的权值;
和
表示相应的偏置;f是隐藏层的激活函数;l和m分别是隐藏节点和输出节点的数量。
在网络的前向传播过程中,输入数据经过隐藏层逐层处理,最终输出预测结果。而在反向传播过程中,通过计算预测输出与目标值之间的误差反向调整网络参数,使网络逐渐优化,提高预测准确性。
2.3. 一致性投票策略
一致性投票策略用于处理集成模型中多个模型的输出结果。在这种策略中,每个模型都对样本进行预测,并将预测结果进行比较。如果多个模型的预测结果一致,则最终的集成模型也选择这个结果作为最终输出。
设M1和M2是两个异常检测模型,它们根据输入数据分别产生二元分类结果
,其中0表示结果正常,1表示异常。定义一致性度量C,根据y1,y2的值确定模型是否一致,如下式所示。当C为1时,表示两个模型都检测到异常。当C为0时,表示两个模型都检测到正常。当C为−1时,表示两个模型结果不一致,提示检查输入数据。
(6)
一致性投票策略的优点在于能够降低模型的误报率,通过多个模型的一致性来提高模型的稳定性和可靠性。
3. 多特征组合集成的风电机组齿轮箱主轴承温度异常预测方法
3.1. 模型框架
风电机组齿轮箱主轴承温度异常预测流程如图2所示,主要由数据预处理、Spearman相关性分析、特征组合划分、温度评估BP模型训练、温度残差阈值确定、实时主轴承温度异常预测等部分组成,图中实线为基于SCADA历史健康数据的模型训练和确定温度残差阈值的过程,虚线为基于实时SCADA数据开展的异常预测过程。
Figure 2. Wind turbine gearbox main bearing temperature anomaly prediction process
图2. 风电机组齿轮箱主轴承温度异常预测流程
1) 模型训练。首先对SCADA历史健康数据预处理,避免缺失值和离群值对模型性能的干扰。然后对主轴承温度测点和其他测点数据展开Spearman相关性分析,结合现场工程师专家经验提取特征,划分为2个特征组合,并建立特征组合和主轴承温度的数据集。划分数据集,通过训练、验证和测试来建立2个主轴承温度评估BP模型,并确定温度残差异常阈值。
2) 实时预测。首先对SCADA实时数据预处理,按照划分情况将特征值分组输入到2个齿轮箱主轴承温度评估模型,计算温度残差,并与阈值进行比较。当2个模型残差均超出阈值时,判断主轴承温度异常;均未超出阈值时,判断主轴承温度正常;单个模型超出阈值,判断其输入特征组合存在异常。
3.2. 模型评估指标
风电机组齿轮箱主轴承温度异常预测是基于2个BP模型的温度残差与各自阈值比较的综合评价。本文通过平均绝对误差(Mean Absolute Error, MAE)、根均方误差(Root Mean Square Error, RMSE)、决定系数(R-Squared, R2)评估BP模型性能。R2可以衡量回归模型的拟合程度,反映自变量对因变量变化的解释能力,取值范围在0到1之间,越接近1表示拟合程度越好。
(7)
(8)
(9)
式中
和
分别为第i个样本的估计值和实测值,
为实测平均值。
根据验证集温度残差的平均值和3倍标准差设置异常阈值。3倍标准差参照3sigma原则,根据统计学,数据的正常波动范围大约在平均值的正负三个标准差之内,异常值被定义为一组测定值中与平均值偏差超过3倍标准差的值。在实时数据应用中,通过滑动窗口取残差平均进一步抑制噪声干扰,降低异常误报率。
4. 算例分析
4.1. 数据预处理
案例研究对象为中国某海上风电场半直驱风电机组A,额定功率为5.5MW,切入风速为3 m/s,切出风速为25 m/s,配置SCADA系统。选取该机组2023年3月17日至5月20日的10分钟SCADA数据训练模型并确定温度残差异常阈值。
SCADA系统采集特征数据时,采用死点检测、重复点检测、异常波动检测处理传感器异常。其中死点检测用于判断传感器在一段时间内是否保持恒定输出值。重复点检测用于识别数据在短时间内反复出现相同值的情况。异常波动检测用于监测数据变化是否超出预期范围。然而受启停机、通讯设备故障等影响,SCADA系统数据中仍夹杂着大量噪声数据,因此在模型训练前需要对数据进行预处理。设置小于切入风速、大于切出风速、有功功率为负以及其他非运行状态时的数据质量为0。其余运行状态时的数据质量为1,用于后续建模。经过处理后的机组A数据质量和齿轮箱主轴承温度如图3所示。通过SCADA系统的多重检测和预处理步骤,保障数据质量,并通过所提模型一致性投票策略和后续排查步骤,确保异常检测的准确性和可靠性,及时发现并处理设备潜在的问题。
4.2. 特征选择
所选风电机组SCADA系统每组数据包含182个模拟量测点,包括设备温度、压力、电流等信息。对于齿轮箱主轴承温度,大部分测点数据信息冗余。因此通过Spearman相关性分析和专家经验筛选出16个特征,并划分为2个组合,如表1所示。Spearman相关性分析是一种非参数相关性分析方法,无需假设数据遵循正态分布。根据特征的物理意义和实际应用背景,特征组合1涉及齿轮箱内部部件的状态,而组合2中的特征则反映系统的整体运行工况,特征划分有助于更加准确地识别和预测主轴承的异常情况。
Figure 3. Sample data quality and main bearing temperature distribution
图3. 样本数据质量与主轴承温度分布
Table 1. Division of feature combinations
表1. 特征组合划分情况
组合 |
特征名称 |
相关系数 |
1 |
齿轮箱过滤泵出口压力 |
0.919 |
齿轮箱发电机侧轴承温度 |
0.913 |
齿轮箱冷却器入口油温 |
0.892 |
齿轮箱主泵出口压力 |
0.850 |
齿轮箱油温 |
0.839 |
齿轮箱油压力 |
0.814 |
齿轮箱冷却器出口油温 |
0.601 |
齿轮箱水泵出口温度 |
0.601 |
2 |
发电机绕组温度5 |
0.986 |
发电机齿轮箱侧轴承温度 |
0.972 |
叶轮转速 |
0.913 |
发电机转速 |
0.913 |
电网有功功率 |
0.913 |
电网电流L1 |
0.905 |
风速 |
0.890 |
机舱温度 |
0.422 |
经过数据预处理之后的主轴承温度和部分特征如图4所示。
Figure 4. Main bearing temperature and partial characterization after data preprocessing
图4. 样数据预处理后的主轴承温度和部分特征
对数据集进行划分,其中训练集、验证集和测试集分别占总数据集的70%、15%和15%。在划分训练集和验证集后,采用打乱数据的方式按照原始比例进一步划分,确保模型在训练过程中能够充分学习和泛化数据的特征,避免过拟合或欠拟合的问题。为了避免数据泄露问题和确保模型评估的准确性,在训练阶段对训练集数据标准化处理,将验证集和测试集数据在进行预测或评估之前使用相同的标准化参数处理。验证集用来优化超参数,测试集用来评估模型性能。
4.3. 模型训练
分别对2个特征组合展开基于BP神经网络的主轴承温度评估模型训练。通过验证集优化,设置BP模型神经网络的隐藏层节点数量为10,学习率为0.001,优化算法为Levenberg-Marquardt,性能函数为均方误差,目标误差为0.001,最大训练迭代次数为2000次。测试集的评估效果如图5、图6所示,观察到2个BP模型的评估值变化趋势与实测值基本一致,表现出较高的相关性。没有出现明显偏离或失真,说明模型在对未知数据评估时具有较好的准确性和可靠性。
模型1和模型2的MAE分别为0.2687℃和0.1808℃,RMSE分别为0.3458℃和0.2184℃,R2分别为0.9012和0.9606,表明模型在对主轴承温度进行评估时能够较为准确地捕捉到数据的变化规律和趋势,对实际情况的反映较为精准,具有较高的评估能力。根据验证集,确定模型1和模型2的温度残差异常阈值分别为(−0.8051℃, 0.8057℃)和(−0.4924℃, 0.4651℃)。为抑制噪声干扰,根据测试集,确定模型1和模型2的温度残差平均滑动窗口步长分别为10和12。
Figure 5. Main bearing temperature evaluation plot based on Model 1 and Model 2
图5. 基于模型1和模型2的主轴承温度评估图
Figure 6. Residual plots for main bearing temperature assessment based on Model 1 and Model 2
图6. 基于模型1和模型2的主轴承温度评估残差图
4.4. 结果分析
由于该海上风电场机组投运时间较短,齿轮箱主轴承暂未发生故障。所选机组在2023年5月24日至28日连续健康运行,采集该时段SCADA系统720组数据,并参照文献方法[10],分别模拟齿轮箱主轴承温升故障和发电机绕组温升故障。
4.4.1. 齿轮箱主轴承温升故障
该故障可能由润滑不良、负载过大、轴承损坏等原因引起。在齿轮箱主轴承温度的第301个样本序列点处,加入步距为0.05℃的温度偏移得到模拟故障数据。模型1和模型2的评估值和残差值如图7、图8所示。
模型1在第321个点超过阈值,模型2在第313个点超过阈值,根据集成模型规则,在第321个点判断主轴承温度异常,相对SCADA内置报警阈值75℃提前了309个点,即51.5小时。
Figure 7. Main bearing temperature evaluation curve for main bearing temperature rise faults
图7. 主轴承温升故障时主轴承温度评估曲线
Figure 8. Temperature residuals for main bearing temperature rise faults
图8. 主轴承温升故障时主轴承温度残差图
4.4.2. 特征组合中测点异常
以特征组合2中发电机绕组温度测点为例。发电机绕组温升故障可能由电流过载、绕组故障或环境温度过高等原因引起。在特征组合2中发电机绕组温度测点的第301个样本序列点处,加入步距为0.05℃的温度偏移得到模拟故障数据。模型1和模型2的评估值和残差值如图9、图10所示。
模型2在第351个点超过阈值,模型1全程未超过阈值,根据集成模型规则,判断特征组合2中存在测点异常,主轴承温度正常。
对比齿轮箱主轴承温升故障和发电机绕组温升故障,观察到多特征组合集成模型能较快地预测主轴承异常状态,避免特征测点异常导致的误报。与此同时,兼顾监测特征组合状态,为现场人员定期检查检修划定重点范围,为故障诊断减少工作量。
4.4.3. 不同机组验证
在所选机组A外,选择机组B验证。模型1和模型2测试集的MAE分别为0.2588℃和0.2424℃,RMSE分别为0.3514℃和0.2937℃,R2分别为0.9255和0.9480。根据验证集,确定模型1和模型2的温度残差异常阈值分别为(−0.8267℃, 0.8350℃)和(−0.6918℃, 0.7067℃),温度残差平均滑动窗口步长分别为11和13。采集该机组连续健康运行时的720组SCADA系统数据,分别模拟齿轮箱主轴承温升故障和发电机绕组温升故障。
Figure 9. Main bearing temperature evaluation curve for generator winding temperature rise faults
图9. 发电机绕组温升故障时主轴承温度评估曲线
Figure 10. Temperature residuals for generator winding temperature rise faults
图10. 发电机绕组温升故障时主轴承温度残差图
齿轮箱主轴承温升故障时,模型1和模型2的评估残差值如图11所示。模型1在第322个点超过阈值,模型2在第312个点超过阈值,根据集成模型规则,在第322个点处判断主轴承温度异常,相对SCADA内置报警阈值75℃提前了314个点,即52.3小时。
特征组合2中发电机绕组温升故障时,模型1和模型2的评估残差值如图12所示。模型2在第341个点超过阈值,模型1全程未超过阈值,根据集成模型规则,判断特征组合2中存在测点异常,主轴承温度正常。
Figure 11. Temperature residuals for main bearing temperature rise faults of wind turbine B
图11. 机组B主轴承温升故障时主轴承温度残差图
Figure 12. Temperature residuals for generator winding temperature rise faults of wind turbine B
图12. 机组B发电机绕组温升故障时主轴承温度残差图
结果表明所提方法适用于不同机组,在不同数据集上的数据处理和特征选择方法依然合理,验证了异常检测结果的可靠性。
4.5. 结论
针对特征异常对模型的干扰,本文提出了一种基于多特征组合集成的风电机组齿轮箱主轴承温度异常预测方法。对某海上风电场机组SCADA数据预处理和Spearman相关性分析,选择2个特征组合分别建立主轴承温度评估模型,然后通过MAE、RMSE、R2验证了模型评估精度,得到各自温度残差阈值和滑动窗口步长。在实时数据监测时,根据2个模型的预测结果综合判断主轴承温度是否异常。模拟故障测试结果分析表明,所提方法相对SCADA内置温度报警阈值,提前51.5小时预测主轴承温度异常,并且抑制了发电机绕组升温故障对模型的影响,避免了异常误报。
综上所述,本文提出的多特征组合集成方法,通过综合分析多特征组合的温度残差,实现了风电机组主轴承温度异常的早期准确预测,为维护人员提供了更可靠的预警手段,并有效提升了异常检测的鲁棒性。
基金项目
2022年广东能源集团科技创新“揭榜挂帅”项目“海上风电运维关键技术研究与应用(机组可靠性研究)”。
NOTES
*通讯作者。