1. 引言
电动机操作机构是高压配电系统中的重要组成部分,承担着关合、开断线路的作用 [1] [2]。当电力系统故障时,电动机操作机构能够将故障部分迅速从电网中隔离出去,缩小事故范围。若未能及时发现电动机操作机构故障,将使得分合闸功能失效,将导致线路和设备损坏甚至影响居民生产 [3] [4]。
近年来,许多学者通过引入模式识别 [5] 的方法来完成电力系统故障分类任务,何婷、乔俊强等人 [6] 提出了一种基于EMD和SVM的电力系统故障分类的方法,通过EMD将电压信号分解为IMF,进一步通过HHT提取相关故障特征,最后以SVM建立分类模型,经对比分析,能够较为精准地识别各类故障;唐颖川、黄姣茹等人 [7] 提出了一种基于深度学习与注意力机制的分类模型,采用小波阈值进行去噪,并在CNN-LSTM模型的输出层前引入注意力机制进行特征筛选,相较于改进前有较好地提升;但是仍存在着大量问题,其一是对特征的使用不充分,其二是模型的预测效率还不够高。
针对上述情况,本文提出并实现了:
1) 针对问题1,本文采用多项式特征衍生的办法,对特征空间中的非线性规律进行编码的多项式特征衍生,极大地提高了特征的效用。
2) 针对问题2,本文提出了一种基于集成学习的电力系统故障分类模型,该方法将识别过程分为三层,每层扩展为一个单独的故障分类算法。第一层采用XGBoost算法,将其预测结果转化为第二层的输入特征,第二层采用的是LightGBM算法,第三层将上两层的输出线性加权融合到一起,赋予不同的权重作为超参,其中,本文采用网格搜索算法寻找权重参数最优解,与传统算法相比,该算法在准确率、精准率、召回率和F1值上均有提升。
2. XGBoost算法
Xgboost是一种高效的梯度提升决策树算法 [8],它是由m个基模型组成的一个加法运算式:
其中,
为第m个基模型,
为第i个样布的预测值。给定一组训练数据
,其中,n为训练样本总数,
为样本数据,
样本数据对应的标签。对于每一个测试样本,都有目标函数为:
3. LightGBM算法
LightGBM是一种基于决策树算法的分类模型 [9],该算法没有使用大多数GBDT工具采用的按层生长的决策树生长决策,而采用的带有深度限制的按叶子生长算法。为了达到对类别特征的最优切分,LightGBM采用many-vs-many的切分方式。假设数据集D的维度特征共有n个类别,则共有
种情况,其时间复杂度为0 (2n),其中,
表示第i个样本,
表示样本其对应的标签,l表示最初目标函数,
表示添加正则项后第n次迭代的目标函数,
表示第n次迭代后的模型函数,T为叶子节点数量,
为对应的叶子结点输出值,
均为权重参数。
该算法的目标函数公式如下所示:
4. 基于集成学习的电力系统故障分类模型
4.1. 总体框架
基于集成学习的思想进行模型融合,增加了容错率,避免了单一模型进行电力故障分类的错误情况,通过线性加权融合的方式,综合考虑了每一层分类模型的预测结果,进一步纠正了错误率。如图1为基于Boosting的电力系统故障分类模型结构图。
图1主要展示了一种基于集成学习的电力系统故障分类模型结构图,总体来说该框架总共分为三部分:
1) 数据预处理:对实验设备采集的工业化数据进行数据处理如缺失值处理、异常值处理、样本不平衡问题以及特征衍生等相关处理。
2) 特征工程:主要是对处理后的数据进行特征提取,为了提升模型的收敛速度以及模型精度,本文在这里为了选择对离散值如M、N1、N2_0-5、N2_5-10等属性进行Label编码,对连续型数值如1-4_0-5、1-4_5-10、1-1_0_5等属性进行标准化。
3) 模型融合:采用集成学习的思想,将多种分类器如XGBoost、LightGBM通过线性加权融合的方式集成在一起构造强分类器,以此达到对故障分类的效果。
4.2. 数据预处理及特征工程
本文采用的数据集为图2中各信号采集点所采集的电压、电流、电量等信息数据,采集时间间隔为5 s。电路原理图中分闸按钮SB1、合闸按钮SB2、和停止按钮SB3保持常开;行程开关SP1、SP2、SP3保持常闭。S1、S2分别为分合闸控制回路信号输入点;M1至M10为信号采集点。
首先,本文针对数据异常、数据缺失等情况进行数据预处理,由于数据的不间断性,本文对其进行剔除以及均值修正,避免噪声的影响。
针对于特征工程部分,本文通过分析非线性规律进行分析,主要采用特征组合的方式对类别特征进行特征衍生,通过对类别特征进行独热编码后组合独热特征矢量,将独热特征矢量的特征组合视为逻辑链接,生成具备多元特征的矢量,以此来挖掘表达特征和因变量之间的非线性关系,并提高变量的效用。
4.3. 模型融合以及算法评价指标
本文在模型融合方案上选择基于加权融合的思想,将多个分类器的预测进行相结合以此来降低方差,进而提高模型的鲁棒性,而加权融合考虑了预测类别的可能性,计算每个分类器预测的每个类别的平均概率,对每个分类器的预测概率进行权重分配,进行计算得到最终预测结果。其具体计算过程如下:
其中,
表示最终投票结果的概率,
表示分类器LightGBM的预测概率,
表示XGBoost的预测概率,
、
分别为对应模型的权重参数。
通过引入一组广泛使用的评价指标来对模型预测结果进行估计:准确率、准确率、召回率、F1值。
① 准确率(Accuracy):分类正确的所有结果占总预测与真实总和的比重。
② 精确率(Precision):模型预测到结论的特征与预测总之的比重。
③ 召回率(Recall):真实值中预测正确的特征占预测总数的比例。
④ F1值(F-score):在尽可能地提高精确率(Precision)和召回率(Recall)的同时,也希望两者之间的差异尽可能小。
上述评价指标的计算公式如下所示:
4.4. 实验结果分析
本文将上述模型训练过程的损失值(Loss)与准确率(Accuracy)进行可视化,如图3、图4所示。
基于集成学习的电力系统故障分类模型最终的实验对比如下表1所示,单一的LightGBM模型与XGBoost模型在准确率、召回率、F1值等评价指标上均低于本文模型。

Table 1. Model final experimental comparison
表1. 模型最终实验对比
5. 结论与展望
在本文中,我们设计了一种基于集成学习的电力系统故障分类模型,该模型首先采用多项式特征衍生的方式对特征进行特征组合,进而提高特征的使用效率和价值,将处理后的特征向量融合矩阵输入到融合模型进行分类训练,最终的预测结果通过加权融合的思想进行输出类别的最高概率,并通过一组常用的算法评价指标对其进行估计,经实验对比分析,本文模型较于单一模型有较好地提升。