1. 引言
目前国内油浸式变压器状态检测技术中较为常用的方法为变压器油中溶解气体分析(Dissolved Gases Analysis, DGA),即根据变压器油中溶解气体的组成与含量,及早发现潜伏性的变压器内部故障 [1] [2] [3] [4] 。
但是,特征气体法只能粗略判断早期故障是否存在,而不能确定故障性质及变压器状态 [3] ,也不能识别比值落在编码范围外所对应的故障类型,且只能由特征气体法确定故障存在后才能保证其判断的准确性 [5] 。大卫三角形法对于一些IEC比值法漏判的数据,能在三角形区域内得出一种诊断结果且具有较低的错误率,但由于没有正常状态对应的区域,所以在应用大卫三角形法前也需先判断特征气体是否处于正常状态 [6] 。
由于传统DGA方法存在“缺编码,编码规则边界绝对化,故障分类模糊,范围局限”等不足,近年来,专家系统,人工神经网络,模糊理论,遗传算法等多种机器学习算法也被大量应用于变压器故障诊断,如文献 [7] 提出的模糊C均值聚类和改进相关向量机的变压器故障诊断;文献 [8] 提出的粒子群–自组织映射–学习矢量化混合算法对变压器进行故障诊断;文献 [9] 构建了贝叶斯网络的变压器故障推理算法;文献 [10] 结合遗传算法提升支持向量机对变压器故障诊断的准确性,然而这些机器学习算法构建的模型对于在训练集、故障案例集依赖性较高,通常自适应性较差,且大部分缺乏对特征气体浓度实时性的考虑。
因此,考虑到DGA仍然是实践中较为常用的变压器故障诊断依据,故本文提出基于基因表达式编程算法的DGA诊断模型,该模型融合几种传统的DGA方法,考虑特征气体产气速率实时变化情况,且通过样本学习具有参数自适应调整能力。
2. 基因表达编程
基因表达编程(GEP)是一种融合了遗传算法(GA)和遗传编程(GP)优点的提升算法。GEP基因用长度固定的符号串来表示,由头、尾组成,由头和尾两部分组成,头部一般可以表征任意符号及变量,而尾部一般只用于表征实际变量。尾部长度t和头部长度h之间满足以下关系:
(1)
其中,n代表函数符集中的最大操作目数。
GEP变程主要分为表达式和表达树,每个基因对应一个K表达式和一棵表达式树,两者之间可以互换。以下式:
(2)
为例来说明GEP的染色体编码方法,式(2)对应的基因的基因型为:
(3)
式(2)对应的表现型为:
对基因树按照从上到下,从左至右的次序遍历,可得到相应的K表达式(3);反之,将K表达式(3)按以上过程的逆过程进行解码可得到图1表达树,中序遍历图1表达式树即可得出对应的数学表达式(2) [11] [12] 。算法流程如图2所示。

Figure 2. General flowchart for GEP algorithm
图2. GEP算法基本流程
3. 基于基因表达编程的DGA诊断模型
变压器发生不同故障时产气种类和气体组分均不相同可以区分变压器故障性质,这也是变压器油色谱法的诊断原理,变压器的内部故障从性质上一般可以分为两大类,即过热性故障和放电性故障 [13] 。
过热性故障主要表现为变压器内部局部过热导致温度升高,而放电性故障通常是由于变压器内部在高电场的情况下,绝缘材料的性能降低或者劣化而发生放电。本文将长期实践中总结的变压器不同故障类型的产气特性总结如表1。

Table 1. Comparison of gas generation characteristics of various fault types
表1. 各种故障类型产气特点对比
传统的DGA方法(特征气体法、三比值法、四比值法和大卫三角形法等)分别适用于不同情况,因此对于相同特点的特征气体含量应用不同DGA诊断方法通常会得出不同的诊断结果。本文提出的基于基因表达式编程的DGA诊断模型将特征气体法,三比值法,大卫三角形法以及特征气体产气速率变化情况综合起来进行故障诊断算法的能力提升,其诊断流程如图3所示。通过训练,不断调整各种方法诊断结果对综合诊断结果的权重,提高诊断准确性。

Figure 3. Flow chart of the proposed DGA diagnosis model
图3. 基于基因表达式编程的DGA诊断模型流程图
图3中计算特征气体的产气速率时,将CO和CO2及CO/CO2的值用于辅助诊断。通常情况下,当变压器故障涉及固体绝缘材料时,CO和CO2的含量会显著增加,因此,可通过CO和CO2及CO/CO2比值来判断变压器故障是否涉及固体绝缘材料,而对于正常运行的变压器,也可以通过分析CO和CO2的增加情况及CO/CO2比值接判断固体绝缘材料的正常老化情况 [13] 。
模型运用基因表达编程实现特征气体法,三比值法,大卫三角形法的融合及诊断能力提升。如图3所示,模型的输入为七种特征气体(H2, CH4, C2H6, C2H4, C2H2, CO, CO2)的含量,按照GB/T 7252-2001《变压器油中溶解气体分析和判断导则》(简称《导则》)中推荐的油中溶解气体的注意值进行初步判断,若有超标情况,说明设备内部可能存在异常情况。由于《导则》中的注意值是指导性的,有时候设备特征气体含量超标,并不一定存在故障,因此由特征气体含量只能判断变压器是否处于正常运行状态 [13] 。若判断为正常状态,则退出诊断流程,若判断为故障状态则运用三比值法进行进一步诊断,与此同时,根据之前的DGA数据计算气体产出速率的变化值,对比产气速率是否增大,然后用大卫三角形法判断故障类型。模型的输出为变压器的健康指数h,故障类型和相应的处理建议。故障类型由大卫三角形法,特征气体产气速率变化值,以及三比值法的结果按照不同的权重计算得出;模型的输出健康指数由h的取值范围为[0, 8],将h的取值范围划分为四个区间,每个区间对应不同的变压器故障类型,如表2所示。需要说明的是,表2中仅列出几种较为常见的故障实例,模型最终输出的故障类型由训练样本故障类型的丰富程度决定。

Table 2. Model output health index and corresponding proposed asset management decision
表2. 模型输出结果说明
在模型训练过程中,运用基因表达式编程算法以样本健康指数的真实值和模型预测值的误差来评价个体的适应度,计算方法如式(1)所示:
(1)
式中,M为一常量,用来决定适应值fi的取值上限,
表示第i个个体对于第j个样本的数据的输出值,
表示第j个样本的真实值,Ci是样本数据总数。模型通过寻找适应度较大的个体不断改变各种方法诊断结果的权值,减小健康指数真实值和模型预测值的误差,从而不断提高诊断结果的准确性。
4. 模型验证
为检验文中提出的模型的准确性和可靠性,选取了1000个真实变压器的DGA样本,这些变压器的型号,投运时间和健康状况均不相同。其中700个样本用于模型的训练,剩下300个样本用于模型的验证。
样本均按照图3所示流程进行故障诊断,基因表达编程中设置群体大小为30,基因个数为3,每个基因的头部长度为8。模型输出故障类型也结合了局部放电(PD)、呋喃含量、介电损耗因子等测量方法,利用偏振光和去偏振光电流(PDC)对油样进行水分含量测定,以保证故障诊断的准确性。经过计算,样本健康指数真实值与模型预测值的平方根误差为0.29,相关系数为0.85,可知模型能够较为准确地得出变压器的健康指数。样本健康指数真实值(由实际故障类型对应表2计算得出)与模型预测值对比如图4和表3所示。

Figure 4. Performance of the proposed mode
图4. 样本健康指数真实值与模型预测值对比图

Table 3. Comparison between the actual health index and the predicted health index
表3. 样本健康指数真实值与模型预测值对比
由表3可知,对于样本1、2、9,由于七种特征气体含量均低于《导则》中的注意值,故健康指数真实值和模型预测值均为1,则该样本对应的变压器无故障;对于样本3、6、7、8,CH4,C2H4含量明显高于《导则》中的注意值,健康指数真实值和模型预测值均属于2~4,判断故障类型为过热故障;对于样本4、5、10,C2H2含量明显高于《导则》中的注意值,健康指数真实值和模型预测值均属于6~8,判断故障类型为电弧放电。样本健康指数真实值和模型预测值基本一致,说明文中提出的变压器诊断模型具有较高准确性。
为检验文中提出模型的优越性,分别用传统的DGA方法,包括:特征气体法,大卫三角形法和三比值法对部分样本进行故障诊断,并与文中提出的模型的诊断结果进行对比,结果如表4所示。

Table 4. DGA samples with conventional interpretation techniques and the proposed model
表4. 传统DGA方法与基于GEP的DGA诊断模型对比
注:F1:正常;F2:过热故障;F3:低能放电故障;F4:高能放电故障;F5:无效编码。
由表4可知,对于样本1~3,特征气体法和模型得出的结果一致为无故障,大卫三角形法和三比值法得出的结果是编码无效,或是存在故障,由前述流程图3可知原因是模型诊断过程是以特征气体含量判断是否有故障为前提的,因此特征气体法和模型得出的结果一致。然而,样本1~3的诊断结果虽然都是无故障,但CO、CO2、CO/CO2的值差异却非常明显,样本1,2中CO/CO2的值均小于0.1,而样本3中CO/CO2的值约等于7,因此模型会把这些异常含量考虑进来,输出将提示进行呋喃分析,考察固体绝缘材料的老化情况等。样本4中H2的含量较高,对应的变压器可能存在局部放电情况,各种方法得出的结果中三比值法的结果是无效编码,其他三种方法一致为低能放电故障。样本5中C2H2含量较高,对应的变压器可能存在电弧放电情况,各种方法得出的结果中三比值法的结果是低能放电故障,其他三种方法一致为高能放电故障。总的来说,文中提出的模型因为考虑了各种方法在不同情况下的精确性而赋之以不同的权重,所以能得出较为准确的诊断结果。
5. 结束语
文中提出了一种基于基因表达式编程的DGA诊断模型,对变压器进行故障诊断能力提升,该模型融合了传统的DGA方法,采用特征气体含量情况,三比值法,大卫三角形法,特征气体产气速率,且考虑CO、CO2、CO/CO2的变化情况,将不同方法按照不同权重综合得到变压器的健康指数,进而判断变压器的故障类型,模型最大优势在于,运用基因表达编程算法不断修正各种方法的权重,使得诊断结果的准确性随之提高。实验表明,文中所提出的模型具有较高的可靠性,且与传统的DGA方法对比具有明显的优越性。可以预见,结合当前的大数据技术,随着样本数据的不断积累,模型参数不断优化,模型的输出结果将更加准确。
基金项目
5204DY170010:基于多元信息融合的大型电力变压器健康管理及故障预警。