1. 引言
电力通信网作为电力系统的专用通信网,已经成为支撑电力系统必不可少的重要网络。电力公司各网省骨干光传输网络规模越来越大,网络结构复杂,承载的业务信息越来越多,如何熟练驾驭该网络,确保通信网络安全稳定运行已成为日常运行管理的难题。同时,对于网络事故发生之后的故障分析、故障定位、故障处理等能力的要求越来越高,这需要运行维护人员熟悉系统和设备的各种告警、故障状态,熟练操作网管系统进行分析、处理事故,以及通过反复的通信事故演练提高处理事故的能力、检验反事故预案的有效性,这就需要故障仿真系统的支撑。
当前,电力系统的关键业务,例如系统保护等主要承载于SDH、OTN等传输网络 [1] 。为了支撑对SDH网络的仿真过程监控、过程分析和过程管理,为面向系统保护通信网络的管理系统的设计和实现提供技术基础,需要提出故障管理所需的网络告警关联分析、故障处理流程的模型与方法。当前已有的研究中,一些方法重点针对告警间的关联方法进行了研究,包括分布式关联规则 [2] 、模糊规则关联 [3] 、分层属性相似度 [4] 等技术。然而,这些方法只关注了告警之间的关系,忽略了导致告警的故障根源和网元间的相互作用。针对告警和故障间的关联关系,文献 [5] 利用关联规则工具对故障和告警之间的关联关系进行了简要分析,文献 [6] 则进一步从优化关联规则的角度提出了多种SDH网络告警和故障关联分析方法。然而这些研究主要是技术探讨,缺乏仿真系统级别的验证。在SDH网络的故障仿真方面,文献 [7] 针对告警之间的关联过程设计了一种传播仿真过程,但是也不涉及故障的关联分析。
然而,当前有关研究以网络故障告警关联为主,缺乏面向业务视图的理论支撑和实践工具。基于以上研究现状和存在问题,本文提出了一种业务驱动的电力通信网告警–故障关联分析方法。首先,提出了从业务角度出发,从底层向高层逐层分析可能发生的故障与故障发生后对上层产生的影响,这是一个故障影响级联的过程。之后,重点构建了故障诱因与告警之间的关联分析模型,以及告警对业务的影响等级映射模型。最后,基于以上仿真架构实现了一套仿真系统,通过事故过程反演验证了仿真架构的有效性。
综上所述,在能源互联网和系统保护通信网构建的背景下,开展电力通信网的通信网络告警故障关联分析关键技术的研究,可以针对性解决电力通信网可靠性保障遇到的业务风险问题,使电力通信网满足智能电网和系统保护的业务需求和可靠性要求,保障电力通信网及电网的安全运行,具有重要的理论意义和实际应用价值。
2. 电力通信网诱因–故障告警关联分析
当前电力通信网的分层结构包括光缆层、传输层、数据层、业务层。本文提出的业务驱动的电力通信网告警–故障关联分析,首先需要在电力通信网的各层间构建完备的映射和分析模型。针对本文提出的场景,光缆层即是媒介层,主要对象底层的具体光缆;传输层主要面向以SDH、OTN技术为主的传输网络,数据层则主要构建了承载于传输网上的各种基于IP技术的数据网络。业务层则是指代系统保护中的交直流协控、广域安稳等各种系统。本文拟从业务角度自底向上构建各层网络之间的故障和告警的相互作用关系,具体如下图1所示。

Figure 1. Hierarchical topology of power communication network
图1. 电力通信网的分层拓扑结构
为了实现面向业务的统一管理,必须完成光传输层设备和数据层设备的端到端互通,并对数据业务进行联动管理。在业务展示层面,需要展示业务发生告警时数据层、传输层的告警信息及协同分析结果,因此,在实现业务串接的同时,需要采用标准化的北向接口协议,通过提取设备、网络告警信息,完成数据层、传输层告警的对接,实现业务管理层面的统一展示、统一分析和精准定位。而对于业务模型来说,主要是分为三层业务模型以及四层业务模型,具体如下。
2.1. 电力通信业务承载交互模型分析
三层业务模型主要适用于已有的2 M专线类的业务,例如切机\切负荷等安全稳定控制类业务,这些业务的模型自底向上包括光缆层、传输层(SDH)、业务层等。
为了更好的理解三层模型,以河北省电力公司的一条继电保护为例,我们通过分析220 kV孙村变−220 kV高阳变继电保护业务为例展示三层业务模型的示意图2。

Figure 2. Three-layer service model of power communication network
图2. 电力通信网三层业务模型
在图2中,220 kV孙村变−220 kV高阳变继电保护业务在底层的网络层和光缆层,均配置了主备两条独立的路径,其中上面一条橙色的较短路径为主用路径,下面一条黄色的路径为备用路径。
针对该业务模型,当其主用路径、备用路径承载的光缆层、网络层的设备或者链路出现故障时,都会生成对应的告警。然而目前的告警主要来源于传输设备端口、复用段等故障信息,对业务的影响分析也主要是监测业务的主用路径的状态,并未考虑备用路径中断时对业务的潜在影响。
四层业务模型主要适用于已有的承载于数据网的系统保护类业务,例如全景监测、调度自动化、WAMS等,这些业务的模型自底向上包括光缆层、传输层(SDH)、数据层(调度数据网)、业务层等。
为了更好的理解三层模型,我们通过分析河北省220 kV衡水变调度自动化业务为例展示四层业务模型的示意图。
在图3中,河北省公司-220 kV衡水变调度自动化业务在底层的光缆层、SDH层、数据层都配置了主、备、迂回三条路径。其中中间橙色的最短路径为主用路径,下方黄色的为备用路径,上方蓝色的为迂回路径。
针对该业务模型,当其主用路径、备用路径和迂回路径承载的光缆层、SDH层、数据层的设备或者链路出现故障时,同样也会导致对应的告警。然而目前的告警主要来源于传输设备端口、复用段,数据设备端口等故障信息,对业务的影响分析也主要是监测业务的主用路径的状态,并未考虑备用路径、迂回路径中断时对业务的潜在影响。
2.2. 业务驱动的故障关联分析
基于上述两种承载模型,需要构建底层故障至业务风险的关联模型。当前,有关设备故障和告警之

Figure 3. Power communication network four-layer service model
图3. 电力通信网四层业务模型
间的关联分析、以及告警间关联分析方法已经得到了充分的研究,然而,基于上述分析可知,在电力通信领域,对故障告警及其产生诱因的影响,以及故障和业务之间的映射关系却缺乏足够的研究。因此,本文重点针对故障诱因和告警间关联分析和故障对业务的风险等级定义两个方面开展研究,从而构建完毕的电力通信网告警–故障关联分析模型。
2.3. 电力通信网诱因与告警之间的关联性建模
设因素的总数为M,因素的种类为nf,各不同种类因素构成集合F = {Fk},此时有|F| = nf,其中因素种类Fk由hk个因素组成。则对因素集合,存在如下关系:
(1)
在进行分类时,需要保证各种类因素之间相互独立,在同一种类的因素集合中,因素之间存在互斥和相容关系。
对于等级为j的故障告警Gj,通过历史数据和经验分析,可以得到可能导致其因素种类集合FG,和集合中的具体因素i。如果因素i可能导致故障告警Gj,则将其权重
设为1,否则设为0。设故障告警Gj的发生概率为
,因素种类集合FG中因素种类k发生的诱因概率为
,则对于故障Gj,可认为其发生概率为:
(2)
由于各诱因导致故障告警发生的关联性并不确定,下面我们分析
的量化过程。由于由组成其的hk个因素决定,设每个因素i的权重为wi,权重集合为W = {wi},考虑到不同因素的相斥相容,可以获取
与各基本事件的关系如下:
(3)
其中
表示因素
同时发生的诱因概率。
另一方面,需要考虑到权重应该最大化k类因素的诱因概率
,从而有效分析各因素的影响,需要满足如下优化目标:
(4)
另一方面,针对不确定的系统,一种有效的量化方式是信息熵。为了确定各因素的诱因概率和和故障之间的影响关系,最小化信息熵是很有必要的。由于各因素的诱因概率都会导致故障的发生,因此,故障发生概率和各因素诱因概率之间的依赖度也需要进行考虑。为了归一化各种因素Fk内的诱因概率和依赖度,本发明提出了如下约束:
(5)
其中
为k类因素诱因概率
相对于因素i的诱因概率
的偏导数,反应了k类诱因素集合对因素i的依赖度。
对于故障告警发生概率,目标之一是使得发生概率值趋于稳定。因此,基于归一化的约束,以各种因素的权重为优化对象,以依赖度体现出的熵最小为目标,即:
(6)
兼顾以上两个目标,本发明中最终的优化目标和对应的约束定义如下:
(7)
其中
为熵权的比例因子,且满足
。在约束中,要求因素种类k中的每项因素i的权重wi都在0~1之间。
2.3.1. 电力通信网故障与诱因关联优化模型简化
在优化模型(15)中,变量众多,求解复杂,需要依据模型的数学特征选择合适的算法进行求解。以上学术问题由于目标和约束均为非线性,常规的数学方法很难求解,而其他方法过程复杂,在实际工程中并不适用。为了有效在工程上解决上述问题,我们将模型进行简化。
首先,在实际工程中,由于各个因素集合中互斥的各个因素同时发生概率都较低,且发生过程多相互独立。因此,可以忽略
的高阶部分,即将优化目标Z1(W)转化为:
(8)
其次,在实际场景中,同一种类中因素的诱因概率之间并不存在闭集的归一化关系,因此可以认为对k类因素集合中的因素i和l,Pi(t)和Pl(t)相互独立,因此,有:
(9)
经过简化后,可以得到优化模型如下:
(10)
针对上述优化模型,可以选择合适的方法来进行求解。
2.3.2. 扩展的牛顿迭代法
在优化模型(10)中,可以证明该问题是连续的优化问题。由于问题的目标和约束均为二次,一种有效的求解方法为拉格朗日乘子法。然而拉格朗日乘子法也需要耗费大量的计算空间和时间,为了简化求解方法,本发明基于牛顿迭代法,提出了一种扩展的牛顿迭代法来进行求解。过程如图4所示。
具体过程如下:
步骤1:设初始解为
,初始值
,可行解
,初始迭代次数nc = 0,进入步骤2;
步骤2:令
,
,进入步骤3;
步骤3:对W1按照约束进行归一化,令
,计算Z(W1),如果Z(W1) < Z0,则令Z0 = Z(W1),
,进入步骤4;
步骤4:如果
,输出最优值
以及对应的最优解W1或
,算法结束,否则进入步骤5;
步骤5:如果nc > nT,输出W1和Z(W1),算法终止;否则令W0 = W1,返回步骤2。
通过以上方法求解,即可获得诱因与故障告警之间的关联模型和求解方案。
2.3.3. 实例分析
以东部沿海某地市的电力通信网中的故障光纤中断为例,首先,列出与故障严重告警相关联的因素分类和集合(即xij = 1的因素),包括:
² 自然因素(F1):地震,强风,老鼠啃咬,火灾;
² 人为因素(F2):挪动光纤,施工挖断;
² 设备因素(F3):自然老化。
截止到当前统计为止,导致光纤中断的诱因发生次数为10次,其中强风导致1次,地震0次,老鼠啃咬1次,火灾1次,挪动光纤2次,施工挖断5次。
1) 首先,对自然因素的诱因概率进行建模,设地震级别为1~10级,强风分为1~12级,老鼠啃咬程度为1~4级,火灾分为1~5级。设地震的起始影响等级为4级,强风为6级,老鼠啃咬为2级,火灾为1级,此时正遭遇8级台风和1级老鼠啃咬危险。

Figure 4. Extended Newton iterative process flow chart
图4. 扩展的牛顿迭代法的流程图
结合参考文献 [8] 的诱因概率量化方法,可以得到四种自然因素发生的概率分别为:0, 0.33e−4, 0.33e−2, 0。
2) 对于人为因素,设挪动光纤的级别只有1,施工挖断的级别为2,两种因素的到达率分别为0.001和0.002,当前挪动光纤存在,且施工存在1级挖断影响可能性,因此则可以得到施工因素的发生概率分别为1−e −0.002和0.5 (1−e−0.01)。
3) 对于设备因素,设其使用时间为3年,使用寿命为5年,对应的发生故障概率为1−0.4e−3。
以自然因素为例,基于问题模型,设η取值为0.5,可以得到对于自然因素集合,数学模型为:
利用牛顿法求解得到w2 = 0.72,w3 = 0.41,即诱因概率越大,权重越高,与实际相符。进而得到自然因素的集合概率为0.0222。
类似的,可以得到施工因素的权重分别为0.654和0.832,对应的集合概率为0.402设备本身因素的权重为1,对应的诱因概率为0.005。
最后可以得到故障严重告警发生的可能概率为0.4182。即在当前状况下,光纤中断故障发生的概率很高。而其中人工因素的可能性最大,其实是自然因素,再次是设备因素,与历史统计数据值相一致。因此,在对故障原因进行排查时,可以遵循这个顺序来进行。从而有效指导运维人员的排查。
3. 业务风险模型构建
电力通信网关键业务,例如继电保护业务和安全稳定控制业务,业务中断可能会导致通信安全事件。除此之外,由于线路保护信号,安稳信号的延时传递,极有可能会导致电网触发保护措施,进而导致电网的停电等事故。因此,电力通信网的业务与电网之间存在一定的关联关系。因此,构建电力业务的风险模型具有重要的意义。本章重点针对不同的故障告警,构建起与业务风险模型的关联,首先对业务状态进行分析,进而构建底层的设备故障告警和风险等级的量化模型。
3.1. 业务状态分析
业务最终是承载于设备和链路之上。考虑业务和设备/链路的状态,设备包括运行,检修,故障三种状态。对应地,业务包括正常,中断,迂回三种状态,各状态之间的关系如下图5所示。检修是已知的确定性动作,检修前将业务路径进行迁移,不影响业务的传输,但是会导致业务风险提升。然而设备或者链路故障所导致的业务中断和迂回却是未知的,如果中断不及时处理,极可能导致各种安全事件 [8] 。然而,当前针对迂回状态网络的风险,却缺乏足够的分析,下面我们将针对风险等级进行量化和建模。

Figure 5. Business and device/link association diagrams
图5. 业务和设备/链路关联图
3.2. 故障告警影响级别模型
在电力通信网中,业务运行风险是指由于电力通信业务通道故障导致电网运行不稳定事件发生的可能性,由业务对电网运行的重要性和业务通道故障的可能性决定。如何合理的分配业务通道的路由,通过均衡重要业务的通道数量进而降低业务运行风险,成为提高电力通信网业务可靠性的必要技术手段。
通过对故障和故障影响的分析,对于一个业务进行风险量化。风险的定义为风险发生的概率与发生后产生的影响值的乘积,则对于业务si的风险值Ei,其风险量化公式如下:
(11)
其中
代表事件发生故障告警的概率,来自于上一章的W值,
为业务
对应的影响度 [8] 。
其中对于
的量化如下:
(12)
vih为业务i所属种类h的权重。wi为业务si承载的设备和链路的权重和。Ci为业务权重,可参考文献 [9] 。
进一步,设业务si的可选路由有K条,每条路径Pk表示为Pk = {Vk, Ek},其中Vk为路径上的设备节点,Ek为路径k的上的链路。则wi可以进一步计算如下:
(13)
其中
为第k条路由的重要度权值。
为Vk中设备节点vj的权重,
为Ek中链路elm (l,m均为设备节点编号)的权重 [10] 。
基于计算结果,可以针对风险值,按照专家经验进行区间划分,并映射到不同的等级,从而实现风险的关联分析和预测。
4. 基于仿真的告警–故障关联风险分析实例
根据业务驱动的电力通信网告警–故障关联分析,从业务角度构建业务风险模型。自底向上的分析各层网络之间的故障和告警的相互作用关系,基于以上模型架构实现了一套仿真系统,验证故障关联分析有效性。
仿真系统的数据来源自网管系统中,包括宾金直流控制业务、灵绍直流控制业务、上海庙–山东直流特高压等三条业务。每条业务都有独自的正常路由、备用路由和迂回路由。
以上量化结果在实际应用中还需要结合专家经验做进一步的分析。依据该事件的量化值,在已知设备、节点、业务重要度和网络拓扑、业务分布的情况下,可以预估得到设备、链路故障发生时的后果值,并映射到以上各个区间,进而预测到业务的风险等级。如下图6为仿真系统的总体示意图,左侧是按照文中提出的业务驱动的四层业务模型进行总体展示,右侧展示的即为业务的风险等级、业务可用性、站点可用率等信息。

Figure 6. General schematic diagram of the system
图6. 系统总体示意图
针对前面提出的四层业务模型,自底向上的构建业务驱动的电力通信网告警–故障关联模型。具体如下图所示。若在底层光缆层设置故障诱因为台风,进而产生故障和告警,则上层也会产生影响,并导致业务受影响。可以从下图7中看到,图中每一层都会产生告警,其中,标红线路表示线路两端连接不通,发生故障。
依据上述构建的业务风险模型,在仿真系统中实现故障发生后,显示出设备的告警状态以及受影响的业务,在数据层的故障显示具体如下图8所示。
之后,在下图9中可以在业务界面中看到灵绍直流线路I线路已经发出告警信息,并进行具体告警原因分析。当前为紧急警告,原因是灵绍直流的OptiX OSN 7500设备1-1-2-1-3号端口发生R_LOS告警,影响了信阳东站点到文都站点之间的通信业务。依据调查规程,此时将产生对应的事件告警。基于上述过程,从而构建起了告警和故障之间的关联模型。
5. 结语
在电力通信网运行过程中,每天都会产生大量的告警。为了实现网络故障对业务的影响建模,本文提出了一种业务驱动的电力通信网告警–故障关联分析。从业务角度出发,构建了面向不同业务的交互关联模型,并依此构建业务风险模型,实现将底层的网络故障映射到不同的风险等级。通过业务模型和业务风险模型的构建,搭建了一套面向业务角度的仿真系统,并通过实例验证了故障关联分析的有效性。下一步是需要研究风险等级的定义方法,以及告警等级对风险等级的细化关联,以构建更为精确的风险关联模型。
基金项目
2017年国家电网公司总部科技项目:系统保护通信网络技术体制及关键技术研究(Grant No. SGXT0000ASJS1700054)。