1. 引言
随着智能电网的迅速发展,智能电力通信网络承载着重要的信息交换,对功能的多样化和分布式发电厂协同工作起着非常重要的作用。配用电通信网是保障配用电网正常运行、故障快速响应、资源高效利用、业务实时实现、电力生产可持续的信息通道 [1] 。无保障的通信性能不仅限制智能电网对电能的使用和服务质量,而且对信息决策系统有着潜在的损害。网络故障是导致网络处于非正常状态、业务应用处于非可用状态或者性能下降状态的根本性的原因。故障通常是不会直接被网管系统直接观测到的,往往通过一些外在现象或者告警表现出来。伴随着网络规模的扩大、业务的部署,网络中的故障检测问题呈现出复杂化、不确定性的特点,对于如何进行及时、准确的故障定位提出了很大的挑战。
因此,如何在一个复杂、大规模、含有噪声、故障根源具有不确定性的环境中进行有效的故障检测成为当前故障检测问题研究的重点。而为了提高网络的可靠性,基于双路由和双设备的配电通信网应运而生。这就为配电通信网吞吐量表征网络故障的归一化模型的产生提供了可能。
本文结构如下:在第二章,回顾了网络异常检测的几个相关工作。在第三章中,介绍了网络故障的调查,提出了基于模型的网络故障检测模型和实用方法。第四章,对所提出的方法进行评估。最后,第五章进行了总结。
2. 相关研究
网络异常检测有两种主要方法。第一种是通过建模各个网络设备或实体的行为来推断整个系统行为,第二种是通过使用测量的指标。文献 [2] 中介绍的基于建模的研究可以向网络管理员提供精确的检测结果。但由于他们必须为网络中的每个应用,协议或供应商建立行为模型,所以要求具有可以被分析的网络的复杂性和规模。另一方面,在第二个方法中,仅考虑诸如拓扑的基本网络知识。这些方法取决于网络中的测量指标,这些指标可从活动探测,流量统计,路由协议和网络管理协议获得。在本文中,我们采用第二种方法。
有限状态机的研究提出了使用从网络中不同点获得的报警序列的算法。文献 [3] 中引入的算法不仅可以检测异常,而且可以识别和诊断检测到的异常的根本故障。然而,这种方法有一个局限性,它只能在有限序列的合理长度的报警中诊断网络故障。此外,由于该方法依赖于警报,它不能处理“静默失败”情况。
聚类是基于正常数据属于大的和密集的聚类的假设来构建给定网络的业务总则的另一种方法,使得未能适应所开发的总则的数据可以指示网络异常。文献 [4] 中介绍了最近使用聚类进行网络异常检测的工作。该方法的效率在很大程度上取决于所生成的业务总则的精度,其与聚类的属性相关,例如集群编号的适当选择。因此,该方法优选地用于离线分析,而不是与持续发展的网络一起工作。
利用顺序变化点检测的统计分析来检测网络故障的方法已经被提出。文献 [5] 提出了通过组合多个异常指标来检测网络异常的网络健康功能。这种方法使网络异常检测处于无监督的设置,使得重新校准对于网络拓扑和业务演进是不必要的。然而,这些方法通常具有高计算复杂性。我们的方法利用统计分析和解决复杂性问题的想法。
文献 [6] 引入具有不确定性问题处理能力的贝叶斯网络分析方法,进行告警关联分析性,并实现故障定位。
3. 不平衡变化检测
本文的目的在于研究一种配电通信系统故障检测方法,通过调查故障发生时的实际测量数据,根据双路由或双设备的配电通信网的可靠性设计,提出了一种表征故障发生之前或期间测量指标行为的一般化模型。通过调查实际配用电通信网故障,发现许多故障可以通过在网络故障发生之前或期间发生的一些测量的网络数据之间的相关性的下降来识别 [7] 。基于此,可将网络故障特性模型转化为测量指标之间的不平衡变化 [8] 。因此,提出一种利用该特性的网络故障检测的实用方法。该方法自动提取测量指标之间的不平衡变化,而不需要识别它们的物理意义。
3.1. 一般化模型
通过研究,发现了一系列在许多网络故障中常见的现象。该现象的一个重要点是,在配电通信网故障发生之前或期间,一些设备的测量指标之间的相关性下降。
基于此现象进行建模以识别网络故障:
1) 至少存在一个测量的指标A与有问题的网络设备的服务成功率相关。A在网络故障发生之前或期间相对于正常状态偏小。
2) A的减少过程存在不同变化率的多个阶段,并且阶段的数目取决于网络故障的机制。
3) 在正常条件下还存在与A相关的至少一个测量的指标B。A减少之后B相较于正常状态偏大。
我们将这种现象归因于考虑双路由或双设备的配电通信网的设计。例如,当单个设备在适当配置的网络中其服务能力下降时,业务可能通过穿越替代设备得到服务,这导致该设备上的测量值的增加。在这种情况下,测量的指标A和B可以是有问题的设备和备选路由上的另一设备的业务吞吐量。
在图1中提供了这种现象的图形表示,其中示出了具有2阶段减少/增加速率的网络故障。直观地,传统的阈值违反方法可以在阶段2之后检测故障,但是如果它能够在早期阶段检测网络故障,则检测方法是更好的。此外,在一些故障事件中,由于“静默失败”的发生,导致阶段1持续很长时间或永久持续。
3.2. 方法流程
使用上述网络故障模型,提出如下故障检测问题:给定多个设备多个时间序列的连续测量,通过检测相关测量指标,产生可用于描述故障发生的评分 [9] [10] 。
根据提出的模型,故障发生的特征更好地通过变化速率而不是数值本身来识别。因此,主要任务在于相关时间序列中不平衡变化的检测。所提出的不平衡变化检测方法的概述流程图如图2所示。

Figure 2. Flow chart of unbalanced change detection
图2. 不平衡变化检测的流程图
提出的方法由三个步骤组成。
1) 分别从每个设备的吞吐量提取变化率,
2) 计算一组可变性的不平衡程度,
3) 将所计算的不平衡度值与其历史值进行比较,以确定其是否是离群值。
3.3. 提取变化率
由于关注的焦点是变化的速率而不是数值本身,在第一步中,从配电通信网设备收集的吞吐量信息中提取其变化率。通常采用高通滤波器来提取信息变化。采用平滑变异性的归一化速率(NRSV)的方法来计算变化率,并对其进行归一化处理,其由公式(1)表示。
(1)
在公式(1)中,
表示在时间t接收的一些时间序列测量的值,α是影响时间序列测量的先前值的移动平均值的权重的平滑参数,s是当前测量值的序号。通过公式(1)的处理,直接从网络中测量的数据就变成了归一化的变化率。采用NRSV最重要的原因是它不仅可以表征变化,而且以可调节的方式消除测量噪声。当然,因为移动平均值被广泛使用并且可以以迭代方式计算,所以NRSV是有效的。此外,NRSV根据当前值的规模对变化进行规范化,因此使得能够在不同类型的测量之间进行直接计算,诸如在下一步中进行的。
3.4. 计算不平衡度
在第二步中,在一组测量值的变化率中计算不平衡度。不平衡度是带符号偏差的度量。在n个值
的组中的值
的不平衡度的定义是值
和该组中的其他值的平均值之间的差,如由公式(2)。
(2)
据此,变化率
的不平衡度可以表示为公式(3)。
(3)
此方法的一大优势在于,计算n个时间序列的吞吐量时,复杂度仅为O(n);但它只能处理正相关。幸运的是,大多数时间序列测量具有彼此之间的正相关性。此外,可以将时间序列测量划分为由彼此正相关的测量组成的组。增加组的数量提高了不平衡变化检测的精度,但是当对于不同组计算多次时间序列测量时,计算复杂度也增加。这是精度和性能之间的折衷。
3.5. 异常检测
在最后一步中,将每个时间序列测量的变化率的不平衡程度与其历史数据进行比较,以检查其是否是异常值。具体的检测过程如下:
首先,准备历史数据的概率分布。第二,当不平衡度出现新值时,使用所准备的分布来计算该值的外概率。最后,将外概率与一些预定义的阈值进行比较。当外部概率小于阈值时,新值是离群值,并且其指示检测到网络异常发生。在许多情况下,不平衡度的历史数据接近正态分布,并且可以使用由公式(4)表示的绝对标准分数来代替外概率,以简化计算。在公式(4)中,μ和σ分别是所有不平衡度值的平均值和标准差。
(4)
由于异常值检测步骤的存在,不平衡变化检测方法可以处理具有不同相关程度(从弱的到强的)的各种各样的时间序列测量。
4. 评估
在本章中,我们从不同方面评估所提出的网络故障检测方法。对于评估,在一个月的时间段内从部署在配电通信网中的500个网络设备获取超过12,000个管理信息库(MIB)数据。每个条目的数据每5分钟报告一次。与MIB数据一起,我们还获得相同持续时间的故障记录。
4.1. 可行性与效率
首先从一个月的数据集中选择没有任何网络故障发生的两天。对所有超过72,000,000对测量指标计算斯皮尔曼等级相关系数,结果如图3所示。相关系数的累积分布显示超过60% (如果考虑统计显着性为95%置信水平,则为35%)的测量指标之间的相关性是正的。因此,证明了所提出的方法适用于网络中的大多数测量指标。
将计算时间投影到整个一个月长的情况下,所提出的方法预期在10秒内完成计算。实验结果证明所提出的方法对于实际的网络故障检测是有效的和可扩展的。
同时对相同的两天长的数据集应用所提出的方法,并记录两种算法的计算时间。在实验中,选择迭代方法来计算变异率。此外,由于异常值检测部分是任何统计分析方法的公共步骤,所以可以排除。相关系数计算性能与拟议方法的比较结果如表1。
结果表明,所提出的方法的速度大约比相关系数计算快600倍。这也证明了第三节中的复杂性分析是正确的。将计算时间投影到整个一个月长的情况下,所提出的方法预期在10秒内完成计算,而相关系数计算花费大约90分钟。实验结果证明所提出的方法对于实际的网络故障检测是有效的和可扩展的。
4.2. 检测结果
第二个实例对整个一个月长的数据集执行实际的网络故障检测,以检查所提出的方法的准确性,其中所有超过12,000个条目被采用作为测量指标。

Figure 3. Cumulative distribution of correlation coefficients between device throughputs
图3. 设备吞吐量之间的相关系数的累积分布

Table 1. Performance comparison of two algorithms
表1. 两种算法的性能比较
表2. 检测结果
实验中的网络故障检测以无监督的异常检测方式进行。也就是说,在没有关于实际网络故障的任何知识的情况下,算法将未被检测为网络故障发生的先前测量的网络数据作为正常数据用于其它数据 [11] 。在实际检测中,将平滑参数α设置为α = 2.0。
检测结果的概要如表2所示。提出的方法已成功检测到23次网络故障,5次漏错和1次假阳性。因此,所提出的方法的命中率(灵敏度)为约82.1%,并且其错误检测率为约4.2%。结果证明,所提出的方法对于实际的网络故障检测具有可接受的精度。
5. 结语
本文通过调查故障发生时的实际测量数据,根据双路由或双设备的配电通信网的可靠性设计,提出了一种表征故障发生之前或期间测量指标行为的一般化模型。通过调查实际配用电通信网故障,发现许多故障可以通过在网络故障发生之前或期间发生的一些测量的网络数据之间的相关性的下降来识别。基于此,可将网络故障特性模型转化为测量指标之间的不平衡变化。因此,提出一种利用该特性的网络故障检测的实用方法。该方法自动提取测量指标之间的不平衡变化,而不需要识别它们的物理意义。最后对此方法进行评估,所提出的方法对于实际的网络故障检测具有可接受的精度。
基金项目
广东电网有限责任公司科技项目(配用电通信业务故障监测与定位技术研究,GDKJQQ20152002)。