1. 引言
近年来,随着电力网络建设的规模不断扩大,维持电力系统在极端情况下的安全稳定运行的难度也随之提升 [1] [2]。在智能电网建设的大力发展下,系统之间的互联关系也不断增强 [3]。极端灾害对于电网运行造成的高风险事件频发,给经济社会的稳定运行造成了巨大损害 [4] [5] [6]。在这样的背景下,韧性(resilience)作为描述系统对于损害扰动的吸收抵御及快速恢复能力的概念 [7],对指导电力系统的安全运行有重要意义。
目前的研究对于电网在极端灾害下的韧性增强已有大量工作。文献 [8] 构建了电网系统内包含多种储能装置在内的多源恢复方案。文献 [9] 通过对电网中失电异常节点进行精确分析,并基于遗传算法结合二阶锥松弛的方法对负荷节点构建双层规划模型,达成失电负荷的精准高效恢复。文献 [10] 巧妙的引入了电力弹簧的概念并以此应对新能源电源的不稳定性,以此方式提高电网韧性。文献 [11] 通过对配电网系统的运行整体特性分析,引入微电网共同协调以提升韧性。然而上述研究局限于单一电力系统,并未计及多系统间的实际关联。
文献 [12] 构建电力网–信息网互联模型分析配电网的可靠运行。文献 [13] 以台风灾害为算例背景,考虑到实际情况下电力网与交通网的耦合进行韧性分析,却并未结合信息网,未能保证系统的可观与可控。文献 [14] 结合综合能源系统这一形式,为电力系统搭建多能量来源以提升其灾害背景下的运行性能。然而上述研究却忽略了灾害背景下的时间连贯性,即灾害发生的多时间尺度并未分析。
多系统耦合的实际情况在分析韧性这一概念时无法避免,否则会导致问题求解失真;而如若不考虑灾害对系统的多时间尺度影响,因为问题的全面性难以构建,则会造成相应的韧性提升策略效率过于低下。本文针对极端灾害背景下的电力网–信息网–路网系统的耦合关系分析,提出了多时间尺度下对耦合系统的韧性提升策略,并基于深度强化学习算法进行问题求解,对灾害实际情况下配电网的安全运行进行具体分析。
2. 韧性背景下电力网–信息网–路网系统耦合状态研究
2.1. 韧性基本定义与内涵
韧性(resilience)作为描述系统在受到扰动影响后能够维持原本运行能力的概念,广泛运用于物理学、生态学、社会学等专业领域 [15]。近年来,极端灾害的发生愈发频繁,灾变类的大型扰动在电力系统中时有发生,由此引发的大规模停电灾害对经济社会的稳定秩序造成了严重不利影响 [16],例如海南台风大型停电事故、南方冰灾停电等。虽然电力系统有着“三道防线”的保护,但极端灾害带来的严重后果仍旧很有可能使得系统损毁甚至崩溃,在此背景下,韧性这一概念被引入电力系统中,对电力系统韧性的研究也不再是对未来的展望,而是当下亟需的必然。
韧性系统在遭遇极端灾害时需具备预防抵御、响应吸收、调节恢复能力,对应于极端灾害发生的时段,分别在灾前、灾中与灾后做出即时动作,以保持系统性能的最大化正常运转。本文将依据系统韧性概念特征,对电力网-信息网-路网耦合系统进行极端灾害扰动背景下的多阶段运行状态分析。
2.2. 电力网–信息网–路网耦合关系分析
极端灾害发生时,电力网–信息网–路网系统都会遭受一定程度上的损坏,电力作为系统中的能量储备与输出角色,为信息系统提供能源支撑。而随着电力系统智能化的迅速推进,信息系统的建设也将逐渐摆脱单一形式的能量来源,以使得在电力网遭遇风险扰动时,提升信息网自身运行时的可靠性与安全性,例如不间断电源(uninterruptible power supply, UPS)、化学蓄电池、移动油机的广泛应用。在电力网络处于未受灾正常运行状态时,信息网络与其储能设施均作为负载接入电力网,以适应灾时信息网正常通讯的能量供给需求。
灾害发生后,路网系统也同步遭受损毁,其中路况、车流等信息也会动态变化,此时信息网作为信息传输的桥梁与媒介,将路网信息传递至调控中心,调控中心同时接收电力信息网中的灾情位置、故障种类、灾情严重等级及抢修物资需求。作为系统的大脑,调控中心接收传达信息后及时制定调控策略,以实现灾害发生场景下系统的高效可靠恢复。电力网、信息网、路网三个系统互相关联,彼此耦合。相比于传统视角下的韧性,耦合系统的韧性研究更为全面,韧性的评估方式更为具体,韧性提升措施更为高效。
耦合系统间的关联情况如图1所示:

Figure 1. Schematic diagram of power-information-road network coupling system
图1. 电力网–信息网–路网耦合系统示意图
2.3. 电力网–信息网–路网耦合模型搭建
电力信息网具有高度耦合的特性,电力网–信息网的节点逐一关联,光纤线路与电力线路在物理拓扑层面上又具有结构高度相似的特点 [17]。极端灾害背景下,电力信息网的线路均具有损毁失效的概率,然而,传统网络的抗毁性研究均着眼于静态网络,本文计及灾害发生时网络中线路存在故障风险的实际层面的动态特性背景,给出电力信息网可靠性矩阵,以描述网络的动态变化属性。记
为系统可靠性矩阵:
(1)
其中,
为电力信息网的邻接矩阵,
表示线路ij的故障概率,
表示矩阵
中的第i行第j列元素。
定义考虑线路故障风险在内的网络抗毁性指标
为:
(2)
其中,
表示矩阵
的第i个特征值,N为电力信息网的节点数。由于抗毁性指标正相关于网络中的边数,且严格单调递增 [18]。故而在灾害场景下,网络中存余的边数能够直观表现出其可靠性,因此指标
能够反映灾害场景下网络的连通性,体现出网络的抗毁能力。
电力信息网中负荷损失价值是优化调度中不可忽视的参量,根据电力系统负荷等级,确定各负荷节点权重,定义节点i的负荷损失价值
及线路ij故障而造成的失负荷价值
为:
(3)
(4)
其中,
表示线路ij故障而损失的节电数,
表示节点i的负荷权重。
定义基于失负荷价值的系统损失指标
:
(5)
其中,
表示线路
的故障概率,K表示耦合系统网络中的线路总和。
据此可以提出基于线路
失负荷价值的系统损失指标相对提升值
:
(6)
可见,
能够直观反映出线路在网络中对于系统损失的提升能力,进一步可以推断出其在韧性恢复过程中的重要程度。
则通过灾前预防韧性加固方式提高线路韧性后的系统损失指标为:
(7)
相应的,韧性增加后的系统损失指标相对提升值
为:
(8)
在耦合系统中通信网络对于整个系统的韧性而言具有至关重要的作用,通信线路能否通顺直接关系到调度指令的顺利下达以及各网络的操作能否自动化,这对于灾害背景下的网络功能恢复影响重大。本文基于通信线路聚类系数和线路开断损失的风险,定义抵御能力指标
:
(9)
(10)
其中,
表示线路
的通信聚类系数;对于线路聚类系数定义
其含义为:
表示包含节点i和节点j之间的传输路径中的实际含有x边形的数量,
表示包含节点i和节点j之间的总传输路径中的可能含有x边形的数量,K表示耦合系统网络中的电力信息线路之和。
定义基于节点失负荷价值的自然连通度指标为
:
(11)
则基于联络线和冗余链路增设以及线路加固措施的电力信息系统韧性增强目标函数为:
(12)
其中,
、
为优化系数。
同时电力网络系统需满足电力系统运行条件,相关运行条件如下:
(13)
其中,
、
表示由节点i输送入电网系统的有功功率和无功功率,
、
表示节点i、节点j的电压幅值,
、
表示节点i、j间的电导、电纳值,
表示节点i、j间的相位差。
由于配电网的拓扑结构,其运行时需满足辐射状运行约束:
(14)
其中,g为电力信息的物理拓扑,G为整个网络中辐射状运行的拓扑结构集。
对于路网系统,其主要耦合特性在于灾后与电力网–信息网系统的协调恢复,即在确定电力网与信息网的局部恢复顺序后,需要判断出前往故障任务集的最短路径。本文区别于传统应急抢修模型,考虑到路网处于受灾损毁–抢修恢复的动态,给出动态路网的概念。
即当前时刻路网即便处于损毁无法通行的状态,但其修复时长仍旧考虑在内,对于每条路径给出其复电基础时长,如若当前损毁路径的抢修通顺时长小于可通行路径的最短时长,则仍旧选取其作为当前规划的复电路径。通行时长
做出处理如下:
(15)
其中,
为路网单元故障等级相关系数函数,
则为路网基础抢修能力,本文设定其为基准值,并基于抢修实际能力给出定量处理,
根据路网单元的受损程度及历史灾情抢修时长数据结合确定。
故而对于灾后阶段,目标函数则为:
(16)
其中,
为故障任务集中电力/信息类型故障的总修复时长,本文基于灾害等级与历史灾情数据,给出定量处理。
3. 基于深度强化学习的韧性增强策略
3.1. 深度强化学习原理及含义
深度强化学习(Deep Reinforcement Learning, DRL)算法是结合了智能体(agent)、环境(environment)、动作(actor)、状态(state)、奖励(reword)在内的新型智能方法,其主要优势在于可以通过训练后的数据自主决策,并能够适应高不确定性带来的复杂问题。本文所涉及的韧性优化问题属于高度非凸、非线性问题,传统求解算法求解存在实时性与迭代收敛上的问题,而通过训练后的多智能体深度强化学习模型则可将决策实时生成,克服了传统算法的运算时间长、难以在线求解等困难,可以有效解决耦合系统韧性提升的优化问题。
3.2. 深度强化学习模型构成
本文基于策略-价值网络(actor-critic)构建深度强化学习模型,其交互机理如下:首先,智能体处于实时与环境交互的状态,智能体基于自身目标会采取动作,此动作基于策略函数
呈现概率性,系统基于策略函数进行动作抽样,智能体做出动作后,状态转移函数
在输入t时刻的动作与状态后,基于概率给出状态,同时环境依据当前智能体的动作及状态给出奖励值。对于策略网络和价值网络分别设置神经网络近似,以实现模型智能化。
深度强化学习算法流程如图2所示:

Figure 2. Schematic diagram of deep reinforcement learning algorithm flow
图2. 深度强化学习算法流程示意图
图3为神经网络结构图,其结构分别由输入层、隐藏层、权重参数、输出层构成。

Figure 3. Neural network structure diagram
图3. 神经网络结构图
本文对耦合系统韧性增强策略中的DRL算法基本构造可表示为:
1) 环境(environment):根据电力网–信息网–路网耦合系统模型为基础搭建的极端灾害背景下的模拟环境。由策略网络得出动作后即时与环境交互,得出下一时段的状态与即时的奖励,并提供策略网络更新的依据。
2) 智能体(agent):电力网–信息网–路网耦合系统作为大型智能体,其输出的动作和环境之间实时迭代。
3) 动作(actor):智能体的动作与本文物理模型的变量一一对应,其中线路的预防加固措施种类、灾时网络中基于调控策略的线路开断情况、故障任务集的调配状态、应急人员及物资的实时动作作为本文智能体的动作变量。
(17)
其中,
表示预防阶段线路ij采取第c种加固措施,本文对系统中关键线路采取未处理初始状态、修剪植被、加固设备底座、设置运行备用四种措施,c分别对应0~3,不同的措施其对于韧性抵御能力的提升效率不同。
表示线路ij灾时被调控开/断,若执行打开动作,则
,若执行闭合动作,则
,
则意为:若
,则表示故障任务集m下一时刻准备抢修运维,若
,则不采取抢修动作,
表示应急人员及物资采取的动作,若
,则表示处理故障任务集维修任务,若
,则表示返回应急中心补给,c为整数动作变量。
4) 状态(state):系统的状态空间作为DRL的主体之一,与本文物理模型中主网电源的出力功率、负荷负载大小、DG的出力情况以及联络开关的出力情况对应。
(18)
其中,
表示负荷i的负载大小,
表示DG j的出力情况,
表示联络开关TL k的出力情况。
5) 奖励(reword):整个DRL过程是通过智能体不断的将动作经策略函数输出,再经由状态转移函数输出状态,通过环境交互后,输出奖励与状态,通过不断的调试与评价,最大化长期奖励。因此本文将韧性加固成本F设置为奖励函数,以对应韧性优化目标。
(19)
其中,
表示线路
采取第c种加固措施,
为成本上限。
本文模型考虑实际情况中电力网、信息网及路网之间的关系,区别于传统电力系统韧性分析的模型,本文模型更具实际意义,不会因为仅考虑灾害的单一阶段而忽略灾害的多时段影响,也不会由于仅考虑单一系统而导致论文的建模与实际情形区别较大而失真。且通过深度强化学习框架的搭建,使得本文模型在实际分析的基础上能够采用智能算法而求解,具备高效运算的有点,使得本文模型区别于传统模型具有优越性。
4. 算例分析
本文基于文献 [19] IEEE 33节点系统搭建的电力网–信息网–路网耦合系统模型算例进行分析,并结合本文背景给出灾损时刻及位置,调控中心对区域状态采样周期为15 min。该区域灾害发生时刻及故障等级如表1所示。
本文求解对象均为离散量,运算后的系统韧性预防提升措施如表2所示。
可见,对于线路聚类系数较高且所含失负荷价值较大的线路,由于设置运行备用对于其风险抵御能力的提升最为明显,因此关联大型负荷区域的线路1-2,9-10,15-16,2-19,3-23,5-26,31-32都设置了运行备用,而受限于成本约束,线路20-21,4-5,5-6,10-11,14-15,31-32,29-30并未采取措施,其所关联的失负荷价值相对系统中其余负荷节点较小。本文求解的是在成本范围内的最优解,因此奖励函数F在决策过程中直接决定了从拟采用方案的集合中选取价值回报最高的方案。

Table 1. System disaster status and time
表1. 系统灾损状态及时刻

Table 2. Preventive toughness enhancement measures
表2. 预防韧性提升措施
而对于灾害后的协同恢复,本文算例中,路网线路的规划通过调控中心与电力信息网中的数据实时交互,产生的结果是在三网耦合的背景下的最优恢复策略,协同恢复结果如表3所示,表3中单位均为分钟/min:

Table 3. Preventive toughness enhancement measures
表3. 电力网–信息网–路网协同恢复结果
由表3中结果可以看出,在灾后系统受损的情况下,如果仅依靠根据应急中心的距离判断抢修恢复顺序,其进程将会比优先恢复电力故障的进程慢,但会快于纯信息优先恢复的策略,这是因为在信息网优先考虑的决策中,电力网的恢复进程将需要等信息网完全修复后才能复电,这将导致关键的电力节点复电进程严重迟缓,同时部分信息节点的灾时保供电源的支持时长将会面临失电的情况,因此造成了纯信息优先的恢复策略进程最为缓慢。同时,若规划过程中完全忽略路网系统的协同,则会导致应急抢修人员在抢修路径上规划冗杂低效,造成路网效率低下,迟滞整体复电。协同恢复策略综合考虑了三网间的耦合关系,可以看出协同恢复的策略对于整体灾后恢复至系统正常水平的效率明显提升。
5. 总结
本文通过分析电力网–信息网–路网三网耦合系统的交互关系,构建了耦合系统物理模型,并基于韧性的定义及框架,给出韧性多时间尺度的提升策略,对复杂非凸、非线性问题的求解采用引入深度强化学习方法进行求解。算例结果表明:
1) 本文所构建深度强化学习框架对于多系统多时段复杂模型的求解适用性显著。
2) 本文所构建的多系统多时段耦合模型对于韧性的分析更为实际,灾前韧性提升策略实现了线路的最优选取,最终方案中韧性提升价值最高。
3) 本文所提出多网协同恢复策略中,针对于路网的多时态状况进行了耦合性分析,区别于传统恢复策略,本文策略对于系统恢复时间明显缩短,对于系统的稳定运行恢复具有显著意义。
考虑到人的行为在耦合系统中的主观性以及重要性,社会网络的耦合性机理分析是本文接下来的研究方向。