1. 引言
经济的发展加大了电能输送的跨度,而传统电力系统在多能源接入、电力电子化的发展趋势下,电力装备的类型和网架结构日益复杂。骤增的装备运维压力和服务模式的创新对现有体系带来了巨大的挑战,急需新的数字化和智慧手段来满足用电侧对质量和可靠性的更高服务要求。预兆与健康管理(Prognosis and Health Management, PHM)技术正逐步被应用到高端电力装备和系统的运维保障中。
当前,由于不同应用领域对健康问题有不同的关注角度,因而也有不同的研究观点和方向。健康状态管理的国内研究仍然各自为政,没有形成统一的健康体系结构。因此,实现健康管理首先需要明确健康状态管理技术在装备系统中目前存在的基本问题。
论文通过分析系统健康管理研究中的相关概念,从系统管理和诊断学的观点出发,澄清复杂装备健康状态管理的内涵。在此基础上,探讨装备健康的涵义以及健康与装备能力、健康等级之间的关系,并从更深层面认识理解装备的健康状态管理,建立了完整的健康管理架构,以支撑PHM技术在高端电力装备/系统等复杂装备中的应用。
2. 装备健康分析与描述
从电力装备或系统设计的初衷来看,其目的必定不是为了故障和维修而设定的,而是针对其特定的任务需求。在系统生命周期中,人们更关注的是系统提供服务的能力。系统能力是提供系统任务执行的基础,系统能力组织由资源能力、功能能力和系统管理能力组成。在一个应用系统的概念提出的时候,必然是以一定的服务集合为目的而产生的。一个系统如果其健康状态和其服务支持能力是一致的,因此可以得出这样的结论:系统的健康状态越良好,服务能力就越强;同理,服务能力越强,反映出系统的健康状态就越良好。显然,系统的服务能力与健康状态有很强的对应关系,因而可以通过服务能力来认识系统的健康状态 [1] [2] [3]。
2.1. 系统健康与能力的关系分析
定义2-1 健康是以任务需求为目标,依据资源能力,并通过管理组织支持当前任务完成的能力。
定义2-2 预兆是系统内在状态异常变化特征的表征,是根据系统当前运行状态与系统健康状态差异,反映系统当前状态异常特征与系统预定异常状态关联性的描述。
预兆与健康状态管理是通过对系统当前运行状态的分析,得到系统当前健康的状态;通过对系统健康状态的评估,形成系统变异与发展的预兆;通过对系统的各种异常结果状态与系统预兆的关联性分析,进而依据任务运行需求,实施资源、功能和任务重组管理。
系统的需求是层次化的,需要具备两个支撑保障,即物理资源上的有效支撑和逻辑上的合理调度 [4]。因此,可以把这两个方面分别称为物理健康和功能健康。
1. 物理健康指系统在物理硬件上的有效性,即一定程度上构件自身的完好程度;
2. 功能健康对应的是资源的调用逻辑是否对内对外需求的满足有利。从内部通过逻辑可以满足一定需求,依据这个需求被满足的情况可以来衡量逻辑健康的程度。从外部因素来看,对需求负载适应能力越强,系统服务能力就越强。
系统的健康表现为系统是否具备良好应用服务的能力,而系统的服务表现为一定需求下以系统资源为载体的操作序列,服务能力即是系统满足一定任务需求的能力。对系统而言,服务与需求处于平衡状态是系统健康的理想状态,也可以说健康标志着系统服务能力适应系统任务需求的能力。
2.2. 系统健康能力构成
系统通常是面向一定任务集而存在的,系统有效性依赖于任务有效性,任务有效性又依赖于功能有效性,而功能有效性又决定于资源操作有效性。因此,资源操作的有效性是系统有效性的基础,功能有效性是系统有效性的支撑,任务有效性是系统有效性的目的。
本文将系统能力组织自底向上分解为资源能力、功能能力、任务能力、健康能力以及系统能力,这些能力在系统中形成全方位的能力描述,如图1所示。资源能力形成最底层的基础支撑,功能能力基于资源能力提供的服务又为任务能力提供服务支持,通过任务支持可以衡量系统的健康能力,健康能力又为系统能力提供服务。
2.3. 系统健康管理模式
通过系统的能力组织可以看出,系统的健康标志着系统服务能力的构成与状态。健康的诊断依据是资源健康状态、功能健康状态以及任务健康状态,尤其是任务健康状态为系统健康提供了直接支持。
任务健康的直接支撑是功能健康,因而功能健康的时效性是任务健康诊断的输入。通过单个任务的功能支撑集在时间上的延续性,可以诊断该任务在时间上的发展。对全部任务来说,考虑各个任务功能支撑集之间的交叉覆盖,最终就能诊断所有任务的有效性。对系统问题诊断来讲,即诊断系统任务可能发生何种故障,位置在哪以及会影响到哪些任务支持子集,进一步会对系统管理决策造成何种影响。
功能健康的支撑基础是资源健康,资源健康的时效性是功能健康诊断的输入。通过计算功能的资源支撑集在时间上的剩余使用寿命,可以诊断功能的发展状态。对全部功能而言,考虑功能之间的相互关系和支撑资源之间的交叉覆盖,最终就能诊断功能的有效性。对系统问题诊断而言,即诊断哪个功能可能发生何种功能错误,会对任务造成何种影响。
资源健康是系统健康的基础,资源健康的诊断主要是资源缺陷的诊断,就是依据资源退化规律,基于当前资源状态与环境条件诊断资源缺陷。在资源缺陷诊断基础上,进行资源能力损失估计,也可以看作资源有效性预测。资源能力损失估计主要是资源累积损伤估计,评估资源累积损伤的目的是了解资源在多大程度上其有效性受到了损失,其寿命还能支持多长时间。累积损伤评估可以规划系统重构,例如在规划中需要用到相关资源的某个操作,那么剩余寿命就可以作为一个参数,很大程度上能够提高重构的有效性。另外,累积损伤评估还能够辅助系统进行维修决策。

Figure 1. Ability organization of system
图1. 系统的能力组织
3. 系统健康等级管理与形式化定义
3.1. 系统健康问题的构成
系统健康的问题(Fail)按照严重程度分为四类,即资源缺陷(Fault)、功能错误(Error)、任务故障(Failure)和系统失效(Invalidation)。资源缺陷是指资源操作集对于资源本体特性表现出的不完整性,即某种特性上的不足;功能错误是指系统操作结果与预期结果之间产生了一定程度的偏差;任务故障是指系统不能完成规定功能或性能退化,不能够满足规定要求的状态;系统失效则是指系统丧失了所有的任务能力而导致系统瘫痪。
缺陷的发现以及处理直接影响到错误的发生与否,而错误的发生与处理又影响到故障的出现与否,故障的累积规模直接关系到系统失效产生的可能性。不同的系统问题有着不同的处理方式和方法。针对资源缺陷,需要依据缺陷的激活条件,调整条件回避缺陷,从而避免错误发生进而达到缺陷容忍(Fault Tolerance)的目的;针对功能错误,需要依据错误被激活的条件,调整条件使错误不被激活,从而避免相应故障出现,达到错误隔离的目的;针对任务结果故障,需要抑制其造成的影响,使得故障的影响范围尽可能最小化。同时,在进行容错和故障管理的过程中,做好同步记录,为系统进化积累知识素材。针对系统失效,由于系统自身失去了管理能力,必须介入其它系统来管理。
3.2. 系统健康等级的划分
依据定义2-1,一定的健康能力映射一定的系统服务能力。从系统视角出发,本文依据不同服务的覆盖域,将系统健康划分成不同的等级。健康等级定义可分为四层,如图2所示。
1、强健康态
系统服务能够覆盖核心任务、基本任务、保障任务和辅助任务的需求,属于基于可生存考虑的可持续性,倾向于解释极端情形下的系统能力,表现为系统强壮的一面,能够完成全部任务。
2、次健康态
系统服务能够覆盖核心任务、基本任务和保障任务的需求。通过管理资源冗余量,覆盖规划应用需求,能够完成当前任务。
3、亚健康态
系统服务能够覆盖核心任务和基本任务的需求,属于基于重构与降级意义上的可持续性,很多任务不能执行。
4、安全态
系统服务能够覆盖核心任务的需求。该状态下,系统只够完成自身安全任务,处于基本故障态。
从能力角度出发,系统资源健康状态、功能健康状态和任务健康状态决定着系统的服务能力。通过对系统资源健康状态、功能健康状态和任务健康状态的评估,就能够得到系统的健康等级。从系统问题角度出发,系统的健康状态主要由缺陷、错误、故障和失效构成。从这两个角度比较可得,资源是否具有缺陷与资源健康状态相对应,功能是否具有错误与功能健康状态相对应,任务是否具有故障与任务健康状态相对应。通过诊断系统中可能存在的资源缺陷、功能错误和任务故障,评估系统的资源健康状态、功能健康状态和任务健康状态,最后得到系统的健康等级。按照当前任务列表需求,自顶向下对应功能支撑,再到相应资源支持列表。
强健康态是基于可生存性的,其突出特征是通过强有力的容错措施使系统持续,即在遭受攻击、故障或意外事故时,系统能够及时完成其任务的能力 [5]。系统测试确定资源缺陷是否被激活,该等级不论资源缺陷激活与否,通过资源缺陷监控与管理、功能状态监控与管理和任务结果监控与管理,可以保证系统资源能力、功能能力及任务能力。
次健康态是通过任务的重构来保障系统可持续性。资源的缺陷被激活,出现功能错误,并且资源重组无法完全补偿资源缺陷和功能错误,造成资源能力和功能能力下降,通过功能状态监控与任务结果监控与管理,可以保证系统任务能力及部分功能能力。
亚健康态是以损失部分任务为代价来保障系统可持续性。资源的缺陷被激活,出现功能错误与任务故障,重组与重构无法完全补偿资源缺陷、功能错误与任务故障,造成资源能力、功能能力及任务能力下降,通过任务结果监控与管理,可以保证系统核心和基本任务能力。
安全态是以保障系统的安全作为核心任务。资源的缺陷被激活,功能错误与任务故障比较严重,任务执行能力下降到任务能力临界点,只能够完成系统的核心任务。
系统的健康等级对应着系统完成任务的能力,清楚了解系统处于何种健康等级至关重要。图3描述了系统健康等级变化过程,系统起初处于强健康态。随着系统的运行,资源R3、R6和R8缺陷被激活,资源重组保证了功能F1、F2和F3正常,而功能F4出现错误,功能重组与任务重构保证了所有任务正常。此时,系统处于次健康态。

Figure 3. Changes of Health level of the system
图3. 系统的健康等级变化
3.3. 系统健康等级的形式化定义
假设系统的健康等级域G = <H1,H2,H3,H4>,H1代表强健康态;H2代表次健康态;H3代表亚健康态;H4代表安全态,那么系统健康等级可以描述如下:
式中,
代表检测出的资源缺陷集合;
代表检测出的功能错误集合;
代表检测出的任务故障集合;
代表任务故障临界点集合,即保障核心任务情况下的任务故障集合。
1、强健康态
系统问题域中检测不到资源缺陷,系统中可能存在缺陷但未被激活,尚未引起错误和故障,即
2、次健康态
系统问题域中存在被激活的资源缺陷和功能错误,不存在任务故障,即
3、亚健康态
系统问题域中存在资源缺陷、功能错误和任务故障,系统任务能力下降,即
4、安全态
系统问题域中存在资源缺陷、功能错误和任务故障,并且系统任务能力到达下界,即
通过对系统的诊断及预测,得到集合
、
和
的状态,以此评估系统的健康等级。
4. 小结
健康状态管理是依据系统当前缺陷、错误和故障状态实施管理。系统是否具有缺陷、错误、故障等问题决定着系统服务能力的大小,即系统健康状态。因此,诊断与预测系统的健康问题,成为电力系统等复杂、高端装备系统需要解决的当务之急。
论文讨论了一个完整的具有很强通用性的健康体系架构,给出了系统健康、预兆、系统能力以及系统健康等级等相关概念的定义,为电力系统健康管理的研究和工程应用奠定了基础。
致谢
感谢上海交通大学、中国商飞飞机设计研究院王国庆研究员,西北工业大学翟正军教授对本文研究的指导。
基金项目
国网浙江省电力有限公司科技项目资助。