1. 引言
可靠性模型是从系统故障规律认知的角度,对系统及其组成部件进行建模,反映系统的主要故障特征,用于预计或估算产品的可靠性。研究可靠性建模的方法有很多,传统的可靠性建模方法主要是静态的模型,描述系统和部件故障之间的静态关系如:如可靠性框图(RBD) [1]、故障树分析(FTA)、事件树(ETA) [2] 等,近年来,国内外学者提出了多种建模方法,如:马尔科夫模型 [3] [4]、Petri网模型、贝叶斯模型、GO图模型等 [5],这类模型偏向于动态分析系统故障的过程,以及部件失效对系统故障的传递和影响等。
本文研究的对象是具有自检与修复性维修特征的系统,对这类系统而言,它的故障发生规律与自检、修复的时序密切相关,无法用传统的RBD、FTA等方法直接描述系统和组件的故障关系,如图1所示,它指出了产品故障发生、检测、隔离、修复的时序图。图中可见,评估系统的可用性需要关注故障的检测和修复,而传统的可靠性模型关注的是产品的故障,对于考虑自检与修复性维修的多组件集成系统,应该探索更适合于该系统的可用性模型及方法。

Figure 1. Product failure occurrence, detection, isolation and repair
图1. 产品故障发生、检测、隔离、修复 [6]
系统一般是由单个或多个组件构成,当组件具备自检、可修的特征,系统的状态与组件的状态(是否故障、故障是否被检测出等)以及多组件的状态的时序关系密切相关。本文分别针对具有自检与修复性维修特征的单组件系统、多组件系统进行分析,总结了几类通用的可用性模型及特殊系统的可用性模型。
2. 单组件具备自检的可修系统模型
单组件A构成的系统如图2所示,其失效率和修复率为恒定的常数
和
,故障后可被检测出的概率为
,分析其可用性随时间的变化。

Figure 2. The single component has a self-checking repairable system
图2. 单组件具备自检的可修系统
其中:
:组件A的失效率,指在t时刻尚未失效的组件,单位时间发生失效的概率;
:组件A的修复率:在规定的条件下和规定的时间内,产品在任一规定的维修级别上被修复的故障总数与在此级别上修复性维修总时间之比;
:组件A的故障检测成功率,当组件发生故障后,故障可以被成功检测出的概率 [7]。
采用马尔科夫模型法分析单组件的可用性随时间的变化,如图3所示。

Figure 3. Markov model of a single component repairable system with self-check
图3. 单组件具备自检的可修系统马尔科夫模型
状态0:组件正常工作
状态1:组件故障,系统失效
令:
、
分别为时刻t组件在状态0和1的概率,系统的状态概率矩阵
,系统在时刻0处于状态0。
系统的状态转移矩阵
存在矩阵方程:
初始值:
。
即:
(1)
(2)
解(1)和(2)构成的一阶微分方程组得:
(3)
(4)
综上所述,可得:
单组件可修系统的不可用度–时间函数:
(5)
3. 多组件具备自检的可修系统
对于由多个具备自检的可修组件构成的系统,可以采用马尔科夫法和最小割集法来建立其可用性模型。马尔科夫法,需要针对不同的系统进行具体分析绘图,无通用模型;最小割集法,是在系统集成的角度,考虑导致系统不可用的组件的最小割集,应用最小割集的可用性时间函数来求解系统的可用性。下面分别介绍这两种建模方法。
3.1. 马尔科夫法
首先定义系统的有n个状态,分别是状态0,状态1,……,状态n − 1,需要保证定义的状态能够区分系统的运行状况(正常、部分故障运行……系统无法工作),并根据系统的不同运行状况绘制状态转移图,示意图如图4所示。

Figure 4. Markov state transition diagram
图4. 马尔科夫状态转移示意图
假设时刻t系统的处于状态0,状态1,……,状态n − 1的概率为
,系统的状态概率矩阵
,系统的转移矩阵为Q,系统在时刻0处于状态0,存在下述矩阵方程:
(6)
令:初始值:
,求解上述矩阵方程,即可得到系统的不可用度–时间函数
。
3.2. 最小割集法
多组件可修系统可用性也可采用最小割集法进行建模分析。假设一个由n组件
组成的系统S,各组件的失效率、修复率为常数,且互相独立,当组件
都为不可用状态时,系统处于不可用的状态,即
为系统不可用的割集,其中,p, q取值为
。
应用布尔代数的化简方法,求出系统不可用的最小割集。
每一个最小割集的不可用度如下:
(7)
其中:
:最小割集中第i个组件的不可用度;
n:最小割集中的组件数目。
若组件失效相互不独立,即:存在共因失效,应将组件的不可用度QT拆分成两部分:
和
:
(8)
(9)
其中:
:共因失效因子;
:独立部分的不可用度;
:由于共因失效导致的不可用度。
系统不可用度计算模型:
方法1:Esary-Proschan方法
(10)
:系统的最小割集中共同的组件的不可用度;
:所有割集中共同的组件的数目;
:第j个最小割集中剔除共同组件后的不可用度;
:最小割集的数量。
方法2:rare approximation方法
(11)
:第i个最小割集的不可用度;
:最小割集的数量。
方法3:cross-product方法
(12)
其中:
:第i个最小割集的不可用度;
:最小割集i和j中基本组件的不可用度的乘积;
:最小割集i、j、k中基本组件不可用度的乘积;
:最小割集的数量。
综上所述,应用最小割集法求解系统不可用度有上述三种方法可以选择,一般选用较简化的方法1或方法2进行计算。
4. 实例验证
分别应用上述两种方法模拟具备自检与可修特性的多组件系统的可用性建模过程,假设某系统是有两个组件(组件A和组件B)并联组成,组件A和组件B互为热备份,组件A和组件B均具备自检和可修特性,且组件A和组件B存在共因失效的可能性,当组件A、B中有一个以上正常运行则系统功能正常,当组件A、B都故障且未被修复时,系统不可用。其可靠性框图如图5所示。

Figure 5. Example system reliability block diagram
图5. 实例系统可靠性框图
其中:
:组件A、B的失效率,
;
:组件A、B的修复率,
;
:组件A、B的共因失效因子,
;
:组件A、B的故障检测成功率,
。
注:失效率取值参考一般工业逻辑处理板失效率;修复率按一般PCB板修复时间为0.5小时来计算;共因失效因子参考IEC 61508 [8] 选取,故障检测成功率取值参考本公司研发产品的检测成功率水平。
4.1. 马尔科夫法
采用马尔科夫模型法分析该系统的可用性,当系统中的单系组件发生故障,若故障被检测出,则可被修复,系统恢复可用状态,若单系组件发生故障后,未被检测出,则无法被修复,因此,系统应有四种状态,如图6所示。
状态0:组件A、B正常运行,系统正常运行
状态1:组件A、B中其中一个组件故障,且故障未被检测到,系统降级正常运行
状态2:组件A、B中其中一个组件故障,且故障可被检测到,系统降级正常运行
状态3:组件A、B都故障,系统不可用
令
、
、
、
分别为时刻t组件在状态0、1、2、3的概率,系统的转移矩阵为Q,系统在时刻0处于状态0,存在下述矩阵方程:
(13)
其中:
初始值:
。
状态转移矩阵:
(14)
解矩阵方程(13)即可求得系统不可用度–时间函数。

Figure 6. Example system Markov model
图6. 实例系统马尔科夫模型
4.2. 最小割集法
根据第3.2章节的最小割集法,图5所示的冗余系统的最小割集如表1所示。

Table 1. The minimum cut set of the redundant system in Figure 5
表1. 图5中的冗余系统的最小割集
最小割集中各元素的参数计算如表2所示。

Table 2. Parameter calculation of each element in the minimum cut set
表2. 最小割集中各元素的参数计算
根据第2章,单组件系统的不可用度计算公式(5)可知:
(15)
根据第3.2章,最小割集的不可用度计算公式可知,每个最小割集的不可用度如表3所示。

Table 3. The unavailability of each minimum cut set
表3. 每个最小割集的不可用度
应用第3.2章节的方法2:rare approximation方法,可得:
(16)
代入数值
,
,
,
,即可求得系统不可用度-时间函数。
4.3. 两种模型求解数值分析
根据上述章节的两种模型,对其求解得到的系统不可用度进行数值对比分析。在系统启动时间1天(0~24小时)内,两种模型求解的不可用度数值曲线见图7所示。
在系统工作时间的20年(0~175,200小时)内,两种模型求解的不可用度数据变化见图8所示。
由结果对比分析可知,马尔科夫法和最小割集法求解的系统可用度数值几乎吻合,均在时刻t约为4 h时,系统不可用度达到稳态值5 × 10−9,且从系统寿命周期20年来看,两种模型求解结果也可以认为一致。因此,对于此类具有自检与修复性维修特征的冗余系统,可采用上述两种模型进行求解分析。

Figure 7. Numerical unavailability curves of two models (0~24 hours)
图7. 两种模型求解的不可用度数值曲线(0~24小时)

Figure 8. .The numerical unavailability curves of the two models (0~24 years)
图8. 两种模型求解的不可用度数值曲线(0~20年)
5. 结论
本文对考虑自检与修复性维修的系统特征进行了深入研究,应用马尔科夫法和最小割集法对具备这类特征的特殊系统详细绘制了可靠性模型,并对每种模型展开分析,推导了详细的计算方法,既由浅入深地阐述了这两种方法模型的可行性,又从精确的算法上验证了这两种模型算法的有效性,证明了本文提出的模型及相关计算过程、结果的有效性。该模型有效解决了传统可靠性模型的局限性,为具备自检和修复性维修的系统建模探索出了更实用更准确的模型及算法,它们均可直接应用于工程实践。
对于更复杂的系统,也可在本模型的基础上进一步研究探索,进一步提高模型的适应能力。为复杂系统的可靠性模型的建立和优化提供理论依据。