1. 引言
在电力供应、通信网络和工业生产等复杂系统中,性能共享系统作为典型的冗余结构,能够在组件性能不均衡的情况下维持系统功能,性能共享机制已逐渐成为复杂系统可靠性建模的重要方向。已有研究对性能共享系统的建模与可靠性评估进行了深入探索,Niu等[1]提出了面向串联加权k-out-of-n:G子系统的新型性能共享模型,该模型引入性能盈余与短缺的量化机制,结合Copula函数刻画组件间相依性,并借助Lz变换法开发高效可靠性评估算法,突出传输容量对系统动态可靠性的关键影响。Shangguan等[2]构建了基于多元Wiener退化–冲击竞争失效过程与动态故障阈值的可靠性模型,通过随机效应Wiener过程描述子系统异质性退化,结合致命/非致命冲击模拟损伤行为,并利用Copula函数解析退化过程间相依性,显著提升了复杂系统多态失效建模精度。Wu等[3]进一步考虑了多传输损耗等级下的性能共享系统可靠性分析,为复杂系统冲击敏感性研究提供了方法支持。
在性能共享系统的可靠性分析中,随机冲击与性能退化是导致可靠性下降的两大核心因素。已有文献围绕冲击–退化耦合开展了深入探索,徐东等[4]首次提出n阶段随机冲击与m阶段退化复合模型,将连续损害区间离散为有限状态空间,通过马尔可夫更新过程刻画冲击与退化的双向依赖关系;孙富强等[5]进一步细化冲击分类,基于幅值将冲击分为无效冲击(无损害)、有效冲击(导致退化量阶跃与退化率增大)、致命冲击(直接突发失效),并采用非线性Wiener过程描述退化,构建了考虑“有效冲击量级”的竞争失效模型,弥补了传统模型忽略设备冲击抵抗能力的不足。陈卓谦等[6]在PDMP框架下揭示了冲击强度的状态依赖特性。这些研究主要聚焦于设备或组件层面的失效机制,并未与性能共享体系中的“传输总线(多级损耗)–负载再分配规则–系统容量”这条系统级链路耦合起来。
因此,现有研究在随机冲击情况下仍然存在两点不足:一是缺乏同时作用于“组件性能”与“总线传输损耗”的性能共享系统冲击建模框架,易造成系统可靠性的高估;二是缺乏对动态负载共享规则与冲击敏感性之间关系的系统刻画,限制了对复杂冲击环境下性能退化机理的深入理解。Wu等[3]的基线模型主要聚焦于性能共享系统在多传输损耗等级下的可靠性评估,但其假设冲击仅作用于总线传输环节,忽略了对组件性能的直接影响。
总体而言,本文工作在Wu等[3]的模型基础上发展,主要体现在以下三个方面:首先,提出了一种双重冲击驱动的性能等级马尔可夫模型,在性能共享体系下同时考虑组件退化与总线传输损耗的协同作用;其次,构建了马尔可夫–通用生成函数增强框架,其中通用生成函数(UGF)是一种被广泛应用于多状态系统可靠性分析及优化的运算工具[7],Su等[8] [9]将通用生成函数(UGF)方法应用于复杂系统可靠性分析,有效提升了性能评估的计算效率。马尔可夫过程在多状态系统可靠性建模中,是一种典型的随机建模工具,能够有效刻画系统性能随时间的随机演化规律[10] [11]。马尔可夫过程结合三态冲击分类(无效/有效/极端冲击)与概率量化方法,对系统性能降级过程进行刻画,有效避免了基线模型对可靠性的高估;最后,通过算例与仿真验证了所提模型的有效性,结果表明该方法能够更准确地评估复杂系统的可靠性,并为工程实践中负载共享策略优化与基础设施韧性提升提供了有益参考。本文所有符号如表1所示。
Table 1. Symbols table
表1. 符号说明表
|
系统中组件总数 |
|
有效冲击导致的组件降级指示变量,
,
|
|
系统正常工作所需最小总权重阈值 |
|
第i个组件性能等级演化的连续时间马尔可夫链生成矩阵 |
|
第i个组件的性能等级数量 |
|
第i个组件在时刻t的各性能等级状态概率向量 |
|
第i个组件的性能需求 |
|
第i个组件在初始时刻的各性能等级状态概率向量 |
|
第i个组件的性能需求 |
|
时刻t总线的传输损耗等级,
|
|
第i个组件需求等级的数目 |
|
总线传输损耗的连续时间马尔可夫链生成矩阵 |
|
第i个组件的权重 |
|
时刻t总线处于传输损耗等级l的概率 |
|
公共总线传输容量 |
|
系统在时刻t的可靠性函数 |
|
总线传输损耗最高等级 |
|
示性函数,事件成立为1,否则为0 |
|
总线传输损耗率,
|
|
由冲击引起的组件性能瞬时转移矩阵 |
|
随机冲击的到达率 |
|
时刻,组件根据遭受冲击类型更新后组件所处性能等级 |
|
无效冲击、有效冲击、极端冲击,
|
|
组件自然退化和冲击影响之后的组件状态矩阵 |
2. 系统模型与方法
2.1. 系统架构
本文研究的系统源于典型的加权k-out-of-n:G性能共享系统[3],加权k-out-of-n系统最早由Chen [12]等和Wu [13]等提出,后续Levitin [14]将其扩展到多状态情形。国内学者也在该方向做了探索,如赵莹等[15]针对多状态加权k-out-of-n系统提出了可靠性分析方法,为后续相关研究奠定了基础。系统由
个功能单元和一个公共总线组成。第
个组件的性能是一个多状态随机过程,有
个性能等级,记为
。性能等级随时间变化,且受随机冲击影响。每个组件有一个随机需求
,有
个需求等级。每个组件有对应的权重,记为
。公共总线用于在组件之间共享性能,总线的传输容量
是一个随机变量,有多个容量等级。总线在传输性能时会有损耗,传输损耗是一个多状态随机过程,受随机冲击影响。传输损耗率有
个等级,记为
,其中
代表没有损耗,
代表传输性能完全损耗。系统的工作条件为当工作组件的总权重不小于
时,系统正常工作。系统在随机冲击环境中运行,冲击的到达服从参数为
的泊松分布。每次冲击分为三种类型:无效冲击,概率为
;有效冲击,概率为
;极端冲击,概率为
。假设不考虑总线的自然退化。
2.2. 双重冲击影响机制
与已有研究仅考虑冲击对总线传输损耗的影响不同,本文提出的双重冲击影响机制同时考虑了冲击对组件性能和总线传输损耗的影响。
组件性能的退化由两部分组成。组件的性能等级随时间按连续时间马尔可夫过程转移;当受到有效冲击时,组件以可能的概率降低一个性能等级,当受到极端冲击时,组件以可能的概率直接失效,性能为0,组件受到瞬时冲击的状态转移服从离散马尔可夫过程。总线的传输损耗等级也由连续时间马尔可夫过程描述,冲击事件同时影响组件和总线,使得系统的可靠性更加复杂,但也更符合工程情况。下面的公式是组件受冲击影响后的性能等级变化公式:
上述性能等级转移公式基于如下工程假设:无效冲击时冲击能量不足,组件性能保持不变;有效冲击时冲击强度中等,组件性能以一定概率下降一级,反映疲劳、老化或轻微损伤;极端冲击时,冲击强度极大,组件 概率直接失效,性能降为0。该设定反映了组件在不同冲击强度下的典型演化规律,小扰动无影响,中等冲击逐步退化,极端冲击可能瞬时失效。
有效冲击的降级指示变量
,组件降级;
,组件不降级。极端冲击的失效指标变量
,组件失效;否则,不失效。
,否则取0。
2.3. 组件性能马尔可夫模型
每个组件的性能等级变化用一个连续时间马尔可夫链(CTMC)建模。设组件
有
个性能等级,状态转移矩阵为
。状态0是完全失效状态,不可修复,转移率矩阵
的维度
。
此外,当组件受到冲击时,其性能等级会瞬时改变。有效冲击,以概率
使组件性能降低一级;极端冲击,以概率
使组件性能降为0;无效冲击对组件性能无影响。因此,组件在时刻
的性能等级是时间连续退化和冲击瞬时退化的综合结果。一次冲击的瞬时冲击转移矩阵服从离散时间马尔可夫过程,记为
,
的维度
。
冲击以
的频率到达,将冲击瞬时转移矩阵
嵌入连续时间马尔可夫链
。自然退化和冲击合成后得到的组件状态转移矩阵公式为:
假设组件性能演化同时受到自然退化和随机冲击作用,自然退化表现为持续的性能下降,随机冲击以频率
达到引起瞬时状态跳变,二者独立且可叠加。其中I是标准单位矩阵,维度
。初始状态,组件处最优状态,
,
的维度是
。则任意时刻
,第
个组件处于每个性能状态水平的概率向量为
。
2.4. 总线损耗冲击模型
总线传输损耗等级
的动态演化遵循Wu等[3]建立的马尔可夫过程模型。当总线受到冲击时,可能出现三种情况:其一,无效冲击,概率为
,不改变当前损耗等级;其二,有效冲击以
触发损耗等级递增,
次有效冲击,总线的传输损耗等级逐步上升至
;其三,极端冲击,概率为
,直接将等级强制跳转至完全失效吸收态
。在该模型中,状态转移率分别为
(有效冲击致等级递增)和
(极端冲击致完全失效)。其概率分布解析解
可由生成矩阵
导出。
总线处于某个传输损失等级的概率向量为
。传输损耗等级
,每隔
次冲击范围内,传输损耗是一个等级,极端冲击直接到吸收态
。
最终,系统建模时通过将组件概率
与总线损耗概率
相结合,并嵌入UGF卷积框架中,从而实现对复杂环境下系统性能传输的刻画。
3. 可靠性分析
蒙特卡洛模拟是一种基于随机抽样的统计模拟方法。曾畅等[16]提出蒙特卡洛模拟法进行复杂系统可靠性仿真分析,得到的结构误差在允许范围内,且收敛效果较好。马尔可夫链蒙特卡洛(MCMC)是构建马尔可夫链,使其采样分布收敛到目标分布[17]的方法。为评估随机冲击对系统可靠性的影响,建立包含冲击事件模拟、失效概率计算、UGF系统集成及参数敏感性分析的完整框架。首先,通过泊松过程生成冲击序列(到达率
),依据概率分布
确定每次冲击类型,同步记录组件与总线状态演化:总线传输损耗等级按2.4节规则更新,组件性能则根据冲击类型动态调整——有效冲击以30%概率触发降级,极端冲击以50%概率导致失效。
基于蒙特卡洛方法量化组件损伤程度:设置
次独立实验,每次模拟
次冲击序列,统计组件失效次数并计算失效概率:
采用通用生成函数(UGF)技术集成系统可靠性,通用生成函数的运算过程可见Levitin [17]。将组件性能UGF与需求UGF卷积生成性能盈余–缺额联合分布,经总线传输损耗UGF修正可用性性能,再结合总线容量UGF与传输规则(规则1:缺额最小优先;规则2:权重最高优先)确定组件工作状态,最终根据
工作组件的总权重是否满足
判定系统可靠性。为识别关键影响因子,测试有效冲击概率与极端
冲击概率的敏感性,通过可靠性曲线斜率
量化参数敏感度。基于规则2传输的三个组件的可靠度算例见附录。
4. 实验配置与结果
4.1. 实验配置
本研究采用加权k-out-of-n:G系统作为基准测试平台,共4个子系统,子系统参数设置如表2所示,工作组件的总权重需大于等于3,组件的权重
,模拟高–中–低重要性层级。总线传输容量
,对应的概率分别为
,传输损耗等级为4级
。冲击到达率为
次/小时,平均50小时发生1次冲击。三种冲击概率分别为
。为突出冲击效应的上界影响,设定每次有效冲击均使总线损耗等级提升一级,极端冲击直接跳至最高等级
,最高至
,发生极端冲击,传输损耗直接跳至最高级
。该设定提供较为保守的可靠性估计,使双重冲击模型相较传统模型的系统性高估效应更加明显,从而验证结论的稳健性。对于性能共享的传输规则,本实验采用规则1即:优先满足缺陷小的组件,相同缺陷大小的组件满足权重高的组件。
Table 2. Subsystem parameter table
表2. 子系统参数表
子系统 |
性能表现值 |
传输速率矩阵 |
需求值 |
概率 |
1 |
|
|
|
|
2 |
|
|
|
|
3 |
|
|
|
|
4 |
|
|
|
|
采用蒙特卡洛模拟方法,通过1000次独立重复实验模拟0~300小时(步长50小时)的冲击序列演化过程。设置三种对比模型:传统模型忽略所有冲击影响作为理想参照,基线模型仅考虑总线冲击作用(组件不退化),双重冲击模型同时考虑组件与总线的协同退化效应。为量化冲击参数敏感性,系统测试了有效冲击概率
在
和极端冲击概率
在
区间的可靠性响应。冲击序列遵循泊松过程(平均冲击率
),有效冲击以30%概率触发组件降级,极端冲击以50%概率导致组件失效,总线传输损耗随冲击累积逐步恶化至最高等级(
)。组件权重分配为
,反映高权重组件1与低权重组件3和4的差异化重要性层级。本设置模拟了区域电网等关键基础设施在中等强度冲击环境下的运行情境,参考可靠性建模的一般方法。
4.2. 实验结果
4.2.1. 冲击累计效应分析
图1展示了单次随机冲击序列实现下,6次连续冲击(5次有效冲击 + 1次极端冲击)对4个组件性能的影响。初始状态下各组件均处于最高性能等级。模拟结果显示,高权重组件在有效冲击下呈现累积性能下降趋势,而低权重组件退化较缓慢。极端冲击可能导致高权重组件失效,而低权重组件受影响程度相对较小。整体来看,组件权重与冲击脆弱性呈正相关,有效冲击的累积效应和极端冲击共同影响系统性能下降速率。
Figure 1. Cumulative shock effect (component degradation trajectory)
图1. 冲击累计效应(组件退化轨迹)
单次实现的轨迹具有偶然性,为了剥离随机性,揭示内在规律,图2进一步统计了1000次蒙特卡洛模拟后各组件的平均失效概率,组件1:62.5%,组件2:65.6%,组件3:59.6%,组件4:61.6%。基准模型失效的概率都为0,因为假设组件不受冲击影响。由此可以看出,在大量重复实验中,冲击命中所有组件的概率是均等的,因此其长期统计失效概率趋于一致。这证明了模型的合理性,即冲击是全局和随机的,不预设歧视任何组件。
Figure 2. Component failure probability (1000 Monte Carlo Runs)
图2. 1000次蒙特卡洛模拟组件失效概率
4.2.2. 系统可靠性对比
Table 3. System reliability comparison table
表3. 系统可靠性对比表
指标 |
传统模型 |
基线模型 |
双重冲击模型 |
偏差(双重冲击vs传统) |
可靠性(t = 300 h) |
0.8918 |
0.8828 |
0.7216 |
−17.0% |
MTBF(h) |
269.3 |
268.6 |
251.1 |
−6.8% |
组件1失效概率 |
- |
- |
0.604 |
- |
组件2失效概率 |
- |
- |
0.652 |
- |
组件3失效概率 |
- |
- |
0.637 |
- |
组件4失效概率 |
- |
- |
0.595 |
- |
表3对比了三种模型下系统可靠性、平均故障间隔时间(MTBF)以及组件失效概率。其中,传统模型忽略了所有冲击影响,基线模型仅考虑总线冲击而组件性能不退化,因此两者下组件失效概率在理论上无定义,用“-”表示。
传统模型、基线模型与双重冲击模型的可靠性曲线在初始阶段几乎重合,但随时间推移差异逐渐扩大。在t = 100 h时,传统模型的可靠性为0.8813,基准模型的可靠性为0.8993,双重冲击模型的可靠性为0.8813,差异开始显现;在t = 300 h时,传统模型可靠性为0.8918,基准模型的可靠性为0.8828,而双重冲击模型仅为0.7216,差异达到18.26%。MTBF在双重冲击模型下为251.1 h,较传统模型269.3 h缩短18.3 h,约6.8%,较基线模型268.6 h缩短17.5h,约6.5%。因此,忽略组件冲击效用将高估系统性可靠性,偏差随时间积累而放大,反映出双重冲击模型对长期可靠性评估更为严苛和保守。图3量化了双重冲击模型相对于传统模型的可靠性偏差,最大偏差接近0.1612。传统模型略高于基准模型,双重冲击模型的可靠性随着时间明显下降。这表明在中长期运行中忽略不考虑冲击对组件的影响会极大地高估可靠度。
图3中5%差异线是一个用于比较的显著性阈值,表示两个系统可靠性曲线之间相差了5个百分点。当代表两个模型可靠性差异的那条线超过这条线时,意味着两个模型之间的性能差异已经超过5%。可以被认为是一个显著的差异,而不是微小的、可忽略的波动。
Figure 3. Baseline vs. Double-Shock model reliability
图3. 传统/基准与双重冲击模型可靠性对比
4.3. 参数敏感性分析
在图4中,通过调节有效冲击概率
和极端冲击概率
,量化了系统可靠性对冲击参数的敏感度。
随着有效冲击概率的增加,系统可靠性下降速度明显加快。具体来说,当有效冲击概率为0.35时,系统在300小时的可靠性从0.9下降至越0.67,而较低概率对应的可靠性曲线下降较为平缓。这表明系统对普通有效冲击较为敏感,可靠性受其影响显著。不同极端冲击概率下的可靠性曲线几乎重合,系统可靠性在整个观测时间内仅从0.9下降至0.85,表明在当前模型设定下,极端冲击对系统整体可靠性的影响较小。因此,系统可靠性主要受有效冲击概率的控制,而极端冲击概率在该参数范围内的影响有限。在系统设计优化和风险管理应该重点关注减少有效冲击造成的性能退化,而极端冲击的防护可作为次要考虑因素。
Figure 4. Shock probability sensitivity analysis
图4. 冲击概率参数敏感性分析
5. 结论与展望
本研究构建的双重冲击驱动“可靠性模型”以及“马尔可夫-UGF”分析框架,实证了在性能共享系统可靠性评估中忽略组件层次冲击会导致显著的系统性偏差。与传统/基准模型相比,新模型揭示了频繁的有效冲击累积效应(而非偶发的极端冲击)是导致系统可靠性下降的主导机制。主要结论如下:
1. 可靠性评估存在显著偏差:忽略组件冲击效应将导致可靠性评估出现显著偏差。在300小时点会高估系统可靠性18.26%,平均故障间隔时间高估6.5%,这意味着在中长期可靠性评估中,基准模型的系统维护周期和冗余配置必须重新评估。
2. 敏感性分析:从参数敏感性分析得出,系统可靠性对有效冲击概率的敏感度远高于极端冲击概率。这表明,频繁地中小冲击造成的累计性能退化,是系统可靠性下降的主要驱动力。
3. 防护策略优化:基于上述发现,在工程实践中,建议将防护重点从“防范极端冲击”调整为“抑制有效冲击的累计效应”,对高权重组件实施基于状态的预防性维护,从而更经济地提升系统整体韧性。
本文在模型中对冲击效应和性能退化采用了若干简化假设,如冲击强度固定、组件降级与失效概率为常量、总线退化过程为确定性等级跃迁等。这些处理有助于凸显双重冲击效应的整体作用,但也限制了模型对复杂工程环境的刻画能力。未来工作将考虑引入随机冲击强度分布,使组件的性能下降量和失效概率成为冲击强度的函数,并结合状态依赖性机制,即组件的当前性能水平会影响其在下一次冲击中的脆弱程度。此外,在总线退化模型中也将引入更多随机性,以更真实地反映冲击累计效应。
基金项目
国家自然科学基金项目(12361058、11861049);内蒙古自治区直属高校基本科研基金项目(JY20220083);内蒙古自然科学基金项目(2022MS01006)。
附录A
在本附录中,给出了一个包含三个组件的算例,用于展示本文提出的“冲击离散马尔可夫 + 自然退化CTMC嵌入生成矩阵”的构建方法。根据表A1中给定的组件性能等级、状态转移矩阵及冲击参数,可以得到各组件的自然退化生成矩阵与冲击瞬时转移矩阵。通过本文提出的嵌入方法,将冲击效应纳入组件的连续时间马尔可夫过程,形成合成生成矩阵。
Table A1. Parameter table of three subsystems
表A1. 三个子系统的参数表
组件 |
性能水平 |
状态转移矩阵 |
需求水平 |
概率 |
|
1 |
|
1 |
0.3 |
1 |
3 |
3 |
0.5 |
|
5 |
4 |
0.2 |
|
0 |
|
0 |
0.4 |
2 |
2 |
1 |
0.4 |
|
3 |
2 |
0.2 |
|
2 |
|
1 |
0.3 |
3 |
4 |
3 |
0.4 |
|
7 |
5 |
0.3 |
总线的容量水平为
,对应概率
,传输损失水平
,冲击到达率
,三种冲击对应的概率:
。有效冲击使得组件有0.3的概率降级,极端冲击使得组件有0.5的概率降级,无效冲击则无影响,
。权重为
,满足
,系统正常工作。
初始
,
,
,
。
所以冲击离散马尔可夫链
第二行是
。
,
,
。
所以
第三行是
,即
。根据
计算考虑组件自然退化和冲击影响的合成矩阵,得到两组概率分布。由
计算的出第
个组件在时刻
处于每个性能水平的概率分布。组件1性能(1,3,5)对应的概率为(0.0697,0.2078,0.7225);组件2性能(0,2,3)对应的概率为(0.0909,0.2150,0.6941);组件3性能(2,4,7)对应的概率为(0.0495,0.1945,0.7560)。
由前面2.4节可得总线传输损失转移矩阵为
,
得到各个传输损失水平对应的概率为
。
由于三组件算例的矩阵指数与UGF运算规模较大,本文采用python实现数值计算,运行结果表明:在t = 100时刻,所提模型下的系统可靠性为0.8782,而基准模型(未考虑组件冲击)为0.8961,差异约为2.0%。随着时间推移,可靠性差异进一步扩大。这验证了附录A所构建的冲击–退化嵌入矩阵方法能够正确反映组件层次冲击对系统可靠性的影响。
附录B
为了直观展示矩阵指数和通用生成函数(UGF)的计算步骤,本附录给出两个简化算例。该例子在规模上小于正文与附录A的算例,但能够清晰地展示本文方法的计算过程。
B.1 矩阵指数(仅演示CTMC)
一个组件的性能水平为(1,2,6),状态转移矩阵为
,计算转移矩阵
。使用特征分解法来计算。
,特征值分别为:
,对应的特征向量分别为:
,则
,计算逆矩阵
。则矩阵指数:
。
B.2 通用生成函数计算(两组件卷积演示)
设组件1和组件2各有两个性能水平,组件1性能水平为{4,6},对应概率分别为{0.2,0.8},需求水平为{2,4},对应概率分别为{0.3,0.7};组件2性能水平为{2,4},对应概率分别为{0.5,0.5},需求水平为{2,4},对应概率分别为{0.6,0.4}。权重分别为{1,2},
,总线容量水平为2,概率为1,传输损耗率为{0,0.1,1},对应的概率分别为{0.5,0.4,0.1}。
将组件1的性能和需求联合起来:
将组件2的性能和需求联合起来:
。
迭代:
初始状态
,
,
传输损耗率的通用生成函数为:
,考虑传输损失,
总线传输容量的通用生成函数为:
。
考虑传输容量后,记满足组件性能为1,不满足为0,,
又组件的权重分别为
,则
,
,因此,可靠性为0.9072。
NOTES
*通讯作者。