1. 引言
设备在运行过程中,随着时间的推移,受到内部劣化和外部环境等因素的影响,将会导致性能下降,甚至故障停机。为了保持设备的良好状态,检查和预防性维修是最为常见的手段之一,其中定期检查作为一种便捷的方法,在文献中被广泛讨论。Wang等(2018) [1] 通过对组件的定期检查和预防性维修,讨论组件选择、冗余组件数量和定期检查间隔长度的最优组合,在满足资源限制情况下最大化设备可靠性。Zhang等(2020) [2] 使用定期检查和预防性维修的更换策略,在退化阈值和可靠性水平两个约束条件下,建立了以期望成本率最小为目标的经济模型。Mendes等(2017) [3] 在考虑可用性、维修成本和生产损失的情况下,提出了最佳的检查间隔长度的确定方法。很多情况下,仅采用单一检查的方法有时并不能满足维修成本最小化的需求。Taghipour等(2012) [4] 针对设备同时存在能够被及时发现和不能够被及时发现两种类型的故障,使用定期检查和随机检查组合的方法,以检测可能的故障。Wang等(2020) [5] 研究了基于两种类型故障的定期检查模型,寻找最优检查间隔,使一个更新周期内的维修成本最小化。以上文献大都假定设备状态为二元独立性缺陷模式。实际生产中,设备的缺陷有时是一个包含异常(潜在故障)和故障的相关性缺陷过程。Cavalcante等(2021) [6] 研究了基于早期缺陷模式的两阶段检查和更换策略,构建了成本率和可用性的表达式,在已知时间内选定维修计划,使设备运行成本最低。在设备异常或故障是由缓慢劣化引起的情况下,延迟时间的维修模型可以有效降低运行成本。Liu等(2021) [7] 综合运用延迟时间模型和分级维修行为,通过最小化维修、故障和停机时间的成本,提出实现设备性能改进和维修成本节约的方法。Souza等(2020) [8] 提出一种基于延迟时间建模概念的设备检查策略,利用最优检查间隔使维修成本最小化。Berrade等(2017) [9] 分析了在发现缺陷后可能不会立即执行维修的情况下,构建了一个单组件设备的延迟时间维修模型。Tiwari等(2022) [10] 建立了基于延迟时间的预防性维修模型,以减少停机时间和维修活动成本,实现设备的可用性最大化。对于相关性缺陷模式,且缺陷不能及时发现,或即使发现也不能立即进行维修的设备,仅采取延迟检查和维修有时不一定是最优的解决方案。为此,本文将设备的运行周期分为名义检查和实际检查两个阶段,在名义检查阶段不实施检查,仅当故障停机时,在检查节点进行维修。在实际检查阶段实施定期检查,以及时发现异常或故障。同时,考虑了因维修能力和资源不足造成维修违约的可能。本文所提方法为已度过早期故障,缺陷不一定能及时发现,且存在维修违约现象的设备,提供了一种定期检查和视情维修的解决方案。
2. 问题描述及模型假设
2.1. 问题描述
针对户外设备如光伏或风力发电设备,因其本身固有的属性和外部环境影响,在运行过程中可能发生异常,异常状态不影响设备的运行。如果异常得不到及时维修,设备将发生故障停机。异常为隐性缺陷,需要通过检查才能发现。故障为显性缺陷,能够被立即发现。为了减少设备长时间处于异常或故障状态造成的损失,使用定期检查策略。由于设备在运行的早中期,发生异常和故障的概率较低,故将设备的运行周期划分为两个阶段。第一阶段
为名义检查阶段。在该阶段实施“故障维修策略”,第
次的检查实际不发生,即不实施检查。只是在设备发生故障时,在检查节点给予故障维修。第二阶段
为实际检查阶段,其中
。在该阶段实施“定期检查维修”策略,即在每个检查节点均实施检查,以及时发现异常或故障。由于某些特殊原因,例如维修能力不足或维修资源有限等,即使发现设备存在缺陷,维修行为仅在检查节点发生,其他时间段不采取任何处理。同时,存在维修不及时,即维修违约现象。随着运行时间的延长,设备发生异常和故障的可能会逐渐增大,因此,计划在第M个检查节点,根据设备是否停机,直接选择预防性维修或故障维修,称第M次检查为计划更新节点。将设备从开始运行到预防性维修或故障维修记作一个更新周期。本文的目的是寻找最佳的检查间隔s、实际检查节点K、计划更新节点M,使设备在一个更新周期内的成本率最小。
2.2. 模型假设
1) 设备的运行状态分为正常、异常、故障三种;
2) 异常须通过检查发现,故障能被及时发现。检查是完美的,即异常或故障均能被识别,不存在检查遗漏的情况发生;
3) 故障是在异常基础上发生,故障延迟时间和异常发生时间相互独立;
4) 维修行为只能定期进行,在其他时间段,任何维修行为都不可能发生;
5) 预防性维修和纠正性维修是完美的,均实现设备更新;
6) 在一个更新周期中最多只有一次维修违约,不可能连续发生两次及以上的违约事件;在更新节点处没有违约现象;
7) 检查和维修时间均可以忽略不记。
与本文研究相关的符号和含义设置,见表1。

Table 1. Symbols and meaning settings related to the research in this article
表1. 与本文研究相关的符号和含义设置
3. 模型构建
记设备发生异常的时刻为X,X为随机变量,假定其可靠度是两个威布尔分布
和
可靠度的加权和,权重为r,则X的可靠度函数为
。在设
备发生异常后,如果得不到及时修复,设备可能发生故障。从异常到故障之间的延迟时间为随机变量Y,Y与X独立,且服从尺度参数为
,形状参数为
的威布尔分布。
根据异常、故障、违约的发生情况,可以将设备的运行轨迹分为以下15种情形。为方便计算,引入函数
,其中
,
。其中:
表示情形c发生的概率函数;
表示情形c更新周期的时长函数;
表示情形c更新周期的异常运行时长函数;
表示情形c更新周期的故障停机时长函数;
表示情形c更新周期的成本函数。各种情形的函数
见表2。

Table 2. Functions for various scenarios ϕ l , c
表2. 各种情形的函数
简洁起见,在以下运行轨迹图中用“√”表示发生异常,“×”表示发生故障,“D”表示违约,“R”表示预防性或故障维修。
3.1.
没有异常
如果设备在
没有发生异常,则在Ks后可能发生以下几种情况。
1) Ks后没有异常
情形1:在
内没有发生异常,因此不存在故障或违约的可能性。情形1运行图见图1。
在情形1中函数
对应的均值为:
(1)
2) Ks后有异常
情形2:在
内发生异常,且没有违约。因此,在is进行预防性维修。此时,
。情形2运行图见图2。
在情形2中函数
对应的均值为:
(2)
情形3:在
内发生异常,由于异常发生在最后一个区间,在Ms按计划进行预防性维修,所以不存在违约。情形3运行图见图3。
在情形3中函数
对应的均值为:
(3)
情形4:在
内发生异常,在
发生违约。因此,在is进行预防性维修。此时,
。情形4运行图见图4。
在情形4中函数
对应的均值为:
(4)
3) Ks后既有异常又有故障
情形5:在
内先发生异常再故障且没有违约。因此,在is进行故障维修。此时,
。情形5运行图见图5。
在情形5中函数
对应的均值为:
(5)
情形6:在
内先发生异常再故障,由于故障发生在最后一个区间,不存在违约的可能。因此,在Ms进行故障维修。情形6运行图见图6。
在情形6中函数
对应的均值为:
(6)
情形7:在
内先发生异常再故障,且在
处违约。因此,在is进行故障维修。此时,
。情形7运行图见图7。
在情形7中函数
对应的均值为:
(7)
情形8:在
内发生异常,在is时发生违约,在
内发生故障,由于已违约一次,故不再出现二次违约。此时,
。情形8运行图见图8。
在情形8中函数
对应的均值为:
(8)
3.2.
仅有异常
如果设备在
仅发生异常,由于第一阶段不进行定期检查,异常状态将延续到Ks。根据Ks处是否存在违约,可以分以下几种情况。
1) 在Ks处没有违约,且没有出现故障
情形9:在
内发生异常,且在Ks没有违约,则进行预防性维修。此时,
。情形9运行图见图9。
在情形9中函数
对应的均值为:
(9)
2) Ks处违约,且没有故障
情形10:在
内发生异常,且在Ks处违约,则在
进行预防性维修。此时,
。情形10运行图见图10。
在情形10中函数
对应的均值为:
(10)
3) 在Ks处出现异常维修违约,且在
有故障
情形11:在
内发生异常,在Ks时出现违约。因此,计划在
进行异常更换。但在
又发生故障,故在
必须进行故障维修。此时,
。情形11运行图见图11。
在情形11中函数
对应的均值为:
(11)
3.3.
既有异常又有故障
如果设备在
先发生异常后又发生故障,由于故障能够被及时发现,根据故障后的检查点是否存在违约,可以分以下几种情况。
1) 异常和故障在同一区间,且没有违约
情形12:在
内先发生异常再发生故障,因此,在is进行故障维修。此时,
。情形12运行图见图12。
在情形12中函数
对应的均值为:
(12)
2) 异常和故障在同一区间,且存在违约
情形13:在
内先发生异常再发生故障,但在is出现违约没有进行维修,在
进行故障维修。此时,
。情形13运行图见图13。
在情形13中函数
对应的均值为:
(13)
3) 异常和故障在不同区间,且没有出现违约
情形14:在
内发生异常,
内发生故障。由于没有出现违约,因此,在is进行故障维修。此时,
。情形14运行图见图14。
在情形14中函数
对应的均值为:
(14)
4) 异常和故障在不同区间,且出现故障维修违约
情形15:在
内发生异常,
内发生故障。由于出现违约,因此,在
进行故障维修。此时,
。情形15运行图见图15。
在情形15中函数
对应的均值为:
(15)
4. 成本损失模型
表示情形c发生的概率,由于
,说明以上15种情形构成样本空间的一个划分。综合以上15种情形,一个更新周期内,设备在异常状态下平均运行的时长为
,故障停机的平均时长为
。因此,一个更新周期的总成本可以表示为:
(16)
一个更新周期的平均时长为:
(17)
故,在一个更新周期内的平均成本率为:
(18)
平均可用性为:
(19)
平均故障间隔时长为:
(20)
5. 数值分析
本文将发生异常时刻指定为威布尔分布的混合分布,异常发生后,如果得不到及时修复,设备将发生故障。从异常到故障之间的延迟时间服从威布尔分布。为了确定设备在单位运行时间内的最小损失值,先确定模型参数值,见表3。

Table 3. Model parameters and their values
表3. 模型参数及其取值
将表3中的参数值带入公式(18) (19) (20)进行数值计算,得到:
,
,
,
,
,
。
为了进一步分析模型参数变化对最佳决策方案的影响,作灵敏度分析如下。

Table 4. Impact of inspection interval on decision variables
表4. 检查间隔
对决策变量的影响
由表4知,不论是否发生违约,随着检查间隔时间s的增大,实际检查节点
都将快速减小,最后稳定于1。说明在s较大,例如
时,不延迟检查将会更优。另外,计划更新节点
随s的增大而减小。在
时,
,此时仅存在一次中期检查的机会。
s的不同取值对成本率、平均可用性及平均故障间隔时长的影响见图16~18。

Figure 16. Changes in cost rates corresponding to different s values
图16. 不同的s值对应的成本率的变化情况

Figure 17. Changes in average availability corresponding to different s values
图17. 不同的s值对应的平均可用性的变化情况

Figure 18. Changes in average time between failures corresponding to different s values
图18. 不同s值对应的平均故障间隔时长的变化情况
由图16知,当检查间隔时间s增大时,存在违约情况下的成本率高于无违约时的水平,且随着s增大,都将先减小,然后逐渐增大;由图17知,存在违约情况下的平均可用性低于无违约时的水平。在s较小时,平均可用性先小幅增大,然后随着s的增大而减小;由图18知,在s小于0.55或大于2时,存在违约情况下的平均故障间隔时长与无违约时的水平比较接近。在s取1.5时,两者差距较大。从整体走向看,随着s的增大,平均故障间隔时长呈现先增大后减小的趋势。

Table 5. Impact of default probability p on decision variables
表5. 违约概率p对决策变量的影响
由表5知,当发生违约的概率p增大时,实际检查节点
均取1,即不延迟检查将会更优;计划更新节点
有增大趋势;检查间隔时间
有减小趋势;成本率ECT先增大,然后减小;平均可用性
变化较小;平均故障间隔时长
先减小然后逐渐增大。

Table 6. Impact of failure rate parameters on α decision variables
表6. 故障率参数
对决策变量的影响
由表6知,当故障率参数
减小时,不论是否发生违约,实际检查节点
和计划更新节点
均有增大趋势;检查间隔时间
和平均故障间隔时长
均逐渐减小;成本率ECT逐渐增大;平均可用性
变化较小。

Figure 19. Changes in average availability and cost rate corresponding to different values of K and M when p = 0
图19. p = 0时,不同取值的K、M对应的平均可用性及成本率的变化情况

Figure 20. Changes in average availability and cost rate corresponding to different values of K and M when p = 0.2
图20. p = 0.2时,不同取值的K、M对应的平均可用性及成本率的变化情况
由图19和图20知,不论是否发生违约,实际检查节点K越大,平均可用性
越小;成本率ECT在实际检查节点K较小时差距较大,在K取3和4时,违约和不违约对应的成本率ECT非常接近。当计划更新节点M增大时,对于相同的实际检查节点K,平均可用性
有先增大然后减小的趋势;成本率ECT随M的增大先减小然后增大。

Figure 21. Changes in average availability corresponding to s and p with different values
图21. 不同取值的s、p对应的平均可用性的变化情况
由图21知,在违约概率p相等的情况下,检查间隔时间s越大,平均可用性
越小。在检查间隔时间s固定的情况下,违约概率p越大,平均可用性
越小。另外,在s取1时,随着违约概率p的增大,平均可用性
减小的速度比较缓慢。说明在s取较小的值时,违约概率对平均可用性的影响相对较小。
6. 总结
本文针对设备运行可能发生异常和故障两种相关性缺陷,利用混合威布尔分布分别描述发生异常时刻和异常到故障的延迟时间的规律。将设备运行周期划分为名义检查阶段和实际检查阶段两个区间,根据异常、故障、违约的发生情况,讨论了15种可能的设备运行轨迹。建立了单位时间的成本率函数模型,给出了成本率取最小值对应的决策变量。分析讨论了模型参数对决策变量和成本率、平均可用性、平均故障间隔时长的影响。研究表明:当检查间隔时间增大时,实际检查节点、计划更新节点都有减小趋势,成本率、平均可用性、平均故障间隔时长随检查间隔时间的ss增大均呈现非线性趋势;当违约概率增大时,实际检查节点基本不变,计划更新节点有增大趋势,检查间隔时间有减小趋势,成本率先增大然后减小,平均可用性变化较小,平均故障间隔时长先减小然后增大;当故障率参数减小时,实际检查节点和计划更新节点有增大趋势,检查间隔时间和平均故障间隔时长有减小趋势,成本率有增大趋势,平均可用性变化较小。