1. 引言
服务台故障在实际运营中难以完全避免,随着设备的长期运行与老化,服务台可能出现不同形式的故障,进而影响系统的服务能力与顾客体验。Avi和Naor [1]最早对可能发生故障的排队系统展开研究;Economou和Spyridoula [2]以带故障与维修期的M/M/1系统为对象,分别在完全可视与几乎可视情形下讨论顾客的均衡策略。Zhang等[3]研究了带故障的M/M/1重试排队系统在完全可视和几乎不可视下的均衡策略和社会最优策略。Chang等[4]分析了具有顾客反馈与不耐烦行为的不可靠服务台重试排队系统,并比较了截断经典重试策略与恒定重试策略的性能差异。Yu等[5]进一步考虑部分故障与完全故障并存的M/M/1排队系统,给出了完全可视下的阈值策略以及完全不可视下的均衡策略。黎锁平等[6]研究了带启动时间和可修服务台的M/M/1/N单重工作休假排队系统,系统中服务台在休假时低速服务可以发生故障且故障后立即维修,运用矩阵几何法求稳态概率向量,进而求解系统方差、可用度、吞吐率等指标,还通过数值与敏感性分析验证方法的有效性。Lv [7]研究了由1个不可靠服务台与1个维修率变化的服务人员组成的多机可修复系统。唐韵和刘力维[8]考虑了带N策略、不可靠服务台和恒定重试率的M/M/1重试排队系统,得不同服务台状态下顾客均衡到达率,借助粒子群算法求得社会最优到达率,并做系统性能敏感性分析。
在许多应用场景中,服务台启动与保持运行会产生显著成本,因此引入按需启动的控制策略具有现实意义,N策略是其中一类典型方法:当系统内顾客数达到阈值N时,服务台启动,否则保持停歇以节约成本。Yadin和Naor [9]首次将N策略引入排队系统。杨顺利和田乃硕[10]研究了带有N策略工作休假的M/M/1排队系统,提出休假期间服务员以较低速率服务顾客的机制。Guo和Li [11]在完全可视与完全不可视两种信息结构下,研究了带N策略的M/M/1模型中顾客策略行为与社会最优问题。Vijayashree和Pavithra [12]进一步考虑运营故障对带N策略系统的影响,假设服务台在故障期内仍以较低速率运行,并采用母函数法求得稳态概率。另一方面,考虑到即使处于休假状态,系统也常需以较低速率提供必要服务,Servi和Finn [13]提出工作休假概念,并将其引入排队模型;Tian等[14]对M/M/1工作休假模型进行求解并给出随机分解结果。Li等[15]研究了含多工作假期与假期中断的单服务台M/M/1队列,在系统状态信息给定下分析顾客基于线性奖励–成本的加入或犹豫行为。Ma等[16]研究了带伯努利休假中断的单服务台马尔可夫工作休假排队系统,分析了到达顾客在四种不同信息水平下的策略性加入行为。杨喜娟等[17]研究了带启动时间、工作休假与工作故障的M/M/1/N可修排队系统。Bouchentouf等[18]聚焦于有限源多服务台系统,结合故障,修复与止步行为,并引入多同步工作休假机制。Yang等[19]研究了含准备时间、工作休假与工作故障的M/M/1/N排队系统,构建二维连续时间马尔可夫链与有限状态QBD过程,分析了参数对吞吐量与队列长度等指标的影响,并建立了成本优化模型。然而,上述研究多将故障模式,N策略与服务台的工作模式分别或两两结合进行探讨。在高度复杂的现实服务场景中,这些因素往往同时存在且相互耦合,而对此进行综合建模与分析的文献尚不多见。为此,本文旨在构建一个集成上述多重机制的综合模型进行研究。
基于上述研究背景,本文面向一类具有显著启动成本且难以避免随机故障的单服务台服务系统,针对其运行中常见的需求波动与可靠性退化问题构建排队模型。高负荷时段顾客集中到达容易引发拥堵与弃办,而低负荷时段持续满负荷运行又会带来能耗与资源浪费,因此有必要引入按需启停与降速服务等运行控制机制。为此,本文在主服务台的服务过程中引入N策略与工作休假机制,以刻画服务设施在不同负荷下的启停切换与低速服务行为。同时,考虑服务设施可能出现两类异质故障,一类为不完全故障导致服务能力下降,另一类为完全故障导致服务中断,并假设两类故障具有差异化的发生与修复过程。此外,为提升系统在故障期间的可用性,进一步引入备用服务台以实现辅助或替代服务,刻画备用服务台在特定运行阶段可能发生的次级故障。在此基础上,本文构建二维连续时间马尔科夫链并分析其稳态与性能表现,进而为此类可调节、高可靠服务系统的运行控制与资源配置提供定量参考与决策依据。
2. 模型描述
本文的模型描述如下:
(1) 顾客到达过程服从参数为
的泊松过程。
(2) 系统配置一个主服务台,采用先到先服务(FCFS)规则逐个服务顾客。主服务台可进入工作休假状态且是不可靠的。当系统为空且主服务台完好时,系统进入工作休假状态,此时主服务台以低服务速率
提供服务
;当系统中顾客数达到阈值N时,主服务台切换至正常工作状态,服务速率提升至
。在正常工作状态下,主服务台可能发生两类故障:一类为不完全故障,使主服务台服务速率降为
;另一类为完全故障,此时主服务台停止提供服务。主服务台两类故障的发生间隔以及相应修理时间分别服从参数为
的指数分布。
(3) 当主服务台发生故障时,系统启用备用服务台。当主服务台发生不完全故障时,备用服务台以服务速率
进行辅助服务
,为了模拟备用服务台的性能局限性,假设其无法完全弥补主服务台的能力损失,即两者的合计服务速率满足
。当主服务台发生完全故障时,备用服务台以服务速率
单独提供服务。此外,在主服务台完全故障且由备用服务台独立服务期间,备用服务台可能发生不完全故障,其故障发生间隔与修理时间分别服从参数为
的指数分布;发生不完全故障后,备用服务台服务速率降为
。而当主服务台不完全故障,备用服务台辅助服务时由于系统强度较低,此时备用服务台认为是完全可靠的,不会发生故障。
(4) 系统配置1名修理工,服务台的维修仅在系统为空时进行。当主服务台与备用服务台同时需要维修时,修理工优先修复主服务台。若主服务台已修复而备用服务台仍处于故障状态,则系统暂停对外服务,直至备用服务台修复完成。
(5) 假设主服务台的两类故障不会同时发生。当系统中仅有1名顾客且两台服务台均可工作时,优先由主服务台提供服务。此外,顾客到达间隔、服务时间,以及服务台故障发生间隔与维修时间相互独立。
令
为系统处于时刻t的二维状态向量,其中
为系统中的顾客数,
为系统的运行状态,
的具体含义如下:
显然
是一个连续时间的马尔科夫过程,其状态空间为
3. 均衡止步策略及稳态概率分布
3.1. 均衡止步策略
设顾客单位时间等待成本为
,服务完成可获得收益
。完全可视意味着顾客可以知晓系统中的顾客数与服务台状态的全部信息,为保证系统被激活,当系统处于休假状态其收益一定为正。系统具有进队阈值
,当顾客到达时,若系统中的顾客数小于等于
则进入系统,否则离开。
令
为顾客平均逗留时间,此时该顾客处在系统的第
个位置且系统处于
状态。在完全可视下当所有顾客都遵循进队阈值
时,其原始状态空间
转变为有限状态空间
定理1 对于上述带有
策略、工作休假、备用服务台和两类故障的可修排队系统,在完全可视下有且仅有止步阈值
,
为下面方程的唯一解:
其中
为不超过
的最大整数。
证明:根据模型假设和全期望公式,平均逗留时间
的表达式如下所示
(1)
(2)
令
则
,迭代式(2)得
(3)
其中
在完全可视情形下,顾客进入系统时系统处于状态
,则该顾客接受服务后获得的收益为
,将式(3)代入得
若要证
有唯一解,只需证
是单调递增的:
(4)
由
。
若
,显然
单调递增;若
,则
单调递增,只需证
。
将
代入式(4)整理得
(5)
由
,可知
由此,便证明了
,即
是单调递增的,所以方程
一定存在唯一解,将其用
表示,方程两边同除
,移项得定理1,定理1证毕。
状态
为主服务台正常工作阶段,服务速率最高,顾客等待时间最短,因此该状态下的进队阈值
反映了系统在最佳服务条件下的顾客容纳上限。无论观察到系统处于何种状态,只要队列长度
,则进入系统的预期收益,顾客的最优选择是止步。为构建一个可分析的纯阈值均衡策略,我们假设当队列长度
时,顾客选择进入系统。这一假设在系统可靠性高,主服务台正常工作状态占主导的运营场景下是合理的。
3.2. 稳态概率分析
在完全可视情形下,当所有顾客都遵循进队阈值
时,系统的状态空间由
收缩为有限集合
,并且该连续时间的马尔可夫链是不可约的,因而稳态分布存在且唯一。记

令
表示系统的稳态分布向量。
定理2 对于上述带有
策略,工作休假且含两类故障的M/M/1 + 1复合排队系统,当所有顾客都遵循进队阈值
时,其稳态分布
满足如下显式表达式:



证明:在完全可视下当所有顾客都遵循进队阈值
时,系统的状态转移图为(图1):
Figure 1. State transition diagram of the system
图1. 系统状态转移图
由状态转移图可得平衡方程为:
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
由式(7)为常系数线性齐次差分方程,特征方程为
,特征值为
、
,所以
,其中
和
为待定系数。
将
代入式(8),得方程组
解得
所以
(25)
同理,式(10)特征方程为
特征值为
,
所以
(26)
将上式(26)代入式(9),得方程组
解得
所以
当
时,同理得到
由临界值
与式(13)得方程组
令
解得
、
,所以
(27)
将式(25)和(27)代入式(11)得到
(28)
其中
将式(28)代入(25)得
(29)
令
,式(16)变为
(30)
由式(14)和(15)得
将其代入式(30)得
(31)
将式(17)与(27)代入上式(31)整理得
其中

令
,迭代上式(31)得,当
时
(32)
由状态1的表达式(27)得
令

将
的表达式代入式(32),整理得
(33)
式(19)的特征方程为
,令
特征值为
设齐次方程对应的通解为
(34)
由于
所以设特解形式为
(35)
令
,将上式(35)与
通项(27)代入(19),得当
时
当
时
所以状态3的通解
,其表达式为
(36)
将式(27)、(36)代入方程(18)、(19)和(20),整理得线性方程组
(37)
其中
若系统稳定存在则
必存在且唯一,即系数矩阵非奇异:
将式(27)、(29)、(33)、(36)和式(24)代入(6)得
其中
类似于状态2,迭代式(22)得
(38)
令
,并将
和式(21)代入上式(38)得
(39)
迭代上式(39)得
(40)
由状态3的通项式(36)得
令


将
的表达式代入式(40),整理得
最后,利用正规化条件求解
:
令


将各状态稳态概率依次求和,整理得
3.3. 特例分析
为了验证本文所得稳态概率分布的正确性,并揭示模型与经典排队系统的内在联系,本节考虑退化情形:通过设置部分参数,可验证本文的稳态概率公式退化为经典的M/M/1/K模型。
不考虑设备故障以及N策略,
取K,状态空间收缩为
。为保证系统稳定假
设
,并将
代入定理2得
将
代入
的表达式得
所以
同理
代入到定理2
通项中得到
最后利用正规化条件求解
:
解得
整理得
由此可见,本文的解析结果在
的退化条件下,能够严格导出经典M/M/1/K队列的稳态概率分布,从而验证了理论推导的正确性与一般性。
4. 稳性能指标与数值分析
4.1. 性能指标
(1) 系统平均队长为
(2) 系统平均等待队长为
(3) 顾客有效排队率为
(4) 顾客平均逗留时间为
(5) 顾客平均等待时间为
(6) 令
分别为单位时间内维修主服务台不完全故障、完全故障和备用服务台的成本,
为主服务台和备用服务台单位时间使用成本,系统单位时间平均社会收益为
4.2. 数值分析
本节通过数值实验分析各参数对进队阈值,平均逗留时间和社会收益的影响。设置基准参数为
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
。在后续分析中,未提及变化的参数均视为定值。
4.2.1. 进队阈值
首先关注两类服务台工作速率和不完全故障率对进队阈值的影响,分别设置
、
;
、
,得到进队阈值的变化趋势图2和图3。如图2所示,随着
的逐渐增大,
逐渐减小。这与实际相符,
越大,系统处于主服务台高速率正常服务的概率越小,从而
逐渐减小。同时对于相同的
,主服务台正常服务速率
越大,
越大。从图3可知,
和
对
的影响非常小,因为主服务台发生完全故障的概率很小,所以备用服务台单独服务的机会较少,对进队阈值的影响小。
Figure 2. Variation of
with
and
图2.
随
和
的变化
Figure 3. Variation of
with
and
图3.
随
和
的变化
4.2.2. 平均逗留时间
平均逗留时间是评价系统的一个重要指标,参数设置与上两幅图的完全相同。从下图4图5可以看出随着故障率
和
的增大,
不断上升;同时对于同一故障率,服务台的速率越高,
越小。该现象符合实际情况,故障率越小,系统处于高服务率的时间越长,服务率越高,系统队长越短,逗留时间越小。
Figure 4. Variation of
with
and
图4.
随
和
的变化
Figure 5. Variation of
with
and
图5.
随
和
的变化
4.2.3. 社会收益
最后讨论各参数对收益
的影响。首先考虑
值的影响,设置
、
,分别设置
;
,得到图6和图7。从下图可知,随着
的增大,收益
都是先上升后下降,并且在两倍故障率下有右偏的倾向。这是因为当
值较小时,启动频繁成本高;当
较大时,系统激活困难,处于工作休假期的顾客增多,
下降。当系统容易发生故障时,适当增大
可以增大
,因此制定适当的
尤为重要。
Figure 6. Variation of
with
and
图6.
随
和
的变化
Figure 7. Variation of
under double failure rate
图7. 两倍故障率下
的变化
分别设置
,
;
,
;
,
。得到社会平均收益
随各服务率和故障率的变化趋势图8。随着故障率的上升,
逐渐减小,因为维修成本所占比重高。同时随着
的上升,
随
的增长趋势逐渐放缓,此时主服务台处于
服务速率的概率降低,
的边际收益下降;
则相反,当
上升时,系统更容易处于备用服务台辅助工作的状态上,因此
的边际收益递增。
随
变化平稳,对
敏感。
较小时,
随其近似二次下降;
进一步增大后下降趋缓,原因是:
上升会提高备用服务台不完全故障频率,增加系统低服务能力时长与拥塞、修理成本;后续故障状态概率的占比已较高,边际影响递减。
(a)
(b)
(c)
Figure 8. Variation of
with service rates and failure rates
图8.
随各服务率和故障率的变化
5. 仿真模拟
为验证本文推导的稳态性能指标与社会收益解析表达式的正确性,本节采用离散事件仿真对系统进行数值验证。到达率
在区间[0.6, 1.0]内以步长0.02均匀选取21个观测点,其余参数与上一节数值实验的基本参数完全相同。仿真配置如下表1:
Table 1. Simulation experiment configuration
表1. 仿真实验配置
预热期 |
统计期 |
重复试验次数 |
置信水平 |
|
|
100 |
95% |
首先运行
个仿真时钟单位以消除初始状态影响,并在稳定运行
个仿真时钟单位内统计平均等待队长
,平均等待时间
及单位时间平均社会收益
。对每个
取100次独立重复试验,计算仿真均值及其标准化残差z = (仿真值 − 解析值)/标准误的95%置信区间,得到如图9所示的两组对比图。
从图中可以看出:各性能指标的解析曲线与离散事件仿真均值高度一致,在标准化残差的21个观测点中只有
的一个点位于95%置信区间外,符合比例为95.2%。高于统计检验的置信水平,说明本文稳态性能指标与社会收益解析表达式得到了数值验证。需要指出的是,部分指标在局部区间呈现非单调变化,主要是因为均衡阈值策略
随到达率
的调整引起系统在不同服务模式之间的占比变化,从而改变有效服务能力与等待结构;
刚开始出现缓慢下降,以及高负荷区域等待成本快速上升导致
出现回落,均与上述机制一致。
(a)
(b)
(c)
(d)
(c)
(f)
Figure 9. Simulation and residual analysis
图9. 仿真模拟与残差分析
6. 结论
本文研究了带N策略、工作休假、主服务台两类故障及备用服务台的M/M/1 + 1排队系统。通过建立连续时间马尔可夫链模型,推导了稳态概率分布与顾客进队阈值策略,并计算了平均队长、逗留时间及社会收益等性能指标。数值实验表明:主服务台故障率与维修策略对系统性能影响显著,而合理设置N策略可优化社会收益,研究结果为具有时段性客流与故障异质性的服务系统提供了运行调控与资源配置的理论依据。
此外,本研究还将向以下两个方向拓展:一是在系统信息不可视的情况下,顾客仅能依据历史经验或平均状态进行决策,此时系统模型可扩展为拟生灭过程;二是可引入顾客优先级机制,如区分普通顾客与优先顾客,研究其在故障,休假等状态下的均衡行为,以进一步贴近实际运营中的灵活调度与收益管理需求。