基于Markov理论的多维系统可靠性评价体系构建

doi:10.12677/HJWC.2023.136008

期刊菜单

基于Markov理论的多维系统可靠性评价体系构建
The Multidimensional System Reliability Evaluation Framework Based on Markov Theory

DOI: 10.12677/HJWC.2023.136008, PDF, HTML, XML,
作者: 于宝珠, 车果果：沈阳理工大学信息科学与工程学院，辽宁沈阳
关键词: 无线通信系统；可靠性；Markov理论；Wireless Communication Systems； Reliability； Markov Theory

摘要: 无线通信系统可靠性是衡量网络性能的重要指标体系，可用于指导用户的个性化网络定制，提升用户的网络体验。由于新一代通信系统中海量数据业务对网络的要求呈现强异质性，网络需要更为全面多元的可靠性评估体系，用以指导网络优化、资源配置。而无线信道的随机性、用户数据生成的偶发性，使得系统可靠性成为一个随机变量。本文基于Markov理论，为无线通信系统构建多维度的可靠性评价体系，将用户数据到达过程、无线链路服务过程分别建模为泊松和指数分布，利用生灭过程描述多信道可用性的随机变化，提出系统丢包率、两次故障发生的平均时间间隔(MTBF)、平均故障时间(MDT)、平均正常运行时间(MUT)四个可靠性评估指标，并分别推导了对应的闭式表达。

Abstract: The reliability of wireless communication systems is an important index to measure network per-formance, which can be used to guide personalized network customization for terminals and im-prove network experience. As the requirements of massive data services in the next generation communication systems show strong heterogeneity, a more comprehensive and diversified reliabil-ity evaluation system is needed to guide network optimization and resource allocation. The ran-domness of wireless channel and the serendipitous generation of user data make system reliability a random variable. In this paper, Markov theory is adopted to construct a multidimensional evalua-tion framework of system reliability. The arrival process of data and the service process of wireless links are modeled as poisson distribution and exponential distribution respectively. The birth and death process is used to describe the randomness of multi-channel availability. The system packet loss rate, the mean time between two failures (MTBF), the mean downtime (MDT), and the mean uptime (MUT) are proposed to evaluate the wireless system reliability. Meanwhile, the correspond-ing closed-forms are derived.

文章引用：于宝珠, 车果果. 基于Markov理论的多维系统可靠性评价体系构建[J]. 无线通信, 2023, 13(6): 75-81. https://doi.org/10.12677/HJWC.2023.136008

1. 引言

无线通信系统中，多信道并联备份传输机制可允许多用户随机选择任意空闲信道接入网络，是提升频谱利用率以及用户接入概率的有效策略 [1] 。但无线信道的不确定性又可能会使系统承受故障的风险，且由于遮挡或信号衰落导致的信道不可用是随机的，在数学上，可被建模成为一个随机过程。在理论上，常利用可用性和可靠性评估系统是否可以满足用户需求。可用性指的是系统可以允许用户接入，可靠性被定义为在给定的时间间隔内，系统组件在规定的条件下可以执行所需功能的概率 [2] 。多信道系统具有信道高利用率的特点，即用户可随机接入空闲可用的信道。多信道系统的可靠性相对而言更为复杂，而可靠性理论是建立在数学方法发展的基础上，用来评估技术组件、设备和系统的可靠性、可维护性、可用性以及安全性的方法 [3] 。文献 [2] 中利用现有无线通信网络的信道可靠性理论的定义和方法确定以时间为基础的可靠性衡量参数。T. Hößler团队以第五代通信系统的高可靠低时延为背景，基于马尔可夫理论和可靠性理论，讨论了以时间为基础的可衡量可靠性的参数，并提出可靠性与可用性之间的关系。在之前的研究中可靠性与可用性并没有明确的区分，而现在的研究表明系统的稳态可用性与时间无关，但可靠性却随着时间的变化而变化，所以可靠性与稳态可用性之间不是可以相互替换的关系。可靠性理论中提出的以时间为基础的可靠性KPI目前还没有被明确应用至无线通信网络中。

M. Simsek和G. P. Fettweis等人在2018年发表的文章中以无线通信网络中具有瑞利衰落的多链路系统为基础，将无线通信系统建模为可修复系统 [4] 。用户数据的产生具有随机性和偶发性 [5] ，在多信道备份传输系统中，如何从理论上分析系统的可用性和可靠性，评估系统的整体性能，以此指导无线通信系统的优化是工业界和学术界都在探讨的问题，现有的可靠性理论可以给与一定的指导 [6] 。然而，新一代通信系统中，海量业务的爆发式涌现对网络架构提出了更高的要求。不同用户产生的业务流具有异质的统计特性，且由于业务的本质属性，业务流对网络的传输要求是强异质的，例如：语音业务对网络时延抖动的要求较高；视频业务需要网络保证延迟；5G网络中的高可靠低时延通信类业务需要网络提供严苛的统计型时延服务质量要求 [7] 。为了满足不同业务对网络的个性化需求，对网络的可靠性评估需要从多个角度进行，即网络可靠性评估体系中需要包括衡量可靠性的不同视角。Markov这一随机过程是建模网络传输行为的典型工具 [8] [9] 。其中Markov生灭过程可以用于建模用户数据到达和链路服务均具有随机性时，系统负载的变化情况。基于Markov理论可实现对生灭过程的解析。因此本文利用马尔可夫理论分析无线通信网络多信道系统的可靠性，将多信道系统建模为Markov链，求解系统丢包率、两次故障发生的平均时间间隔(MTBF)、平均故障时间(MDT)、平均正常运行时间(MUT)四个可靠性参数的闭式表达，为系统设计提供理论指导。

2. 多信道系统模型

在本文中，设定当某一信道被用户占用，即其他用户无法传输数据包，则该信道处于不可用状态；否则该信道处于可用状态。当用户解除占用时，信道立即从不可用状态变为可用状态。在无线通信网络多信道系统中，目标用户可以随机接入任意一个空闲信道。多信道系统中总信道数为n，若至少有1条信道可用，则此时目标用户可以接入系统。

将[0, t]时间间隔内系统中可用信道数的变化建模为一个有限离散状态空间的马尔可夫模型。j表示可用信道的数量。马尔可夫链如图1所示。

Figure 1. The Markov chain

图1. 马尔科夫链

其中λ和μ代表当前时隙用户的到达率和信道的修复率。考虑到瑞利衰落信号可以通过电平交叉分析来确定，并且用户是在移动过程中接入系统。根据文献 [2] 所述，可推导λ和μ为：

$λ = \sqrt{\frac{2 π}{F}} f_{D}$ (1a)

$μ = \frac{\sqrt{\frac{2 π}{F}} f_{D}}{\exp (\frac{1}{F}) - 1}$ (1b)

式中F表示平均接收功率的衰落余量，是平均接收功率与最小功率的比值。f_D表示最大多普勒频率。由于本文所研究的衰落过程是非时变的，所以假设λ和μ是一个常数。并且我们不考虑多个信道同时释放或同时占用的情况。

3. 多维度可靠性评价体系

3.1. 系统丢包率

丢包率定义为在限定时间内，没有成功传输的数据包数量占总数据包数量的百分比。造成丢包的原因有三个，分别是：传输错误，系统排队时延违反和主动丢包 [10] 。因此将丢包率表示为PLR_n，可以推导为：

$P L R_{n} = 1 - A_{n} = \sum_{j \in D} P_{j}$ (2)

结合公式(1)，重新整理得到：

$P L R_{n} = P_{0} = {(\frac{ρ}{ρ + 1})}^{n} = {(\frac{\exp (\frac{1}{F}) - 1}{\exp (\frac{1}{F})})}^{n} = {(1 - \exp (- \frac{1}{F}))}^{n}$ (3)

公式(3)的推导基于多条信道的独立性假设，丢包率于平均接收功率的衰落余量有关。

3.2. 两次故障发生的平均时间间隔(MTBF)

系统两次故障发生之间的平均时间(MTBF)指的是从上一次故障开始到下一次故障开始的平均时间 [10] 。根据文献 [10] ，可们得到无线通信网络中有n条信道时相邻两次发生故障之间的平均时间MTBF_n为：

$M T B F_{n} = \frac{1}{w_{n}} = \frac{1}{λ P_{1}} = \frac{{(λ + μ)}^{n}}{n μ λ^{n}}$ (4)

从公式(4)中可得两次发生故障的平均时间与用户的到达和信道的修复率、多信道系统中可用信道的总数有关。由于用户到达率和信道的可修复率受到平均接收功率的衰落余量、最大多普勒频移的影响，将式(1)带入(4)，可以整理得到MTBF_n的关于接收功率的衰落余量、最大多普勒频移的表达式：

$M T B F_{n} = \frac{\exp (\frac{1}{F}) - 1}{n f_{D} \sqrt{\frac{2 π}{F}} {(1 - \exp (- \frac{1}{F}))}^{n}}$ (5)

3.3. 平均故障时间(MDT)

平均故障时间(MDT)定义为系统从故障发生进入不可用状态到系统修复进入可用状态的平均持续时间 [10] 。因为MDT_n表示的是系统的平均故障时间，也就是系统发生故障后修复到可用状态的时间，所以只与故障修复率有关而与用户的到达率无关。因此MDT的影响因子只有信道可修复率μ。利用式(1)可推导得到MDT_n的表达式：

$M D T_{n} = \frac{\exp (\frac{1}{F}) - 1}{n f_{D} \sqrt{\frac{2 π}{F}}}$ (6)

3.4. 平均正常运行时间(MUT)

平均正常运行时间(MUT)表示系统从正常运行到下一次故障发生时的平均运行时间。因此根据所述的两次故障发生之间的平均时间(MTBF)和平均故障时间(MUT)的定义，两次故障发生之间的平均时间包括平均正常运行时间和平均故障时间，根据定义可得：

$M T B F_{n} = M U T_{n} + M D T_{n}$ (7)

所以在已知MTBF_n和MDT_n的表达式的基础上，推算出MUT_n的表达式为：

$\begin{matrix} M U T_{n} = M T B F_{n} - M D T_{n} \\ = \frac{{(λ + μ)}^{n}}{n μ λ^{n}} - \frac{1}{n μ} \end{matrix}$ (8)

同理结合(1)，可以得到平均正常运行时间关于平均接收功率的衰落余量、最大多普勒频移的表达式。即具有n条信道的无线通信网络系统的平均正常运行时间MDT_n可以推导为：

$M U T_{n} = \frac{\exp (\frac{1}{F}) - 1}{n f_{D} \sqrt{\frac{2 π}{F}}} (\frac{1}{{(1 - \exp (- \frac{1}{F}))}^{n}} - 1)$ (9)

4. 仿真结果及分析

Figure 2. The PLR with F

图2. 丢包率随F的变化

Figure 3. The MUT with F

图3. MUT随F的变化

图2是在六种信道( $n = 1, 2, \dots, 6$ )的情况下，利用马尔可夫模型推导出的系统中丢包率的仿真图。

通过仿真分析可以看出系统的丢包率随着衰落余量F的增加而降低，丢包率的降低就意味着系统的可靠性就越高，系统就越可靠。不仅是衰落余量的影响，多信道系统中的信道总数n值的改变对于系统的丢包率也有影响，n越大，系统的丢包率越低，也就是说系统越可靠。

在六种信道( $n = 1, 2, \dots, 6$ )的情况下，系统中平均正常运行时间(MUT)的仿真图如图3所示。

在给定最大多普勒频率f_D时，系统的平均正常运行事件随着衰落余量F的增大而增大。除此之外，在给定的f_D情况下，对于多信道系统中不同的信道数，n值越大，MUT_n就越大，并且对于更大的衰落余量F的值，MUT_n曲线之间的间隔不断增大，也可以说是不同信道数的系统平均运行时间在更大的衰落余量F条件下的差异会逐渐明显。

在六种信道( $n = 1, 2, \dots, 6$ )的情况下，系统中平均故障时间(MDT)的仿真图如图4所示。

Figure 4. The MDT with F

图4. MDT随F的变化

在给定的最大多普勒频率f_D的情况下，MDT_n是F的减函数，也就是对于越大的衰落余量F值，平均故障时间MDT_n就越小。在总信道数的影响方面，系统中的信道数越多，n值越大，意味着更短的平均故障时间MDT_n。与MUT不同的是，MDT在不同信道数n之间的曲线的间隙不随着衰落余量F的改变而改变，始终都保持恒定，这也可以知道衰落余量的改变并不会让不同信道数的系统的平均故障时间的差异变化，因为这种差异只来自信道数n。

5. 结论

本文基于Markov理论，为多信道并行备份传输无线通信系统构建了多维度的可靠性分析框架，可靠性指标包括系统丢包率，两次故障发生的平均时间间隔(MTBF)、平均故障时间(MDT)、平均正常运行时间(MUT)等等，可以实现从不同角度对多信道系统可靠性进行衡量，仿真分析呈现了影响无线通信系统可靠性的多重因素，对通信系统优化具有重要的指导意义。

参考文献

[1]	Mahmood, N.H., Karimi, A., Berardinelli, G., et al. (2019) On the Resource Utilization of Multi-Connectivity Transmission for URLLC Services in 5G New Radio. 2019 IEEE Wireless Communications and Networking Conference Workshop (WCNCW), Marrakech, 15-18 April 2019, 1-6. https://doi.org/10.1109/WCNCW.2019.8902865
[2]	Hößler, T., Scheuvens, L., Franchi, N., Simsek M. and Fettweis, G.P. (2017) Applying Reliability Theory for Future Wireless Communication Networks. 2017 IEEE 28th Annual International Symposium on Personal, Indoor, and Mobile Radio Communications (PIMRC), Montreal, 8-13 October 2017, 1-7. https://doi.org/10.1109/PIMRC.2017.8292773
[3]	Sun, G., Li, C., Ma, Y., et al. (2023) End-to-End TCP Congestion Control as a Classification Problem. IEEE Transactions on Reliability, 72, 384-394. https://doi.org/10.1109/TR.2022.3172335
[4]	Hößler, T., Simsek, M. and Fettweis, G.P. (2018) Mission Reliability for URLLC in Wireless Networks. IEEE Communications Letters, 22, 2350-2353. https://doi.org/10.1109/LCOMM.2018.2868956
[5]	Fantacci, R. and Picano, B. (2021) End-to-End Delay Bound for WirelessuVR Services over 6G Terahertz Communications. IEEE Internet of Things Journal, 8, 17090-17099. https://doi.org/10.1109/JIOT.2021.3077497
[6]	Li, S., Chi, X.F. and Yu, B.Z. (2022) An Improved Particle Swarm Op-timization Algorithm for the Reliability-Re- dundancy Allocation Problem with Global Reliability. Reliability Engineering & System Safety, 225, Article 108604. https://doi.org/10.1016/j.ress.2022.108604
[7]	Yu, B., Chi, X., Li, S., Liu, X. and Ren, S. (2024) Martingale-Based URLLC Slice Customization for the Provisioning of Reliability Regard to End-to-End Latency. IEEE Internet of Things Journal, 11, 1311-1327. https://doi.org/10.1109/JIOT.2023.3290047
[8]	Fantacci, R., Pecorella, T., Picano, B. and Pierucci, L. (2021) Martingale Theory Application to the Delay Analysis of a Multi-Hop Aloha NOMA Scheme in Edge Computing Systems. IEEE/ACM Transactions on Networking, 29, 2834- 2842. https://doi.org/10.1109/TNET.2021.3103424
[9]	She, C., Yang, C. and Quek, T.Q.S. (2017) Radio Resource Management for Ultra-Reliable and Low-Latency Communications. IEEE Communica-tions Magazine, 55, 72-78. https://doi.org/10.1109/MCOM.2017.1601092
[10]	Hößler, T., Simsek, M. and Fettweis, G.P. (2018) Joint Analysis of Channel Availability and Time-Based Reliability Metrics for Wireless URLLC. 2018 IEEE Global Communications Conference (GLOBECOM), Abu Dhabi, 9-13 December 2018, 206-212. https://doi.org/10.1109/GLOCOM.2018.8647801

友情链接