1. 引言
随着电子商务在现代社会经济活动的蓬勃发展,其软件系统的可靠性已成为影响企业运营和用户体验的关键因素。特别是在“双十一”和“618”等大促场景下,电商平台面临的高并发访问、微服务架构复杂性以及第三方服务依赖等挑战,这使得系统可靠性保障变得尤为重要。
在电子商务软件系统的可靠性建模中,非齐次泊松过程软件可靠性模型展现出独特优势。杨剑锋[1]等通过引入用户行为和排错延迟因素构建的多版本可靠性增长模型,构建了更贴合电商软件开发与运维实践的可靠性增长模型。陈静[2]等对NHPP类开源软件模型的极大似然估计研究,为电商系统中广泛使用的开源组件可靠性评估提供了重要方法支持。张宗利[3]等基于哈肯模型的电子商务系统演化机制研究,从系统动力学角度揭示了电商系统可靠性的演化规律。夏显力[4]等对中国电子商务发展空间关联网络结构的研究,为分布式系统可靠性分析提供了地理维度参考。王超[5]等基于订单调度的B2C电子商务服务质量评价研究,为电商核心业务流程的可靠性保障提供了重要参考。王伟军[6]等开展的基于语言评价信息的移动电子商务服务质量评价研究,为移动端用户体验的可靠性度量提供了新方法。任晓霞[7]等对电子商务网站安全问题的系统性分析,为电商系统安全防护提供了基础框架。申社芳[8]等对电子商务环境下会计明细信息可靠性的研究,为电商系统数据可信度保障提供了理论依据。罗汉仙娃[9]等对大数据技术在电子商务发展中应用的研究,为基于数据驱动的可靠性优化提供了路径。陈莉霞[10]等对人工智能时代电子商务发展路径的分析,为智能技术在可靠性保障中的应用指明了方向。李泳佳[11]等对数字经济背景下跨境电子商务发展的研究,为跨域电商系统的可靠性挑战提供了新视角。
在技术创新与应用方面,Gomes [12]等为微服务架构下电商系统的监控与故障诊断提供了理论框架。Miao [13]等为保障电商系统质量提供了新的技术路径。Rani [14]等提出的云环境容错框架,为电商平台在动态资源调度中的可靠性保障提供了解决方案。Zhang [15]等基于大数据的电商客户满意度多模态预测研究,为理解用户满意度与系统可靠性的关联提供了新视角。Yang [16]等通过结构方程模型研究直播电商中消费者购买意愿的影响机制,为直播电商场景下的可靠性需求分析提供了参考。Hung-Cuong [17]等提出的基于S形函数的不完美调试NHPP模型,进一步完善了电商软件测试过程的可靠性建模。Wu [18]对社会网络中幂律分布的研究,为分析电商平台用户行为模式提供了理论依据。Çolak [19]等基于人工神经网络和贝叶斯正则化的可靠性研究,为复杂分布下的可靠性分析提供了新方法。Liao [20]等开发的基于深度学习的可修复系统可靠性参数估计框架,为处理电商系统复杂故障数据提供了有效工具。Junming [21]等对不完全数据下幂律过程的贝叶斯估计研究,为实际工程中的数据处理提供了方法论支持。Yang [22]基于伽马族分布的有限失效NHPP模型比较研究,为电商场景下的模型选择提供了参考。Tokuno [23]等将NHPP模型拓展到性能可靠性的随机评估,为电商系统综合评估提供了方法。Gaudoin [24]等提出的基于Duane图的拟合优度检验方法,为可靠性模型验证提供了实用工具。Rigdon [25]等建立的幂律过程理论基础,为分析电子商务可修复系统可靠性提供了数学基础。Kim [26]等和Seo [27]等通过实证研究对比NHPP模型预测能力,为电商系统可靠性模型选择提供了实践依据。
综上,这些研究共同构成了电子商务系统可靠性研究的完整体系,从经典可靠性模型到现代评估方法,从技术实现到商业价值,为电商系统的可靠性保障提供了坚实的理论支撑和实践指导。在电子商务系统可靠性建模的理论方法、参数估计和验证评估等方面已取得重要进展,同时也存在明显不足,例如,缺乏对电商系统可靠性的整体性分析框架,传统单一的可靠性模型在处理电子商务软件系统的故障数据时仍存在局限性,而且将其与幂律过程相结合建立电商特定场景的模型研究较少。
因此本文提出PLP_GO模型和PLP_DSS模型对电子商务软件系统故障的仿真数据进行可靠性建模分析,该模型融合了幂律模型和传统NHPP模型的优势,能够捕捉不同阶段或不同原因所引发的系统故障模式,从而提高电子商务系统运行的可靠性。本文的主要内容如下:第二节主要介绍基于混合幂律过程的可靠性模型;第三节针对生成的电子商务软件系统仿真故障数据集进行案例分析;第四节根据不同模型的实验结果得出结论。
2. 基于混合幂律过程的可靠性模型
2.1. 传统NHPP可靠性模型
NHPP是软件和可修复硬件系统可靠性建模中最重要、最广泛应用的数学典型框架,尤其适合于描述像电子商务系统这样在测试与上线后仍需要持续迭代和修复的开发过程。假设一个计数过程
(N(t)表示到t时刻为止发生的累计失效次数,在电子商务场景下,这些失效可表现为API接口调用失败、支付交易超时和页面服务不可用等影响用户体验的事件)被称为NHPP,通常需要满足的条件有:
(1)
(2) 过程具有独立增量
(3) 在任意时间区间
内发生一次失效的概率近似为
(4) N(t)服从泊松分布,其均值函数为
,其中
称为失效强度函数。
常见的传统NHPP可靠性模型有DSS (Delay S-Shaped)模型和GO (Goel-Okumoto)模型。其区别在于对缺陷发现与修复状态的不同假设,这也对应着电商软件系统不同的测试阶段或组件特性。对于DSS模型,其均值函数和失效强度函数分别为
(1)
(2)
其中,
表示电商软件系统的累积故障数,
表示电商软件系统的失效率,a表示电商软件系统的故障总量,b表示电商软件系统故障发现率,t表示电商软件系统开始测试的时间。
本文所采用的参数估计方法为极大似然估计,记
为n个观测到的电商系统失效数据对,
表示在时间段
电商系统上检测到的累计失效数,且
,可以得出分组数据下DSS模型的似然函数为
(3)
得到对数似然函数后分别对参数求导,可以得到分组数据下DSS模型的似然方程组
(4)
对于GO模型,其均值函数和失效强度函数分别为
(5)
(6)
其中,
表示电商软件系统的累积故障数,
表示电商软件系统的失效率,a表示电商软件系统的故障总量,b表示电商软件系统故障发现率,t表示电商软件系统开始测试的时间。
本文所采用的参数估计方法为极大似然估计,可以得出分组数据下GO模型的似然函数为
(7)
得到对数似然函数后分别对参数求导,可以得到分组数据下GO模型的似然方程组
(8)
2.2. 幂律过程
幂律过程被广泛应用于可靠性增长和软件可靠性的建模研究,基于幂律过程的可靠性模型(PLP)的均值函数和失效强度函数分别为
(9)
(10)
其中
为尺度参数,表示电商系统初始故障规模,
为形状参数,表示测试和修复活动对提升电商系统可靠性的效率。当
时,
随着时间递减,表明系统可靠性呈现增长趋势,说明电商系统的稳定性正在提升。对电子商务系统而言,其失效强度在特定时期(如“双十一”大促)可能出现增长,而PLP模型能够描述这种可靠性衰减的风险。更重要的是,电商系统中用户访问、资源消耗等指标常遵循幂律分布,这使得PLP模型在刻画其底层失效机理时具有优势。
由于电子商务软件系统的失效过程是复杂的,可能同时包含GO模型所描述的初期快速发现易暴露故障的特性,以及PLP模型所描述的由于系统演化、负载变化带来的时变失效强度特性。为构建一个更具一般性的模型,本文将PLP模型分别与GO模型和DSS模型的均值函数通过线性加权进行融合,提出了PLP_GO模型和PLP_DSS模型。PLP_GO模型的均值函数和失效强度函数分别为
(11)
(12)
本文所采用的参数估计方法为极大似然估计,可以得出分组数据下PLP_GO模型的似然函数为
(13)
PLP_DSS模型的均值函数和失效强度函数分别为
(14)
(15)
本文所采用的参数估计方法为极大似然估计,可以得出分组数据下PLP_DSS模型的似然函数为
(16)
通过极大似然法对参数进行估计之后,确定模型的权重
,该权重参数能够量化两种失效机制在特定电商系统或特定运维阶段中的相对重要性,并且使用模型对电子商务系统的故障数据进行拟合和预测,进而评估电子商务软件系统的可靠性。
3. 案例分析
为了比较不同模型之间的性能好坏,本文基于蒙特卡洛方法生成电子商务软件系统仿真故障数据对GO模型、DSS模型、PLP模型、PLP_DSS模型以及PLP_GO模型进行对比分析。
3.1. 数据来源
本文数据来源于电子商务软件系统仿真故障数据,按照电子商务软件系统故障发生时间以天为单位提取了90天的故障数据,如表1所示。
3.2. 模型评估
为了比较模型的性能,本文选用以下指标进行衡量:RMSE、MAE。
Table 1. E-commerce software system simulation data
表1. 电子商务软件系统仿真数据
时间/天 |
故障数 |
时间/天 |
故障数 |
时间/天 |
故障数 |
时间/天 |
故障数 |
时间/天 |
故障数 |
1 |
4 |
19 |
20 |
37 |
13 |
55 |
8 |
73 |
12 |
2 |
15 |
20 |
4 |
38 |
10 |
56 |
1 |
74 |
6 |
3 |
10 |
21 |
8 |
39 |
11 |
57 |
9 |
75 |
11 |
4 |
13 |
22 |
12 |
40 |
5 |
58 |
8 |
76 |
10 |
5 |
18 |
23 |
14 |
41 |
9 |
59 |
6 |
77 |
7 |
6 |
3 |
24 |
13 |
42 |
12 |
60 |
7 |
78 |
5 |
7 |
13 |
25 |
10 |
43 |
8 |
61 |
10 |
79 |
13 |
8 |
16 |
26 |
10 |
44 |
12 |
62 |
16 |
80 |
5 |
9 |
11 |
27 |
10 |
45 |
7 |
63 |
9 |
81 |
12 |
10 |
9 |
28 |
9 |
46 |
12 |
64 |
10 |
82 |
6 |
11 |
18 |
29 |
11 |
47 |
11 |
65 |
13 |
83 |
5 |
12 |
18 |
30 |
5 |
48 |
11 |
66 |
3 |
84 |
8 |
13 |
19 |
31 |
8 |
49 |
11 |
67 |
13 |
85 |
7 |
14 |
12 |
32 |
10 |
50 |
5 |
68 |
12 |
86 |
7 |
15 |
12 |
33 |
6 |
51 |
2 |
69 |
12 |
87 |
6 |
16 |
13 |
34 |
10 |
52 |
7 |
70 |
6 |
88 |
8 |
17 |
16 |
35 |
14 |
53 |
9 |
71 |
7 |
89 |
15 |
18 |
7 |
36 |
14 |
54 |
5 |
72 |
6 |
90 |
6 |
1) 均方根误差(Root Mean Squared Error, RMSE)
RMSE是衡量模型预测值与真实值之间平均误差幅度的指标,通过对“预测误差的平方和”取均值后再开平方得到。RMSE值越小,说明模型预测值与真实值的平均偏差越小,预测精度越高。其计算公式为:
(17)
其中,
(
,n 为样本数量)是第i个观测值,对应的预测值为
。
2) 平均绝对误差(Mean Absolute Error, MAE)
MAE是衡量模型预测值与真实值之间平均绝对偏差的指标,通过对“预测误差的绝对值”取均值得到。MAE值越小,模型预测的平均绝对偏差越小。其计算公式为:
(18)
其中,
(
,n 为样本数量)是第i个观测值,对应的预测值为
。
3.3. 参数估计结果及模型性能比较
本文基于生成的电子商务软件系统的仿真故障数据集,将数据集分为了训练集(1~70)和测试集(71~90),利用极大似然法求解了NHPP类软件可靠性增长模型和混合幂律模型的参数估计结果,模型的参数估计结果见表2。在GO模型中,b = 0.0073说明故障发生的过程较平缓;在DSS模型中,b = 0.0459说明故障发现率高于GO模型;在PLP模型中,β = 0.8930说明失效率随着时间呈现递减趋势,系统整体显示出可靠性增长,对于电子商务系统而言可能存在微服务依赖,在面临大流量冲击时,可能导致系统发生可靠性衰退;在PLP_GO模型中,ω = 0.6449说明对于该电商软件系统,其失效行为约有64.5%的特性可由PLP模型解释,约有35.5%的特性可由GO模型解释,在PLP_DSS模型中,ω = 0.8793说明对于该电商软件系统,其失效行为约有87.93%的特性可由PLP模型解释,约有12.07%的特性可由DSS模型解释,两种模型融合的结果均说明在混合幂律模型中PLP模型占主导地位。
Table 2. Model parameter estimation results
表2. 模型参数估计结果
模型 |
参数估计结果 |
|
a |
b |
α |
β |
ω |
GO |
1799.6360 |
0.0073 |
- |
- |
- |
DSS |
861.3668 |
0.0459 |
- |
- |
- |
PLP |
- |
- |
16.2230 |
0.8930 |
- |
PLP_DSS |
1000.1346 |
0.1126 |
10.1318 |
0.9900 |
0.8793 |
PLP_GO |
1000.2240 |
0.0184 |
10.6460 |
0.9900 |
0.6449 |
为了评估不同模型在电子商务系统中的可靠性,由表3中可以得出,DSS模型在训练集和测试集上的RMSE和MAE均高于其他模型,表明该模型假设与电商软件系统的失效数据拟合和预测能力较差。PLP_DSS模型在训练集上表现更好,但其在测试集上的表现远差于PLP_GO模型,这表明PLP_DSS可能存在一定的过拟合现象,导致对新数据的预测能力下降。而PLP_GO在训练和测试集上均保持了良好且一致的性能,表明通过对GO模型和PLP模型进行加权融合,能够更好地反映电子商务软件系统的故障数据,因此其拟合效果最优,表明利用PLP_GO模型对电子商务软件系统做可靠性预测效果较好。
Table 3. Model performance comparison
表3. 模型性能比较
模型 |
RMSE_train |
MAE_train |
RMSE_test |
MAE_test |
GO |
11.0087 |
8.6107 |
4.6212 |
3.5713 |
DSS |
33.7780 |
29.2623 |
50.7755 |
44.0852 |
PLP |
13.8500 |
12.7100 |
16.3800 |
14.9500 |
PLP_DSS |
7.2120 |
5.4434 |
5.2451 |
4.0281 |
PLP_GO |
8.8996 |
7.6790 |
2.4500 |
2.0757 |
3.4. 模型的拟合能力
由图1可以得到GO模型、DSS模型、PLP模型、PLP_DSS和PLP_GO模型的累计故障数拟合图。从图1中可以看出,PLP_GO模型的拟合效果优于其他模型,因为PLP_GO模型在训练集和测试集上的拟合值与实际观测值几乎全部重合,说明该模型的拟合效果最优并且该模型对数据的适应性也较强,因此它适用于评估电子商务软件系统故障数据的变化情况。
Figure 1. Fit of the cumulative number of failures for the models
图1. 模型的累计故障数拟合效果
3.5. 模型的泛化能力
为了评估不同模型的泛化能力,本文采用了k折交叉验证的方法,其中k = 4,将90天数据随机分为4个互斥的子集,进行4轮训练和测试,每轮使用不同的子集作为测试集,得到的结果见图2。从4折交叉验证结果来看,所有模型都展现了较好的预测能力,预测曲线与实际观测值较接近,其中PLP_GO模型在4个折叠中都最接近实际观测值,在不同的数据子集上表现一致,说明融合PLP模型和GO模型能够得到更好的预测效果。同时由图3中的模型性能指标可以得出,PLP_GO模型在4折交叉验证中的RMSE和MAE都最小,说明该模型的预测精度较高。
Figure 2. Prediction performance of various models in 4-fold cross-validation
图2. 各模型在4折交叉验证上的预测表现
Figure 3. Performance metrics comparison of various models in 4-fold cross-validation
图3. 各模型4折交叉验证性能指标比较
3.6. 模型的预测能力
相对误差(Relative Error, RE)是一种常见的模型预测有效性的判断标准,其计算公式为:
(19)
其中
为估计值,
为实际观测值。
为了比较不同模型的预测性能,本文将所用故障数据分为训练集和测试集,并且画出不同模型在训练集和测试集上的RE曲线对比图,见图4。RE曲线越接近于0,说明其模型预测性能越好。由图4可知:PLP_GO模型的RE值最接近于0,说明该模型的预测效果最佳。RE曲线的波动程度表明了对数据的拟合适应性,PLP模型和DSS模型在训练集上的RE值波动较大,说明在前期这两种模型对数据的拟合适应性较弱。而PLP_GO模型从初期开始,它的RE值在0的上下轻微波动,说明该模型对数据的拟合适应性强。
Figure 4. Comparative chart of relative error curves for models
图4. 模型的相对误差曲线对比图
4. 总结
本文将生成的电子商务软件系统仿真故障数据作为研究对象,提出了PLP_GO模型和PLP_DSS模型,并将该模型与GO模型、DSS模型和PLP模型进行比较。最后通过对比不同模型的拟合优度评估指标、拟合效果图以及相对误差曲线图,得出结论:本文所提出的PLP_GO模型的拟合效果最优,并且对数据的拟合适应性较强,因此利用该模型对电子商务软件系统进行可靠性分析具有较好的参考性。
同时,本文所提出的PLP_GO模型通过对电商系统故障数据进行高精度拟合,可以更准确地预测未来故障发生趋势与时间点,这能够帮助运维工程师提前识别系统潜在的可靠性风险。例如,该模型可以预测在“618”或“双十一”等大促下系统可能出现的故障高峰期,从而指导运维人员提前进行资源扩容、性能调优或部署热修复补丁。此外,该模型还可用于优化系统的维护策略,如确定最佳的软件更新周期或制定预防性维护计划,从而有效减少计划外停机时间,保障电子商务平台的连续稳定运行,提升用户体验并降低运营成本。因此,该模型不仅为可靠性评估提供了理论工具,也为实际的软件系统运维管理提供了科学的决策支持。
基金项目
国家自然科学基金项目(72361008),广西自然科学基金面上项目(2025GXNSFAA069686),贵州省科技计划项目(编号:黔科合支撑[2023]一般268)。
NOTES
*通讯作者。