1. 引言
随着互联网技术的飞速发展,电子商务作为一种新型的商务模式,在全球范围内得到了广泛的应用与普及。电子商务通过网络通信技术实现物品交换和资金转账,极大地改变了传统的商业模式和消费习惯,成为推动全球经济发展的重要力量。在中国,电子商务经历了从无到有、从小到大的发展历程,逐渐形成了庞大的市场规模和完善的产业链。据调查,我国电子商务用户数量持续增长,交易规模逐年扩大,电子商务已成为推动中国经济转型升级的重要引擎。鉴于电子商务在全球经济中的重要地位,深入研究电子商务的系统可靠性具有重要的现实意义和理论价值。
在信息技术与物理世界深度融合的今天,信息物理系统(cyber physical system, CPS)作为连接两者的重要桥梁,在电子商务领域发挥着日益重要的作用。电子商务的顺畅运行不仅依赖于网络通信技术,还高度依赖于CPS的可靠性,这一特性直接关系到电子商务的交易效率、客户体验以及整体竞争力。通过确保系统的稳定性、数据准确性和安全性,可以降低交易失败、数据丢失和安全漏洞的风险,从而提升电子商务平台的整体性能和用户信任。因此,在电子商务的发展过程中,应高度重视CPS的可靠性建设,不断提升系统的稳定性和安全性,为电子商务的可持续发展提供有力保障。
CPS已成为现代科技和工业应用的核心,作为智能系统,CPS将通信、控制和计算深度融合在一起[1]-[3]。然而,CPS的复杂性和动态特性使其面临着极高的可靠性要求。研究CPS的可靠性变得尤为重要,因为系统的稳定性和安全性直接影响到其性能、用户安全以及经济效益。确保CPS在各种运行条件下的可靠性,不仅能够提升系统的整体效率,还能预防潜在的故障和风险,保障相关应用的正常运行。CPS的可靠性研究不仅涵盖了对系统组件和网络的全面评估,还包括对系统在极端条件下表现的预测和分析。这项研究可以帮助识别潜在的薄弱环节,制定有效的故障预防和修复策略,减少系统停机时间,提高生产效率。此外,CPS对异构工程系统的关键基础设施具有全新的计算、通信和控制能力,系统的可靠性直接关联到公共安全和社会稳定。因此,深入研究CPS的可靠性不仅具有技术层面的重要性,更具有社会和经济层面的广泛意义。
现有的大量文献主要围绕CPS的网络攻击和防御方法,然而,关注CPS可靠性建模的文献很少。从具有不确定性攻击的角度出发,Wang [4]等通过引入IT2 T-S模糊模型,研究了基于观测器的具有不确定性和混合攻击的多通道信息物理系统的模型预测控制问题;Ge [5]等对CPS的安全问题进行研究,通过对DoS、信息泄露、隐身攻击和重放攻击等多源网络攻击过程的分析,建立了具有不确定性的统一系统模型。从CPS防御策略的角度出发,Lu [6]等为了量化攻击损失并选择最优策略防御网络攻击,提出了一种基于相互依存网络理论的综合信息物理损失计算模型;Bo [7]等针对虚假数据注入攻击的安全威胁,从多时空视角对电力CPS干扰的主动防御方法进行了总结和分析。从检测CPS中不同攻击的角度出发,Li [8]等考虑了CPS中远程状态估计的安全问题,提出一种具有不同触发阈值的随机检测机制;Zhang [9]等采用一种移动窗口子空间辨识方法,构造了一种线性离散时变CPS模型;Ahmed [10]等提出了一种实用的物理水印方法来检测CPS中的重放攻击。
为了进一步建模和定量评估对CPS至关重要的可靠性,Babiceanu [11]等提出了面向集成制造物理网络世界的可信度解决方案,使用弹性系统框架对网络安全组件进行建模。Alemayehu [12]等采用马尔可夫链对CPS的组件可靠性进行建模和分析,并提出相应的恢复技术,以保证系统的高可靠性,从而保证系统运行的连续性。Lalropuia [13]等通过建立半马尔可夫模型并得到可靠性、可用性和保密性等不同的可靠性度量,解决了系统的可靠性问题。Lu [14]等结合高斯过程和蒙特卡罗仿真,设计了一种考虑依赖性的新学习策略,并在此基础上提出了一种新的自适应代理模型方法。Dui [15]等通过多目标粒子群优化算法,使系统可靠性最大化,维护成本最小化,进一步提高智能家居系统的可靠性。Wang [16]等提出了一个由可信度本体和循证方法支撑的NAMAC可信度建模和评估框架。Wang [17]等重点研究了基于Wiener过程退化数据的随机漂移参数的准确可靠性推断,提出了一个精确程序来检验是否存在群体异质性。Xing [18]等提出了一种新的行为驱动的可靠性建模方法,用于分析基于WSN的复杂智能系统的可靠性。
综上所述,关于利用非参数模型对CPS进行可靠性建模的文献较少。本文通过非参数模型中的局部多项式回归对CPS的累计失效数进行建模研究。其余部分主要内容如下:第二节主要介绍基于局部多项式回归的CPS可靠性模型;第三节针对CPS的真实失效数据集进行案例分析;第四节根据分析结果得出结论。
2. 基于局部多项式回归的CPS可靠性模型
2.1. 非参数回归模型
非参数回归[19] [20]用于在参数形式未知的情况下探索变量之间的关系。由于CPS的失效数据的分布未知,以及CPS可靠性模型不依赖于固定的函数形式,因此本文采用非参数回归模型对失效数进行建模和拟合。
假设现有一组CPS累计失效数据,记为
,需要研究CPS累计失效数
与时间
之间的关系,则可表示为如下非参数回归模型的形式:
(1)
其中,
为回归函数,
的估计表示为
,
。
2.2. 局部多项式回归模型
局部多项式回归(local polynomial regression, LPR)在每个点的局部范围内,利用多项式函数逼近回归函数,并基于加权最小二乘法得到回归函数在各点的估计值。这种方法不依赖于全局的模型结构,而是根据数据在局部的表现来构建回归模型,因此能够更灵活地适应数据的局部特性。
具体来说,假设在
的领域内,CPS累计失效数
与时间变量
的关系可以用一个
次多项式近似表示:
(2)
其中,
是多项式的系数,
是误差项。
然后,通过使用加权最小二乘法估计这些系数。基于Nadaraya-Watson核估计,选择一个估计量
使得平方和
最小。令权函数为
,选择
使得下式的加权平方和最小:
(3)
其中,
是一个核,
,为带宽。求解得到系数后,即可用多项式函数来估计
处的累计失效数。
3. 案例分析
3.1. 累计失效数据
BlueGene/L是IBM公司设计并制造的一款超级计算机,它在全球超级计算机领域具有重要地位。本文所研究的超级计算机系统是信息物理系统的一种特殊情况。BlueGene/L自发布以来取得了多项成就,包括在TOP 500榜单上多次排名第一、创造多项计算性能纪录等。它不仅推动了超级计算机技术的发展,还为科学研究提供了强大的计算支持。
本文将BlueGene/L的系统日志作为研究对象,以日为单位进行数据整合,提取了从2005年6月1日到2006年3月1日(提取间隔为1天),共计160组数据,累计失效数据如表1所示。
Table 1. Cumulative failure data for BlueGene/L
表1. BlueGene/L的累计失效数据
时间/日 |
累计失效数 |
时间/日 |
累计失效数 |
时间/日 |
累计失效数 |
时间/日 |
累计失效数 |
时间/日 |
累计失效数 |
1 |
3 |
33 |
10,190 |
65 |
22,074 |
97 |
54,437 |
129 |
73,792 |
2 |
2049 |
34 |
10,554 |
66 |
22,762 |
98 |
54,512 |
130 |
73,881 |
3 |
2751 |
35 |
10,600 |
67 |
23,066 |
99 |
54,751 |
131 |
74,141 |
4 |
2753 |
36 |
10,999 |
68 |
24,139 |
100 |
55,513 |
132 |
74,283 |
5 |
2844 |
37 |
11,052 |
69 |
24,519 |
101 |
55,559 |
133 |
74,499 |
6 |
3095 |
38 |
11,203 |
70 |
24,621 |
102 |
55,609 |
134 |
74,652 |
7 |
3191 |
39 |
11,362 |
71 |
27,450 |
103 |
55,839 |
135 |
74,868 |
8 |
3237 |
40 |
11,904 |
72 |
28,548 |
104 |
56,065 |
136 |
74,921 |
9 |
3239 |
41 |
11,950 |
73 |
28,802 |
105 |
56,216 |
137 |
76,091 |
10 |
4385 |
42 |
12,870 |
74 |
29,844 |
106 |
56,778 |
138 |
76,204 |
11 |
5751 |
43 |
13,141 |
75 |
29,890 |
107 |
57,085 |
139 |
76,396 |
12 |
5762 |
44 |
13,230 |
76 |
29,941 |
108 |
57,131 |
140 |
76,627 |
13 |
7925 |
45 |
13,309 |
77 |
29,951 |
109 |
61,509 |
141 |
76,765 |
14 |
7974 |
46 |
13,355 |
78 |
30,750 |
110 |
62,962 |
142 |
76,949 |
15 |
8021 |
47 |
13,454 |
79 |
30,785 |
111 |
63,173 |
143 |
77,376 |
16 |
8067 |
48 |
13,530 |
80 |
32,714 |
112 |
64,609 |
144 |
77,534 |
17 |
9004 |
49 |
13,638 |
81 |
34,186 |
113 |
65,675 |
145 |
77,587 |
18 |
9148 |
50 |
13,731 |
82 |
36,288 |
114 |
66,097 |
146 |
77,609 |
19 |
9159 |
51 |
13,763 |
83 |
37,764 |
115 |
66,328 |
147 |
77,716 |
20 |
9218 |
52 |
13,790 |
84 |
39,208 |
116 |
68,325 |
148 |
77,796 |
21 |
9250 |
53 |
14,163 |
85 |
40,630 |
117 |
68,396 |
149 |
77,904 |
22 |
9305 |
54 |
14,403 |
86 |
42,067 |
118 |
68,480 |
150 |
78,006 |
23 |
9324 |
55 |
14,822 |
87 |
42,251 |
119 |
68,601 |
151 |
78,151 |
24 |
9379 |
56 |
14,912 |
88 |
43,721 |
120 |
70,075 |
152 |
78,197 |
25 |
9480 |
57 |
15,616 |
89 |
43,999 |
121 |
70,088 |
153 |
78,403 |
26 |
9548 |
58 |
15,666 |
90 |
45,640 |
122 |
70,269 |
154 |
78,556 |
27 |
9568 |
59 |
15,943 |
91 |
47,303 |
123 |
70,656 |
155 |
78,715 |
28 |
9668 |
60 |
16,069 |
92 |
49,000 |
124 |
71,908 |
156 |
78,869 |
29 |
9715 |
61 |
19,588 |
93 |
52,358 |
125 |
72,054 |
157 |
81,178 |
30 |
9791 |
62 |
20,288 |
94 |
52,375 |
126 |
73,284 |
158 |
82,122 |
31 |
9878 |
63 |
21,119 |
95 |
53,513 |
127 |
73,450 |
159 |
82,252 |
32 |
9925 |
64 |
21,628 |
96 |
54,345 |
128 |
73,577 |
160 |
82,606 |
3.2. 模型评估标准
基于真实的累计失效数据集对Goel-Okumoto (GO)模型、Delayed S-shaped (DSS)模型,以及本文提出的LPR模型进行对比分析,选用MSE和AIC作为评价模型性能的指标。
均方误差(MSE)是一个在多个领域中广泛应用的统计量,主要用于衡量模型预测值与实际观测值之间的差异程度。MSE是预测值与实际观测值之差的平方的平均值。其计算公式为:
(4)
其中,
是样本数量,
是第
个观测值,
是第
个观测值的预测值。
赤池信息准则(AIC)是一种衡量统计模型拟合优良性的标准。AIC准则在模型选择中十分重要,它旨在找到既能很好地解释数据又不过于复杂的模型。AIC值越小,表示模型在拟合度和复杂度之间达到了更好的平衡,因此更可能是最优的模型。其计算公式为:
(5)
其中,
是模型中未知参数的个数,代表了模型的复杂度。
是模型的对数似然函数值,衡量了模型拟合数据的优良性。对数似然函数值越大,说明模型拟合数据的效果越好。
3.3. 模型性能对比分析
本文基于表1中BlueGene/L的系统累计失效数据,通过最小二乘估计法求解得到GO模型、DSS模型的参数估计结果。三个可靠性模型的参数估计结果和性能对比结果如表2所示。从表可知,本文提出的LPR模型的MSE和AIC的值比另外两个模型的MSE和AIC的值都要小,且MSE的值要小得多。另外,DSS模型的MSE和AIC的值又比GO模型的值小。因此,从两个拟合优度评估指标来看,LPR模型的拟合效果最好,其次为DSS模型,而GO模型的拟合效果最差。
Table 2. The results of parameter estimation and performance comparison of the model
表2. 模型的参数估计结果和性能对比结果
模型名称 |
参数估计结果 |
MSE (1 × 104) |
AIC (1 × 103) |
a (1 × 103) |
b (1 × 10−2) |
GO模型 |
2522.1390 |
0.0207 |
4977.2816 |
2.8390 |
DSS模型 |
160.1008 |
1.1496 |
1822.6402 |
2.6780 |
LPR模型 |
- |
- |
4.9973 |
1.7351 |
三种模型的累计失效数拟合图以及三种模型的拟合对比图如图1所示。从图可以明显看出,LPR模型的拟合效果最好,拟合值与实际观测值较吻合,而GO模型拟合效果最差,该模型拟合值与实际观测值有较大差距。
Figure 1. The fitting graph of the cumulative failure data of each model and the fitting graph comparison
图1. 各模型的累计失效数拟合图以及拟合图对比
3.4. 预测性能对比分析
为了判断三种模型预测结果的稳定性和可靠性,本文对三种模型的相对误差(RE)曲线进行绘制并对比分析。RE曲线是通过将一系列测量结果的相对误差(即测量值与真值之差占真值的百分比)绘制在坐标系上而形成的曲线。若RE曲线越接近于0,则表明预测性能越好。
通过BlueGene/L的系统累计失效数据进行预测,展现了模型对未来累计失效数的预测能力。从图2可知:(1) LPR模型的RE值最趋于0,因此LPR模型的预测效果在这三种模型中最好。其次为DSS模型,随着时间推移,DSS模型的RE值在一定的上下起伏波动后逐渐接近于0。GO模型的预测效果最差,在t = 80之前,其RE值波动程度较大,但最后也趋于0;(2) 在测试的初始阶段,LPR模型的RE值趋于0的速度最快,其次为DSS模型,表明LPR模型对累计失效数据的拟合适应性比DSS模型强。
Figure 2. Comparison of the relative error curves of the three models
图2. 三种模型的相对误差曲线对比
4. 结论
本文在电子商务视角下,将BlueGene/L的系统累计失效数据作为研究对象,提出一种基于局部多项式回归的信息物理系统可靠性模型,并将该非参数回归可靠性模型与传统的GO模型和DSS模型进行比较。最后,通过计算三种模型的拟合优度评估指标以及绘制拟合图、RE曲线图进行对比分析,得出结论:基于局部多项式回归的信息物理系统可靠性模型的拟合效果和预测效果更好,对数据适应性较强。本文的研究结果为电子商务的稳定运行和高效发展提供了坚实的理论支撑。
基金项目
国家自然科学基金(编号:72361008,71901078);贵州省科技计划项目(编号:黔科合支撑[2023]一般268)。