1. 引言
在人工智能与大数据时代,交叉学科不断促进统计学的发展[1]。多数据流的相关问题一直吸引着学者们从不同的视角展开研究。Mei (2010)提出最大化所有时刻所有数据流的似然比统计量的方法,对多数据流进行监控[2]。Du和Zou (2018)基于指数加权滑动平均(Exponentially Weighted Moving Average, EWMA)控制图,给出了一个新的错误发现率控制方法,监控多数据流问题[3]。Ren等(2020)研究了存在聚类或空间模式时数据流的监控问题,设计了一种定向抽样模式结合似然比检验进行自适应检测[4]。Dassanayake 和French (2024)通过控制图的方法发现疾病的爆发区域[5]。
关于多数据流的监控,大多假设数据流是简单结构的,每个数据流都是一元的,且服从同一分布。而统计过程控制(Statistical Process Control, SPC)的理论与应用研究除了经典的适用于正态数据的控制图以外,成果也非常丰富。Zhou等(2012)建立了加权似然比检验统计量监控变样本量的泊松数据[6]。Li等(2014)研究了适用于多元二项及多元多项数据的控制图[7]。范倩(2018)建立了基于似然比检验的对数正态分布控制图[8]。郭宝才等(2018)设计了参数未知下基于定数截尾样本的控制图监控指数分布的数据[9]。曹程明(2019)开展了监控威布尔分布数据的控制图的研究[10]。Sanusi等(2020)建立了Max-EWMA控制图用来监控伽马和指数分布的数据[11]。刘英杰(2022)开展了监控多元离散型数据的CUSUM控制图的研究[12]。廉惠然和齐德全(2023)研究了指数分布的订货周期数据等网络销售数据的监控方法[13]。
综上,鉴于数据分布可能存在的多样性,本文考虑以下复杂结构的多数据流的在线监控问题,仅给出监控均值或均值向量是否发生漂移的一般框架。单个数据流可以是一元的也可以是多元的,可以是连续型的随机变量也可以是离散型的随机变量。为提高对离散型数据、偏态或长尾等连续型数据的稳健性通过经验似然比检验(Empirical Likelihood Ratio Test, ELRT)建立监控统计量,而且ELRT既适用于单个一元的数据流,也适用于单个多元的数据流。为了更好地对多个数据流同时进行监控,将ELRT变换为Q统计量[14]。为了利用历史数据的信息,提高对中小漂移的监控效果,通过Q统计量建立EWMA型的控制图。在数据流之间相互独立的假设下,最后通过Max-EWMA [11]构造监控统计量进行在线监控。蒙特卡洛模拟表明,所提出的方法对不同的漂移量都有较好的表现。
2. 变点模型
假设在智能制造或质量管理等过程中,需要监控
条相互独立的数据流
。第
条数据流根据问题背景用一元随机变量或多元随机向量
来刻画,其均值或均值向量记为
,其方差或协方差矩阵记为
,并假设在整个监控过程中
保持不变。假设存在一个未知的时刻
,第
条数据流失控,即均值
由可控时的
变为失控时的
。于是,在每一时刻
监控以下变点模型:
这里,可能有的数据流是一元的,有的数据流是多元的;可能有的数据流是离散型的,有的数据流是连续型的;可能有的数据流是对称分布的,有的数据流是偏态分布的;可能有的数据流是分布已知的,有的数据流是分布未知的。针对这样复杂结构的数据流监控问题,建议通过如下非参数方法进行在线监控。
3. 基于经验似然比检验的在线监控方法
在时刻
,对第
条数据流抽取
个样本
。鉴于部分数据流可能是偏态分布或分布未知,结合ELRT与Max-EWMA方法进行在线监控。
首先,对第
条数据流计算ELRT统计量,并利用其渐近性将其转化为Q统计量。为每个样本
分配一个概率权重
,满足
,且
。经验似然函数定义为
在原假设
下,根据约束条件
,通过拉格朗日乘子法,最大化经验似然函数
,得到一组最优权重
和对应的约束最大值
。无约束的最大经验似然就是给每个样本赋予权重
,对应的经验似然值为
。进一步得ELRT统计量为
在
成立且满足一些正则条件下,当
时,统计量
依分布收敛于自由度为
(
是该数据流的维数)的卡方分布。于是构造如下Q统计量
其中,
是标准正态分布的分布函数的反函数,
是自由度为
的卡方分布的分布函数。
然后,计算EWMA序列
其中初始值
,
为光滑参数。
最后,计算Max-EWMA统计量
当
时,发出过程失控的警报,其中
是控制线,满足可控时的平均运行长度为ARL0。
在线监控的流程图如图1所示。
4. 统计模拟
通过蒙特卡洛模拟验证所提出方法(简记为Max-EWMA)监控复杂结构数据流的有效性,将N个数据流的Q统计量取最大作为对比方案(简记为Max-Q)。进行1000次重复模拟实验,调整不同控制图方法的控制线使得可控时的平均运行长度ARL0接近于200,比两种方法失控时的平均运行长度ARL1,ARL1越小说明报警越早,监控效果越好。
Figure 1. Flowchart for online monitoring of multiple data stream
图1. 在线监控多数据流的流程图
为简单起见,统计模拟时假设N = 16,即有16条数据流需要监控。过程可控时,设有5个一元数据流服从形状参数为5,尺度参数为1的威布尔分布;有5个一元数据流服从参数0和1的对数正态分布;有5个一元数据流服从自由度为3的t分布;有1个5维数据流,其边际分布服从参数为1的指数分布,且相互独立。样本容量
取为30,将每条数据流都进行标准化后通过二分法模拟控制线。变点时刻
取为0,数据流的失控比例记为
,漂移量记为
(可控数据标准化后加上
即为失控数据)。在失控比例
等情况下进行比较,Max-EWMA方法都能够较早地报警,对中小漂移较为有效。
表1给出了失控比例为0.25的情况下,不同控制图的ARL。
时的ARL即是ARL0,
时的ARL是ARL1。从表1可以看出,Max-EWMA方法的表现受到光滑参数
的影响,较大的光滑参数对于监控较大的漂移更有效,较小的光滑参数对于监控较小的漂移更有效。例如,
时,
的Max-EWMA的
,而
的Max-EWMA的
;
时,
的Max-EWMA的
,而
的Max-EWMA的
。从表1还可以看出,对中小漂移Max-EWMA方法的ARL1比Max-Q的ARL1更小,从而Max-EWMA方法具有更好的性能。
表2和表3分别给出了失控比例为0.5和0.75的情况下,不同控制图的ARL。结合表1,不难发现随着失控比例的增加,Max-EWMA和Max-Q方法的报警时间越来越早。当
时,ARL1已经很小,特别在
时,ARL1越来越接近于1。
Table 1. Comparison of ARL values of different control charts when
表1.
时不同控制图ARL的对比
|
Max-EWMA |
Max-Q |
|
|
|
|
h = 1.111718 |
h = 2.111279 |
h = 7.006011 |
0 |
200 |
200 |
200 |
0.3 |
24.001 |
32.259 |
181.764 |
0.4 |
13.789 |
9.495 |
137.759 |
0.5 |
9.923 |
5.778 |
77.571 |
0.6 |
7.859 |
4.276 |
35.84 |
0.7 |
6.418 |
3.455 |
16.191 |
0.8 |
5.314 |
2.942 |
7.314 |
0.9 |
4.268 |
2.512 |
4.024 |
1 |
3.368 |
2.132 |
2.338 |
2 |
1 |
1 |
1 |
Table 2. Comparison of ARL values of different control charts when
表2.
时不同控制图ARL的对比
|
Max-EWMA |
Max-Q |
|
|
|
|
h = 1.111718 |
h = 2.111279 |
h = 7.006011 |
0 |
200 |
200 |
200 |
0.3 |
15.484 |
10.403 |
98.773 |
0.4 |
9.741 |
5.413 |
33.565 |
0.5 |
6.984 |
3.751 |
11.284 |
0.6 |
5.032 |
2.864 |
4.619 |
0.7 |
3.507 |
2.251 |
2.407 |
0.8 |
2.391 |
1.803 |
1.655 |
0.9 |
1.758 |
1.496 |
1.229 |
1 |
1.328 |
1.251 |
1 |
2 |
1 |
1 |
1 |
Table 3. Comparison of ARL values of different control charts when
表3.
时不同控制图ARL的对比
|
Max-EWMA |
Max-Q |
|
|
|
|
h = 1.111718 |
h = 2.111279 |
h = 7.006011 |
0 |
200 |
200 |
200 |
0.3 |
7.486 |
4.539 |
24.824 |
0.4 |
3.827 |
2.507 |
3.891 |
0.5 |
1.811 |
1.508 |
1.397 |
0.6 |
1.12 |
1.11 |
1.037 |
0.7 |
1.005 |
1.005 |
1 |
0.8 |
1 |
1 |
1 |
0.9 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
1 |
为了测试当数据流存在弱相关或强相关时Max-EWMA方法的性能衰减情况,假设前15条数据流两两之间的相关系数为
,第16条多维数据流与其它数据流相互独立,在
、
和
等情况下进行统计模拟,比较Max-EWMA和Max-Q方法的性能。仅给出失控比例
的情况,如表4所示。在失控状态下,Max-EWMA方法展现出对相关性良好的鲁棒性。
Table 4. Comparison of ARL values of different control charts when the data stream is correlated and
表4. 数据流具有相关性且
时不同控制图ARL的对比
|
|
Max-EWMA |
Max-Q |
|
|
|
|
|
h = 1.122000 |
h = 2.111265 |
h = 7.005400 |
|
0 |
200.72 |
201.18 |
200.28 |
|
0.3 |
12.341 |
8.968 |
137.243 |
0.2 |
0.5 |
4.229 |
2.515 |
6.769 |
|
0.7 |
1.438 |
1.226 |
1.666 |
|
1 |
1.144 |
1.118 |
1.515 |
|
|
h = 1.124000 |
h = 2.111275 |
h = 7.004200 |
|
0 |
200.07 |
200.4 |
200.302 |
0.5 |
0.3 |
12.601 |
9.25 |
139.076 |
|
0.5 |
4.272 |
2.603 |
8.141 |
|
0.7 |
1.505 |
1.201 |
1.513 |
|
1 |
1.179 |
1.108 |
1.116 |
|
|
h = 1.126000 |
h = 2.114800 |
h = 6.964600 |
|
0 |
200.4 |
200.08 |
199.544 |
0.8 |
0.3 |
12.949 |
10.365 |
139.617 |
|
0.5 |
4.459 |
2.585 |
8 |
|
0.7 |
1.501 |
1.271 |
1.787 |
|
1 |
1.245 |
1.122 |
1.159 |
理论上,当第
条数据流可控时,统计量
是渐近正态的,因此实际应用时需要样本容量
充分大。经统计模拟发现,在
分别等于20、30和60的情况下,随着样本容量的增加,
越来越接近于正态分布,其均值越来越接近于零。考虑到经验似然比检验的计算量及多数据流在线监控的实时性,建议实际应用中取
等于30或50。
5. 结论
本文研究了基于经验似然比检验的多数据流在线监控方法,给出了监控均值或均值向量是否发生漂移的一般框架。首先提出了复杂结构的多数据流监控问题,数据流既有一元的,又有多元的;既有离散型的,又有连续型的;既有对称分布的,又有偏态分布的。利用经验似然比检验,提高了监控统计量对离散分布、偏态分布、长尾分布或未知分布的稳健性。通过Q统计量与Max-EWMA方法的结合解决了多数据流同时在线监控的问题,并对中小漂移有较好的表现。以不同的失控比例,通过统计模拟分析了所提出方法在不同漂移量下的失控时的平均运行长度。实验结果表明所提出的在线监控方法具有较好的性能。本文的研究假设数据流之间是相互独立的,当控制图的方法发出失控警报时可以利用Q统计量的EWMA值在哪个数据流达到最大进行诊断,判断到底哪条或哪些数据流失控了。在之后的研究中可以考虑数据流之间具有一定的相关性时,数据流的个数是可变的情况下讨论在线监控及诊断问题。
基金项目
国家自然科学基金面上项目(12271271)。
NOTES
*通讯作者。