基于Transformer的残差EWMA控制图
Residual EWMA Control Chart Based on Transformer
摘要: 过程数据的相关性是设计和应用控制图进行质量监测时需要解决的关键且极具挑战性的问题。本文利用Transformer的自注意力机制能有效捕捉数据全局信息的优点挖掘数据的相关性,提出基于Transformer的残差EWMA (TREWMA)控制图,实现了对自相关过程的过程均值监测。实验通过仿真和真实数据演示了TREWMA控制图的实施;其结果表明,TREWMA控制图在监测自相关过程的均值漂移时,展现出比现有控制图更好的性能。
Abstract: Correlation in process data is the key and challenging problem to be solved when designing and applying a control chart to carry out a Quality monitoring. Bying utilizing the self-attention mechanism of Transformer to learn the correlation and overall information of data, propose a Transformer-based residual EWMA (TREWMA) control chart, and achieve process-mean-monitoring for autocorrelation process. Experiments demonstrate the implementation of the TREWMA control chart through simulation and real data; the results show that the TREWMA control chart exhibits better performance than existing control charts in monitoring the mean shift of autocorrelation processes.
文章引用:胡小红, 宋学力, 王凯明, 卿晶, 王佳颖. 基于Transformer的残差EWMA控制图[J]. 应用数学进展, 2024, 13(12): 5330-5337. https://doi.org/10.12677/aam.2024.1312514

1. 引言

统计过程控制(SPC)是利用统计学方法对生产过程进行质量监控的一门科学,控制图是实现SPC的关键技术,用于识别生产过程的“异常变化”以及变化的原因。传统控制图是基于对生产过程的简单样本数据的假设下构造的,样本具有独立同分布性质。然而,随着数据采集和处理技术的迅速发展,产品的质量特征可以通过采集和分析更复杂的样本数据得到更精准的监测。然而,这样的样本大数据几乎无可避免存在相关性[1] (如线性相关、非线性相关以及混合相关性),而且这种样本数据的相关性由于机理复杂,成因众多,使得相关性对传统的控制图监控性能的影响非常难以评估。Johnson等人[2]-[5]研究表明,数据相关性会影响控制图的实际受控平均运行长度,造成误报或者漏报等问题。所以,针对自相关样本数据的质量过程控制图的设计具有重要的理论和现实意义。

基于自相关样本数据,现有质量过程控制图构造和研究主要有两种方法:1) 通过数据预处理,消除数据的相关性,再运用于传统控制图;2) 对相关性进行数据建模,构造满足数据独立性的残差控制图。其中,Qiu [6]通过对原始数据分组或者取子集降低数据相关性,将变化之后的数据利用传统控制图进行监测,发现其对存在相关性数据质量特征的漂移确实起到了一定的监测效果,但该方法丢失了原始数据信息,降低了对过程“异常变化”的敏感性;Alwan等人[7]-[11]利用ARMA模型对数据进行相关性建模,得到预测残差,发现残差近似服从独立的正态分布,将残差用于构造控制图,通过对残差的监测达到对原始质量特征的监测。该方法能够很好的监测存在线性相关过程的质量特征,但是ARMA模型阶数和参数的选取较为困难。更糟糕的是,Apley等人[12]于1999年发现,当模型估计存在较大误差时,残差可能呈现一定程度的相关性,从而降低控制图的性能。

随着机器学习方法的兴起和迅速发展,诸多研究者发现它在时间序列预测上表现优越,可以改善ARMA模型阶数和参数选取困难且存在复杂相关性过程拟合效果不佳等问题。所以,机器学习方法被引入SPC [13]-[17],利用机器学习对相关性进行建模,构造残差控制图,发现其性能优于传统模型构造的残差控制图,但是这些网络结构存在着训练时间长、计算复杂度高和难以解释等问题。

2017年Google团队提出了Transformer模型[18],它是一种基于自注意力机制(self-attention)的神经网络架构,克服了现有神经网络的缺点,实现了并行运算,提高了训练速度,被认为是目前处理自然语言最前沿的方法。2020年Wu等人[19]研究发现Transformer模型对时间序列的预测表现出很好的性能,但是把控制图与transformer结合用于自相关过程控制还鲜有研究。因此,本文将Transformer模型应用于时间序列预测,利用Transformer模型捕获数据之间的相关关系,得到近似服从独立正态的残差,构造TREWMA控制图,以实现基于自相关样本数据的统计过程均值漂移的监测。

2. Transformer模型

Transformer模型[18]是深度学习中的一种神经网络模型,由若干个编码器和解码器堆叠而成。自注意力层[18]是Transformer的核心组成部分,它通过计算不同位置的自注意力得分,捕捉序列之间的依赖关系,自注意力机制的实现过程如下:

{ Q=X W Q K=X W K V=X W V Attention( Q,K,V )= softmax ( Q K T d k )V (1)

其中X是输入序列, W Q W K W V 是对应的线性变换的权重矩阵,Q是查询向量参数矩阵,K是键向量参数矩阵,V是值向量参数矩阵, d k 是缩放因子,通过softm函数计算注意力权重,得到自注意力得分。Transformer模型使用多头自注意力机制,实现了并行运算,使得模型可以更加高效的捕捉全局信息。

Transformer模型进行预测的基本流程为:在模型输入序列之前,需要将输入的序列进行词嵌入和位置编码[20],构造一个含有语义信息和位置编码的向量作为编码器的输入。在编码器中,通过各个编码层对输入向量进行编码,利用自注意力机制提取序列特征,将编码器的输出作为解码器的输入。最后解码器经过各个解码层生成准确的目标序列。

3. TREWMA控制图

基于Transformer的残差EWMA控制图监控策略,分为数据准备、控制图的构造流程和在线监控流程三个步骤。

3.1. 数据说明

在构造TREWMA控制图之前,需要对Transformer模型进行训练,找到最优参数。在模型的训练阶段,我们通过一阶自回归模型AR(1):

X ( t ) =ϕ X ( t1 ) + ε ( t ) ε t ~N( 0,1 ) (2)

仿真生成自相关的受控数据,其中 X ( t1 ) X ( t ) 分别是 t1 t时刻的观测数据, ϕ 是自相关系数, ε t 是误差项。假设由AR(1)模型生成的受控观测值为 x 1 , x 2 ,, x n 。由于Transformer需要庞大的训练数据集,所以采用滑动窗口m构造模型训练所需的有标签数据,

X=[ x 1 x 2 x m x 2 x 3 x m+1 x nm x nm+2 x n1 ],Y=[ x m+1 , x m+2 ,, x n ] (3)

其中X是模型的输入矩阵,Y是所对应的标签。为了验证控制图的有效性时,同样利用AR(1)仿真生成自相关过程中均值发生漂移的失控数据:

X ( t ) =δ+ϕ X ( t1 ) + ε ( t ) ε t ~N( 0,1 ) (4)

式中 δ 表示漂移大小。生成的失控数据同样按照式(3)构建数据集,用于Transformer模型的输入。

3.2. TREWMA的构造流程

针对自相关过程中均值漂移的监测可以通过监测残差实现:利用Transformer预测时序数据,计算残差,构造TREWMA控制图。具体的构建步骤如下:

步骤一 在生产平稳的过程中按照相同的时间间隔收集自相关过程的正常受控数据,对数据进行预处理,确保数据的准确性和完整性;

步骤二 选择合适的滑动窗口大小,也就是模型的输入序列长度,通过滑动窗口构造数据集;

步骤三 搭建Transformer模型,初始化模型参数;

步骤四 使用训练数据来训练Transformer模型,通过反向传播,不断地更新参数,寻找使得验证集的真实值与预测值损失值平稳的模型;

步骤五 将整个数据集放入训练好的最优Transformer模型中,得到时间序列的预测值,计算出残差 e n

步骤六 验证残差的独立性以及正态性,计算出残差的均值 μ 0 和方差 σ 0 2

步骤七 构造TREWMA控制图的统计量 E n =λ e n + E n1 ,以及控制上下限

UCL= μ 0 +ρ λ 2λ σ 0 (5)

C= μ 0 (6)

LCL= μ 0 ρ λ 2λ σ 0 (7)

其中 λ 是平滑系数,当 λ=1 时,控制图退化为基于Transformer的残差图, ρ 是达到给定受控ARL的参数。

3.3. TREWMA的在线监控流程

应用TREWMA控制图对生产过程进行在线监控,包括残差控制图的构建和利用残差控制图进行在线监控两个阶段。在训练阶段,通过残差构建EWMA控制图。在线监控阶段,通过将滑动数据集输入到训练好的模型中,预测时序数据,通过计算统计量的值判断在当前时间点是否处于受控状态。具体的应用流程如图1所示:

Figure 1. Online monitoring flow chart

1. 在线监控流程图

图1的上半部分是训练阶段,用于构造TREWMA控制图。其具体实施步骤见3.1节。图2的下半部分是利用构建好的控制图进行监控的阶段,其具体步骤如下:

步骤一 收集当前时间点的数据,按照公式(3)构造模型滑动窗口数据,将前m个的滑动窗口数据作为Transformer的输入,得到预测值;

步骤二 利用模型得到的预测值与当前时间点的真实值,计算残差。将残差带入图表统计量,根据训练阶段构造的EWMA控制图,判断该点是否超出控制限。如果超出控制限,则认为生产过程失控,停止生产。反之继续执行步骤一,实现生产过程的在线监控过程。

4. 控制图的性能比较

为了验证TREWMA控制图对线性相关过程均值漂移的监测能力,预先给定受控平均运行长度 ARL 0 =370 ,具有较小ARL1的控制图性能更优。由于篇幅有限,表1给出了均值漂移大小为0、0.5、1.0、2.0、3.0时,利用 λ=0.1 的EWMA控制图、 λ=1,0.3,0.5 的TREWMA控制图、SCC控制图、BPN控制图以及LRProb控制图进行均值漂移监测的ARL。其中SCC控制图、BPN控制图以及LRProb控制图的ARL分别取自Wardell et al. [21],Hwarng [22]和Yu and Liu [23]

Table 1. ARL for different control charts under linear correlation

1. 线性相关下不同控制图的ARL

ϕ

δ

EWMA

SCC

BPN

LRProb

TREWMA

λ=1

λ=0.1

λ=0.3

λ=0.5

0.00

0

371.04

370.40

372.96

379.86

372.27

370.96

370.74

370.23

0.5

28.38

152.22

25.38

20.53

162.94

29.52

49.89

78.00

1.0

9.85

43.89

8.29

8.92

47.29

10.14

11.54

16.43

2.0

4.19

6.30

2.47

3.95

6.90

4.30

3.51

3.62

3.0

2.77

2.00

1.29

2.65

2.12

2.83

2.14

1.92

0.25

0

103.46

370.40

371.23

374.06

370.37

370.996

370.74

370.23

0.5

25.60

206.04

32.46

35.09

145.71

25.44

41.57

65.63

1.0

10.12

75.42

11.87

11.69

37.67

8.95

9.64

13.19

2.0

4.33

12.24

3.39

5.64

5.20

3.89

3.11

3.07

3.0

2.82

2.85

1.63

3.87

1.72

2.59

1.96

1.70

0.50

0

36.07

370.40

371.3

375.68

370.37

370.33

370.28

370.48

0.5

21.37

258.42

52.07

43.24

130.59

22.48

35.52

56.12

1.0

10.73

123.82

16.74

15.45

30.72

8.07

8.35

11.06

2.0

4.63

24.22

4.84

6.42

4.11

3.59

2.82

2.70

3.0

2.92

4.14

2.22

3.86

1.48

2.41

1.81

1.54

0.75

0

16.03

370.40

370.6

373.23

370.37

370.33

370.28

370.48

0.5

14.27

311.23

91.72

70.91

91.81

16.08

22.32

34.31

1.0

10.86

197.74

35.42

25.53

17.54

6.20

5.68

6.79

2.0

5.53

40.24

8.95

11.37

2.28

2.90

2.21

1.99

3.0

3.22

3.01

3.52

6.83

1.11

2.05

1.43

1.20

0.95

0

9.87

370.40

370.37

379.20

370.37

370.34

370.28

370.48

0.5

9.63

330.96

152.09

130.12

134.27

23.14

36.78

58.32

1.0

8.82

138.84

77.00

54.30

32.17

8.26

8.62

11.6

2.0

6.38

1.08

32.07

16.97

4.34

3.66

2.89

2.79

3.0

4.00

1.00

10.17

8.99

1.52

2.45

1.84

1.58

表1可知:TREWMA控制图平滑参数的选取对漂移大小的监测有着直接影响,与EWMA控制图类似,小的平滑参数对小漂移监测敏感,大的平滑参数对于大漂移监测敏感。相较于传统EWMA控制图,TREWMA控制图解决了虚发报警率高的问题;相较于SCC控制图,TREWMA控制图均具有更小的ARL1,当均值发生漂移时,能够更早的检测出异常变化;相较于BPN控制图、LRProb控制图,TREWMA控制图在选择合适的平滑参数时,其效果都优于BPN控制图和RProb控制图。因此,TREWMA在线性相关过程的均值监测中表现出很好的效果。

5. 应用

本节利用Box [24]提到的310个化学粘度数据集,展示TREWMA控制图的实施,验证该控制图对观测数据存在相关性的均值漂移监测的可行性和可靠性。该数据集是一个典型的自相关生产过程,采用AR(1)模型进行拟合,其模型结构如下:

Z ( t ) =9.10+0.86 Z ( t1 ) + ε t , ε t ~N( 0,0.0934 ) (10)

将粘度时间序列进行数据预处理,按照式(3)构造成训练样本,并将其输入到Transformer架构中,得到损失最小的Transformer模型,用于数据预测。其预测的结果图2如下所示:

Figure 2. Plot of real vs. predicted values

2. 真实值与预测值的对比图

根据得到的预测值计算残差,图3绘制了残差的偏自相关图(PACF),当滞后项大于0时,其相关系数均在置信区间内,认为残差是独立的;同时图3给出了残差的概率密度直方图,其大致呈现出对称的钟性曲线,认为其服从正态分布。根据残差的值计算其均值和方差,构造TREWMA控制图,监测过程均值的漂移。

由于这个数据集本身处于受控状态,并没有发生均值的漂移,所以考虑将原始数据在时间点30向上平移1、2个单位构成失控数据用于控制图的监测,选取10作为滑动窗口,也就是在时间点20时发生变化。为了研究基于Transformer的残差EWMA控制图对存在线性相关过程的均值漂移监测的效果,预先给定所达到的 ARL 0 =370 ,选取相同的平滑系数 λ=0.2 ,利用二分法计算 ρ 。构造出TREWMA的图表统计量和控制上下限,实现在线监控。TREWMA控制图监测结果如下图所示:

图4可以知道,TREWMA控制图对于均值漂移敏感,一旦发生漂移,控制图立即发出信号。

Figure 3. PACF plots and probability density plots

3. PACF图和概率密度图

Figure 4. Transformer Control Chart (1) δ=1 (2) δ=2

4. Transformer控制图 (1) δ=1 (2) δ=2

6. 结论

针对自相关过程的均值漂移的监测问题,开发了基于Transformer的残差控制图(TREWMA)。通过实验仿真,验证了所提控制图在监测自相关过程的均值漂移方面的可行性、有效性和优越性。以某企业化学粘度数据为例,证实了TREWMA控制图对于均值漂移的敏感性:一旦生产过程的均值发生变化,控制图下一时间点立即发出信号。

基金项目

陕西省自然科学基础研究计划资助项目(2024JC-ZDXM-23);长安大学中央高校基本科研业务费专项资金资助项目(310812163504)。

NOTES

*通讯作者。

参考文献

[1] Alwan, L.C. and Roberts, H.V. (1988) Time-Series Modeling for Statistical Process Control. Journal of Business & Economic Statistics, 6, 87-95.
https://doi.org/10.1080/07350015.1988.10509640
[2] Johnson, R.A. and Bagshaw, M. (1974) The Effect of Serial Correlation on the Performance of CUSUM Tests. Technometrics, 16, 103-112.
https://doi.org/10.1080/00401706.1974.10489155
[3] Alwan, L.C. (1992) Effects of Autocorrelation on Control Chart Performance. Communications in StatisticsTheory and Methods, 21, 1025-1049.
https://doi.org/10.1080/03610929208830829
[4] Yashchin, E. (1993) Performance of CUSUM Control Schemes for Serially Correlated Observations. Technometrics, 35, 37-52.
https://doi.org/10.1080/00401706.1993.10484992
[5] Woodall, W.H. and Faltin, F. (1993) Autocorrelated Data and SPC. ASQC Statistics Division Newsletter, 13, 18-21.
[6] Qiu, P. (2013) Introduction to Statistical Process Control. CRC Press.
[7] 杨穆尔, 孙静. 二元自相关过程的残差T2控制图[J]. 清华大学学报(自然科学版), 2006, 46(3): 403-406.
[8] 孙静, 杨穆尔. 多元自相关过程的残差T2控制图[J]. 清华大学学报(自然科学版), 2007, 47(12): 2184-2187.
[9] 马义中, 田甜, 刘利平. 自相关过程协方差阵的残差MEWMA控制图[J]. 系统工程学报, 2012, 27(2): 279-286.
[10] Lu, C. and Reynolds, M.R. (1999) EWMA Control Charts for Monitoring the Mean of Autocorrelated Processes. Journal of Quality Technology, 31, 166-188.
https://doi.org/10.1080/00224065.1999.11979913
[11] Lu, C. and Reynolds, M.R. (1999) Control Charts for Monitoring the Mean and Variance of Autocorrelated Processes. Journal of Quality Technology, 31, 259-274.
https://doi.org/10.1080/00224065.1999.11979925
[12] Apley, D.W. and Shi, J. (1999) The GLRT for Statistical Process Control of Autocorrelated Processes. IIE Transactions, 31, 1123-1134.
https://doi.org/10.1080/07408179908969913
[13] Cook, D.F. and Chiu, C. (1998) Using Radial Basis Function Neural Networks to Recognize Shifts in Correlated Manufacturing Process Parameters. IIE Transactions, 30, 227-234.
https://doi.org/10.1080/07408179808966453
[14] Issam, B.K. and Mohamed, L. (2008) Support Vector Regression Based Residual MCUSUM Control Chart for Autocorrelated Process. Applied Mathematics and Computation, 201, 565-574.
https://doi.org/10.1016/j.amc.2007.12.059
[15] Alshraideh, H. and Runger, G. (2013) Process Monitoring Using Hidden Markov Models. Quality and Reliability Engineering International, 30, 1379-1387.
https://doi.org/10.1002/qre.1560
[16] Chen, S. and Yu, J. (2019) Deep Recurrent Neural Network‐Based Residual Control Chart for Autocorrelated Processes. Quality and Reliability Engineering International, 35, 2687-2708.
https://doi.org/10.1002/qre.2551
[17] 郑辉, 姜美玲, 王东菲. 基于改进支持向量回归的旋片泵自相关过程监控[J]. 工业工程与管理, 2022, 27(6): 9-13.
[18] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.
[19] Wu, N., Green, B., Ben, X., et al. (2020) Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case. arXiv: 2001.08317.
[20] Gehring, J., Auli, M., Grangier, D., et al. (2017) Convolutional Sequence to Sequence Learning. Proceedings of the 34th International Conference on Machine Learning, Sydney, 6-11 August 2017, 1243-1252.
[21] Wardell, D.G., Moskowitz, H. and Plante, R.D. (1994) Run-Length Distributions of Special-Cause Control Charts for Correlated Processes. Technometrics, 36, 3-17.
https://doi.org/10.1080/00401706.1994.10485393
[22] Hwarng, H.B. (2004) Detecting Process Mean Shift in the Presence of Autocorrelation: A Neural-Network Based Monitoring Scheme. International Journal of Production Research, 42, 573-595.
https://doi.org/10.1080/0020754032000123614
[23] Yu, J. and Liu, J. (2010) Lrprob Control Chart Based on Logistic Regression for Monitoring Mean Shifts of Auto-Correlated Manufacturing Processes. International Journal of Production Research, 49, 2301-2326.
https://doi.org/10.1080/00207541003694803
[24] Box, G.E.P., Jenkins, G.M., Reinsel, G.C., et al. (2015) Time Series Analysis: Forecasting and Control. John Wiley & Sons.