卡方分布下FSI CUSUM和VSI CUSUM控制图的比较

doi:10.12677/SA.2022.112045

期刊菜单

卡方分布下FSI CUSUM和VSI CUSUM控制图的比较
Comparison of FSI CUSUM and VSI CUSUM Control Charts under Chi-Square Distribution

DOI: 10.12677/SA.2022.112045, PDF, HTML, XML,
作者: 李妍：燕山大学理学院，河北秦皇岛
关键词: 可变抽样区间；平均报警时间；CUSUM；卡方分布；Variable Sampling Interval； Average Time to Signal； CUSUM； Chi-Square Distribution

摘要: 本文选用平均报警时间来衡量VSI CUSUM控制图的监测效率，在标准正态分布下分别对FSI CUSUM控制图和VSI CUSUM控制图的参数进行调整优化，对卡方分布下FSI CUSUM控制图和VSI CUSUM控制图的监控效率进行比较。

Abstract: In this paper, the average time to signal is chosen to measure the monitoring efficiency of VSI CUSUM control chart, and the parameters of FSI CUSUM control chart and VSI CUSUM control chart are adjusted and optimized under the standard normal distribution, and the monitoring efficiency of FSI CUSUM control chart and VSI CUSUM control chart under the chi-square distribution are compared.

文章引用：李妍. 卡方分布下FSI CUSUM和VSI CUSUM控制图的比较[J]. 统计学与应用, 2022, 11(2): 420-427. https://doi.org/10.12677/SA.2022.112045

1. 引言

统计质量控制方法可以通过科学合理的手段，实时监测生产过程中的产品质量问题，分析异常原因，以便及时采取措施，保证生产过程的正常运行。质量控制图技术作为统计质量控制方法中一个主要技术，一直以来对生产过程进行有效直观地监控，得到各行各业的广泛运用。

随着质量控制理论中常规控制图的普遍使用，其缺点也逐渐显现出来，其中之一就是对过程的小偏移不灵敏，由此，累积和(Cumulative Sum，简记为CUSUM)控制图随之诞生，并得到了极大的发展。近几年来，国内外不少学者对这种控制图的控制限、监控效率做了大量的研究与改进，例如，2021年，许志良和朱永忠 [1] 对多元变异系数的自适应CUSUM控制图进行研究，当多元变异系数发生不同程度的偏移时，对偏移量进行无偏估计，提出了两种新的具有多元变异系数的自适应CUSUM控制图；最后通过蒙卡洛模拟计算的方法，根据运行的平均链长的值对控制图的灵敏度进行判断，最终验证了自适应控制图在实际生产过程中具有极大的优越性。同年，王芝珺 [2] 等人针对热点研究课题——对多元计数型数据的产品质量进行监控，在对多元CUSUM控制图研究的基础上，引入了加权对数似然比，提升了多元累计和控制图的监控效果，并且通过验证发现其在偏移程度较小的情况下，稳健性更好。

另外，对CUSUM控制图的研究大多数都是集中在正态分布条件下进行的。然而，在实际生产过程中，大部分的监控过程都不是服从正态总体分布的，传统的质量控制图则容易出现漏报或者误报情况，进而导致无效监控。因此，近几年，学者对非正态分布情况也进行了丰富扩展。2015年，毛樑 [3] 就针对实际生产中很难满足正态分布这一CUSUM控制图的前提条件提出了建议和向导。他利用随机模拟的方法，对几种典型的非正态分布做了正态性检验，并且对其进行正态变换；然后在传统的CUSUM控制图的基础上对其进行变换。2021年，朱永忠和王室壹 [4] 同样就实际生产中控制图不服从正态分布这一问题进行了补充，利用反正弦方法将二项分布近似成了正态分布，提出了检验过程方差无参数的累计和控制图，根据马尔可夫链方法计算出来的平均链长，证明了控制图的可行性，通过了在多元正态分布和多元T分布下的模拟验证。

众所周知，传统的质量控制图一般都是静态的，即抽样区间长度及抽样样本容量的大小都是固定的，并且控制限也是固定的，这些静态的质量控制图往往不能及时地监控到过程的偏移，也不适用于当今社会及经济的快速发展。为了能够适应社会和经济的快速发展，1988年，Reynolds首次提出了具有可变抽样区间(Variable Sampling Interval，简称为VSI)的均值控制图，并由此开启了控制图方向的研究新领域——动态质量控制图的研究，使得动态控制图的研究成果越来越丰富。

在此背景下，本文在非正态分布中的卡方分布的前提下，对固定样本抽样区间(Fixed Sampling Interval，简称为FSI)的CUSUM控制图和可变样本抽样区间(Variable Sampling Interval，简称为VSI)的CUSUM控制图的监控效率进行比较。

2. CUSUM控制图的参数确定

2.1. CUSUM控制图的设计

一般将观测值设定在理想条件下，即观测值 $X_{i} \sim (μ_{0}, σ_{0}^{2})$ ，其中 $μ_{0}$ 和 $σ_{0}$ 分别表示均值和标准差的目标值。当生产过程处于受控状态下时，样本的均值和样本的标准差分别为 $μ_{0}$ 和 $σ_{0}$ ，当生产过程处于失控状态下时，均值由 $μ_{0}$ 变为 $μ_{1}$ ，且满足等式 $μ_{1} = μ_{0} + α \cdot μ_{0}$ ，其中 $α$ 表示偏移参数。在t时刻取一个样本量为n的样本，所取样本可表示为： $X_{t 1}, X_{t 2}, \dots, X_{t n}$ ，只考虑向上偏移的情况下，CUSUM控制图的统计量为：

$Z_{j} = \max {0, Z_{j - 1} + X_{j} + k}$

其中k为参考值， $X_{j}$ 表示连续的单个观测值。

在控制限的选取上，以往的研究中大多都是利用3σ原则来确定的，而本文将选取在实际应用中更为方便的截顶V型模板。

那么，对于FSI CUSUM控制图来说，判定线的斜率F为：

$F = f \cdot σ_{0}$

其中f为可变参数。

判定区间H满足等式：

$H = h \cdot σ_{0}$

其中h为可变参数。

当过程处于受控状态时，统计量 $Z_{t} = \max {0, Z_{t - 1} + X_{t} - F - μ_{0}} < H$ ，当过程处于失控状态时，统计量 $Z_{t} = \max {0, Z_{t - 1} + X_{t} - F - μ_{0}} > H$ 。

在VSI CUSUM控制图中，我们将控制限斜率 $F_{1}$ 定为：

$F_{1} = f_{1} \cdot σ_{0}$

其中 $f_{1}$ 为可变参数。

控制区间 $H_{1}$ 满足等式：

$H_{1} = h_{1} \cdot σ_{0}$

其中 $h_{1}$ 为可变参数。

VSI CUSUM控制图中还需要设定上下警戒限，斜率 $F_{2}$ 可以写为:

$F_{2} = f_{2} \cdot σ_{0}$

其中 $f_{2}$ 为可变参数， $0 < f_{2} < f_{1}$ 。

控制区间 $H_{2}$ 满足等式：

$H_{2} = h_{2} \cdot σ_{0}$

其中 $h_{2}$ 为可变参数， $0 < h_{2} < h_{1}$ 。

如此，将控制图分为中心域和警戒域，有：

$I_{1} = (0, H_{2})$ 为中心域；

$I_{2} = (H_{2}, H_{1})$ 为警戒域。

对控制图进行可变抽样区间设计时，选取两个样本抽样间隔 $T_{1}$ 和 $T_{2}$ ，且满足 $T_{1} > T_{2} > 0$ 。

检验方案为：

若 $0 < | Z_{t} | \leq H_{2}$ ，即观测点落在中心域，说明产品质量良好，此时可以采取宽松的政策，也就是延长下一次抽样的时间，增大样本抽样间隔，即下一个抽样间隔为 $T_{1}$ ；

若 $H_{2} < | Z_{t} | \leq H_{1}$ ，即观测点落在警戒域，说明产品质量情况不稳定，有落在控制限之外的可能性，此时需要引起警惕，为了尽快发现偏差出现的原因是否具有随机性，需要缩短下一次抽样的时间，减小样本抽样间隔，即下一个抽样间隔为 $T_{2}$ ；

若 $| Z_{t} | > H_{1}$ ，即观测点落在控制限之外，说明产品生产过程中出现了严重问题，此时报警。

2.2. 控制图比较标准

衡量静态控制图监测效率的优劣，一般通过产品的平均链长(Average RunLength，简记为ARL)的大小来比较，但是根据ARL的定义式，我们可以了解到在可变抽样区间的动态控制图中，产品平均链长ARL无法作为其比较的指标。因此，我们可以采用平均报警时间(Average Time to Signal，简记为ATS)，表示从生产过程开始被检测到报警所需要的平均时间，作为可变抽样区间控制图的指标，计算公式为：

$ATS = E (T) \cdot ARL$

其中， $E (T)$ 为平均样本抽样间隔，计算公式为：

$E (T) = T_{1} \cdot p + T_{2} \cdot (1 - p)$

其中p为观测点落入警戒域的概率。

当过程发生偏移的时候，ATS越小越好，这样就说明其能很快地发现偏移，及时发出警报。

要比较两种质量控制图的监测效率，一方面需使得它们在无偏移时FSI CUSUM控制图的ARL与VSI CUSUM控制图的ATS大致相等，另一方面需要保证两种控制图的成本大致相等，即保证VSI CUSUM控制图的平均样本抽样间隔 $E (T)$ 与FSI CUSUM控制图的样本抽样间隔T大致相等。

2.3. CUSUM控制图参数的确定

对于FSI CUSUM控制图来说，可以给定平均链长ARL值为370，抽样间隔T为1单位，在重视0.5倍偏移量时，利用国标中的常用参数 $f = 0.25$ ，经过随机模拟计算可得h值，见表1。

Table 1. ARL values corresponding to different h values

表1. 不同h值对应的ARL值

从表1中可以清晰的看出，h取值不同时得到的平均链长的值都不同，并且随着参数h选取的值的不断增大，平均链长也随之变大。通过对表1的观察，发现要使ARL值为370，h取值在6到7之间，且更接近7，因此可以对h取值进一步精确，计算结果见表2。

通过表2可以得到，在误差允许的范围内，受平均链长为370的条件约束，h取值为6.7。因此，FSI CUSUM控制图的参数为 $f = 0.25$ ， $h = 6.7$ 。

Table 2. ARL values corresponding to different h values

表2. 不同h值对应的ARL值

对于VSI CUSUM控制图来说，在保证两种控制图指标值相等的原则下，要使平均报警时间ATS与平均链长ARL值同为370，同样在重视0.5倍偏移量时，利用国标中的常用参数数 $f_{1} = 0.25$ ， $f_{2} = 0.25$ 。而参数 $h_{1}$ ， $h_{2}$ ，需满足 $h_{1} > h > h_{2}$ 的关系；选取两个样本抽样间隔 $T_{1}$ ， $T_{2}$ ，需满足 $T_{1} > T_{2} > 0$ 的关系。

当 $h_{1} = 6.75$ ， $h_{2} = 6.65$ 时，利用随机模拟可以计算观测点落入警戒域的概率p为0.0032，在ATS值为370和 $E (T)$ 值接近1的条件下，可得 $T_{1} = 0.99$ ， $T_{2} = 0.4685$ ，此时 $E (T) = 0.9884$ 与固定样本抽样区间控制图的抽样间隔1大致相等，满足生产成本要求。

因此，VSI CUSUM控制图的参数为 $f_{1} = 0.25$ ， $f_{2} = 0.25$ ， $h_{1} = 6.75$ ， $h_{2} = 6.65$ ， $T_{1} = 0.99$ ， $T_{2} = 0.4685$ 。

3. 卡方分布下两种控制图的比较

3.1. CUSUM控制图

卡方分布同正态分布一样，在质量控制这一方面，主要是描述控制实验中的测量误差的分布。从理论上来讲，正常情况下测量误差应该是服从正态分布的，然而，实际状况总会与理论存在一定的冲突。本章节是在结合了张华初 [5] 等人对卡方分布模拟的基础上，假设实验中测量误差服从了卡方分布，对两种控制图的监测效率进行比较。

假定观测值 $X_{i} ~ χ^{2} (v)$ ，其中v代表自由度。令 $μ_{0}$ 和 $σ_{0}$ 分别表示均值和标准差的目标值。根据卡方分布的性质，我们可以得到：

$E (X_{t}) = μ_{0} = v$

$V a r (X_{t}) = σ_{0}^{2} = 2 v$

CUSUM控制图的统计量可以写为：

$Z_{t} = \max {0, Z_{t - 1} + X_{t} + k}$

在控制限的选取上，利用截顶V型模板来确定。当过程处于受控状态时，统计量 $Z_{t} = \max {0, Z_{t - 1} + X_{t} - F - v} < H$ ；当过程处于失控状态时，统计量 $Z_{t} = \max {0, Z_{t - 1} + X_{t} - F - v} > H$ 。

根据前文论述可知，VSI CUSUM控制图的控制限和警戒限的斜率以及控制区间和警戒区间等式可写为：

$F_{1} = f_{1} \cdot σ_{0} = f_{1} \cdot \sqrt{2 v}$

$H_{1} = h_{1} \cdot σ_{0} = h_{1} \cdot \sqrt{2 v}$

$F_{2} = f_{2} \cdot σ_{0} = f_{2} \cdot \sqrt{2 v}$

$H_{2} = h_{2} \cdot σ_{0} = h_{2} \cdot \sqrt{2 v}$

3.2. 两种控制图的的比较

对于固定样本抽样区间的CUSUM控制图来说，取参数值 $f = 0.25$ ， $h = 6.7$ ，在发生偏移时得到不同的平均链长ARL。对于可变样本抽样区间的CUSUM控制图来说，取参数值 $f_{1} = 0.25$ ， $f_{2} = 0.25$ ， $h_{1} = 6.75$ ， $h_{2} = 6.65$ ， $T_{1} = 0.99$ ， $T_{2} = 0.4685$ ，在发生偏移时得到不同的平均报警时间ATS。

在服从自由度为1的卡方分布下，计算ARL和ATS结果见表3。

Table 3. ARL and ATS values at different offsets

表3. 不同偏移下ARL和ATS值

通过观察表3可以发现，当过程失控，出现偏移时，VSI CUSUM控制图能更快的发现异常，发出警报。在偏移量大小相同时，FSI CUSUM和VSI CUSUM 控制图的表现各有不同，VSI CUSUM控制图的平均报警时间更小，尤其是当发生0.5倍偏移量时，FSI CUSUM控制图和VSI CUSUM控制图的平均链长和平均报警时间分别是45.6391和27.4106，VSI CUSUM控制图具有明显优势。另外，随着偏移量的增大，平均链长和平均报警时间都明显降低，而且平均报警时间明显小于平均链长。为了更加清晰直观地观察，根据表3绘制折线图，见图1。

Figure 1. ARL and ATS values at different offsets

图1. 不同偏移下ARL和ATS值

从图1中可以清晰地看出FSI CUSUM控制图和VSI CUSUM控制图的平均链长和平均报警时间之间的差距，显而易见，平均报警时间明显小于平均链长，说明在服从自由度为1的卡方分布下，VSI CUSUM控制图比FSI CUSUM控制图更能及时发现偏移，发出警报，减小企业损失。

根据卡方分布特点，增大自由度的值，在服从自由度为5的卡方分布下，计算ARL和ATS，结果见表4。

Table 4. ARL and ATS values at different offsets

表4. 不同偏移下ARL和ATS值

通过观察表4可以发现，当过程失控，出现偏移时，VSI CUSUM控制图能更快的发现异常，发出警报。在偏移量大小相同时，VSI CUSUM控制图的平均报警时间更小，尤其是当发生0.5倍偏移量时，FSI CUSUM控制图和VSI CUSUM控制图的平均链长和平均报警时间分别是100.1242和24.6758，VSI CUSUM控制图具有明显优势。另外，随着偏移量的增大，平均链长和平均报警时间都明显降低，而且平均报警时间明显小于平均链长。为了更加清晰直观地观察，根据表4绘制折线图，见图2。

Figure 2. ARL and ATS values at different offsets

图2. 不同偏移下ARL和ATS值

从图2中可以清晰地看出，FSI CUSUM控制图和VSI CUSUM控制图的平均链长和平均报警时间之间的差距更加明显，平均报警时间明显小于平均链长，说明在服从自由度为5的卡方分布下，VSI CUSUM控制图比FSI CUSUM控制图更能及时发现偏移，发出警报，减小企业损失。

4. 结论

综合上述，可以发现，随着自由度的不断增大，FSI CUSUM控制图和VSI CUSUM控制图的平均链长和平均报警时间之间的差距也在不断增大。当然，无论自由度如何变化，都是VSI CUSUM控制图表现得更好，平均报警时间更小，监控效率更高，因此建议当观测值服从卡方分布时选择监控效率更高的VSI CUSUM控制图。

参考文献

[1]	许志良, 朱永忠. 两种多元变异系数的自适应CUSUM控制图[J]. 信息技术, 2021(7): 1-8, 14.
[2]	王芝珺, 雷骏峰, 吴纯杰. 基于对数似然比的多元加权Poisson CUSUM控制图研究及应用[J]. 系统科学与数学, 2021, 41(3): 837-853.
[3]	毛樑. 基于正态变换的CUSUM控制图应用研究[D]: [硕士学位论文]. 上海: 华东师范大学, 2015.
[4]	朱永忠, 王室壹. 监控过程方差无参数多变量CUSUM控制图设计[J]. 统计与决策, 2021, 37(5): 49-53.
[5]	张华初, 楚鹏飞, 谢观霞. 统计分布和中心极限定理的随机模拟[J]. 统计与决策, 2021, 37(4): 69-72.

为你推荐

友情链接