1. 引言
现代制造过程由于多个需要控制的特性可能存在关联,对多变量进行综合分析成为客观必然。Hotelling [1] 率先明确了多元统计过程控制(Multivariate Statistical Process Control, MSPC)的必要性,后人在此基础上提出了多元过程控制的有效方法,目前Hotelling控制图仍是使用最为广泛的一种多元控制图。统计过程控制理论中,通常使用平均链长(Average Run Length, ARL)作为评价控制图性能的重要指标,以表示控制图从开始进行控制到发出警报信号为止所抽取的平均样本数,这是链长RL (Run Length)的算术平均。
如今,数据类型混杂是制造业和服务业都需要面对的科学问题。然而,传统多元过程控制理论往往基于多元正态分布的假设前提,用于计量数据的过程控制。近年来,逐渐有关于多属性(Multi-Attribute)数据的研究成果 [2] [3],而计量数据(Variable/Measurable Data)与属性数据(Attribute Data)混杂领域的研究成果则较为匮乏 [4]。
近来支持向量机(Support Vector Machine, SVM)对控制图的模式识别有不俗的表现 [5] [6]。研究发现SVM具备同时处理属性数据和计量数据的能力,故SVM可用于数据类型混杂情况下的过程控制研究。然而,文献 [4] 指出在统计过程控制SPC领域,现有SVM的应用与研究还都是针对计量数据展开的。故而,本文利用SVM对混杂数据的过程控制与诊断进行研究。为了深入讨论基于SVM的过程控制与诊断,本文沿着从多元计量数据到混杂数据的研究思路,最后,将基于SVM的控制方法与Hotelling多元控制图就控制性能进行对比研究。
2. 基于SVM的计量数据的过程控制与诊断
模拟生成k维数据
,数据彼此独立。过程异常是数据均值出现偏移且偏移发生在某个变更点(change point)的情况。由于k维数据的每个维度都有出现异常的可能,即存在受控和失控两种状态,故共有
种情况,包括:k维数据均处于受控状态的情况,以及
种存在失控数据的情况。需要随机生成等量的受控和失控子组,每个子组由n个观测构成。换言之,共生成
个k维子组,其中:
个处于受控状态的子组,
个处于失控状态的子组。训练集与测试集各占50%。对于服从正态分布的计量数据,利用每个子组内的各变量的平均值、标准差、变量间的相关系数,构成输入SVM的特征向量。
随后混杂数据的子组,由于随机生成0-1分布的数据,其子组的样本标准差有可能为0,故不同于正态数据的处理,使用变量间的协方差代替相关系数,即利用每个子组内的各变量的平均值、标准差、以及变量间的协方差,构成输入SVM的特征向量。
选用支持向量机的四种核函数,通过网格搜索(Grid Search)对惩戒因子和核函数系数进行优化,搜索范围从2−4到24,步长为0.5。取5折交叉验证准确率最高的结果作为参数进行SVM训练,得到分类结果。
2.1. 基于二分类SVM的过程控制
二维正态数据
的设置如表1所示。失控样本的均值偏移量
取±1和±2,对应着1个标准差和2个标准差的偏移。变量间相关系数
取±0.3和±0.7,以考虑强相关与弱相关、正相关与负相关的情况。每个子组经过特征提取,向SVM输入5个特征变量
,即子组内各变量的平均值、标准差、以及变量间的相关系数。m取1000,共生成6000个二维子组,其中:受控状态子组与失控状态子组分别为3000组。子组大小n取5、10、20。

Table 1. Determination of 2-dimensional normal data
表1. 二维正态数据的设置
,
时均值偏移量变化的分析结果如表2所示。对比四种核函数的结果可见,Sigmoid核函数与线性核函数表现不佳,而且均使用了几乎所有的数据作为支持向量;多项式核函数和RBF核函数的准确率则较高,其中多项式使用的支持向量个数更少。使用同一种核函数时,对比不同均值偏移量的分析结果可见,异常样本的均值偏移量越大,SVM准确率越高。

Table 2. Results of 2-dimensional normal data when the shift of process mean is changed ( n = 10 , ρ = 0.3 )
表2. 均值偏移量不同时二元正态数据的分析结果(
,
)
、均值偏移量
为1个标准差时相关系数变化的分析结果如表3所示。对比四种核函数的结果可见,不论变量间的相关关系是正相关还是负相关、是强相关还是弱相关,Sigmoid核函数与线性核函数都表现不佳,而且均使用了几乎所有的数据作为支持向量。对于表现较好的多项式核函数和RBF核函数,则变量间相关性越强,SVM准确率越高;正相关还是负相关的影响不大。

Table 3. Results of 2-dimensional normal data when the correlation is changed ( n = 10 , Δ μ : 1σ)
表3. 相关系数不同时二元正态数据的分析结果(
,
为1个标准差)
,均值偏移量
为1个标准差时子组大小变化的分析结果如表4所示。对比四种核函数的结果可见,不论子组大小n为5、10、20,Sigmoid核函数与线性核函数都表现不佳,而且均使用了几乎所有的数据作为支持向量。对于表现较好的多项式核函数和RBF核函数,则随着子组大小的减少,SVM准确率会降低,所需的支持向量数增加。

Table 4. Results of 2-dimensional normal data when the subgroup size is changed ( ρ = 0.3 , Δ μ : 1σ)
表4. 子组大小不同时二元正态数据的分析结果(
,
为1个标准差)
综合表2、表3和表4的分析结果可见,利用基于Sigmoid核函数与线性核函数的SVM进行过程控制皆表现不佳,故而,随后的分析都是利用基于多项式核函数Polynomial和RBF核函数的SVM进行过程控制与诊断。
2.2. 基于多分类M-SVM的过程诊断
前面利用二分类SVM对受控样本和失控样本进行区分,以实现基于SVM的过程控制。本节将利用多分类M-SVM,不仅要对受控状态与失控状态进行区分,而且要对出现了哪类失控状态进行诊断。
利用多项式核函数和RBF核函数的M-SVM进行异常诊断,此时
,
。多分类M-SVM共需训练
次二分类SVM,投票以确定最终分类。均值偏移量
不同时基于M-SVM的诊断结果如表5所示。

Table 5. Results of diagnosis based on M-SVM when the shift of process mean is changed ( ρ = 0.3 , n = 10 )
表5. 均值偏移量
不同时基于M-SVM的诊断结果(
,
)
由表5可见,均值偏移量
增大时,不论是判断受控状态的准确率、还是判断2、3、4这三种失控状态的准确率,以及总准确率都会增加,这与逻辑判断相符。有趣的是,基于多项式核函数的M-SVM在判断受控状态时表现略优于基于径向基RBF核函数的M-SVM;而在诊断2、3、4这三种失控状态时,基于径向基RBF核函数的M-SVM表现略佳;从总准确率上看,基于径向基RBF核函数的M-SVM略优于基于多项式核函数的M-SVM。
对比二分类SVM的准确率(见表2)与多分类M-SVM的总准确率(见表5),不论是利用多项式核函数还是径向基RBF核函数,二分类SVM的准确率都优于M-SVM,尤其当均值偏移量
为1个标准差的小偏移时,二分类SVM的优势更明显。故而,当需要对受控状态与失控状态进行控制时,二分类SVM的控制方法更为有效;当需要进一步对不同的失控状态进行诊断时,建议使用M-SVM的诊断方法。
3. 基于SVM的混杂数据的过程控制与诊断
3.1. 基于二分类SVM的混杂数据的过程控制
本文对三维混杂数据进行研究。三维混杂数据依次服从正态分布、0-1分布和泊松分布,数据之间存在相关性。即三维数据
,其中:
。
由于随机生成0-1分布的子组,其子组的样本标准差有可能为0,导致相关系数无意义,故不同于前面对正态数据的处理,使用变量间的协方差代替相关系数,即利用每个子组内的各变量的平均值、标准差、以及变量间的协方差,构成输入SVM的特征向量
。考虑到受控状态以及所有可能存在的失控状态,共需生成8类三维混杂数据,具体设置如表6所示。

Table 6. Determination of 3-dimensional mixed data
表6. 三维混杂数据的设置
取
。本文期望对正态近似效果较差的混杂数据进行研究,故数据的分布参数以及子组大小的选定尽量远离正态近似的条件,n取10。
对于失控数据的参数确定,选择均值偏移量为1个标准差。正态数据
出现
的偏离;0-1数据
的均值偏移量为
,由
得到
;泊松数据
的均值偏移量为
,由
得到
。
考虑到相关性强弱的情况,分别设置为
和
:
m取1000。共生成14000个子组,其中:受控子组和失控子组各7000组。基于二分类SVM的混杂数据分析结果如表7所示。
由表7可见,利用二分类SVM对混杂数据处于受控状态还是失控状态进行控制,不论相关性强弱,其判断的准确率始终高于93%。相比于,利用二分类对正态数据的控制,即表2、表3和表4中n取10、均值偏移量为1个标准差的分析结果,基于二分类SVM的混杂数据的控制准确度与正态数据的准确度基本持平,略有提升。
由表7可见,相关性的增强会带来准确率的提升与支持向量数的下降,与逻辑判断相符。对比多项式polynomial核函数与径向基RBF核函数的分析结果可见,在支持向量数上,多项式polynomial核函数明显少于径向基RBF核函数;在准确率上,弱相关时径向基RBF核函数略高,强相关时多项式polynomial核函数略高,相差幅度有限。

Table 7. Results of C-SVM for mixed data
表7. 基于二分类SVM的混杂数据分析结果
3.2. 基于多分类M-SVM的混杂数据的过程诊断
多分类M-SVM共需要训练
次二分类SVM,投票以确定最终分类。基于M-SVM的诊断结果如表8所示。

Table 8. The accuracy of diagnosis based on M-SVM for mixed data
表8. 基于M-SVM的混杂数据诊断准确率
由表8可见,相关性增强时,不论是判断受控状态的准确率、还是判断2至8这七种失控状态的准确率、以及总准确率都会明显增大,这与逻辑判断相符。
值得注意的是,基于多项式polynomial核函数的M-SVM在判断受控状态时表现略差于基于径向基RBF核函数的M-SVM,该结论与正态数据得到的结论相反;在诊断2至8这七种失控状态且相关性弱时,基于多项式polynomial核函数的M-SVM表现更佳,这也与正态数据得到的结论相反;从总准确率上看,基于径向基RBF核函数的M-SVM略差于基于多项式核函数的M-SVM,亦与正态数据得到的结论相反。由此可见,在利用M-SVM进行诊断时,对核函数的考虑需要特别审慎。
对比二分类SVM的准确率(见表7)与多分类M-SVM的总准确率(见表8),不论是利用多项式核函数还是径向基RBF核函数,二分类SVM的准确率都优于M-SVM,尤其是弱相关时,二分类SVM的优势更明显。故而,当需要在受控状态与失控状态之间进行控制时,二分类SVM的控制方法更为有效;当需要进一步对不同的失控状态进行诊断时,建议使用M-SVM的诊断方法,这与正态数据给出的建议一致。
4. 与Hotelling多元控制图的性能对比
本文旨在研究计量数据与属性数据的混杂数据过程控制与诊断问题。借助支持向量机,探讨了多元混杂数据出现均值偏移时的过程控制与诊断,至此,需要进行混杂数据过程控制与诊断方法的性能分析。若仅是进行多元正态数据或是多元属性数据的控制方法的性能对比,那么,都有多种统计控制方法可进行对比研究。然而,进行混杂数据的控制方法的性能对比,那么,只有选择基于Hotelling统计量的多元控制图。
基于Hotelling统计量设计的多元控制图是应用最广泛、对存在关联关系的多变量进行联合控制的有效方法。Hotelling统计量的统计特性源于存在关联关系的多个变量服从多元正态分布的基本假设。面对混杂数据时,则借助正态近似,利用多元控制图进行控制。下面就本文提出的基于SVM的控制方法与Hotelling多元控制图 [7] 就控制性能进行对比。
4.1. 性能对比的设计
对比基于SVM的控制方法与Hotelling多元控制图的控制性能,需要对相同的研究对象进行分析,即数据集相同;同时,待考核的性能指标必须是可比的。
统计过程控制通常使用平均链长ARL (average run length)作为评价控制性能的重要指标。以Hotelling多元控制图为例,ARL(0)和ARL(1)分别表示过程处于受控状态和失控状态时,连续两次出现落在上控制限UCL(upper control limit)之外的出界点之间的平均链长。显然,基于SVM的控制方法本身并没有考虑数据的序列问题,不存在平均链长ARL的概念。本文将借助控制方法中普遍存在的两类错误概率
和
,来建立多元控制图的ARL(0)与ARL(1)相对于基于SVM控制方法对受控状态与失控状态的分类准确率Accuracy之间的对应关系,具体表述如下:
(1)
(2)
为了与ARL(0)、ARL(1)相统一,这里使用的Accuracy(0)、Accuracy(1)分别代表受控状态、失控状态的分类准确率。
利用平均链长ARL分析控制图的控制性能的常规思路是:在给定受控状态ARL(0)的情况下,比较失控状态的ARL(1),进而,对控制图发现过程出现异常的灵敏程度进行对比研究。本文首先对训练集进行研究,利用训练集中的受控状态子组和失控状态子组,学习得到二分类SVM模型;接着,利用得到的二分类SVM模型,对训练集中的受控子组进行判断,得到受控状态子组的准确率Accuracy(0);随后,利用公式(1),计算得到第I类错误的概率
。至此,为下一步控制性能的对比研究做好准备。
基于SVM的控制方法在前文中介绍了各变量分布参数的设置。进行对比研究的Hotelling多元控制图,在同样的分布参数设置下设计控制图,即
控制图。利用第I类错误的概率
,得到
控制图的上控制限UCL。
针对相同的测试集,使用
控制图的上控制限UCL,得到失控状态的ARL(1);使用二分类SVM的控制方法,得到失控状态的准确率Accuracy(1)。借助公式(2),对ARL(1)和Accuracy(1)进行适当转换,对控制性能进行比较。
4.2. 正态数据的控制性能对比
对正态数据的控制性能进行对比研究。二维数据
的设置如表1所示。失控样本的均值偏移量
取1个标准差的偏移,变量间相关系数
取0.7,子组大小n取10,m取1000,共生成6000个子组,其中:受控状态子组与失控状态子组各3000组。并等分为训练集与测试集。
首先,利用训练集的3000个子组,学习得到二分类SVM模型;接着,利用该二分类SVM模型,对训练集中的1500个受控子组进行判断,得到受控状态的准确率Accuracy(0) = 97.4%,即第I类错误的概率
。随后,由第I类错误的概率
,可以得到
控制图的上控制限UCL = 7.30。最后,针对测试集中的1500个失控子组,利用
控制图的上控制限UCL,得到失控状态的ARL(1);利用二分类SVM的控制方法,得到失控状态的准确率Accuracy(1)。分析结果如表9所示。

Table 9. Comparison of process control performance for normal data ( ρ = 0.7 , n = 10 , Δ μ : 1σ)
表9. 正态数据的控制性能比较(
,
,
为1个标准差)
由表9可见,基于SVM的控制和
控制图的准确率以及ARL都非常相近。从数值来看,
控制图的准确率和ARL都略优于基于SVM的控制方法,说明Hotelling多元控制图至今广为使用的客观必然。
4.3. 混杂数据的控制性能对比
对混杂数据的控制性能进行对比研究。三维混杂数据
的设置如表6所示。受控状态子组取
,
,
;失控状态子组的参数偏移量为1个标准差的偏移,且仅产生正向的偏移,得到
,
,
。变量间相关性强,为
。子组大小n取10。m取1000,共生成14000个子组,其中:受控状态子组与失控状态子组各7000组。并等分为训练集与测试集。
首先,利用训练集的7000个子组,学习得到二分类SVM模型;接着,利用该二分类SVM模型,对训练集中的3500个受控子组进行判断,得到受控状态的准确率Accuracy(0) = 97.5%,即第I类错误的概率
。随后,由第I类错误的概率
,可以得到
控制图的上控制限UCL = 9.35。最后,针对测试集中的3500个失控子组,利用
控制图的上控制限UCL,得到失控状态的ARL(1);利用基于二分类SVM的控制方法,得到失控状态的准确率Accuracy(1)。分析结果如表10所示。

Table 10. Comparison of process control performance for mixed data (correlation matrix: R 2 )
表10. 混杂数据的控制性能比较(相关系数矩阵为
)
由表10可见,相比于
控制图,基于SVM的控制方法其控制性能得到了极其显著地提升,其准确率与ARL提高了1.5倍多。显然,当面对混杂数据,尤其在混杂数据不能满足正态近似条件时,基于SVM的控制方法将大幅度改进控制性能,是远优于广为使用的Hotelling多元控制图的一种有效的控制途径。
5. 结论
本文利用支持向量机SVM实现了对混杂数据的过程控制与诊断,研究发现:
1) 相比于线性核函数和Sigmoid核函数,利用基于多项式polynomial核函数和径向基RBF核函数的支持向量机进行控制,均有较高的准确率。子组大小越大、变量间相关性越强以及均值偏移量越大,则准确率越高。
2) 对比二分类SVM的准确率与多分类M-SVM的总准确率可见,二分类SVM优于M-SVM。故而,当需要在受控状态与失控状态之间进行控制时,二分类SVM的控制方法更为有效;当需要进一步对不同的失控状态进行诊断时,建议使用基于M-SVM的诊断。在利用M-SVM进行诊断时,对核函数的考虑需要特别审慎,建议同时尝试多项式polynomial核函数和径向基RBF核函数。
相比于Hotelling多元
控制图,在控制多元正态数据时,基于SVM的控制方法与
控制图的控制性能非常相近。在控制混杂数据时,基于SVM的控制方法则大幅提升控制性能,故而,基于SVM的控制是一种更为稳健地控制混杂数据的方法。利用多分类M-SVM,可对多元数据中出现哪种失控状态进行有效诊断。然而,Hotelling多元控制图只能对是否出现失控状态进行判断,而无法进行诊断。
基金项目
国家自然科学基金资助项目(NSFC-71672100)。