基于分类算法的变量选择控制图
Variable Selection Control Chart Based on Classification Algorithm
摘要: 高维稀疏过程监控的理论方法需通过真实场景验证才能落地,针对生物信息学、工业生产中数据分布非理想、变量相关性复杂、噪声干扰显著的实际监控痛点,本文基于提出的L0-L2组合正则化变量选择理论,通过L0-L2组合正则化不仅能够选择变量并收缩系数,还能高效处理相关特征,精准识别异常变量,同时利用逻辑回归模型感知特定方向的偏移,并采用极大值函数将二者动态融合,形成一个具有方向自适应的监控统计量。它是一种新的变量选择控制图(LQSVS),结合了分类算法来解决高维、稀疏分类问题,主要聚焦理论创新与模拟验证。现开展真实数据应用验证与优化研究,以UCI大肠杆菌蛋白质数据集为研究对象,首先针对真实数据特性完成预处理,并采用Bootstrap重抽样技术优化控制限计算;其次通过控制变量实验确定最优参数;最终在平均运行长度基准ARL₀ = 200下,验证该方法对失控(OC)数据的平均检测延迟ARL₁低至1.68,结果显著优于传统控制图。实验结果表明,所提方法可有效解决真实高维数据中“稀疏偏移检测灵敏度低、参数适配难”的问题,为蛋白质定位监控、工业多变量过程诊断等场景提供了实用工具。
Abstract: The theoretical methods for high-dimensional sparse process monitoring can only be put into practical application after validation in real scenarios. Aiming to address practical monitoring pain points, such as non-ideal data distribution, complex variable correlation, and significant noise interference, in bioinformatics and industrial production, this paper is based on the proposed L0-L2 combined regularization variable selection theory. The L0-L2 combined regularization can not only select variables and shrink coefficients, but also efficiently handle correlated features and accurately identify abnormal variables. Meanwhile, the logistic regression model is used to sense shifts in specific directions, and the maximum function is adopted to dynamically integrate the two, forming a direction-adaptive monitoring statistic. It is a new variable selection control chart (LQSVS), which combines classification algorithms to solve high-dimensional and sparse classification problems, focusing mainly on theoretical innovation and simulation verification. Now, research on real-data application validation and optimization is carried out, taking the UCI E. coli protein dataset as the research object. Firstly, preprocessing is completed according to the characteristics of real data, and the Bootstrap resampling technique is used to optimize the calculation of control limits. Secondly, the optimal parameters are determined through controlled variable experiments. Finally, under the benchmark of in-control average run length (ARL₀) = 200, it is verified that the average run length for out-of-control (OC) data (ARL₁) of this method is as low as 1.68, which is significantly better than that of traditional control charts. The experimental results show that the proposed method can effectively solve the problems of “low sensitivity to sparse shift detection and difficult parameter adaptation” in real high-dimensional data, and provide a practical tool for scenarios such as protein localization monitoring and industrial multivariate process diagnosis.
文章引用:徐亚萍, 訾雪旻. 基于分类算法的变量选择控制图[J]. 统计学与应用, 2026, 15(1): 1-7. https://doi.org/10.12677/sa.2026.151001

1. 引言

高维稀疏过程监控是现代工业生产、生物信息学等领域的核心需求——例如化工多变量生产过程中仅2~3个关键变量偏移就可能引发质量事故,大肠杆菌蛋白质定位研究中需从高维数据中快速识别异常定位信号。传统Hotelling T2控制图对所有变量全局监控,在真实高维数据中因“维度诅咒”导致稀疏偏移检测灵敏度极低[1];LASSO-VS控制图虽通过变量选择优化,但仅依赖在控(IC)数据构建模型,无法利用历史失控(OC)数据中的故障模式信息,在真实场景中易受变量相关性、随机噪声干扰;概率分类(PoC)图虽融入OC数据,却对预设偏移方向过度依赖,难以适配真实数据中偏移方向不确定的复杂情况。当前面临理论与实际脱节的问题。

为解决高维稀疏监控的理论创新问题,基于L0-L2组合正则化[2]的变量选择控制图(LQSVS),通过数值模拟验证了核心优势。L0范数实现精准稀疏变量筛选,避免传统LASSO在高相关数据中随机选择单一变量的缺陷[3] [4];L2范数收缩非零系数,降低噪声对模型的干扰;变量选择统计量和分类边界距离统计量双统计量融合机制,兼顾特定方向与非特定方向的偏移检测。但该研究仅基于理想高相关模拟数据,比如预设正态分布、固定相关性系数、低随机噪声。未涉及真实数据可能存在部分变量线性相关、真实数据分布常偏离理想正态、理论参数在真实场景中的最优取值等问题,需针对性预处理以匹配理论假设。

本文主要以UCI大肠杆菌蛋白质数据集为研究对象,该数据集具有高维属性、强相关性、分布复杂性。原始含7个变量,经预处理后保留5个关键变量,符合高维监控场景,且部分样本偏离正态分布。下面主要针对真实数据特性优化LQSVS控制图的技术细节,使高维稀疏监控理论落实到实际应用。

2. 基于分类算法的L0-L2变量选择控制图

基于逻辑回归模型的分类边界[5]距离统计量定义为:

D c ( x t )= e d c ( x t ) (1)

其中 d c ( x t )= β 0 + i=1 p β i x i 测量观测值与边界之间的距离, β i ( i=0,1,2,,p ) 是逻辑模型的回归系数[6]

变量选择通过以下正则化目标函数实现:

minimizeλ j=1 p I( β j 0 ) +γ j=1 p | β j | 2 (2)

其中, β j 是模型系数, I( ) 是示性函数,当 β j 0 时取值为1,否则为0。λγ是正则化参数,控制着L0和L2正则化的强度。L0-L2组合正则化方法是一种先进的变量选择[7]技术,旨在解决高维数据中的稀疏性问题。通过优化上述目标函数,可以实现在保持模型稀疏性的同时,对非零系数进行适当的收缩。

在监控问题中,转化为带L0-L2惩罚的马氏距离最小化问题,将含惩罚项的目标函数定义为:

S ( x t ) ( 1 ) = min μ Ω 1 ( x t μ ) T Σ 1 ( x t μ )+λR+γ j=1 p | μ j | 2 (3)

其中 R=I( | μ j |0 ) 表示筛选出的异常变量数量,λγ分别为L0、L2正则化参数;通过乔列斯基分解 ( Σ 1 = Y T Y ) 将式(3)转化为最小二乘形式

S ( x t ) ( 2 ) = min μ Ω 1 ( z t Yμ ) T ( z t Yμ )+λR+γ j=1 p | μ j | 2 (4)

此时 z t =Y x t 是预测变量,Y为标准化观测矩阵,该转化使马氏距离最小化问题更易应用L0-L2正则化。当新观测值到来时,通过求解式(4)可得到稀疏均值估计 μ ,进而构建变量选择统计量:

d vs ( x t )= x t T Σ 1 μ ( x t |R ) (5)

该统计量用样本协方差矩阵S替代总体协方差矩阵Σ,兼具稀疏性与距离度量特性。自然地,结合公式(1)和(5)这两种统计量,最终监控统计量通过极大值函数融合两类统计量:

Λ svs ( x t )=max( d vs ( x t ),k D c ( x t ) ) (6)

其中k为尺度因子,用于统一量纲。该统计量具备方向自适应性,可同时应对特定方向与非特定方向的稀疏偏移。

本文采用的L0-L2组合正则化变量选择方法及其在监控统计量中的融合机制(已投稿),上文仅列出关键公式与统计量定义,详细理论推导与模型构建过程可参考前述研究。

多变量统计过程控制(MSPC)旨在监测高维数据的均值向量μ是否发生偏移[8],即检测均值向量的变化。在新型控制图应用前,需突破传统分布假设的局限确定控制限。通过自适应学习机制,构建基于Bootstrap重抽样控制限体系。在本研究中,变量选择算法估计的 μ 是变化的,监控统计量 Λ svs ( x t ) 的分布很难确定,通过Bootstrap重抽样方法渐近地获得分布。

3. 实际应用

3.1. 数据集描述

为了在实际例子中证明提出方法的有效性,本节使用了来自加州大学欧文分校(UCI)机器学习库(http://www.example.com)维护的真实的大肠杆菌蛋白质数据集[9],该数据集最初是为了预测这些蛋白质的定位位点而创建的,可用于测试分类算法。数据集中有336个样本。对于每个样本,七个属性变量可视为观测值,而蛋白质定位位点可视为预测变量。根据不同的定位位点,数据集可分为八组cp、im,imS,imL,imU、om,omL,pp (143、77、2、2、35、20、5和52)。具体信息可在引用[9]论文中找到,它描述了一种分类模型,它可以被看作是一个概率模拟决策树或贝叶斯网络的限制形式。在这种情况下,这些点渐近满足正态性假设,cp可被视为控制内(IC)观测值共计143个。部分im,imS,imL,imU点被视为预定义失控(OC)观测值共计116个,而其他部分点om,omL,pp被视为未定义OC观测值共计77个。原始蛋白质数据含7个变量,其中两个变量线性相关,故通过方差膨胀因子(VIF)筛选,剔除这两个变量,最终保留5个独立关键变量,确保理论框架与真实数据结构匹配。

为了评估控制图的性能,通过对真实数据集展开研究。数据观测值渐近满足多元正态分布,即 x t N( μ 0 ,Σ ) ,其中 Σ=( σ ij ) 是一个常数矩阵。考虑变量间相关性,数据模拟中是设定 ρ 值,即 σ ij = ρ | ij | ,现研究真实数据,先对真实数据做预处理,求其均值和方差,去除线性相关数据(两列),研究336行5维的数据,对过程所处控制状态时求其均值向量 μ 0 ;处于失控状态时,考虑两种情况:预定义失控(OC)数据和未定义的OC数据。在实验中,首先在数据集中有336个样本,用训练数据集中的243个观测值,包括143个正常控制(IC)数据和100个失控(OC)数据(其中50个预定义,50个未定义),一起构建逻辑回归模型。此外,这143个正常控制的IC观测值也用来通过变量选择算法L0-L2估计IC数据的中心。再用143个IC数据点,采用Bootstrap重抽样方法,从IC数据中有放回地抽取40个观测值作为一批次,计算每个观测值的监控统计量,重复1000批次获得40000个统计量构建经验分布,得到IC统计量分布,再用99.5%分位数法得到控制限和可控条件(ARL0)下的实际平均运行长度(ARL)。最后基于剩下的93个OC数据进行检验,计算失控条件下的ARL1。希望ARL1足够小,以便能快速检测到过程的变化,也就是说ARL1越小,控制图越有效。

3.2. 基于分类算法的L0-L2变量选择模型中进行参数估计

仅针对大肠杆菌蛋白质真实数据的特性,对关键参数进行适配调整。在实施过程监控前,需确定两个关键参数:R和K。R表示用于监控的变量筛选数量,可通过先验知识或变量选择标准(如AIC、BIC和交叉验证)确定,实践中因变量同时变化较少而易于确定。K为调整参数,用于平衡从过程中提取的IC和OC信息,其取值范围在(0, 1)内,通常选0.5以平等地利用两者信息,但也会根据具体情况调整。这两个参数对LQSVS图的性能至关重要,R和K的合理选择能提升控制图的稳健性。

在本文中R是被L0Learn中正则化参数λ和正则化参数γ同时控制的,其中λ控制L0正则化(变量选择的稀疏性),值越大,选择的变量越少。γ控制L2正则化(系数的收缩强度),用于平衡模型,防止过拟合。通过设计实验测试了和模拟实验已验证γ ∈ {10, 0.0316, 0.0001}对ARL₁影响极小,故选择固定γ = 0.0001,在抑制过拟合的同时保留对异常信号的敏感性,选择不同的λ去测试(即对应不同的变量筛选数量R)。针对过程所处控制状态与失控状态,分别求出不同模式下观测值的分布。在应用所提出的控制图之前,确定参数k和R,根据实际情况选择 k=1 并设定 R=1,2,3 用于比较,不过因lambda和gamma的同时控制导致部分维度的R有缺失,缺失源于L0Learn的λ调参限制,即当λ过大时,某些维度无变量被选中(R = 0)导致该组合无效。

3.3. 实验结果

为评估所提出控制图的性能,本文采用了平均运行长度(ARL)指标。所有控制图的ARL1计算均基于此场景下期望ARL0 = 200的设定,较小的失控平均运行长度(ARL1)表示控制图性能更优,见表1所示,数据模拟实验结果见表2,每组ARL1的模拟均重复至少1000次。

Table 1. Comparison of the actual ARL1 values with different numbers of selected variables when ARL0 = 200. The minimum ARL1 values obtained from experiments

1. 当ARL0 = 200时,真实数据ARL1与不同变量筛选数量之间的比较。通过实验获得的最小ARL1

SVS chart (L0-L2)

R = 1

R = 2

R = 3

ARL1

1.680

1.760

2.090

Table 2. Comparison of ARL1 with different shift magnitudes δ in data simulation experiments when p = 5 and ARL0 = 200

2. 当p = 5而ARL0 = 200时,数据模拟实验中ARL1与不同幅度偏移δ的比较

SVS chart (L0-L2)

R = 1

R = 2

R = 3

δ = 1

9.9826

9.7878

10.2398

δ = 2

1.4774

1.5244

1.5024

δ = 3

0.6940

0.6974

0.6836

δ = 4

0.1796

0.3272

0.9356

δ = 5

0.2934

0.7296

0

3.4. 实际案例的实验分析

表1的实验结果以及与Zhang等(2023)提出基于分类算法的敏感变量选择(SVS)控制图文章中的基线图表进行比较来评估其性能[1],可以得出本文提出的控制图在不同变量筛选数量下和大量实验中取得ARL1值。尤其是在R = 1时,如表1其对所有OC数据的平均检测延迟(ARL1)仅为1.68,这意味着控制图平均在不到2个样本内就能探测到过程失控,快速发现异常定位,减少实验成本。不同R时,真实数据的ARL1略高于模拟数据(p = 5时幅度偏移δ ≥ 2时的ARL1),原因是真实数据存在随机噪声与分布偏差,验证了理论方法的抗干扰能力。

变量选择稀疏度R的影响,实验结果表明,当R = 1时,本文提出的控制图的检测性能最优,随着R增大至2和3,ARL1值逐渐升高。这一现象的原因在于真实数据中的异常很可能是由少数关键变量(甚至单个变量)的偏移引起的。见图1,R = 1的设置迫使模型聚焦于最显著的一个异常变量,从而获得了最尖锐的检测信号。当R增大时,更多变量被纳入模型,虽然增强了稳健性,但也可能引入不相关的噪声变量,稀释了对核心异常变量的监控力度,导致检测灵敏度略有下降。为验证结果的可信度,对不同方法运行1000次模拟得到的ARL1序列进行了双样本t检验。检验结果表明,R = 1的ARL1均值具有较强的显著性,即具有统计学上的显著差异。也表明在生物高维数据监控中,聚焦单一关键变量的稀疏选择策略更有效(如蛋白质定位的核心影响因子仅1~2个),为实际应用提供了参数选择依据。同时相较于传统方法,可大幅缩短异常响应时间,减少无效实验成本。

综上所述,实验分析充分证明将变量选择与分类算法相结合的自适应机制的有效性,本文提出的控制图通过创新的自适应双统计量融合机制,克服了之前方法的单一局限性,在真实高维过程监控任务中提供了一种更快速、更灵敏的解决方案。

Figure 1. Monitoring performance of the LQSVS control chart and Bootstrap distribution of the SVS statistic for its in-control data when sparsity R = 1

1. 当稀疏度R = 1时LQSVS控制图监控和其IC数据SVS统计量Bootstrap分布

4. 结论

本文基于新提出的一种新颖的分类算法和变量选择相融合的多变量统计过程控制方法,通过大肠杆菌蛋白质真实数据的实验和数据模拟实验,实现了1.68的低ARL₁,显著优于传统控制图,该结果验证了该方法在高维强相关性的实际场景中的实用性。结果表明,SVS (L0-L2)控制图具有更高的灵敏度,解决了真实数据中分布偏离、噪声干扰、变量冗余带来的监控难题。当前该算法在数据呈正态分布的情况下表现出稳定的性能,但是此控制图的分类模块依赖于逻辑回归算法,它对非正态数据的适配性可进一步提升,而且该方法在超大规模真实数据(如p > 100)中的计算效率仍需优化。未来工作计划拓展至超大规模工业真实数据,优化算法计算效率;结合支持向量机SVM分类模块[10],提升非正态、大样本真实数据的检测性能;开发可视化监控界面,降低实际工程应用的门槛。

NOTES

*通讯作者。

参考文献

[1] Zhang, S., Xue, L., He, Z., Liu, Y. and Xin, Z. (2023) A Sensitized Variable Selection Control Chart Based on a Classification Algorithm for Monitoring High‐Dimensional Processes. Quality and Reliability Engineering International, 39, 2837-2850. [Google Scholar] [CrossRef
[2] Dedieu, A., Hazimeh, H. and Mazumder, R. (2021) Learning Sparse Classifiers: Continuous and Mixed Integer Optimization Perspectives. Journal of Machine Learning Research, 22, 1-47.
[3] Zou, C., Jiang, W. and Tsung, F. (2011) A Lasso-Based Diagnostic Framework for Multivariate Statistical Process Control. Technometrics, 53, 297-309. [Google Scholar] [CrossRef
[4] Zou, C. and Qiu, P. (2009) Multivariate Statistical Process Control Using Lasso. Journal of the American Statistical Association, 104, 1586-1596. [Google Scholar] [CrossRef
[5] Zhang, C., Tsung, F. and Zou, C. (2015) A General Framework for Monitoring Complex Processes with Both In-Control and Out-of-Control Information. Computers & Industrial Engineering, 85, 157-168. [Google Scholar] [CrossRef
[6] Huang, D.X. and Lu, C.T. (2023) Several Variable Selection Methods Based on Logistic Regression Model. Popular Standardization, 8, 139-141.
[7] Subbiah, S.S. and Chinnappan, J. (2021) Opportunities and Challenges of Feature Selection Methods for High Dimensional Data: A Review. Ingénierie des systèmes d information, 26, 67-77. [Google Scholar] [CrossRef
[8] Wang, K. and Song, Z. (2024) High-Dimensional Categorical Process Monitoring: A Data Mining Approach. IISE Transactions, 57, 1088-1104. [Google Scholar] [CrossRef
[9] Horton, P. and Nakai, K. (1996) A Probabilistic Classification System for Predicting the Cellular Localization Sites of Proteins. International Conference on Intelligent Systems for Molecular Biology, 4, 109-115.
[10] Landeros, A. and Lange, K. (2022) Algorithms for Sparse Support Vector Machines. Journal of Computational and Graphical Statistics, 32, 1097-1108. [Google Scholar] [CrossRef] [PubMed]