混合指数损失下的鲁棒一分类支持向量机
Robust One-Class Support Vector Machine under Hybrid Exponential Loss
DOI: 10.12677/aam.2026.153108, PDF, HTML, XML,    科研立项经费支持
作者: 马婷婷:昌吉学院数学与数据科学学院,新疆 昌吉
关键词: 混合指数损失一分类支持向量数据描述Mixed Exponential Loss One-Class Support Vector Data Description (SVDD)
摘要: 支持向量数据描述(SVDD, Support Vector Data Description)凭借其在单分类和异常检测任务执行中的优异表现,受到了广泛关注。然而,若在建模过程中为所有松弛变量直接分配相同权重,当训练数据混入部分异常值或标签标注错误的观测数据时,模型的学习性能便有可能出现下降。为此,本文提出一种扩展型SVDD模型,通过混合指数损失函数对SVDD原本的优化问题进行重新构建。该损失函数能够突出更有可能归属于目标类的样本的重要性,同时削弱更易成为异常值的样本所产生的影响,因此这一模型也可被视作加权型SVDD。但与传统加权方式不同的是,新模型中的权重为自动计算所得,并非通过特定方法预先计算。为有效求解所提模型的优化问题,本文采用半二次优化技术开展优化计算,进而构建出一种动态优化算法。同时,本文还从理论角度分析了该动态优化算法的收敛性与计算复杂度。此外,本文还展示了在合成数据集及多个公开真实数据集上取得的实验结果,以此验证该新方法相较于传统SVDD及其他同类SVDD改进模型的性能优势。
Abstract: Support Vector Data Description (SVDD) has attracted extensive attention due to its excellent performance in performing one-class classification and anomaly detection tasks. However, if the same weight is directly assigned to all slack variables during the modeling process, the learning performance of the model may decline when the training data is contaminated with some outliers or observation data with mislabeled tags. For this reason, this paper proposes an extended SVDD model by reformulating the original optimization problem of SVDD with a mixed exponential loss function. This loss function can highlight the importance of samples that are more likely to belong to the target class and attenuate the effects of samples that are more prone to being outliers, so this model can also be regarded as a weighted SVDD. Unlike traditional weighting methods, however, the weights in the new model are calculated automatically and not precomputed by a specific method. To effectively solve the optimization problem of the proposed model, a semi-quadratic optimization technique is adopted for optimization calculation in this paper, thereby constructing a dynamic optimization algorithm. Meanwhile, this paper analyzes the convergence and computational complexity of this dynamic optimization algorithm from a theoretical perspective. In addition, this paper presents the experimental results obtained on synthetic datasets and several public real datasets to verify the performance advantages of the new method compared with the traditional SVDD and other competing improved SVDD models.
文章引用:马婷婷. 混合指数损失下的鲁棒一分类支持向量机[J]. 应用数学进展, 2026, 15(3): 322-327. https://doi.org/10.12677/aam.2026.153108

1. 背景介绍

支持向量数据描述(SVDD)的目的是在特征空间找到一个包含大部分训练样本的最小超球[1],其优化问题可以表示为:

min R,μ,ε   R 2 +C i=1 N ξ i s.t.   φ( x i )μ R 2 + ξ i        ξ i 0,i=1,2,,N

其中 R μ 分别为超球的半径与球心; ξ i 为引入的松弛变量; C 为权衡参数。

该模型(SVDD)表现比较优异,但若在建模过程中为所有松弛变量直接分配相同权重,当训练数据混入部分异常值或标签标注错误的观测数据时,模型的学习性能便有可能出现下降[2]

2. 提出方法

本节首先阐述所提方法的模型与优化算法,随后探讨该方法与加权支持向量数据描述方法之间的关联。

2.1. 建立模型

在本文中,受支持向量数据描述[3]和不确定数据的双参数化间隔支持向量机[2]的启发。我们提出了一个新的混合指数损失下的鲁棒一分类支持向量机模型[4]。本文提出使用混合指数损失函数来构建鲁棒模型。相比于单一的指数损失或Ramp损失,混合指数损失提供了更多的自由度(通过参数 λ τ 1 τ 2 )来调节损失函数的形状,理论上相较于参考文献[2]可以更好地平衡对正常样本的拟合与对异常样本的抑制。

优化模型为

min w,ρ,ε   1 2 w 2 2 υρ+ 1 N i=1 N f( ξ i ) s.t.   w T ϕ( x i )ρξ i       ρ0, ξ i 0,i=1,2,,N (1)

其中 f( x i )=λ( 1 e τ 1 ξ i )+( 1λ )( 1 e τ 2 ξ i ) τ 1 τ 2 是大于0的参数,混合参数 0λ1 0υ1 。用于平衡所采用的两个指数函数的作用贡献。需要说明的是,函数 f( ξ i ) 可灵活扩展至包含两个以上指数函数的一般情形;但本研究中为减少自由参数的数量,仅聚焦于两个指数函数的混合形式。

2.2. 求解问题

命题1 [5]。对于函数 q( x )=exp( τx ) ,有凸函数 q( x )= sup υ<0 { ( τυ ) x g( υ ) } ,其中 g( υ )=υln( υ )+υ  ( υ<0 ) 。由上述共轭函数,给出(1)式的等价优化问题。

min w,ρ,ε, υ 1 <0, υ 2 <0   1 2 w 2 2 υρ 1 N i=1 N λ [ τ 1 υ 1,i ξ i g( υ 1,i ) ] 1 N i=1 N ( 1λ ) [ τ 2 υ 2,i ξ i g( υ 2,i ) ] s.t.   w T ϕ( x i )ρ ξ i       ρ0, ξ i 0,i=1,2,,N (2)

其中 υ 1 = { υ 1,i } i=1 N υ 2 = { υ 2,i } i=1 N υ 1,i <0 υ 2,i <0 ,利用半二次规划方法,可优化 w,ρ,ε= { ξ i } i=1 N υ 1 = { υ 1,i } i=1 N υ 2 = { υ 2,i } i=1 N 。先固定 υ 1 = { υ 1,i } i=1 N υ 2 = { υ 2,i } i=1 N ,求解 w,ρ,ε= { ξ i } i=1 N

2.2.1. 优化 w,ρ,ε= { ξ i } i=1 N

固定 υ 1 = { υ 1,i } i=1 N υ 2 = { υ 2,i } i=1 N ,优化问题可写为

min w,ρ,ε, υ 1 <0, υ 2 <0   1 2 w 2 2 υρ 1 N i=1 N λ τ 1 υ 1,i ξ i 1 N i=1 N ( 1λ ) τ 2 υ 2,i ξ i s.t.   w T ϕ( x i )ρ ξ i       ρ0, ξ i 0,i=1,2,,N (3)

则(3)式的拉格朗日函数为

L( w,ρ,ε )= 1 2 w 2 2 υρ 1 N i=1 N λ τ 1 υ 1,i ξ i 1 N i=1 N ( 1λ ) τ 2 υ 2,i ξ i i=1 N α i ( w T ϕ( x i )ρ+ ξ i ) i=1 N β i ρ i=1 N γ i ξ i

其中 { α i } i=1 N { β i } i=1 N { γ i } i=1 N 是拉格朗日乘子。求 L( w,ρ,ε ) 分别对 w,ρ, ε i 求偏导并令其为0,得

L( w,ρ,ε ) w =w i=1 N α i ϕ( x i )=0

L( w,ρ,ε ) ρ =υ+ i=1 N α i i=1 N β i =0

L( w,ρ,ε ) ξ i = 1 N λ τ 1 υ 1,i 1 N ( 1λ ) τ 2 υ 2,i α i γ i =0

得到 w= i=1 N α i ϕ( x i ) (4)

υ= i=1 N α i i=1 N β i (5)

1 N S i = α i + γ i , i=1,2,,N (6)

S i =[ λ τ 1 υ 1,i +( 1λ ) τ 2 υ 2,i ] ,由于 α i 0,  β i 0,  γ i 0 我们有 0 α i 1 N S i ,i=1,2,,N. 将(4)~(6)代入(3)式,可得

L( w,ρ,ε )= 1 2 w 2 2 υρ 1 N i=1 N λ τ 1 υ 1,i ξ i 1 N i=1 N ( 1λ ) τ 2 υ 2,i ξ i i=1 N α i ( w T ϕ( x i )ρ+ ξ i )

L( w,ρ,ε )= 1 2 i=1 N j=1 N α i α j k( x i , x j ) i=1 N α i k( x i , x i )

为便于求解,该模型的对偶问题为

min α   i=1 N α i k( x i , x i ) 1 2 i=1 N j=1 N α i α j k( x i , x j ) s.t.   i=1 N α i + i=1 N β i =υ       0 α i 1 N S i ,i=1,2,,N

一旦得到 α,w,ρ,ε 可由(4) (5) (6)算出。

2.2.2. 固定 w,ρ,ε 来优化 υ 1 = { υ 1,i } i=1 N υ 2 = { υ 2,i } i=1 N

从(2)中可化为

min υ 1 , υ 2   1 N i=1 N λ [ τ 1 υ 1,i ξ i g( υ 1,i ) ] 1 N i=1 N ( 1λ ) [ τ 2 υ 2,i ξ i g( υ 2,i ) ]

定义拉格朗日乘子 L( υ 1 , υ 2 )= 1 N i=1 N λ [ τ 1 υ 1,i ξ i g( υ 1,i ) ] 1 N i=1 N ( 1λ ) [ τ 2 υ 2,i ξ i g( υ 2,i ) ] ,并由 L( υ 1 , υ 2 ) 分别对 υ 1 υ 2 求偏导并令为0,得到 υ 1,i = e τ 1 ξ i υ 2,i = e τ 2 ξ i ,i=1,2,,N

3. 数值实验

3.1. 人工数据集

Figure 1. Artificial dataset

1. 人工数据集

在做UCI基准数据集实验之前,本文设计混合指数模型人工数据集,目的是为后续的模型验证、算法测试等实验构建一套可控、可复现、贴合真实场景的基准数据。

图1清晰的展示了混合指数损失下的鲁棒一分类支持向量机模型的优点,其中蓝色实线代表的是该模型理想状态下的模型输出,其中红色散点代表的是在理论值基础上添加了高斯白噪声(噪声水平0.02),模拟真实实验中受测量误差、环境干扰的实际数据。X轴代表模型的自变量,Y轴代表模型的因变量。

图1表明无论理论值还是观测值,整体都呈现随X增大而衰减的趋势,且衰减速率“先快后慢”,这正是“两个指数函数混合”的核心效果,兼顾快速衰减和慢速衰减的特征,比单一指数模型更贴近复杂的实际衰减过程。图1清晰对比了“理想混合指数模型”和“带噪声的模拟实验数据”,验证了人工数据集的生成符合预期。

3.2. 基准数据集

本节选用Ionosphere数据集对SVDD、OC-SVM (本文)、Robust SVDD三种方法进行比较,样本规模351个样本 × 34个数值型特征,样本量适中。

Figure 2. Accuracy comparison of three methods on ionosphere dataset

2. 三种方法在ionosphere数据集下准确率比较

图2展示了三种方法在ionosphere数据集下准确率的比较,X轴代表三种待对比的异常检测算法(SVDD、OC-SVM、Robust SVDD),Y轴代表算法的准确率,三种算法的准确率整体处于0.64~0.65区间,OC-SVM略优但无显著优势,SVDD与Robust SVDD表现完全相同。

Figure 3. F1 score comparison of three methods on ionosphere dataset

3. 三种方法在ionosphere数据集下F1分数比较

图3展示了三种方法在ionosphere数据集下F1分数比较,X轴代表三种待对比的异常检测算法(SVDD、OC-SVM、Robust SVDD),Y轴代表算法的F1分数,算法OC-SVM具备有效的异常识别能力(F1 = 67%),是三种算法中唯一能兼顾“精准识别异常”和“减少正常样本误判”的算法。

Figure 4. AUC comparison of three methods on ionosphere dataset

4. 三种方法在ionosphere数据集下AUC值比较

图4展示了三种方法在ionosphere数据集下AUC值比较,X轴代表三种待对比的异常检测算法(SVDD、OC-SVM、Robust SVDD),Y轴代表算法的AUC值,三种算法均具备优秀的异常或正常样本区分能力(AUC > 0.94),其中OC-SVM (0.978)表现最优,SVDD与Robust SVDD持平。

本节在基准数据集下对三种方法进行了比较,从准确率、F1分数与AUC值方面比较后,不难发现,本文提出的混合指数损失下的鲁棒一分类支持向量机模型具有更好的泛化性能。

4. 结论

本文在支持向量数据描述的基础上提出了一个新的混合指数损失下的鲁棒一分类支持向量机模型,既保留了支持向量数据描述的优点,即建模过程考虑了样本的异常性,允许一小部分训练样本位于超球之外;又补充了支持向量数据描述的不足,即这些异常样本在建模过程中被同等对待,没有考虑异常样本的异常程度,从而使支持向量数据描述对异常样本比较敏感;本文有效的给出了一分类问题的鲁棒优化问题。

基金项目

2024年度昌吉学院校级科学研究项目稳健一分类支持向量机的研究及应用(项目编号:KY2024041)。

参考文献

[1] 王余波, 胡文军, 王士同. 基于可缩放Hinge损失的支持向量数据描述[J]. 湖州师范学院学报, 2024, 46(8): 36-46.
[2] Zheng, Y.F. (2023) Robust One-Class Classification with Support Vector Data Description and Mixed Exponential LOSS Function.
[3] Tax, D.M.J. and Duin, R.P.W. (2004) Support Vector Data Description. Machine Learning, 54, 45-66. [Google Scholar] [CrossRef
[4] 马婷婷, 杨志霞, 叶俊佑. 鲁棒双参数化间隔支持向量机[J]. 计算机工程与应用, 2022, 58(9): 74-82.
[5] Boyd, S., Boyd, S.P. and Vandenberghe, L. (2004) Convex Optimization. Cambridge University Press. [Google Scholar] [CrossRef