1. 背景介绍
支持向量数据描述(SVDD)的目的是在特征空间找到一个包含大部分训练样本的最小超球[1],其优化问题可以表示为:
其中
、
分别为超球的半径与球心;
为引入的松弛变量;
为权衡参数。
该模型(SVDD)表现比较优异,但若在建模过程中为所有松弛变量直接分配相同权重,当训练数据混入部分异常值或标签标注错误的观测数据时,模型的学习性能便有可能出现下降[2]。
2. 提出方法
本节首先阐述所提方法的模型与优化算法,随后探讨该方法与加权支持向量数据描述方法之间的关联。
2.1. 建立模型
在本文中,受支持向量数据描述[3]和不确定数据的双参数化间隔支持向量机[2]的启发。我们提出了一个新的混合指数损失下的鲁棒一分类支持向量机模型[4]。本文提出使用混合指数损失函数来构建鲁棒模型。相比于单一的指数损失或Ramp损失,混合指数损失提供了更多的自由度(通过参数
,
和
)来调节损失函数的形状,理论上相较于参考文献[2]可以更好地平衡对正常样本的拟合与对异常样本的抑制。
优化模型为
(1)
其中
,
和
是大于0的参数,混合参数
,
。用于平衡所采用的两个指数函数的作用贡献。需要说明的是,函数
可灵活扩展至包含两个以上指数函数的一般情形;但本研究中为减少自由参数的数量,仅聚焦于两个指数函数的混合形式。
2.2. 求解问题
命题1 [5]。对于函数
,有凸函数
,其中
。由上述共轭函数,给出(1)式的等价优化问题。
(2)
其中
,
,
,
,利用半二次规划方法,可优化
,
和
。先固定
和
,求解
。
2.2.1. 优化
固定
和
,优化问题可写为
(3)
则(3)式的拉格朗日函数为
其中
,
,
是拉格朗日乘子。求
分别对
求偏导并令其为0,得
;
;
;
得到
, (4)
, (5)
。 (6)
令
,由于
我们有
将(4)~(6)代入(3)式,可得
即
。
为便于求解,该模型的对偶问题为
一旦得到
可由(4) (5) (6)算出。
2.2.2. 固定
来优化
和
从(2)中可化为
定义拉格朗日乘子
,并由
分别对
,
求偏导并令为0,得到
,
。
3. 数值实验
3.1. 人工数据集
Figure 1. Artificial dataset
图1. 人工数据集
在做UCI基准数据集实验之前,本文设计混合指数模型人工数据集,目的是为后续的模型验证、算法测试等实验构建一套可控、可复现、贴合真实场景的基准数据。
图1清晰的展示了混合指数损失下的鲁棒一分类支持向量机模型的优点,其中蓝色实线代表的是该模型理想状态下的模型输出,其中红色散点代表的是在理论值基础上添加了高斯白噪声(噪声水平0.02),模拟真实实验中受测量误差、环境干扰的实际数据。X轴代表模型的自变量,Y轴代表模型的因变量。
图1表明无论理论值还是观测值,整体都呈现随X增大而衰减的趋势,且衰减速率“先快后慢”,这正是“两个指数函数混合”的核心效果,兼顾快速衰减和慢速衰减的特征,比单一指数模型更贴近复杂的实际衰减过程。图1清晰对比了“理想混合指数模型”和“带噪声的模拟实验数据”,验证了人工数据集的生成符合预期。
3.2. 基准数据集
本节选用Ionosphere数据集对SVDD、OC-SVM (本文)、Robust SVDD三种方法进行比较,样本规模351个样本 × 34个数值型特征,样本量适中。
Figure 2. Accuracy comparison of three methods on ionosphere dataset
图2. 三种方法在ionosphere数据集下准确率比较
图2展示了三种方法在ionosphere数据集下准确率的比较,X轴代表三种待对比的异常检测算法(SVDD、OC-SVM、Robust SVDD),Y轴代表算法的准确率,三种算法的准确率整体处于0.64~0.65区间,OC-SVM略优但无显著优势,SVDD与Robust SVDD表现完全相同。
Figure 3. F1 score comparison of three methods on ionosphere dataset
图3. 三种方法在ionosphere数据集下F1分数比较
图3展示了三种方法在ionosphere数据集下F1分数比较,X轴代表三种待对比的异常检测算法(SVDD、OC-SVM、Robust SVDD),Y轴代表算法的F1分数,算法OC-SVM具备有效的异常识别能力(F1 = 67%),是三种算法中唯一能兼顾“精准识别异常”和“减少正常样本误判”的算法。
Figure 4. AUC comparison of three methods on ionosphere dataset
图4. 三种方法在ionosphere数据集下AUC值比较
图4展示了三种方法在ionosphere数据集下AUC值比较,X轴代表三种待对比的异常检测算法(SVDD、OC-SVM、Robust SVDD),Y轴代表算法的AUC值,三种算法均具备优秀的异常或正常样本区分能力(AUC > 0.94),其中OC-SVM (0.978)表现最优,SVDD与Robust SVDD持平。
本节在基准数据集下对三种方法进行了比较,从准确率、F1分数与AUC值方面比较后,不难发现,本文提出的混合指数损失下的鲁棒一分类支持向量机模型具有更好的泛化性能。
4. 结论
本文在支持向量数据描述的基础上提出了一个新的混合指数损失下的鲁棒一分类支持向量机模型,既保留了支持向量数据描述的优点,即建模过程考虑了样本的异常性,允许一小部分训练样本位于超球之外;又补充了支持向量数据描述的不足,即这些异常样本在建模过程中被同等对待,没有考虑异常样本的异常程度,从而使支持向量数据描述对异常样本比较敏感;本文有效的给出了一分类问题的鲁棒优化问题。
基金项目
2024年度昌吉学院校级科学研究项目稳健一分类支持向量机的研究及应用(项目编号:KY2024041)。