1. 引言
现代高通量生物医学仪器的广泛应用极大地加快了生命科学领域的数据生成速度。例如,美国国家生物技术信息中心的基因表达综合数据库已收集了超过三百万个样本。基因组研究的核心任务之一,即是预测表型并发现少量关键生物标志物[1] [2]。
然而,运用机器学习方法分析基因组数据(例如基因表达数据)时,主要面临两大挑战:1) “大p小n”问题。基因表达数据集通常包含大量基因(p)和少量样本(n),其中仅有极少数基因与目标疾病真正相关。大量无关特征会引入噪声、导致模型过拟合,并严重损害分类器的泛化性能与可解释性[3] [4]。2) 高噪声问题。在生物数据生成过程中,无论是样本制备、实验操作还是批次效应,都会引入显著噪声,使模型训练不稳定、预测结果不可靠[5]。
特征选择是应对上述问题的关键。其中,正则化方法通过约束模型参数,能够同时实现连续收缩与自动特征选择,是处理高维小样本数据的有效手段[6]。经典的
正则化(Lasso) [7]及其扩展(如SCAD [8]、Elastic Net [9])虽被广泛使用,但所产生的解往往不够稀疏,且在噪声较大时估计偏差明显[10]。近年来,非凸正则化因其更强的稀疏诱导能力受到关注。Xu等人提出的
正则化[11]在理论性质和计算效率之间取得了较好平衡,并具有Oracle性质[11] [12]。然而,直接使用
范数仍是对
范数的一种近似,其稀疏能力与理论最优的
约束之间尚有差距。文章[13]总结并列举出了许多
范数的近似函数。在许多近似函数中,分段指数(PiE)函数因为可以比
范数产生更大的稀疏性而引起了极大关注。
另一方面,为提升模型在噪声数据下的鲁棒性,自步学习(Self-Paced Learning, SPL)机制被引入[14]。它通过逐步从易到难选择样本参与训练,有效降低了噪声样本对模型更新的负面影响,已在多种学习任务中展现出优势[15] [16]。但如何将SPL与更具稀疏潜力的正则化方法相结合,仍有待深入探索。
针对上述问题,本文提出一种基于PiE函数的自步学习稀疏逻辑回归模型。该模型的创新性主要体现在以下两方面:
1) 引入新型稀疏正则化函数:我们采用PiE函数作为
范数的近似。理论分析表明,该函数比
等经典非凸正则子具有更贴近
的几何形态与数学性质,能在保证优化可行性的同时,诱导出更稀疏、更稳定的特征选择结果。
2) 构建抗噪声的联合学习框架:我们将PiE正则化与自步学习机制深度融合,构建了一个统一的目标函数与优化算法。该框架能够同步实现高维特征选择与噪声样本自适应加权,从而在“大p小n”与高噪声并存的数据环境下,获得更具可解释性的生物标志物集合与更鲁棒的表型分类模型。
为验证所提方法的有效性,我们在多个公共基因表达数据集上进行了实验,并与Lasso、SCAD、
等方法进行比较。结果表明,新模型在保持较高分类精度的前提下,能够选择更少且更具生物相关性的基因,并显著提升在高噪声场景下的预测稳定性。
2. 模型介绍
针对高维小样本基因表达数据中的特征稀疏与噪声干扰问题,本章提出一种基于PiE正则化的自适应步学习逻辑回归模型(PiE-SPLR)。该模型从损失函数、稀疏约束与抗噪学习三个层面进行系统整合:以逻辑回归为基础分类器;引入PiE函数近似
范数,增强特征选择的稀疏性;并融合自适应步学习机制,通过动态样本加权提升模型在高噪声下的鲁棒性。下文将对各部分进行详细介绍。
2.1. 逻辑回归损失函数
逻辑回归是一种广泛应用于二分类问题的统计学习方法。对于给定的训练数据集
,其中
。逻辑回归通过Sigmoid函数将线性组合
映射为样本属于正例(
)的预测概率:
其中
为待估计的模型系数向量。
为了拟合模型参数,逻辑回归采用极大似然估计,其对应的损失函数(即负对数似然)为:
(2.1)
式(2.1)衡量模型预测概率与真实标签之间的差异,通过最小化式(2.1)可获得系数
的估计值,从而构建分类决策边界。
在本研究中,逻辑回归损失函数将作为模型的基础预测模块,后续通过引入正则化项与样本加权机制,增强其在高维特征选择与噪声数据拟合中的性能。
2.2. 正则化函数
本文采用PiE函数作为正则项,其表达式为:
(2.2)
如图1所示,不同
取值下PiE函数对
范数的逼近效果存在显著差异。当
值较小时(如
),函数曲线更为陡峭,能更紧密地逼近
范数的理想阶跃特性;随着
值增大(如
),函数曲线逐渐平滑,稀疏诱导能力相应减弱。由此可见,参数
是控制稀疏性与优化可行性的关键平衡因子。
2.3. SPL
面对高噪声生物数据对模型训练的干扰,SPL提供了一种有效的样本重加权策略。与传统优化方法对所有样本平等对待不同,SPL模拟人类由易到难的学习认知过程,通过在训练过程中动态调整样本权重,使模型优先学习高置信度的“简单”样本,再逐步纳入更具挑战性的样本,从而提升模型在噪声环境下的鲁棒性与泛化能力[14]。
Figure 1. The approximation relationship between the PiE function and the
norm under different values of
图1. 不同
取值下PiE函数对
范数的逼近关系
经典的SPL框架通常表述为以下优化问题:
其中
为样本权重向量,
为损失函数,
为年龄参数,控制学习进程的“步速”。
为自步惩罚项,用于调控样本权重的分配,其常见形式为线性硬惩罚
。
2.4. PiE-SPLR模型
基于前文所述,本文将逻辑回归损失函数、PiE正则化函数与自适应步学习机制相结合,构建PiE正则化自适应步学习逻辑回归模型(PiE-SPLR)。该模型的目标函数如下:
(2.3)
其中,第一项为加权逻辑回归损失函数,第二项
为自适应步惩罚项,
为样本权重,
为正则化参数。
3. 优化算法
3.1. 交替方向优化算法
为求解式(2.3)定义的PiE-SPLR模型,本文采用交替方向优化(Alternating Direction Optimization)策略。该算法将原联合优化问题分解为两个相对简单的子问题:固定样本权重
更新模型参数
,以及固定模型参数
更新样本权重
。两个子问题交替迭代直至收敛。
3.2. 模型参数
的更新
固定样本权重
,关于
的优化问题简化为:
(3.1)
式(3.1)包含可微的逻辑回归损失项与非凸、非光滑的PiE正则项。本文采用近端梯度下降(Proximal Gradient Descent)算法进行求解。具体地,在每次迭代中,首先计算损失函数的梯度步,然后应用PiE函数的近端算子(Proximal Operator)。
设第
次迭代的参数为
,学习率为
,则更新步骤为:
1) 梯度计算:
(3.2)
2) 梯度步:
(3.3)
3) 近端映射:
(3.4)
其中,
是PiE函数的近端算子,定义为:
PiE函数的近端算子已在文章[17]中推导出来,假设
,
,
,其显式表达式为:
1) 如果
,则对于任意的
,有
2) 如果
,则对于任意的
,有
其中,阈值是方程
的唯一解。函数
是满足
的Lambert W函数
的分支[18]。
3.3. 样本权重v的更新
固定模型参数
,关于样本权重
的优化问题可分解为
个独立的子问题:
(3.5)
其中
表示第
个样本在当前模型下的损失值。采用硬惩罚函数
,则式(3.5)可重写为:
(3.6)
式(3.6)是一个关于
的线性规划问题。其最优解可通过分析目标函数的性质直接得到,从而获得样本权重
的闭式更新公式:
(3.7)
其中
是基于最新模型参数第
个样本损失,
是当前迭代的年龄参数。式(3.7)定义了一个硬阈值筛选规则。仅当样本的损失小于当前年龄参数
时,该样本才会被纳入训练(
);否则被暂时排除(
)。年龄参数
在每轮迭代后按线性增长策略更新:
(3.8)
其中
为增长因子。随着
的增大,满足
条件的样本逐渐增多,模型逐步纳入更多“困难”样本。
3.4. 完整算法流程
基于上述更新规则,完整的PiE-SPLR优化算法如表1所示。
Table 1. PiE-SPLR optimization algorithm
表1. PiE-SPLR优化算法
步骤 |
操作 |
说明 |
输入 |
数据
;
|
:正则化参数;
:增长因子 |
1 |
初始化:
,
,
|
设置初始值 |
2 |
while
and
do |
主循环 |
3 |
计算梯度
(3.2)和梯度步
(3.3) |
|
4 |
更新
: (3.4) |
近端梯度步 |
5 |
更新
(3.7) |
硬阈值筛选 |
6 |
更新
(3.8) |
自适应阈值 |
7 |
|
迭代计数 |
8 |
end while |
|
输出 |
,
|
最终模型 |
4. 实验结果与分析
4.1. 实验设置与对比方法
本章在四个公开的基因表达数据集上验证所提PiE-SPLR模型的有效性。选用的数据集包括:Colon [19]、Leukemia [20]、DLBCL [21]和Prostate [22],表2列出了这些数据集的更多信息。这些数据集均代表典型的高维小样本基因数据,且广泛应用于特征选择方法评估。
Table 2. Statistical information of experimental datasets
表2. 实验数据集统计信息
数据集 |
样本数 |
特征数 |
类别分布 |
正常/阴性 |
肿瘤/阳性 |
Colon |
62 |
2000 |
22 |
40 |
Leukemia |
72 |
3571 |
25 (AML) |
47 (ALL) |
DLBCL |
77 |
7129 |
19 (FL) |
58 (DLBCL) |
Prostate |
102 |
12,600 |
50 |
52 |
为全面比较性能,选取了六种代表性方法作为基准:Lasso (
正则化逻辑回归)、
(
正则化逻辑回归)、SCAD-
(SCAD正则化逻辑回归)、
-Net (
网络正则化逻辑回归)、Inter-Net (交互网络正则化逻辑回归)、SLNL [23] (
‐NL正则化逻辑回归)以及
-Net (
网络正则化逻辑回归)。所有方法均采用相同的5折交叉验证流程进行参数调优与性能评估。评价指标主要包括测试集分类训练准确率(Training Acc)、分类测试准确率(Testing Acc)、以及模型选择的特征数量(Genes)。PiE-SPLR的主要参数通过网格搜索确定,其中正则化参数
从区间
中选取,初始年龄参数
设为0.1,增长因子
从区间
中选取,学习率
,收敛容差
,最大迭代次数
。
4.2. 分类性能与特征选择结果
表3和表4分别展示了各对比方法在训练集和测试集上的分类准确率。从训练结果可见,本文提出的PiE-SPLR在所有四个数据集上均达到最高准确率,其中在DLBCL数据集上更是取得了接近完美的99.99%准确率。特别值得注意的是,PiE-SPLR在训练性能上相较原SLNL方法有明显提升,例如在Colon数据集上从93.81%提升至94.02%,在Leukemia数据集上从98.75%提升至99.95%。
更为重要的是测试集上的表现(表4),这直接反映了模型的泛化能力。PiE-SPLR在所有数据集上均取得了最优测试准确率,平均达到96.58%,较次优方法SLNL (平均92.65%)提升3.93个百分点。其中在DLBCL数据集上的提升尤为显著,从91.56%跃升至98.47%。这一结果表明,PiE-SPLR不仅在训练过程中能更好地拟合数据,更重要的是具备了更强的泛化能力,避免了过拟合现象。
Table 3. Comparison of Training Acc among different methods (%)
表3. 各方法Training Acc比较(%)
方法 |
Colon |
Leukemia |
DLBCL |
Prostate |
Lasso |
88.61 |
97.00 |
94.95 |
93.29 |
|
89.52 |
93.87 |
92.69 |
92.29 |
SCAD-
|
90.47 |
94.06 |
94.80 |
92.04 |
-Net |
88.99 |
98.45 |
94.13 |
93.23 |
Inter-Net |
87.80 |
98.14 |
95.32 |
93.54 |
-Net |
91.46 |
96.36 |
96.48 |
94.61 |
SLNL |
93.81 |
98.75 |
97.55 |
95.72 |
PiE-SPLR |
94.02 |
99.95 |
99.99 |
97.78 |
Table 4. Comparison of Training Acc among different methods (%)
表4. 各方法Testing Acc比较(%)
方法 |
Colon |
Leukemia |
DLBCL |
Prostate |
Lasso |
80.23 |
93.41 |
84.89 |
88.81 |
|
85.16 |
93.84 |
88.81 |
89.73 |
SCAD-
|
82.29 |
95.36 |
88.93 |
89.84 |
-Net |
86.40 |
95.99 |
87.25 |
88.48 |
Inter-Net |
85.58 |
94.13 |
87.51 |
90.25 |
-Net |
86.84 |
95.54 |
89.48 |
90.51 |
SLNL |
87.46 |
97.85 |
91.56 |
93.73 |
PiE-SPLR |
94.78 |
99.14 |
98.47 |
93.91 |
Table 5. Comparison of selected Genes among different methods
表5. 各方法Genes比较
方法 |
Colon |
Leukemia |
DLBCL |
Prostate |
Lasso |
8.3 |
6.6 |
23.1 |
24.7 |
|
8.0 |
3.9 |
14.8 |
14.5 |
SCAD-
|
18.7 |
15.3 |
33.5 |
29.9 |
-Net |
22.8 |
14.7 |
40.2 |
47.4 |
Inter-Net |
26.1 |
20.2 |
37.4 |
51.3 |
-Net |
21.2 |
8.8 |
30.1 |
17.7 |
SLNL |
17.7 |
9.2 |
24.7 |
21.3 |
PiE-SPLR |
7.69 |
6.76 |
12.27 |
11.3 |
在特征选择方面,表5呈现了各方法选择的特征数量。PiE-SPLR展现出更好的稀疏性,在所有数据集上均选择了最少的特征数,平均仅为9.51个。这一结果远低于原SLNL方法的平均18.23个特征,更显著少于其他对比方法。值得注意的是,尽管PiE-SPLR选择了更少的特征,但其分类性能却得到了全面提升,这验证了PiE正则化在逼近
范数方面的优势:它能够更精确地识别并保留真正关键的生物标志物,同时更有效地剔除冗余和不相关特征。
噪声环境下的进一步验证
为进一步验证SPL机制对噪声的鲁棒性,我们在Colon数据集中引入20%标签噪声进行补充实验。如表6所示,PiE-SPLR在噪声下仍保持最优性能,其关键基因保留率(KGRR)高达85%,远高于PiE-LR (62%)和Lasso (45%)。这证实SPL机制通过动态样本加权,能有效过滤噪声样本,提升特征选择的稳定性。
4.3. 结果讨论与总结
综合以上实验结果,PiE-SPLR的优越性能可归结于其创新性的双重选择机制。PiE正则化通过对
范数的紧致逼近,实现了比传统
正则化更精确的稀疏控制,避免了因过度稀疏而丢失重要特征的问题。同时,在标签噪声环境下仍能保持高准确率与高稳定性,这得益于SPL机制对噪声样本的自适应过滤能力,为高噪声生物医学数据的分析提供了可靠工具。自适应步学习通过动态调整样本权重,由“简单”到“复杂”样本的训练过程,有效过滤了噪声样本的干扰。这两者的协同作用使模型在特征选择与噪声鲁棒性之间取得了良好平衡。
Table 6. Comparison of feature selection stability under noisy environment
表6. 噪声环境下特征选择稳定性对比
方法 |
测试准确率(%) |
选中基因数 |
KGRR (%) |
PiE-SPLR |
88.56 |
8.2 |
85.0 |
PiE-LR |
79.24 |
15.6 |
62.0 |
Lasso |
72.31 |
22.8 |
45.0 |
本章实验全面验证了PiE-SPLR在高维小样本基因数据分类任务中的有效性。该方法在分类准确率、特征选择质量和噪声鲁棒性三个关键指标上均表现出显著优势,为基因表达数据分析提供了一种新的有效工具。在后续工作中,我们将进一步探索该方法在其他组学数据整合分析中的应用潜力,并考虑将其扩展到多类别分类和生存分析等更复杂的生物医学问题中。