基于稀疏逻辑回归的加速分裂增广拉格朗日法
Accelerated Splitting Augmented Lagrange Method Based on Sparse Logistic Regression
摘要: 近几年来,稀疏优化在最小二乘、压缩感知尤其在统计学的逻辑回归模型中均得到了极大的研究及关注。逻辑回归是经典的分类方法,广泛应用于数据挖掘、机器学习、生物信息学。现研究带有l0范数约束的稀疏逻辑回归问题,为了求解此类问题,提出了加速分裂增广拉格朗日法(ASALM)。首先我们通过变量分裂,将稀疏逻辑回归问题转化为带有一个等式约束和一个基数约束的优化问题。接着在分裂增广拉格朗日法(SALM)中运用Nesterov加速技术,来提高算法的全局收敛性。然后在算法迭代中交替地求解一个无约束凸优化问题和一个带基数约束的二次优化问题,同时证明了ASALM的收敛性。最后,通过数值实验说明了ASALM的有效性和可行性,并且证明了ASALM的收敛速度比SALM更快。
Abstract: In recent years, sparse optimization has received great research and attention in the least squares, compressed sensing, especially in statistical logistic regression models. Logistic regression is a classic classification method, which is widely used in data mining, machine learning, and bioinformatics. Now we study the sparse logistic regression problem with l0 norm constraints. In order to solve such problems, the accelerated split augmentation Lagrangian method (ASALM) is proposed. First, we use variable splitting to transform the sparse logistic regression problem into an optimization problem with an equality constraint and a cardinality constraint. Next, Nesterov’s acceleration technology is used in the split augmented Lagrangian method (SALM) to improve the global convergence of the algorithm. Then, an unconstrained convex optimization problem and a quadratic optimization problem with cardinality constraints are alternately solved in the algorithm iteration; at the same time, the convergence of ASALM is proved. Finally, numerical experiments demonstrate the effectiveness and feasibility of ASALM, and prove that the convergence speed of ASALM is faster than SALM.
文章引用:周璇, 党亚峥, 汪默然. 基于稀疏逻辑回归的加速分裂增广拉格朗日法[J]. 理论数学, 2021, 11(12): 2116-2123. https://doi.org/10.12677/PM.2021.1112237

1. 引言

在如今的大数据时代下,稀疏优化的应用十分广泛,机器学习、压缩感知、分子生物学等领域都有很大的研究与发展。近几年来,稀疏优化在统计学的逻辑回归模型中得到了极大的研究及关注。逻辑回归分析是一种有效的数据处理分类方法,被广泛应用于文本分类 [1] [2]、机器学习、生物信息学 [3] [4] [5] [6] 等领域。经典的逻辑回归是一种线性的分类方法,具有训练速度快、模型的可解释性好等特点。本文考虑的是二项逻辑回归模型,通过给定的训练数据集,运用极大似然估计法估计模型参数得到逻辑回归模型。

在实际应用中,需要从大量特征中选择出对模型起关键作用的特征,排除与模型不相关或对模型作用很小的特征。同时也需要控制逻辑回归模型中参数的稀疏性,起到稀疏优化的效果。为了不造成特征泛滥,即需要控制模型中参数w非零元素的个数 w 0 。而带有l0范数的稀疏优化模型是NP-难问题,并且模型是非凸的,这给我们的计算带来了挑战,为了克服这个困难,一般的方法是加入正则项来进行松弛,将l0范数松弛为l1范数是常用的方法。带有l1范数的正则化模型有着很好的凸性,能够防止过拟合,同时能够满足得到模型稀疏解,而被广泛应用在各个领域。例如带有l1范数的线性回归模型通常又记为Lasso模型 [7],在疾病分类中有着广泛的应用。添加l1范数后的稀疏逻辑回归模型是一个凸优化问题,可以运用经典的凸优化方法去求解,例如一阶算法 [8]、迭代算法 [9]、内点算法 [10]。

在文献 [11] 中,通过对Nesterov加速 [12] 的研究,提出了加速增广拉格朗日法(AALM),建立了该方法的迭代复杂度为 O ( 1 / k 2 ) ,并且又推导出了增广拉格朗日法(ALM)的迭代复杂度为 O ( 1 / k ) ,证明了AALM比ALM具有更好的加速效果。本文将Nesterov加速方法应用到SALM框架中,提高了算法的全局收敛速度。针对ASALM框架中无约束凸优化子问题,运用拟牛顿法(BFGS算法)求解。针对ASALM框架中带基数约束的子问题,通过等价变换得到带l0范数约束二次优化问题的显式解。

本文首先介绍了逻辑回归的基础知识,建立了逻辑回归模型和稀疏逻辑回归模型,并给出了最优性条件;然后针对稀疏逻辑回归模型,提出了加速分裂增广拉格朗日算法(ASALM);又给出了该算法的一阶收敛性证明;然后,通过数值实验说明了ASALM的有效性和可行性。最后,对全文进行了总结。

2. 稀疏逻辑回归

稀疏逻辑回归基于逻辑回归模型,并在逻辑回归模型基础上添加l0范数约束来控制模型中非零参数的个数。在实际应用中,需要从大量特征中选择出对模型起关键作用的主要特征。例如:在文字识别中,为了选择出对文字有鉴别意义的特征,需要在逻辑回归模型中添加l0范数约束来控制模型中非零参数的个数。下面将对稀疏逻辑回归模型给出简单的回顾。

2.1. 二项逻辑回归模型

给定 x = ( x 1 , , x n ) T 表示输入变量,其中 x i 表示x的第i个属性(特征), y { 1 , + 1 } 表示对应输出变量, y i = 1 表示第i个样本 x i 输出为负类, y i = + 1 表示第i个样本 x i 输出为正类。对于给定的输入样本 x n ,输出标签为 y { 1 , + 1 } 的条件概率为:

P ( y = 1 | x ) = 1 1 + e w T x + b ,

P ( y = + 1 | x ) = e w T x + b 1 + e w T x + b ,

其中 w n , b 分别为权值向量与偏差,也为模型的待估计参数。给定训练数据集 D = { ( x 1 , y 1 ) , , ( x N , y N ) } n × { 1 , + 1 } ,其中 y i = 1 表示第i个样本 x i 输出为负类, y i = + 1 表示第i个样本 x i 输出为正类。采用极大似然估计法估计参数 w , b ,等价变形后,通过求解极小化平均逻辑似然函数估计模型参数,得到如下逻辑回归模型。

P(1) min l a v g ( w , b ) = min 1 N i = 1 N log ( 1 + exp ( y i ( w T x i + b ) ) ) ,

其中 w n b 为待估计参数。

2.2. 稀疏逻辑回归模型

稀疏逻辑回归是基于经典逻辑回归模型构建,并在经典逻辑回归模型基础上添加l0范数约束来控制模型中非零参数的个数。因此稀疏逻辑回归模型构建为:

P(2) min w , b l a v g ( w , b ) , s .t . w 0 K ,

其中 为欧式范数, K > 0 为控制w中非零元素个数的参数。带l0范数约束的逻辑回归问题高度非线性,且是NP-难问题。通过添加l1范数,稀疏逻辑回归模型转化为带l1正则项的凸优化问题:

P(3) min w , b l a v g ( w , b ) + τ w 1 ,

其中 τ > 0 为正则化参数。凸优化问题可以用迭代算法 [9]、内点算法 [10]、一阶算法 [8] 等多种凸优化方法求解。

2.3. 最优性条件

下面给出稀疏逻辑回归的最优性条件 [13] [14]。令 α = ( b , w ) n + 1 ,即 l a v g ( b , w ) = l a v g ( α ) 。若 α * 是稀疏逻辑回模型的局部最优解,则存在 δ * n + 1 α * 满足如下的KKT条件:

l a v g ( α * ) + δ * = 0 , δ * = 0 , j J . (1.1)

其中 J * = { 1 } { 2 j n + 1 : α j * 0 }

3. 加速分裂增广拉格朗日法(ASALM)

3.1. 变量分裂

稀疏逻辑回归模型是一个带有l0范数约束的最优化问题,采用变量分裂的技术,将问题转化为带有一个等式约束和一个基数约束的最优化问题。由于w、b分别代表逻辑回归模型中权值向量和偏差。令 α = ( b , w ) ,则 b = α 1 , w = α J ,其中 J = { 2 , , n + 1 } 。引入辅助变量 β n ,则稀疏逻辑回归模型等价转化为:

P(4) min α , β l a v g ( α 1 , α J ) , s .t . α J = β , β 0 K .

3.2. Nesterov加速

Nesterov提出一种用于梯度方法的加速策略,在Nesterov加速 [12] 算法中,引入一个或者多个辅助变量,并利用当前变量的梯度来更新参数。具体而言,在SALM框架中,拉格朗日乘子更新后得到 γ ^ k ,増加了对拉格朗日乘子预测并修正的步骤,如下:

t k + 1 = 1 + 1 + 4 t k 2 2 ,

γ k + 1 = γ ^ k + t k 1 t k + 1 ( γ ^ k γ ^ k 1 ) + t k t k + 1 ( γ ^ k γ k ) .

3.3. 加速分裂增广拉格朗日法

关于等式约束 α J = β 的增广拉格朗日函数形式为:

L ρ ( α , β , γ ) = l a v g ( α 1 , α J ) + γ T ( β α J ) + ρ 2 β α J 2 ,

其中 γ n 为等式约束 α J = β 对应的拉格朗日乘子, ρ > 0 为罚参数。亦即:

L ρ ( α , β , γ ) = 1 N i = 1 N log ( 1 + exp ( B i α ) ) + ρ 2 α J β 1 ρ γ 2 1 2 ρ γ 2 ,

其中 B i 为矩阵B的第i行,

B = ( y 1 y 1 ( x 1 ) T y 2 y 2 ( x 2 ) T y N y N ( x N ) T ) N × ( n + 1 ) . (2.1)

下面给出加速分裂增广拉格朗日法(ASALM)算法步骤:

初始步:给定允许误差 ε 0 ,罚参数 ρ > 0 ,初始化 γ ^ n ,初始化 β ,令 γ 1 = γ ^ 0 t 1 = 1 k = 1

迭代步:判断精度,若 α J k β k ε 输出 α k ,停止计算;

t k + 1 = 1 + 1 + 4 t k 2 2 ,计算:

α k + 1 = arg min α n + 1 L ρ ( α , β k , γ k ) , (2.2)

β k + 1 = arg min β 0 K L ρ ( α k + 1 , β , γ k ) , (2.3)

γ ^ k = γ k + ρ ( β k + 1 α J k + 1 ) , (2.4)

γ k + 1 = γ ^ k + t k 1 t k + 1 ( γ ^ k γ ^ k 1 ) + t k t k + 1 ( γ ^ k γ k ) , k : = k + 1. (2.5)

由ASALM算法迭代步可知,子问题(2.2)是一个无约束光滑凸优化问题,可以用拟牛顿法求解,其核心思想是用不含二阶导数的矩阵 U k 替代牛顿法中的 H k 1 (Hesse矩阵的逆矩阵),然后沿搜索方向 U k g k 做一维搜索,根据不同的 U k 构造方法有不同的拟牛顿法。

f ( α ) = L ρ ( α , β k , γ k ) ,具体拟牛顿法(BFGS法)步骤如下:

初始步:给定初始点 α ( 1 ) ,允许误差 ε ,设置 B 1 1 (通常取单位阵), k = 1

迭代步:1) 记 g k = f ( α ( k ) ) ,计算搜索方向 d ( k ) = B k 1 g k

2) 从点 α ( k ) 出发,沿着 d ( k ) 做一维搜索,获得最优步长并更新参数:

λ k = arg min λ f ( α ( k ) + λ d ( k ) ) , α ( k + 1 ) = α ( k ) + λ k d ( k ) ,

3) 判断精度,若 g k + 1 < ε ,则停止迭代,否则转(4);

4) 计算 Δ g = g k + 1 g k , Δ α = α ( k + 1 ) α ( k ) 。更新 B 1

B k + 1 1 = ( I n + 1 Δ α Δ g T Δ α T Δ g ) B k 1 ( I n + 1 Δ g Δ α T Δ α T Δ g ) + Δ α Δ α T Δ α T Δ g ,

5) k = k + 1 ,转1)。

子问题(2.3)是一个带有基数约束的最优化问题,通过等价变换可以转化为带有基数约束的二次优化问题如下:

min β i = 1 n ( β i ξ i ) 2 ,

s .t . β 0 K .

其中 ξ = α J γ / ρ ,且问题的最优解 [14] 为如下形式: y i = ξ i i Μ y i = 0 i Μ 。其中 Μ { 1 , 2 , 3 , , n } 表示向量 ξ 2 的前K个最大元素所对应的指标集。

3.4. ASALM算法的收敛性

ASALM算法求解稀疏逻辑回归问题的一阶收敛性 [13] 如下:

( α ^ , β ^ , γ ^ ) 为由ASALM算法产生点列 { ( α k , β k , γ k ) } k = 1 的聚点。假设 { γ k } k = 1 有界,且

lim k [ ( α k + 1 , β k + 1 , γ k + 1 ) ( α k , β k , γ k ) ] = 0.

α ^ k 满足问题P(4)的一阶最优性条件(1.1)。

4. 数值实验

本章节主要通过数值实验来验证加速分裂增广拉格朗日算法(ASALM)的可行性和有效性。我们将所要研究的稀疏逻辑回归问题应用于随机合成的模拟数据,通过对实验结果的数据分析和绘图分析客观地描述了加速分裂增广拉格朗日算法的性能与效率。本次实验的代码由MATLAB R2019a编写,并且在Intel(R) Core(TM) i5-9300H 2.4GHz CPU, 8GB RAM的个人笔记本电脑上进行了数值实验。

我们考虑下列稀疏逻辑回归问题:

min α , β { 1 N i = 1 N log ( 1 + exp ( B i α ) ) } , s .t . α J = β , β 0 K . (3.1)

其中 α = ( α 1 , α J ) ,B是一个 N × ( n + 1 ) 矩阵如上(2.1)所示。设置罚参数 ρ = 0.5 k = 1 t = 1 ,初始化 β 1 , γ ^ 0 为零向量,即 γ 1 亦为零向量。重新定义矩阵B的维度尺寸为 n × m ,定义 r k + 1 = α J k + 1 β k + 1 s k + 1 = ρ ( β k + 1 β k ) 分别为原始残差和对偶残差,设置绝对误差 ε a b s = 10 6 和相对误差 ε r e l = 10 3 ,实验中的迭代停止准则为 r k ε p r i s k ε d u a l ,其中 ε p r i = n ε a b s + ε r e l max { α k , β k } ε d u l = n ε a b s + ε r e l γ k

为了直观地描述ASALM的性能与效率,我们将ASALM与分裂增广拉格朗日算法(SALM)进行了实验对比,测试了四种不同维度的应用实例,即 ( n , m ) = ( 500 , 500 ) , ( 500 , 1000 ) , ( 1000 , 1000 ) , ( 1000 , 1500 ) ,数值实验结果见表1。在四种不同的维度条件下,表1中分别比较了两种算法的迭代次数、CPU运算时间和目标函数值。从表1中可以分析得出ASALM比SALM有着更少的迭代次数和CPU运算时间。因此,针对问题(3.1) ASALM是可行的且比SALM更有效。

为了进一步观察ASALM和SALM的收敛性,我们可视化了两种算法收敛性的变化,见如下图1图2。我们观察了 ( n , m ) = ( 500 , 500 ) , ( 500 , 1000 ) 两种条件下原始残差和目标函数值随着迭代次数(k)的变化情况,图1图2都展示了ASALM的原始残差比SALM下降的更快,且ASALM比SALM更快达到最优目标函数值。因此,ASALM的收敛速度比SALM更快,且性能与效率更好。

Table 1. Comparison of two algorithms based on simulated data

表1. 基于模拟数据的两种算法比较

Figure 1. n = 500, m = 500

图1. n = 500, m = 500

Figure 2. n = 500, m = 1000

图2. n = 500, m = 1000

5. 结论与展望

本文针对带有l0范数约束的逻辑回归问题,提出了加速分裂增广拉格朗日法求解此类问题。该算法在迭代中交替求解两个子问题,借助BFGS算法求解其中一个子问题,并通过等价变形求解出另一个子问题的显式解。在SALM框架中,运用Nesterov加速技术,提高算法的全局收敛性,给出了ASALM算法的一阶收敛性证明。最后,通过数值实验说明了ASALM的收敛速度比SALM更快,且性能与效率更好。此类方法亦可以应用到带有范数约束的多项逻辑回归问题上,在提高全局收敛性的性能上优于其它凸优化方法。

参考文献

[1] Maghbouleh, A. (1996) A Logistic Regression Model for Detecting Prominences. Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP’96, Philadelphia, PA, 3-6 October 1996, 2443-2445.
[2] Brzezinski, J.R. and Knafl, G.J. (1999) Logistic Regression Modeling for Context-Based Classifica-tion. Tenth International Workshop on Database and Expert Systems Applications, DEXA 99, Florence, 3 September 1999, 755-759.
https://doi.org/10.1109/DEXA.1999.795279
[3] Asgary, M.P., Jahandideh, S., Abdolmaleki, P., et al. (2007) Analysis and Identification of jS-Turn Types Using Multinomial Logistic Regression and Artificial Neural Network. Bioinformatics, 23, 3125-3130.
https://doi.org/10.1093/bioinformatics/btm324
[4] Liao, J.G. and Chin, K.V. (2007) Logistic Regression for Disease Classification Using Microarray Data: Model Selection in a Large P and Small N Case. Bioinformatics, 23, 1945-1951.
https://doi.org/10.1093/bioinformatics/btm287
[5] Sartor, M.A., Leikauf, G.D., Medvedovic, M., et al. (2009) LRpath: A Logistic Regression Approach for Identifying Enriched Biological Groups in Gene Expression Data. Bioinformatics, 25, 211-217.
https://doi.org/10.1093/bioinformatics/btn592
[6] Zhu, J. and Hastie, T. (2004) Classification of Gene Microarrays by Penalized Logistic Regression. Bio-Statistic, 5, 427-443.
https://doi.org/10.1093/biostatistics/kxg046
[7] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B, 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[8] Liu, J., Ji, S. and Ye, J. (2016) SLEP: Sparse Learning with Efficient Projections.
http://yelabs.net/software/SLEP/
[9] Lee, S.I., Lee, H., Abbeel, P., et al. (2006) Efficient £1 Regularized Logistic Regression. Proceedings of the National Conference on Artificial Intelligence. AAAI Press, Massachusetts, 401-408.
[10] Kim, S.J., Koh, K., Lustig, M., et al. (2007) An Interior-Point Method for Large-Scale /i-Regularized Least Squares. IEEE Journal of Selected Topics in Signal Processing, 1, 606-617.
https://doi.org/10.1109/JSTSP.2007.910971
[11] Wang, X., Wang, Y. and Wang, G. (2020) An Accelerated Augmented Lagrangian Method for Multi-Criteria Optimization Problem. Journal of Industrial & Management Opti-mization, 16, 1-9.
https://doi.org/10.3934/jimo.2018136
[12] Nesterov, Y.Y.E. (1983) A Method for Solving the Convex Programming Problem with Convergence Rate O(1/k2 ), Doklady Akademii Nauk SSSR, 269, 543-547.
[13] Bai, Y.Q., Liang, R.L. and Yang, Z.W. (2016) Splitting Augmented Lagrangian Method for Optimization Problems with a Cardinality Constraint and Semicontinuous Variables. Optimization Methods and Software, 31, 1089-1109.
https://doi.org/10.1080/10556788.2016.1196206
[14] Lu, Z. and Zhang, Y. (2013) Sparse Approximation via Penalty Decomposition Methods. SIAM Journal on Optimization, 23, 2448-2478.
https://doi.org/10.1137/100808071