正则化交替方向乘子算法求解非凸不可分离问题
Regualized Alternating Direction Method of Multiplies for Nonseparable Nonconvex Problem
摘要: 本文作者提出了一种新的正则化交替方向乘子法来解决非凸优化问题,在不要求正则项严格凸的情况下证明了算法的全局收敛性,在增广拉格朗日函数满足KL性质的条件下,证明了算法的强收敛性,并且通过应用于Lasso模型求解,证明了算法的有效性。
Abstract: In this paper, we propose a new regularized alternating direction method of multipliers to solve the non-convex optimization problem. We prove the global convergence of the algorithm without requiring the strict convexity of the regular term. Under the condition that the augmented Lagrangian function satisfies KL function, the strong convergence of the algorithm is proved, and the effectiveness of the algorithm is proved by applying it to the Lasso model.
文章引用:胡惠晴, 党亚峥, 张翼鹏. 正则化交替方向乘子算法求解非凸不可分离问题[J]. 理论数学, 2020, 10(7): 655-665. https://doi.org/10.12677/PM.2020.107079

1. 引言

本文我们考虑具有如下形式的非凸不可分离问题

min f ( x ) + g ( y ) + H ( x , y ) s .t . A x + y = b (1.1)

其中, f : R n R { + } 是正常下班连续函数, g : R m R 为连续可微函数,且 g 利普西茨连续(利普西茨常数 L 1 > 0 ); H : R n × R m R 是光滑函数,且x和y是不可分离的。 A R m × n 是给定的矩阵, b R m 是一个向量。问题(1.1)的一种特殊形式如下

min f ( x ) + g ( y ) s .t . A x + y = b (1.2)

交替方向乘子法(ADMM)在解决问题(1.2)方面有许多的研究,它的迭代格式如下

{ x k + 1 arg min x { L β ( x , y k , λ k ) } , y k + 1 arg min y { L β ( x k + 1 , y , λ k ) } , λ k + 1 = λ k β ( A x k + 1 + y k + 1 b ) . (1.3)

其中, L β ( · ) 为问题(1.2)的增广拉格朗日函数。在凸情形下,ADMM算法的研究已经比较完善。而在非凸的情况下,其收敛性研究则更具挑战。

针对问题(1.2),Guo等 [1] [2] 考虑利用经典的ADMM算法解决非凸最优化问题,证明了其收敛性,并且提出了一些充分条件保证了算法的超线性和线性收敛速率。Li和Ting [3] 提出了一种近似ADMM算法来解决非凸非光滑优化问题,证明了当罚参数足够大且生成的序列有聚点时,非凸问题收敛到稳定点。

然而,针对问题(1.1),由于函数H的存在,即使问题是凸的情况,对ADMM算法收敛性的研究还处于初期。Guo和Wang [4] 提出了一种广义的ADMM算法,证明了在增光拉格朗日函数满足KL不等式的情况下算法的收敛性。Chen等 [5] 在耦合函数g是二次函数的情况下,分析了ADMM的收敛性。Gao和Zhang [6] 考虑了函数H是光滑函数以及函数 f , g 是凸函数的情况。通过假设 g 是利普希茨连续以及h强凸,证明了由ADMM算法生成的序列收敛到问题(1.4)的最优解。

针对问题(1.1),本文通过结合Guo [4] 和Jian [7] 的方法,提出了一种正则化交替方向乘子法(RADMM),形式如下

{ x k + 1 arg min x { L β ( x , y k , λ k ) } + 1 2 x x k G 2 , y k + 1 arg min y { L β ( x k + 1 , y , λ k ) } , λ k + 1 = λ k β ( A x k + 1 + y k + 1 b ) . (1.4)

其中, L β ( · ) 为问题(1.1)的增广拉格朗日函数,定义如下

L β ( x , y , λ ) = f ( x ) + g ( y ) + H ( x , y ) λ , A x + y b + β 2 A x + y b 2 (1.5)

2. 预备知识

本节我们给出一些本文理论分析所需要的概念和性质。

对于任意 x R n 是函数f的极小值点的必要条件是 0 f ( x ) ,满足这个条件的点成为稳定点,函数f的稳定点集记作 c r i t f

引理2.1 [8] [9]: h : R m R 是连续可微函数,且 h 是关于常数L利普希茨连续的,那么对于任意的 x , y R n ,有

| h ( y ) h ( x ) h ( x ) , y x | L 2 y x 2 .

引理2.2:( [9] Kurdyka-Lojasiewicz inequality)设函数 f : R n R { + } 是恰当下半连续函数,对于 < η 1 < η 2 < + ,令 [ η 1 < f < η 2 ] : = { x R n : η 1 < f ( x ) < η 2 }

若存在 η ( 0 , + ] x * 的领域U以及一个连续的凹函数 φ : [ 0 , η ) R + ,满足如下条件:

i) φ ( 0 ) = 0

ii) φ ( 0 , η ) 连续可微且在0处连续

iii) φ ( s ) > 0 , s ( 0 , η )

iv) 对所有的 x U [ f ( x * ) < f < f ( x * ) + η ] ,有如下Kurdyka-Lojasiewicz不等式成立:

φ ( f ( x ) f ( x * ) ) d ( 0 , f ( x ) ) 1.

则称函数f在 x * d o m f 上满足KL性质。

引理2.3:( [9] Uniformized KL property) Ω 是紧集,设函数 f : R n R { + } 是恰当下半连续函数。假设f在 Ω 上是常数并且在 Ω 上的每个点满足KL性质,那么存在 ε > 0 , η > 0 以及 φ Φ η ,使得对于任意的 x ˜ Ω 以及 x { x R n : d ( x , Ω ) < ε } { f ( x ˜ ) < f < f ( x ˜ ) + η } ,有

φ ( f ( x ) f ( x ˜ ) ) d ( 0 , f ( x ) ) 1.

3. 收敛性分析

本节,我们令 ω k = { x k , y k , λ k } v k : = ( x k , y k ) 其中 { ω k } 为算法(1.4)生成的序列,并假设有界。

由(1.4)的最优性,有

{ 0 f ( x k + 1 ) + x H ( x k + 1 , y k ) A Τ λ k + β A Τ ( A x k + 1 + y k b ) + G ( x k + 1 x k ) , 0 = g ( y k + 1 ) + y H ( x k + 1 , y k + 1 ) λ k + β ( A x k + 1 + y k + 1 b ) , λ k + 1 = λ k β ( A x k + 1 + y k + 1 b ) . (3.1)

{ A Τ λ k + 1 + β A Τ ( y k + 1 y k ) x H ( x k + 1 , y k ) G ( x k + 1 x k ) f ( x k + 1 ) , g ( y k + 1 ) = λ k + 1 y H ( x k + 1 , y k + 1 ) , λ k + 1 = λ k β ( A x k + 1 + y k + 1 b ) . (3.2)

贯穿本文,我们做出如下假设。

假设3.1令 f : R n R { + } 是弱凸函数,常数 ω > 0 g : R m R 是连续可微函数,它的梯度 g 是利普希茨连续的,其利普希茨常数 L 1 > 0 H : R n × R m R 是光滑函数。假设问题(1.1)满足下列条件:

i) y H ( x , y ) y H ( x , y ˜ ) L 2 ( x ) y y ˜ , y , y ˜ R n

x H ( x , y ) x H ( x ˜ , y ) L 3 ( y ) x x ˜ , x , x ˜ R n

ii) H R n × R m 的有界子集上是利普希茨连续的。换句话说,对于每个有界子集 B 1 × B 2 R n × R m ,存在 M > 0 ,使得对于所有的 ( x i , y i ) B 1 × B 2 , i = 1 , 2

x H ( x 1 , y 1 ) x H ( x 2 , y 2 ) , y H ( x 1 , y 1 ) y H ( x 2 , y 2 ) M ( x 1 y 1 , x 2 y 2 )

iii) 存在 L 2 , L 3 > 0 ,使得 sup { L 2 ( x k ) : k N } L 2 , sup { L 3 ( x k ) : k N } L 3

引理3.1

L β ( x k + 1 , y k + 1 , λ k + 1 ) L β ( x k , y k , λ k ) δ v k + 1 v k 2 1 2 x k + 1 x k G 2 . (3.3)

证明:由增光拉格朗日的定义及(3.2c)式可得

L β ( x k + 1 , y k + 1 , λ k + 1 ) = L β ( x k + 1 , y k + 1 , λ k ) + λ k + 1 λ k , A x k + 1 + y k + 1 b = L β ( x k + 1 , y k + 1 , λ k ) + 1 β λ k λ k + 1 2 (3.4)

L β ( x k + 1 , y k + 1 , λ k ) L β ( x k + 1 , y k , λ k ) = g ( y k + 1 ) g ( y k ) + H ( x k + 1 , y k + 1 ) H ( x k + 1 , y k ) λ k , y k + 1 y k + β 2 A x k + 1 + y k + 1 b 2 β 2 A x k + 1 + y k b 2 (3.5)

由引理2.1及(3.2b)式可得

g ( y k + 1 ) g ( y k ) λ k + 1 y H ( x k + 1 , y k + 1 ) , y k + 1 y k + L 1 2 y k y k + 1 2 (3.6)

又因为 y H ( x k + 1 , ) 是关于常数 L 2 ( x k + 1 ) 利普希茨连续的,则

H ( x k + 1 , y k + 1 ) H ( x k + 1 , y k ) y H ( x k + 1 , y k + 1 ) , y k +1 y k L 2 ( x k + 1 ) 2 y k + 1 y k 2 . (3.7)

将(3.6)式和(3.7)式代入(3.5)式得到

L β ( x k + 1 , y k + 1 , λ k ) L β ( x k + 1 , y k , λ k ) λ k + 1 - λ k , y k + 1 y k + L 1 2 y k y k + 1 2 + L 2 ( x k + 1 ) 2 y k + 1 y k 2 + β 2 A x k + 1 + y k + 1 b 2 β 2 A x k + 1 + y k b 2 . (3.8)

由(3.2)的第三个式子,有

A x k + 1 + y k + 1 b = 1 β ( λ k λ k + 1 ) (3.9)

A x k + 1 + y k b = 1 β ( λ k λ k + 1 ) ( y k + 1 y k ) (3.10)

因此,将(3.9)和(3.10)代入(3.8),得到

L β ( x k + 1 , y k + 1 , λ k ) L β ( x k + 1 , y k , λ k ) L 1 + L 2 ( x k + 1 ) β 2 y k + 1 y k 2 . (3.11)

又由(3.2b)可知

λ k + 1 λ k 2 = g ( y k + 1 ) + y H ( x k + 1 , y k + 1 ) g ( y k ) y H ( x k , y k ) 2 2 g ( y k + 1 ) g ( y k ) 2 + 2 y H ( x k + 1 , y k + 1 ) y H ( x k , y k ) 2 2 L 1 2 y k + 1 y k 2 + 2 M 2 x k + 1 x k 2 + 2 M 2 y k + 1 y k 2 = ( 2 L 1 2 + 2 M 2 ) y k + 1 y k 2 + 2 M 2 x k + 1 x k 2 . (3.12)

其中,第二个不等式由 g 的利普西茨连续性和假设3.1的(ii)得到。将(3.12)式代入(3.4)式,得到

L β ( x k + 1 , y k + 1 , λ k + 1 ) L β ( x k + 1 , y k + 1 , λ k ) ( 2 L 1 2 + 2 M 2 ) β y k + 1 y k 2 + 2 M 2 β x k + 1 x k 2 . (3.13)

又因为 x k + 1 是(1.4a)的最优解,所以

L β ( x k + 1 , y k , λ k ) L β ( x k , y k , λ k ) 1 2 x k + 1 x k G 2 , (3.14)

结合(3.11),(3.13)及(3.14),有

L β ( x k + 1 , y k + 1 , λ k + 1 ) L β ( x k , y k , λ k ) + ( ( 2 L 1 2 + 2 M 2 ) β + L 1 + L 2 ( x k + 1 ) β 2 ) y k + 1 y k 2 + 2 M 2 β x k + 1 x k 2 1 2 x k + 1 x k G 2 δ v k + 1 v k 2 1 2 x k + 1 x k G 2 .

在最后一个不等式中,令

δ : = min { ( 2 L 1 2 + 2 M 2 ) β + L 1 + L 2 ( x k + 1 ) β 2 , 2 M 2 β }

显然, δ > 0 。引理获证。

引理3.2: k = 0 + ω k + 1 ω k 2 < +

证明:由于序列 { ω k } k N 是有界的,则存在收敛子列 { ω k j } j N ω k j ω * 。由h和g的连续性和f的下半连续性可知 L β ( ) 下班连续,从而

L β ( ω * ) lim inf j L β ( ω k j ) . (3.15)

因此序列 { L β ( ω k j ) } j N 有下界,又由引理3.1知 { L β ( ω k j ) } j N 单调递减,所以 { L β ( ω k j ) } j N 收敛,此外 { L β ( ω k ) } j N 也是收敛的,且 L β ( ω k ) L β ( ω * ) 。由引理3.1可得

k = 0 m δ v k + 1 v k 2 1 2 x k + 1 x k G 2 L β ( ω 0 ) L β ( ω m + 1 ) L β ( ω 0 ) L β ( ω * ) < + .

由于 δ > 0 G 0

k = 0 + v k + 1 v k 2 < + , k = 0 + x k + 1 x k G 2 . (3.16)

因此,

k = 0 + x k + 1 x k 2 < + , k = 0 + y k + 1 y k 2 < + .

则由(3.12)式可知 k = 0 + λ k + 1 λ k 2 < +

因此 k = 0 + ω k + 1 ω k 2 < +

引理3.3:存在 η > 0 ,使得 d ( 0 , L β ( ω k + 1 ) ) η v k + 1 v k

证明:根据 L β ( ) 的定义知

{ x L β ( ω k + 1 ) = f ( x k + 1 ) + x H ( x k + 1 , y k + 1 ) A Τ λ k + β A Τ ( A x k + 1 + y k + 1 b ) , y L β ( ω k + 1 ) = g ( y k + 1 ) + y H ( x k + 1 , y k + 1 ) λ k + 1 + β ( A x k + 1 + y k + 1 b ) , λ L β ( ω k + 1 ) = ( A x k + 1 + y k + 1 b ) . (3.17)

结合(3.17)及(3.2)

{ A Τ ( λ k λ k + 1 ) + β A Τ ( y k + 1 y k ) + x H ( x k + 1 , y k + 1 ) x H ( x k + 1 , y k ) G ( x k + 1 x k ) x L β ( ω k + 1 ) λ k λ k + 1 y L β ( ω k + 1 ) 1 β ( λ k + 1 λ k ) λ L β ( ω k + 1 )

定义

{ ζ x k + 1 = A Τ ( λ k λ k + 1 ) + β A Τ ( y k + 1 y k ) x H ( x k + 1 , y k + 1 ) x H ( x k + 1 , y k ) G ( x k + 1 x k ) ζ y k + 1 = λ k + 1 λ k ζ λ k + 1 = 1 β ( λ k + 1 λ k )

( ζ x k + 1 , ζ y k + 1 , ζ λ k + 1 ) Τ L β ( ω k + 1 ) ,且

存在 η 1 , η 2 , η 3 , η 4 > 0 ,使得

( ζ x k + 1 , ζ y k + 1 , ζ λ k + 1 ) Τ η 1 x k + 1 x k + η 2 y k + 1 y k + η 3 λ k + 1 λ k + η 4 x H ( x k + 1 , y k + 1 ) x H ( x k + 1 , y k ) (3.18)

由假设3.1的(ii)可知

x H ( x k + 1 , y k + 1 ) x H ( x k + 1 , y k ) M y k + 1 y k (3.19)

由(3.12)式可得

λ k + 1 λ k ( 2 L 1 2 + 2 M 2 ) y k + 1 y k + 2 M x k + 1 x k (3.20)

η : = ( η 1 + 2 M η 3 ) 2 + ( η 2 + ( 2 L 1 2 + 2 M 2 ) η 3 + M η 4 ) 2

结合(3.18),(3.19),(3.20),得到

d ( 0 , L β ( ω k + 1 ) ) ( ζ x k + 1 , ζ y k + 1 , ζ λ k + 1 ) Τ ( η 1 + 2 M η 3 ) x k + 1 x k + ( η 2 + ( 2 L 1 2 + 2 M 2 ) η 3 + M η 4 ) y k + 1 y k η v k + 1 v k

引理获证。

引理3.4:记序列 { ω k } k N 的所有极限点为 S ( ω 0 ) ,则

i) S ( ω 0 ) 是一个非空紧集,并且 d ( ω k , S ( ω 0 ) ) 0 , k +

ii) S ( ω 0 ) c r i t L β

iii) L β ( ) S ( ω 0 ) 上取有限值且为常量,且 inf k N L β ( ω k ) = lim k + L β ( ω k )

证明:i) 可由 S ( ω 0 ) 的定义可直接得到。

ii) 对于任意点 ( x * , y * , γ * ) S ( ω 0 ) ,存在子列 { ( x k j , y k j , γ k j ) } ( x * , y * , γ * ) , k j +

根据增广拉格朗日函数的定义, x k + 1 L β ( x , y k , γ k ) 关于变量x的全局最小点,因此由(1.4)第一个式有

L β ( x k + 1 , y k , γ k ) + 1 2 x k + 1 x k G 2 L β ( x * , y k , γ k ) 1 2 x x k G 2 .

L β ( ) 关于y和 γ 连续,则有

lim sup j + L β ( x k j + 1 , y k j , γ k j ) = lim sup j + L β ( x k j + 1 , y k j + 1 , γ k j + 1 ) L β ( x * , y * , γ * ) . (3.21)

由引理3.2,从而

{ ( x k j + 1 , y k j + 1 , γ k j + 1 ) } ( x * , y * , γ * ) , k j + ,由函数 L β ( ) 的下半连续性,可得

lim inf j + L β ( x k j + 1 , y k j + 1 , γ k j + 1 ) L β ( x * , y * , γ * ) . (3.22)

结合(3.21)式和(3.22)式,有 lim j + L β ( x k j + 1 , y k j + 1 , γ k j + 1 ) = L β ( x * , y * , γ * )

因此 lim j + f ( x k j + 1 ) = f ( x * ) 。结合 g , H x ( , ) , H y ( , ) 的连续性,在式(3.2)中对序列 { ( x k j , y k j , γ k j ) } 取极限,可得

{ A Τ λ k x H ( x k + 1 , y k ) f ( x * ) , λ k + 1 y H ( x k + 1 , y k + 1 ) = g ( y * ) , A x * + y * b = 0.

因此 ( x * , y * , γ * ) S ( ω 0 )

iii) 对于任意点 ( x * , y * , γ * ) S ( ω 0 ) ,存在子列 { ( x k j , y k j , γ k j ) } ( x * , y * , γ * ) , k j + ,由于 L β ( ω k ) 单调递减,有 lim j + L β ( x k , y k , γ k ) = L β ( x * , y * , γ * ) 。且 L β ( ) S ( ω 0 ) 是常量。得证。

定理3.1若 L β ( ) 满足KL性质,则 k = 0 + ω k + 1 ω k 2 < + ,且序列 { ω k } k N 收敛到 L β ( ) 的一个稳定点。

证明由引理3.4可知, lim k + L β ( ω k ) = L β ( ω * ) , ω * S ( ω 0 ) ,因此考虑以下两种情况。

i) 存在整数 k 0 使得 L β ( ω k 0 ) = L β ( ω * ) ,由引理3.1可知

δ v k + 1 v k 2 1 2 x x k G 2 L β ( ω k ) L β ( ω k + 1 ) L β ( ω k 0 ) L β ( ω * ) = 0.

因此对任意的 k > k 0 ,有 v k + 1 = v k ,结合式(3.16)可知,对于任意的 k > k 0 + 1 ,有 ω k + 1 = ω k 成立,结论成立。

ii) 假设对于任意的k都有 L β ( ω k ) > L β ( ω * ) 成立,存在 k ˜ > 0 使得对于所有的 k > k ˜

δ v k + 1 v k 2 ξ v k v k 1 Δ k , k + 1 . (3.23)

其中 Δ p , q = φ ( L β ( ω p ) L β ( ω * ) ) φ ( L β ( ω q ) L β ( ω * ) )

由于 d ( ω k , S ( ω 0 ) ) 0 L β ( ω k ) L β ( ω * ) ,那么对于任意的 ε , κ > 0 ,存在 k ˜ > 0 使得对于所有的 k > k ˜ d ( ω k , S ( ω 0 ) ) < ε , L β ( ω * ) < L β ( ω k ) < L β ( ω * ) + κ .

由于 S ( ω 0 ) 是非空紧集,且 L β ( ) S ( ω 0 ) 是常数,由引理3.3可得对所有的 k > k ˜

φ ( L β ( ω k ) L β ( ω * ) ) d ( 0 , L β ( ω k ) ) 1.

由于 L β ( ω k ) L β ( ω k + 1 ) = ( L β ( ω k ) L β ( ω * ) ) ( L β ( ω k + 1 ) L β ( ω * ) )

利用函数 φ 的凹性,可以得到

φ ( L β ( ω k ) L β ( ω * ) ) φ ( L β ( ω k + 1 ) L β ( ω * ) ) φ ( L β ( ω k ) L β ( ω * ) ) ( L β ( ω k ) L β ( ω k + 1 ) ) .

因此结合引理3.3以及 φ ( L β ( ω k ) L β ( ω * ) ) > 0 ,可得

L β ( ω k ) L β ( ω k + 1 ) φ ( L β ( ω k ) L β ( ω * ) ) φ ( L β ( ω k + 1 ) L β ( ω * ) ) φ ( L β ( ω k ) L β ( ω * ) ) ξ v k v k 1 φ ( L β ( ω k ) L β ( ω * ) ) φ ( L β ( ω k + 1 ) L β ( ω * ) ) = ξ v k v k 1 Δ k . k + 1 .

结合引理3.2可得式(3.23)成立,且由(3.23)可得

v k + 1 v k ξ δ Δ k , k + 1 v k v k 1 1 2 .

利用不等式 2 α β α + β ( α , β > 0 ) ,可得

2 v k + 1 v k v k v k 1 + ξ δ Δ k , k + 1 .

进一步,将上式由 k = k ˜ + 1 , , m 相加得到

2 k = k ˜ + 1 m v k + 1 v k k = k ˜ + 1 m v k v k 1 + ξ δ Δ k ˜ + 1 , m .

由于 φ ( L β ( ω m + 1 ) L β ( ω * ) ) > 0 ,令 m + ,上式为

k = k ˜ + 1 + v k + 1 v k v k v k 1 + ξ δ φ ( L β ( ω k ˜ + 1 ) L β ( ω * ) ) .

也就是说 k = 0 + v k + 1 v k < + ,因此 k = 0 + x k + 1 x k < + , k = 0 + y k + 1 y k < +

进一步由(3.12)可得 k = 0 + λ k + 1 λ k < +

此外,由于

ω k + 1 ω k = ( x k + 1 x k 2 + y k + 1 y k 2 + λ k + 1 λ k 2 ) 1 2 x k + 1 x k + y k + 1 y k + λ k + 1 λ k .

因此 k = 0 + ω k + 1 ω k < + 。且 { ω k } k N 是Cauchy序列,因此 { ω k } k N 收敛。

4. 数值实验

本节通过数值实验来验证算法的有效性。

考虑Lasso回归模型,即

min A x b 2 + γ x 1 , (4.1)

其中 x 1 = i = 1 n | x i | A R m × n 是设计矩阵, γ > 0 是正则化参数。

引进新变量y,则(4.1)式可转化为

min y 2 + γ x 1 s .t . A x y = b (4.2)

为了验证本文算法RADMM的有效性,将算法(1.4)应用到问题(4.2),且取定 G = α I β A Τ A ,有

{ x k + 1 S γ / α ( x k β α A Τ A x k + 1 α A Τ ( β y k + λ k ) ) , y k + 1 1 2 + β ( β A x k + 1 λ k ) , λ k + 1 = λ k β ( A x k + 1 y k + 1 ) ,

其中S为软阈值算子,定义为

S κ ( α ) = { α κ α > κ 0 | α κ | α + κ α < κ

在实验中,定义终止准则为 A x k + 1 y k + 1 2 ϵ p r i , β A ( y k + 1 y k ) 2 ϵ d u a l

其中, ϵ p r i = n ϵ a b s + ϵ r e l max { A x k + 1 2 , y k + 1 2 } , ϵ d u a l = n ϵ a b s + ϵ r e l A y k + 1 2

设置 ϵ p r i ϵ d u a l 分别取10−4和10−2,设矩阵 A R m × n 随机生成且服从标准正态分布 N ( 0 , 1 ) ,实验选取了矩阵A从900 × 3000到1500 × 5000的五个维度的情形,取正则化参数 γ = 0.1 , β = 1 , α = 0.3

得到的实验结果如图所示。

Figure 1. Comparison of ADMM algorithm and RADMM algorithm for Lasso model

图1. 对于Lasso模型ADMM算法和RADMM算法的比较

根据图1我们可以看到,当矩阵A取不同维度时,本文提出的算法RADMM以及原始ADMM算法在求解Lasso模型的平均迭代次数,可以看出算法(1.4)的性能明显优于原始的ADMM算法。

5. 结论

本文针对一类非凸不可分离的问题提出了正则化交替方向乘子法,证明了算法的全局收敛性。并且在增广拉格朗日函数满足KL性质的条件下,证明了算法的强收敛性。最后,将算法应用于Lasso模型求解,证明了算法的有效性。

参考文献

[1] Guo, K., Han, D. and Wu, T.T. (2017) Convergence of Alternating Direction Method for Minimizing Sum of Two Nonconvex Functions with Linear Constraints. International Journal of Computer Mathematics, 94, 1653-1669.
https://doi.org/10.1080/00207160.2016.1227432
[2] Guo, K., Han, D., Wang, D.Z.W., et al. (2017) Convergence of ADMM for Multi-Block Nonconvex Separable Optimization Models. Frontiers of Mathematics in China, 12, 1139-1162.
https://doi.org/10.1007/s11464-017-0631-6
[3] Li, G.Y. and Pong, T.K. (2014) Global Convergence of Splitting Methods for Nonconvex Composite Optimization. EprintArxiv, 25, 2434-2460.
https://doi.org/10.1137/140998135
[4] Guo, K. and Wang, X. (2018) Convergence of Generalized Alternating Direction Method of Multipliers for Nonseparable Nonconvex Objective with Linear Constraints. Journal of Mathematical Research with Applications, 38, 87-104.
[5] Chen, C.H., Li, M., Liu, X., et al. (2019) Extended ADMM and BCD for Nonseparable Convex Minimization Models with Quadratic Coupling Terms: Convergence Analysis and Insights. Mathematical Programming, 173, 37-77.
https://doi.org/10.1007/s10107-017-1205-9
[6] Gao, X. and Zhang, S.Z. (2017) First-Order Algorithms for Convex Optimization with Nonseparable Objective and Coupled Constraints. Journal of the Operations Research Society of China, 5, 131-159.
https://doi.org/10.1007/s40305-016-0131-5
[7] Jian, J.B., Zhang, Y. and Chao, M.T. (2019) A Regularized Al-ternating Direction Method of Multipliers for a Class of Nonconvex Problems. Journal of Inequalities and Applications, 2019, 1-16.
https://doi.org/10.1186/s13660-019-2145-0
[8] Bolte, J., Sabach, S. and Teboulle, M. (2014) Proximal Alter-nating Linearized Minimization for Nonconvex and Nonsmooth Problems. Mathematical Programming, 146, 459-494.
https://doi.org/10.1007/s10107-013-0701-9
[9] Attouch, H., Bolte, J., Redont, P., et al. (2010) Proximal Alter-nating Minimization and Projection Methods for Nonconvex Problems: An Approach Based on the Kurdyka-Lojasiewicz Inequality. Mathematics of Operations Research, 35, 438-457.
https://doi.org/10.1287/moor.1100.0449