1. 引言
本文我们考虑具有如下形式的非凸不可分离问题
(1.1)
其中,
是正常下班连续函数,
为连续可微函数,且
利普西茨连续(利普西茨常数
);
是光滑函数,且x和y是不可分离的。
是给定的矩阵,
是一个向量。问题(1.1)的一种特殊形式如下
(1.2)
交替方向乘子法(ADMM)在解决问题(1.2)方面有许多的研究,它的迭代格式如下
(1.3)
其中,
为问题(1.2)的增广拉格朗日函数。在凸情形下,ADMM算法的研究已经比较完善。而在非凸的情况下,其收敛性研究则更具挑战。
针对问题(1.2),Guo等 [1] [2] 考虑利用经典的ADMM算法解决非凸最优化问题,证明了其收敛性,并且提出了一些充分条件保证了算法的超线性和线性收敛速率。Li和Ting [3] 提出了一种近似ADMM算法来解决非凸非光滑优化问题,证明了当罚参数足够大且生成的序列有聚点时,非凸问题收敛到稳定点。
然而,针对问题(1.1),由于函数H的存在,即使问题是凸的情况,对ADMM算法收敛性的研究还处于初期。Guo和Wang [4] 提出了一种广义的ADMM算法,证明了在增光拉格朗日函数满足KL不等式的情况下算法的收敛性。Chen等 [5] 在耦合函数g是二次函数的情况下,分析了ADMM的收敛性。Gao和Zhang [6] 考虑了函数H是光滑函数以及函数
是凸函数的情况。通过假设
是利普希茨连续以及h强凸,证明了由ADMM算法生成的序列收敛到问题(1.4)的最优解。
针对问题(1.1),本文通过结合Guo [4] 和Jian [7] 的方法,提出了一种正则化交替方向乘子法(RADMM),形式如下
(1.4)
其中,
为问题(1.1)的增广拉格朗日函数,定义如下
(1.5)
2. 预备知识
本节我们给出一些本文理论分析所需要的概念和性质。
对于任意
是函数f的极小值点的必要条件是
,满足这个条件的点成为稳定点,函数f的稳定点集记作
。
引理2.1 [8] [9]:
是连续可微函数,且
是关于常数L利普希茨连续的,那么对于任意的
,有
引理2.2:( [9] Kurdyka-Lojasiewicz inequality)设函数
是恰当下半连续函数,对于
,令
。
若存在
,
的领域U以及一个连续的凹函数
,满足如下条件:
i)
ii)
在
连续可微且在0处连续
iii)
iv) 对所有的
,有如下Kurdyka-Lojasiewicz不等式成立:
则称函数f在
上满足KL性质。
引理2.3:( [9] Uniformized KL property)
是紧集,设函数
是恰当下半连续函数。假设f在
上是常数并且在
上的每个点满足KL性质,那么存在
以及
,使得对于任意的
以及
,有
3. 收敛性分析
本节,我们令
,
其中
为算法(1.4)生成的序列,并假设有界。
由(1.4)的最优性,有
(3.1)
即
(3.2)
贯穿本文,我们做出如下假设。
假设3.1令
是弱凸函数,常数
;
是连续可微函数,它的梯度
是利普希茨连续的,其利普希茨常数
;
是光滑函数。假设问题(1.1)满足下列条件:
i)
ii)
在
的有界子集上是利普希茨连续的。换句话说,对于每个有界子集
,存在
,使得对于所有的
,
iii) 存在
,使得
。
引理3.1
(3.3)
证明:由增光拉格朗日的定义及(3.2c)式可得
(3.4)
且
(3.5)
由引理2.1及(3.2b)式可得
(3.6)
又因为
是关于常数
利普希茨连续的,则
(3.7)
将(3.6)式和(3.7)式代入(3.5)式得到
(3.8)
由(3.2)的第三个式子,有
(3.9)
则
(3.10)
因此,将(3.9)和(3.10)代入(3.8),得到
(3.11)
又由(3.2b)可知
(3.12)
其中,第二个不等式由
的利普西茨连续性和假设3.1的(ii)得到。将(3.12)式代入(3.4)式,得到
(3.13)
又因为
是(1.4a)的最优解,所以
(3.14)
结合(3.11),(3.13)及(3.14),有
在最后一个不等式中,令
显然,
。引理获证。
引理3.2:
证明:由于序列
是有界的,则存在收敛子列
且
。由h和g的连续性和f的下半连续性可知
下班连续,从而
(3.15)
因此序列
有下界,又由引理3.1知
单调递减,所以
收敛,此外
也是收敛的,且
。由引理3.1可得
由于
,
(3.16)
因此,
则由(3.12)式可知
。
因此
。
引理3.3:存在
,使得
证明:根据
的定义知
(3.17)
结合(3.17)及(3.2)
定义
则
,且
存在
,使得
(3.18)
由假设3.1的(ii)可知
(3.19)
由(3.12)式可得
(3.20)
令
结合(3.18),(3.19),(3.20),得到
引理获证。
引理3.4:记序列
的所有极限点为
,则
i)
是一个非空紧集,并且
;
ii)
;
iii)
在
上取有限值且为常量,且
。
证明:i) 可由
的定义可直接得到。
ii) 对于任意点
,存在子列
,
根据增广拉格朗日函数的定义,
是
关于变量x的全局最小点,因此由(1.4)第一个式有
又
关于y和
连续,则有
(3.21)
由引理3.2,从而
,由函数
的下半连续性,可得
(3.22)
结合(3.21)式和(3.22)式,有
。
因此
。结合
的连续性,在式(3.2)中对序列
取极限,可得
因此
。
iii) 对于任意点
,存在子列
,由于
单调递减,有
。且
在
是常量。得证。
定理3.1若
满足KL性质,则
,且序列
收敛到
的一个稳定点。
证明由引理3.4可知,
,因此考虑以下两种情况。
i) 存在整数
使得
,由引理3.1可知
因此对任意的
,有
,结合式(3.16)可知,对于任意的
,有
成立,结论成立。
ii) 假设对于任意的k都有
成立,存在
使得对于所有的
有
(3.23)
其中
。
由于
且
,那么对于任意的
,存在
使得对于所有的
有
由于
是非空紧集,且
在
是常数,由引理3.3可得对所有的
有
由于
,
利用函数
的凹性,可以得到
因此结合引理3.3以及
,可得
结合引理3.2可得式(3.23)成立,且由(3.23)可得
利用不等式
,可得
进一步,将上式由
相加得到
由于
,令
,上式为
也就是说
,因此
。
进一步由(3.12)可得
。
此外,由于
因此
。且
是Cauchy序列,因此
收敛。
4. 数值实验
本节通过数值实验来验证算法的有效性。
考虑Lasso回归模型,即
(4.1)
其中
,
是设计矩阵,
是正则化参数。
引进新变量y,则(4.1)式可转化为
(4.2)
为了验证本文算法RADMM的有效性,将算法(1.4)应用到问题(4.2),且取定
,有
其中S为软阈值算子,定义为
在实验中,定义终止准则为
其中,
设置
和
分别取10−4和10−2,设矩阵
随机生成且服从标准正态分布
,实验选取了矩阵A从900 × 3000到1500 × 5000的五个维度的情形,取正则化参数
。
得到的实验结果如图所示。

Figure 1. Comparison of ADMM algorithm and RADMM algorithm for Lasso model
图1. 对于Lasso模型ADMM算法和RADMM算法的比较
根据图1我们可以看到,当矩阵A取不同维度时,本文提出的算法RADMM以及原始ADMM算法在求解Lasso模型的平均迭代次数,可以看出算法(1.4)的性能明显优于原始的ADMM算法。
5. 结论
本文针对一类非凸不可分离的问题提出了正则化交替方向乘子法,证明了算法的全局收敛性。并且在增广拉格朗日函数满足KL性质的条件下,证明了算法的强收敛性。最后,将算法应用于Lasso模型求解,证明了算法的有效性。