1. 引言
本文考虑如下问题:
(1.1)
其中,
是函数变量,
和
是下半连续函数(可能非凸非光滑),
是连续可微函数,
是给定的矩阵,
是给定的向量。问题(1.1)的增广拉格朗日函数(ALF)为
(1.2)
其中,
是拉格朗日乘子,
是罚参数。
问题(1.1)是一类经典的具有线性约束的优化问题,广泛应用于压缩感知、稀疏信号恢复、图像处理、机器学习、矩阵分解等多个领域。在实际应用中,许多优化问题涉及非凸非光滑函数。非凸函数通常具有多个最小值和鞍点,这使得求解过程变得十分困难;非光滑函数往往在一些点不可微,甚至无法求导。因此,研究非凸非光滑情形下优化问题的求解方法具有重要的理论和实践意义。
交替方向乘子法(ADMM)作为一种高效求解具有多变量的约束优化算法,因其灵活度高,简单,处理速度快而被广泛使用于图像处理、统计学习等领域[1] [2]。在问题(1.1)中,当目标函数为凸函数时,ADMM算法及其扩展研究已经较为完善[3]-[5]。近年来,人们更加关注目标函数非凸时ADMM算法的收敛性以及求解速度问题。一些关于两块非凸问题的ADMM算法的收敛性研究已经被证明[6]-[8],但随着变量的增加,对于三块和多块非凸问题,ADMM算法的收敛性证明非常具有挑战性。陈等[9]提出了一个反例说明了直接将ADMM算法从两块问题扩展到三块问题是不收敛的。因此许多学者通过一些更强的假设或者对算法进行适当的改进以提高算法的收敛性。邓等[10]发现,当矩阵
是正交的并且列满秩时,通过扩展两块到多块的雅各比配置可以保证算法的收敛性,王等[11]通过在子问题中加入Bregman修正,来证明非凸情况下的收敛性。
与此同时,随着数据维度以及区块数量逐渐增加,基于ADMM的加速算法逐渐被深入研究。一些学者将惯性技术与ADMM算法结合起来对算法进行加速:惯性技术本质上是通过考虑前两次的迭代信息以计算下一次迭代点,这样就避免了相邻两次迭代之间剧烈的变化。Attouch [12]提出了惯性近端ADMM算法,其外推步结合了Nestrov的梯度加速算法。王等[13]使用了一种加权Frobenius范数的惯性形式,并使用了部分对称思想对算法进行加速。徐等[14]在ADMM算法中将Bregman距离和惯性技术结合起来解决非凸非光滑问题。
在求解过程中,当目标函数较为复杂时,ADMM算法可能无法推导出子问题的显示表达式或求解速度很慢。面对这种情况,一种思想是通过将一个困难的问题近似成为一个简单问题,通过牺牲求解的准确性以提高求解速度。目前,非精确的惯性ADMM算法[15]-[17]多用于求解可分离的凸优化问题,针对非凸同时具有不可分离结构的相关研究还很少,受以上文献启发,本文针对问题(1.1),提出了一种并行式惯性近端非精确ADMM (PIPI-ADMM)算法,该算法在交替方向法的基础上,通过对每个子问题的增广拉格朗日函数进行部分一阶近似,使得近似信息可以并行发送到每个子问题的求解过程中。同时结合惯性技术与近端算法,分别在
子问题中加入近端项,在
子问题中引入惯性项来加速求解过程。此外,在简单合理的的假设下,当正则化的增广拉格朗日函数满足Kurdyka-Lojasiewicz性质时,文章证明了算法针对非凸非光滑问题的强收敛性。最后,文章总结了算法在鲁棒性主成分分析(Robust PCA)问题中的表现,验证了该算法的有效性。
本文的剩余部分组织结构如下:第2节给出了一些基础的定义以及与收敛性证明相关的预备知识;第3节提出了PIPI-ADMM算法,并证明了算法的收敛性;第4节是数值实验部分,通过分析算法在实际问题中的性能验证算法的有效性;最后在第5节得出了结论。
2. 预备知识
本节给出文中所用记号的意义以及相关概念与性质。
表示
维欧氏空间,
表示欧式范数,
,对于矩阵
,其像空间被定义为
,
表示在像空间
上的欧式投影。文章使用
表示矩阵
的最小特征值。设集合
,点
,将点
到集合
的距离记作
当
时,定义
。对于函数
,其定义域记作
,即
。函数
称为正常函数当且仅当
且
。
定义2.1 [18]若函数
在
处满足
,则称函数
在
处下半连续。若函数
在
内每点处均下半连续,则称
为下半连续函数。
定义2.2 [18]设函数
正常下半连续,则
i) 函数
在
处的Fréchet次微分记为
当
时,记
。
ii) 函数在
处的极限次微分记为
注[18]:设
及
为正常下半连续函数,则下列结论成立
1)
,有
,其中
是闭凸的,而
是凸的。
2) 若
且
,则
,这表明
是闭的。
3) 设
为
的极小值点,则
。若
,称
为
的稳定点,
的稳定点集记作
4) 若
连续可微,则
定义2.3
为问题(1.1)的增广拉格朗日函数的稳定点,即
,当且仅当
定义2.4 [19] (Kurdyka-Lojasiewicz性质)设函数
为正常下半连续函数,若存在
的邻域
及连续凹函数
满足如下条件:
1)
;
2)
在
连续可微的且在0处连续;
3)
,
;
4)
,有如下Kurdyka-Lojasiewicz不等式成立:
,
则称函数
在
处具有Kurdyka-Lojasiewicz (KL)性质。
Kurdyka-Lojasiewicz (KL)性质主要适用于非凸非光滑优化问题。此类问题由于目标函数结构复杂,通常缺乏传统凸优化中的全局收敛性保证。KL性质通过对目标函数的局部增长特性进行限制,使得即便在非凸优化中也能获得一定的收敛性保证。对于特定结构的函数(例如半代数函数和半解析函数),KL性质在其定义域上表现出良好的适用性。在实际应用中,很多函数都满足KL性质。例如
范数,Relu激活函数等都满足KL性质,这使得KL性质在非凸非光滑问题的收敛性证明中具有重要作用。
引理2.1 [20]设
为非零矩阵,
为该矩阵得最小特征值,则
(2.1)
其中,
表示
在像空间
上的欧氏投影。
引理2.2 若函数
连续可微,且其梯度
是
-Lipschitz连续的,则
(2.2)
证明

如果取
,由不等式
,此时有

引理2.3 [21] (一致KL性质)设
是紧集,函数
是正常下半连续函数,若函数
在
上是常数且在
上得每个点都满足KL性质,那么存在
,
,
,使得对于任意
以及
有

3. 算法与其收敛性分析
本节将给出针对问题(1.1)的并行式惯性近端非精确ADMM算法(PIPI-ADMM),并证明其收敛性。
3.1. 算法及假设
算法通过使用一阶近似的方法,非精确求解每一个子问题的值,进而达到对算法的加速效果。对于每个子问题,定义其增广拉格朗日函数在第k次迭代处的一种一阶近似为:
由此,算法的迭代框架如下:
(3.1)
(3.2)
(3.3)
算法1:并行式惯性近端非精确ADMM算法
a) 对于给定的
使
,其中,
。
b) 依次迭代
(3.4)
c) 终止准则:计算

或
在下文中,为简便证明过程,记
为算法产生的迭代序列,且
(3.5)
注:在算法设计中,我们采用了非精确求解思想和惯性思想来加速算法的迭代求解。非精确思想如(3.1)~(3.3)所示,在求解子问题过程中,不追求精确地求解每一个子问题的解,而是通过求解耦合项的一阶近似,来获得一个近似解,以此来加快求解速度。这种方法通常用于大型或复杂的优化问题中,能够在计算量较小的情况下实现快速求解。惯性近端思想被应用在了(3.4)的子问题中。其中,惯性近端项为:
惯性技术通过在第
次迭代过程中考虑前两次迭代的信息
,使得算法可以加速向最优点逼近。特别是在面对非凸目标函数时,惯性技术可以更快速的跳过鞍点或局部最小值,在不增加计算量的前提下减少整体迭代次数,提升算法的性能。
下面,我们证明算法1的收敛性。首先,算法1的收敛性分析需要满足如下假设:
假设3.1
1) 函数
和
是正常下半连续函数;
2) 函数
是连续可微函数且其梯度
是模
-Lipschiz连续,即
3) 矩阵
满足
,且
;
4) 算法参数选取满足:
,
。
注:注意到,我们的算法的参数选择仅仅需要满足假设3.1(4)即可。该参数假设被使用在后文引理3.2的证明中,用以保证增广拉格朗日函数序列的单调性。在算法设计中,
,均为已知或已设置的常数,因此在参数选择中,我们只需令
和
足够大,即可保证算法是收敛的。
3.2. 收敛性证明
引理3.1 在算法1中,对于任意的
,下列不等式成立:
(3.6)
证明 根据(3.4)中
子问题的最优条件得
(3.7)
将(3.4)中第四式代入(3.7)中,得到
根据引理2.1可得
由此,引理得证。 □
为了证明收敛性,确定增广拉格朗日函数得单调性是非常必要的。但是由于算法添加了惯性项,直接证明增广拉格朗日函数单调非常困难。因此通过构建正则化的增广拉格朗日函数
,借助
的单调性来证明算法的收敛性。正则化的增广拉格朗日函数定义如下:
(3.8)
其中,
的定义见式(3.5)。
引理3.2 对于算法1,选择足够大的
使得
(3.9)
则对于
,有
(3.10)
其中,
证明 根据(3.4)第一式得:
根据(3.4)第二式得:
根据(3.4)第三式得:
将上述三个不等式相加,得到
根据三角不等式
得到
通过变换得到
其中,最后一个不等式是由引理2.2得到的。由此得到
(3.11)
由(1.2)式,
(3.12)
将(3.11)式与(3.12)式相加,得到
由于
,则
由于
由算法参数定义,
令
,根据(3.9)式有
由于
,
,则
。在(3.8)式中,令
则(3.10)式成立,引理得证。 □
引理3.3 考虑算法1生成的序列
,存在常数
使得
(3.13)
证明 根据增广拉格朗日函数的定义,得到
根据算法迭代的最优条件(3.4),推出
(3.14)
将上述两个式子结合在一起,得到
,其中,
由于
Lipschitz连续,根据假设3.1,结合引理3.1,存在
使得
□
引理3.4 根据假设3.1,如果
是强制的,对于算法1生成的序列
,满足:
1) 序列
是有界的。
2)
。
证明1) 根据引理3.2和算法的定义,得到
根据
的强制性以及
,序列
是有界的。
2) 因为
是有界的,则
也是有界的。因此其至少有一个聚点。假设
是
的一个聚点,则必然存在一个子列
使得
由于
是下半连续的,
是连续函数,则
因此,
是有下界的。根据引理3.2,
是单调递减的,因此函数列
收敛且
。同时有
将上述不等式从
相加,得
令
,有
,结合引理3.1,即可得
引理得证。 □
定理3.1 对于算法1生成的序列
,令
分别表示序列
,
聚点的集合。如果假设3.1成立,则下述结论成立
1)
是非空紧集且
2) 如果
并且
,则
。
3)
4)序列
收敛,且
。
证明:1) 根据
的定义,(1)显然成立。
2) 根据引理3.4和
,
的定义,显然(2)成立。
3) 对于
,可以找到
的一个子列
,这个子列收敛到
。根据引理3.4,
得到
这时有
因此
是问题(1.1)的可行点。由于
是
子问题的最小值,则
考虑到
得到
根据的下半连续性,有
因此
(3.15)
同理,有
(3.16)
由于集合
是闭的以及
的Lipschitz连续性,在式(3.14)取
,得到
根据定义2.1,
是
的一个稳定点,即
4) 由于
,存在
使得
根据式(3.15)和(3.16),以及
的连续性,得到
(3.17)
考虑到,
是单调的,所以
收敛,因此
□
定理3.2 对于算法1生成的序列
,如果假设3.1成立且
在
具有Kurdyka-Lojasiewicz性质,这时,有
(3.18)
并且序列
收敛到
的稳定点。
证明 以下从两个方面来证明该定理
1) 基于式(3.17),如果存在
使得
,对(3.10)式移项得
由此可得,对任意
,都有
。进一步,根据式(3.4),可得对于任意
都有
,因此可以得到(3.18)。
2) 由于
单调递减,因此有
。从
对任意常数
,存在常数
,当
时,
根据定理3.1(2),对于任意
存在
使得对任意
,
因此,对于任意
,当
,得到

因为
是非空紧集并且
。根据引理2.3,得到
由于
,则
(3.19)
由函数
是凹函数,得到
令
根据式(3.13)和式(3.19)得到
由(3.10)和上述不等式,推出
根据不等式
得到
根据不等式
得到
将上述不等式由
相加,得到
令
,得到
由于
且为常数,得到
结合引理3.1,得到

则(3.18)式得证,因此序列
是收敛的,根据定理3.1,
收敛到
的稳定点
。 □
4. 算法的应用
鲁棒主成分分析(Robust PCA)
Robust PCA问题[13]-[22]可以概括为
(4.1)
其中,
是观测矩阵,
是决策变量,定义
为核范数,
范数为
是罚参数,
是
和
之间的权重参数,用
表示拉格朗日乘子,则问题(4.1)的增广拉格朗日函数被定义为:
(4.2)
问题(4.1)可以被算法1通过如下迭代方式求解:
其中,
为
的一阶近似,其定义见公式(3.1)~(3.3)。上述方程组的显式表达式为
其中,
是奇异值阈值算子[23],
是软阈值算子[24]。
在下述结果中,
分别表示矩阵
的秩和矩阵
的稀疏率,实验选取了三组不同维度的观测矩阵
和两组不同的
来进行矩阵分解。实验中,取
初始矩阵
均被设置为零矩阵。算法1的参数设置为
,
实验的终止准则为
实验分别使用PIPI-ADMM和线性化ADMM算法(LADMM) [25]求解问题(4.1)。表1给出了两个算法求解该问题的数值结果,其中
分别表示迭代次数,求解时间以及分解后矩阵的秩和稀疏率。另外,使用
来衡量矩阵的数值解与原始矩阵的误差,其中,
表示原始矩阵,
表示问题(4.1)的数值解。从表1可以看出,PIPI-ADMM的迭代步数和计算时间明显小于LADMM算法,为更加直观展示结果,图1绘制了
式目标函数及其相关误差的变化趋势。上述实验结果验证了PIPI-ADMM算法的有效性,并且可以看出,PIPI-ADMM算法的数值效果明显优于LADMM算法。
Table.1. Numerical results of Robust PCA problem
表1. Robust PCA问题的数值结果
p |
n |
|
PIPI-ADMM |
LADMM |
Iters |
Times (s) |
|
Iters |
Times (s) |
|
100 |
200 |
(2, 0.05) |
561 |
5.359 |
(2, 0.05) |
624 |
5.901 |
(2, 0.05) |
(2, 0.1) |
858 |
7.933 |
(2, 0.1) |
905 |
9.315 |
(2, 0.1) |
(10, 0.05) |
654 |
5.657 |
(10, 0.05) |
686 |
5.849 |
(10, 0.05) |
(10, 0.1) |
923 |
11.246 |
(10, 0.1) |
1271 |
21.045 |
(10, 0.1) |
500 |
1000 |
(2, 0.05) |
1743 |
72.432 |
(2, 0.05) |
1865 |
75.847 |
(2, 0.06) |
(2, 0.1) |
2763 |
153.543 |
(2, 0.1) |
3140 |
172.624 |
(2, 0.1) |
(10, 0.05) |
1822 |
74.469 |
(10, 0.05) |
1970 |
87.570 |
(10, 0.05) |
(10, 0.1) |
3109 |
198.734 |
(10, 0.1) |
3932 |
225.623 |
(10, 0.12) |
Figure 1. The trends of
and
vary with the changes in number of
when
and
图1.
时两种算法的
和
随迭代次数的变化情况
此外,我们还对PIPI-ADMM算法中惯性因子
的大小对算法的加速效果进行了探究。图2绘制了不同的惯性因子对算法收敛速度的影响。可以看出,当惯性因子越大时,达到终止准则所需要的迭代步数越少。因此,惯性技术对于ADMM算法的加速是非常有效的,惯性因子越大,收敛速度越快,算法性能越强。
Figure 2. The trends of
and
vary with the changes in number of
when
, and
.
图2.
时不同的惯性因子的
,随迭代次数的变化
5. 结论
本文针对具有不可分离结构的非凸非光滑问题,提出了并行式惯性近端非精确ADMM算法(PIPI-ADMM)。此算法结合了惯性技术与近端思想,通过非精确求解每个子问题的增广拉格朗日函数,以产生新的迭代点。同时,文章利用Kurdyka-Lojasiewicz性质证明了算法在非凸情形下的强收敛性。最后,数值实验结果说明,所提出的PIPI-ADMM算法具有更高的效率和更快的收敛速度。
NOTES
*通讯作者。