1. 引言
本文考虑一类具有等式约束的有限和形式的非凸非光滑优化问题,在机器学习中被广泛应用,具体模型如下:
(1)
其中
是适当下半连续函数,
其中每个分量函数
是光滑函数,
,
,
。
模型(1)广泛应用于统计学习[1]、计算机视觉[2]、3D CT图像重建[3]等领域。给定一组训练样本
,其中
,
是输入数据,对应的标签
。此时二分类任务[4]可以表示为:
其中取
为非凸sigmoid函数:
。B为给定的矩阵,引入变量x,可将问题重新表述为(1)的形式,即
,s.t.
,其中
,
。
近年来,交替方向乘子法(ADMM)在非凸和随机优化中得到了广泛的研究。文献[5] [6]中,研究了非凸Bregman ADMM的收敛性。文献[7]中研究了对称形式ADMM的收敛性,然而在标准的凸性假设下并不收敛,但此文献验证了在确保其全局收敛的条件下对称ADMM比一般形式ADMM收敛更快,鉴于此,He等人在文献[8]中提出了一种严格收缩的Peaceman Rachford分裂方法。需要指出的是,这些研究均基于确定性ADMM方法,即不涉及任何随机性。在处理g为有限求和的情况时,计算全梯度
往往会非常耗时,导致方法效率降低。为了解决这一问题,研究者通过使用
的随机估计来代替全梯度的计算,从而衍生出多个随机版本的ADMM。随着大规模优化问题的出现随机梯度算法如SAGA [9]、SVRG [10]和SARAH [11]等推动了ADMM的进一步发展。在文献[12]中,作者将ADMM与SAG梯度估计算子进行结合,ADMM与SVRG的结合可参考文献[13] [14]等。所有这些研究均在凸优化框架下对随机ADMM进行了分析。在[15]中,研究者探讨了使用三种不同梯度估计(SGD、SVRG、SAGA)的随机ADMM方法来解决非凸非光滑优化问题,随之,文章[16]中提出了框架形式的随机ADMM算法,对大规模非凸优化问题进行研究。
本文提出了“随机镜像下降对称交替方向乘子法(SMD-SADMM)”。首先,该算法通过引入随机方差缩减算子,通过随机选择梯度信息,有效地减少了计算全梯度的需求,特别对于处理大规模数据的优化问题,显著提高了算法的运行效率;其次,算法利用布雷格曼(Bregman)距离定义的邻近项取代二范数,这确保了子问题具有显示解,进而提高了算法的效率;最后,SMD-SADMM采用了对偶变量的对称更新策略,有助于提升算法的收敛性,使得算法在处理非凸优化问题时表现出了更好的稳定性,从而为求解大规模非凸优化问题提供了一种稳健的解决方案。总体来说,SMD-SADMM算法结合Bregman距离定义的邻近项、对偶变量以对称形式进行更新的迭代形式、方差缩减的随机技巧为解决现代大规模非凸优化问题提供了有力的工具。
2. 基本定义
2.1. 布雷格曼距离与勒让德函数
定义2.1 [17] 设
为一个非空开凸集,函数
如果满足以下性质:
(i) h是适当下半连续凸函数,且
,
(ii) h在
上是连续可微的,且
,则称h为勒让德函数。
定义2.2 [18] 设h为勒让德函数,定义与h相关的布雷格曼距离为
,
.
2.2. Kurdyka-Lojasiewicz (KL)性质
定义2.4 [19] 令
是一个适当下半连续函数,如果存在
,的邻域U,
使得
(i)
,
在
上是连续可微函数使得
;
(ii) 对于任意
,下列KL不等式成立:
,
则称函数f称为在上具有KL性质。
注释2.5 [19] 如下为定义2.4的相关说明:
(i) 定义2.4中的函数
称为f的去奇异化函数;
(ii) 在
的每个点上满足KL不等式的适当下半连续函数称为KL函数;
(iii) 半代数函数满足KL不等式,其去奇异化函数的形式为
,其中
,
称为该函数的KL指数。
3. 随机镜像下降对称交替方向乘子法及其收敛性
在本节中,我们首先给出随机镜像下降对称交替方向乘子法,然后对其进行收敛性分析,首先我们给出以下假设。
假设3.1
(i)
;
(ii)
是适当的下半连续函数,且
是一个
光滑函数,矩阵B是列满秩的;
(iii) h在任意有界区间上是
强凸的。
3.1. 随机镜像下降对称交替方向乘子法算法
算法1:随机镜像下降对称交替方向乘子法。
1. 输入
。
,并初始化
;
2. 当初始条件满足执行:
(2)
(3)
(4)
(5)
3. 当终止条件满足,执行
,
。
注:
是具有方差缩减的随机梯度估计算子(见定义3.1)。
定义3.1 方差缩减的随机梯度估计算子
记
为算法1中随机变量前k次迭代的条件期望,对于常数
以及
,若下述条件成立,则称梯度估计
为方差缩减随机梯度估计算子:
(1) (均方误差有界)存在随机变量序列
以及随机向量
,其中
使得
,
以及存在
使得
成立。
(2) (几何迭代)
;
(3) (估计量的收敛性)如果
满足
则有
且
。
注释3.2 SAGA与SARAH方差缩减随机梯度估计参数取值情况[16] [20]:
SAGA梯度估计作为一个有效的方差缩减随机梯度估计算子,其表达式如下:
其中Bk是从所有包含b个元素的子集中均匀随机选择的小批量集合,子集的元素包含在
中。根据定义3.1计算可知SAGA相应参数为
,
以及
。
另一个常见的随机梯度估计为SARAH随机梯度估计,
SARAH梯度估计相应参数取值为
,
,
。
3.2. 随机镜像下降对称交替方向乘子法算法的全局收敛性分析
定理3.1 [21] [上鞅收敛定理] 设
为随机镜像下降对称交替方向乘子法算法前k次迭代的条件期望。设
,
和
分别为取值于
和
的随机变量序列,且
和
仅依赖于算法的前k次迭代。若对于所有
,
成立,则几乎必然有
,并且
几乎必然收敛到
上的一个随机变量。
定义第
次迭代的李雅普诺夫函数如下:
其中
是方差缩减梯度估计算子相应的随机变量和常数(参考定义3.1),李雅普诺夫函数中具体参数以及函数表示如下:
为了便于叙述将李雅普诺夫函数
记为
,
记为
并将
记为
。
定理3.2 设假设3.1成立。令
是由随机镜像下降对称交替方向乘子法算法生成的序列,并假设该序列是有界的。那么:
(i) 序列
在期望意义下是单调非增的。特别地,对于任意
,
,
成立:
,
(ii) 迭代点间距平方的期望是可和的,即,
,
。此外,当
时,有
,
且
。
(iii)
成立,并有
取值于
使得
。
证明:(i) 结合迭代(3)和(5),有:
(6)
(7)
基于迭代(2),
(8)
又g是
梯度利普希茨连续的,从而有
(9)
显然,
结合公式(9),可以得到:
(10)
利用迭代(4)的最优性条件:
可得
(11)
代入公式(10),
同时由于
(12)
将公式(8) (11) (12)相加,并由h是
强凸可得:
(13)
将迭代(5)代入迭代(4),并取一阶最优性条件得到。
由此可得
(14)
利用g是
光滑的,从而有:
(15)
将公式(15)代入公式(13)并结合对于任意
,可得
(16)
其中,
。结合定义3.1中的均方误差有界性:
(17)
结合
(18)
有以下不等式成立:
(19)
(ii) 对公式(19)两边取期望,得到
将上述不等式中k从零到T − 1求和,由于
,从而有
,
令
,可得序列
和
均为可和的,且
从关系式(15)与方差缩减算子中的均方误差有界性可得
因此有
。
(iii) 由(i)可得
上鞅收敛定理表明
几乎必然成立。因此
几乎必然成立。上鞅收敛定理还保证了
几乎必然收敛到一个有限值
,并有
成立。 £
命题3.3 设假设3.1成立。令
为随机镜像下降对称交替方向乘子法算法生成的序列,且假设该序列有界。对于所有
,定义如下向量:
(20)
(21)
(22)
对于
,有以下性质成立:
(i)
,存在正常数P,使得对于任意
,有:
(ii)
。
证明:(i) 由
的定义,对于任意
有:
(23)
(24)
(25)
由(2)的一阶最优性条件可得
,将其代入公式(23)可得
。同样,结合和公式,可以得到
。通过(6),也可以得到
,从而有
。
根据h是
光滑的,结合定义3.1中的均方误差(MSE)有界以及等式(23)~(25),我们可以推导出以下式子成立:
其中
(ii) 由于
由引理3.2,得
,
,
,因此结论成立。 £
记由随机镜像下降对称交替方向乘子法算法生成的序列
的极限点集合为
,即:
定理3.4 设假设3.1成立。令
为随机镜像下降对称交替方向乘子法算法生成的序列,且假设该序列有界。则以下结论成立:
(i)
非空,几乎必然是紧的且连通的。此外,
几乎必然成立;
(ii) 对于所有
,有
,并且
。
证明:(i) 详细证明参考文献[22]。
(ii) 取任意点
,存在子序列
满足:当
时,
。由于f是适当下半连续函数,因此:
将
代入迭代公式(2),结合等式(6)和
,可以得到
。令
,并取极限
可得
。结合
可得当
时
。又g是连续函数,得
。由命题3.3和
的闭性,可以得到:
。
最后,证明
在
上具有常数期望值。取任意点
,存在子序列
满足当
时
。根据引理3.2,
,这意味着
。结合
时
,对于任意
,有
。 £
定理3.5 设假设3.1成立。令
为随机镜像下降对称交替方向乘子法算法生成的序列,且假设该序列有界。设
为一个半代数函数,则存在常数
,
,
和一个去奇异化函数
使得以下不等式成立:
其中
是一个单调递增的序列,收敛于某个
,其中
。
定理3.6 设假设3.1成立。令
为随机镜像下降对称交替方向乘子法算法生成的序列,且假设该序列有界。设
为一个半代数函数,则有
证明:根据引理3.2,
成立。因此,我们需要考虑以下两种情况。
第一种情况,即存在整数
,使得对于任意
,有
成立。因此,对于任意
,由詹森不等式可得
此时结论自然成立。
另一种情况,即对于所有
,都有
。命题3.3给出了
的一个上界:
(26)
其中,最后一个不等式是由
得到的。下面基于
,
,以及
,
以及估计量的几何衰减性质对
进行更精确的估计,
进而
。
将公式
代入公式(32)中,得到:

令
可得存在一个正常数
,使得对于任意
,
此外可以得到
。
根据引理3.5,对于任意
,
,根据
的定义有:
其中
。结合
,
,
且
,可知存在正常数
和正常数
使得对于所有
,有:
定义,由于
比
小,从而存在常数
使得
,已知对任意的
,
,有
成立,且
,因此存在
与
,使得
(27)
结合
的凹性,以及
是单调递增的,
(28)
令
,结合公式(19) (27)和(28),
其中
。因此,
(29)
将不等式(29)中k从l到K进行求和得到:
因此,
(30)
公式(30)中第一个不等式由詹森不等式得出。令
,
£
4. 数值实验
本节中,我们研究算法1在图引导融合lasso问题上的数值性能。数值实验在MATLAB R2017a环境下,配置Intel Core i7-13700H处理器(2.40 GHz)和16 GB内存的64位电脑上进行。确定性对称ADMM记为SADMM,并分别将使用SGD、SARAH、SAGA、SVRG方差缩减随机梯度估计算子的SADMM分别记为SGD-SADMM、SARAH-SADMM、SAGA-SADMM、SVRG-SADMM。
给定一组训练样本
,其中
,
,
,图引导的融合lasso如下:
,其中:
是非凸非光滑的sigmoid损失函数,
是正则化参数。矩阵B的形式为
,其中G是通过稀疏逆协方差矩阵估计得到的[4]。在实验中,设定
,
。令
,
,
,
,
。使用两个公开数据集[3],如表1所示。并在图1、图2分别给出了损失函数随迭代次数与迭代时间变化关系图。
Table 1. Datasets for graph-guided fused lasso
表1. Graph-guided fused lasso数据集
数据集 |
训练集 |
测试集 |
分类 |
a8a |
11,348 |
11,348 |
2 |
Ijcnn1 |
17,500 |
17,500 |
2 |
(a) ijcnn1 (b) a8a
Figure 1. Relationship between iteration number and loss function variation
图1. 迭代次数与损失函数变化关系图
(a) ijcnn1 (b) a8a
Figure 2. Relationship between CPU-time and loss function variation
图2. 迭代时间与损失函数变化关系图
在图1中,我们给出了不同方法在前40次迭代下损失函数的测试结果,结果显示在相同迭代次数下SARAH-ADMM算法损失函数的下降量最大。图2展示了SADMM与几种随机算法在相同时间内损失函数变化情况,我们可以观察到:SARAH-SADMM、SVRG-SADMM在相同时间内损失函数下降最大,而SAGA-SADMM、SGD-SADMM的表现相似,且都比SADMM效果显著。从而可得随机形式SADMM在图lasso问题上效果明显优于确定形式的SADMM。至此实验阐述了不同类型的方差缩减算子与对称ADMM在四个公开数据集上的数值表现,并且基于问题的特殊性将Bregman距离选取为二范数形式即可得到问题的显示解,相比于其他类型legendre函数选取的方式简单高效。
5. 结论
本文提出的“随机镜像下降对称交替方向乘子法”为求解带有等式约束的非凸非光滑优化问题提供了一种高效稳定的方案。理论分析表明,在目标函数满足半代数性质的条件下,算法生成的迭代序列全局收敛到原问题的驻点。数值实验进一步验证了该算法在实际应用中的高效性与稳定性。在之后的研究中考虑将广义惯性步加入文中的算法中,观察不同惯性步参数对数值效果的影响,进而与文中算法的数值效果进行对比。