求解非凸复合优化问题的随机Douglas-Rachford分裂算法
Stochastic Douglas-Rachford Splitting Algorithm for Solving Non-Convex Composite Optimization Problems
摘要: 本文研究了大规模非凸复合优化问题,该问题的目标函数为非凸的光滑函数与凸(可能是非光滑的)函数之和,其中非凸的光滑函数具有有限和形式。随着大规模非凸复合优化问题在机器学习、图像处理中广泛应用,设计简洁、高效、计算成本低的优化算法来解决大规模非凸复合优化问题已成为当今研究热点之一。求解非凸复合优化问题的一个经典算法是Douglas-Rachford (DR)分裂算法,然而当实际问题规模较大时经典的DR分裂算法计算成本较大。据此本文提出了一种方差缩减的随机DR分裂算法(SDR),将方差缩减的随机梯度引入到DR分裂算法中,以减小算法的计算成本,并基于Kurdyka-Łojasiewicz (KL)框架对算法的收敛性进行了分析。具体的,我们首先建立了Lyapunov函数的下降性,然后建立了DR价值函数的相对误差界条件,最后利用KL性质证明了算法的全局收敛性。此外,通过将SDR算法用于求解 1 2 稀疏正则化Logistic回归问题,并与PG、Prox-SARAH进行对比,展示了本文所提出算法的优越性。
Abstract: This paper investigates large-scale non-convex composite optimization problems, where the objective function is the sum of a nonconvex smooth function and a convex (possibly nonsmooth) function, with the nonconvex smooth function having a finite sum form. Given the widespread application of large-scale nonconvex composite optimization problems in machine learning and image processing, developing concise, efficient, and low-computational-cost optimization algorithms for solving such problems has become one of the current research hotspots. A classic algorithm for solving non-convex composite optimization problems is the Douglas-Rachford (DR) splitting algorithm. However, the classical DR splitting algorithm incurs significant computational costs when dealing with large-scale practical problems. Accordingly, this paper proposes a variance-reduced stochastic DR splitting algorithm (SDR), incorporating variance reduction stochastic gradients into the DR splitting algorithm to reduce computational costs, and analyzes the convergence of the algorithm based on the Kurdyka-Łojasiewicz (KL) framework. Moreover, we use the SDR algorithm to solve the 1 2 sparse logistic regression problem and compare its performance with PG and Prox-SARAH to show the efficiency of SDR.
文章引用:李登辉, 孟士博, 陈梦婷. 求解非凸复合优化问题的随机Douglas-Rachford分裂算法[J]. 运筹与模糊学, 2024, 14(6): 116-133. https://doi.org/10.12677/orf.2024.146516

1. 引言

近年来,随着大数据时代的到来,涌现出了大量的大规模非凸复合优化问题,其广泛应用于机器学习,图像处理,稀疏优化等领域因此,针对大规模非凸复合优化问题,设计更加高效、简洁、低计算成本的求解算法有着一定的研究意义和应用价值。本文,我们考虑如下形式的大规模非凸复合优化问题

min x d F( x )=f( x )+h( x )= i=1 N f i ( x )+h( x ). (1)

其中 f i : d  ( i=1,2,,N ) 为连续可微的(可能非凸), h: d ( ,+ ] 为适当下半连续凸函数(可能非光滑)。该复合优化问题有着广泛的应用背景,具体的在机器学习中的二分类 1 2 正则化逻辑回归问题,其一般形式为

min x d F( x ):= 1 N i=1 N log( 1+exp( b i a i T x ) )+ λ 1 x 1 + λ 2 2 x 2 ,

其中 a i d ,  b i { 1,1 }, i{ 1,2,,N } 为样本的特征及相应的标签, λ 1 , λ 2 >0 为正则化参数,用以控制所求变量的稀疏性。

1.1. 研究现状

针对复合优化问题(1)的研究已有很多,一个经典的求解算法为邻近梯度算法(proximal gradient, PG),也称向前向后分裂算法[1]

x k+1 = argmin x d { h( x )+f( x k )+ f( x k ),x x k + 1 2 α k x x k 2 }.

该算法的优点在于充分利用了目标函数光滑部分和非光滑部分的结构,Beck等人研究了在凸或非凸条件下,PG算法在迭代点意义下的收敛性[2]

为了解决目标函数两部分均不光滑的情况,Douglas和Rachford提出了Douglas-Rachford (DR)分裂算法[3]。虽然在凸的情形下,DR分裂算法[3]已经被充分的研究,但针对问题非凸的情形,相关的理论分析还不是很多。尽管如此,DR分裂算法已经非常成功地应用于各种非凸问题[4]。针对非凸复合优化问题,2015年,Bot等人[5]将惯性近似法和广义DR分裂算法相结合,提出惯性DR分裂算法,其相比于经典DR算法具有更快的收敛速度,更好的适应性,还可以避免局部最优解。2016年,Li等人[6]建立了DR分裂算法在非凸情形下的下降性,并在其满足Kurdyka-Łojasiewicz (KL)性质时证明了算法的全局收敛性。

随着科技迅速发展,实际应用中许多问题的规模通常很大,即问题(1)中N很大的情形。针对这类问题,许多经典的求解算法由于在内循环需要涉及到对光滑部分全梯度的计算,导致了计算成本很高。为降低算法的计算成本,针对光滑优化问题,随机梯度下降算法(SGD) [7]和小批量梯度下降算法(Mini-batch) [8]被提出,其在每一迭代步用一个样本的梯度或小批量样本的梯度近似全梯度的计算。然而,由于方差的引入,算法中的步长参数需要随迭代步不断衰减到0以保证其收敛性,这导致了算法较慢的收敛速度。为提高随机算法的收敛速度,一系列方差缩减的随机梯度被提出,如SAG [9]、SVRG [10]、SASG [11]、SCSG [12]、SARAH [13]、SPIDER [14]等。这一系列随机梯度的技巧被广泛的应用于许多一阶算法,用以实现相关算法计算量的降低。针对本文所关注的大规模非凸复合优化问题,相关的求解算法已有一些,如邻近SGD算法(Proximal SGD)等[15] [16]。此外,方差缩减的随机梯度技术也被用以和邻近梯度算法相结合,如Prox-SARAH [17]等。

1.2. 本文主要内容及结构

本文将方差缩减的随机梯度引入到DR分裂算法中,针对大规模非凸复合优化问题提出随机DR分裂算法,以降低经典DR分裂算法的计算成本,更好的求解大规模优化问题。本文在Kurdyka-Łojasiewicz (KL)框架下,给出算法的收敛性分析。具体的,我们首先建立了Lyapunov函数在前后迭代步的下降性,并建立DR价值函数的相对误差界条件,最后利用KL性质证明了算法的全局收敛性。

本文框架如下,在第二节中,我们将给出本文所涉及到的符号、定义以及相关引理。第三节中,我们提出了求解大规模非凸复合优化问题的随机DR分裂算法,并在KL框架给出了算法的收敛性证明。为了说明所提出算法的优越性,我们在第四节给出了相关的数值实验。在第五节,对本文的工作做出总结。

2. 预备知识

2.1. 基本概念

本节将介绍讨论算法的收敛性所涉及的常用符号、基本定义及性质。首先对本论文所使用的符号做出定义:记 d d维欧氏空间, x = x,x 为欧式距离, x 1 = i=1 d | x i | 为1范数,对于一个非空闭集 Ω d x到集合 Ω 的欧式距离可被定义(2.1.1)为

dist( x,Ω ):= inf yΩ xy , x d , Ω d .

定义2.1.2 u,v 表示向量内积,即

u,v = 1 2 ( u+v 2 u 2 v 2 ).

定义2.1.3 (L-光滑[18] [19]) 我们称函数 f: d L-光滑的,若

f( x )f( y ) L xy , x,y d .

定义2.1.4 (凸函数的次微分[19]) 设 f: d { + } 是适当的下半连续函数,对 xdom f f在点x处的次微分记作 f( x ) ,定义为所有满足下述条件的 u d 构成的集合

f( y )f( x )+ u,yx , y d .

xdom f ,定义f在该点的次微分 f( x )=ϕ

定义2.1.5 (DR价值函数) 令 γ>0 ,定义DR价值函数如下

D γ ( x,z,y )=f( x )+h( z ) 1 2γ xz 2 + 1 γ yx,zx . (2)

再根据定义2.1.2,令 u=yx v=zx ,函数 D γ ( x,z,y ) 可以等价表示为下面公式

D γ ( x,z,y )=f( x )+h( z )+ 1 2γ 2xzy 2 1 2γ yx 2 1 γ xz 2 , (3)

再结合 ab,cd = 1 2 ad 2 1 2 ac 2 + 1 2 bc 2 1 2 bd 2 ,函数 D γ ( x,z,y ) 可以被表示成以下形式

D γ ( x,z,y )=f( x )+h( z )+ 1 2γ yx 2 1 2γ yz 2 . (4)

2.2. 基本结论

引理 2.2.1 (下降引理[19]) 若函数 f: d 连续可微且L-光滑 ( L>0 ) ,则有

f( y )f( x )+ f( x ),yx + L 2 yx 2 , x,y d .

Kurdyka-Łojasiewicz (KL)不等式是证明非凸复合优化问题收敛性的一个重要性质,满足这一性质的函数有很多,如凸函数、幂函数、实解析函数等。记 p: d {+} 为正常的下半连续函数。对 < η 1 < η 2 + ,定义

[ η 1 <p< η 2 ]:={ x d : η 1 <p( x )< η 2 }.

下面,我们给出KL不等式的具体定义。

定义2.2.1 [20] 若存在 η( 0,+ ] x ¯ domf 的邻域U以及连续的凹函数 φ:[ 0,η ) + 满足

(i) φ( 0 )=0

(iii) φ ( 0,η ) 上是连续函数;

(iii) 对任意的 s( 0,η ) ,有 φ >0

(iiii) 对任意的 xU[ p( x ¯ )<p<p( x ¯ +η ) ] ,Kurdyka-Łojasiewicz不等式成立,即有

φ ( p( x )p( x ¯ ) )dist( 0,f( x ) )1.

此时我们称函数p在点 x ¯ 处具有Kurdyka-Łojasiewicz(KL)性质。

3. 算法及算法的收敛分析

本文将方差缩减的随机梯度算法引入到经典的DR分裂算法中,提出了一种随机DR分裂算法,该算法可以降低经典DR分裂算法的计算成本,更高效的针对于大规模非凸复合优化问题的求解。

在本节中,我们首先给出求解大规模非凸复合优化问题的随机DR算法的迭代格式,然后在KL框架下,给出算法的收敛性分析。具体来说,我们首先建立了Lyapunov函数在前后迭代步的下降性质,并建立DR价值函数的相对误差界条件,最后基于函数之间的关系,我们利用KL性质证明了算法的全局收敛性。

3.1. 随机DR分裂算法

首先我们给出随机DR分裂算法的具体格式。

算法1求解非凸复合优化问题的随机Douglas-Rachford分裂算法

输入: x 0 , y 0 d γ( 0,1 )

1:For k=0,1,2,,K1 do

2:令 n k 均匀随机从1到N中取值,再随机从梯度 f i ( x k )( i=1,2,,N ) 中选取 n k 个求平均值并赋值给 g k

3:计算 x k+1

x k+1 = argmin x d { g k ,x x k + 1 2γ x y k 2 }, (5)

4:计算 z k+1

z k+1 = argmin z d { h( z )+ 1 2γ z( 2 x k+1 y k ) 2 }      = argmin z d { h( z )+ 1 2γ z x k+1 2 + z x k+1 , g k }, (6)

5:计算 y k+1

y k+1 = y k + z k+1 x k+1 , (7)

6:End for

根据算法中 x k+1 , z k+1 的迭代子问题,我们可以得到相应的最优性条件:

0= g k + 1 γ ( x k+1 y k ). (8)

0h( z k+1 )+ 1 γ ( z k+1 ( 2 x k+1 y k ) ). (9)

3.2. 收敛性分析

为分析算法的收敛性,我们首先给出一些假设条件。

假设1 (1) f i ( x ): d ( i=1,2,,N ) 是Lipschitz连续可微的,Lipschitz常数为 L i >0 ,且记 L= max i{1,2,,N} { L i }

(2) h: d 是适当下半连续凸函数,且在其定义域上是连续的。

(3) 函数G是强制的。

假设2 (梯度方差缩减)存在 ρ( 0,1 ] A i 0( i=1,2,3 ) 和随机向量 { α k i } i=1 s 使得以下条件成立:

(1) 梯度估计的均方误差是有界的

E k g k f( x k ) 2 σ k 2 + A 1 E k [ x k+1 x k 2 ], (10)

E k g k f( x k ) ξ k + A 2 E k [ x k+1 x k ]. (11)

其中 σ k 2 = i=1 S α k i 2 ξ k = i=1 S α k i

(2) 序列 { σ k 2 } k=0 在几何上是衰减的,满足

E[ σ k+1 2 ]( 1ρ ) σ k 2 + A 3 E[ x k+1 x k 2 ]. (12)

(3) 对于任意序列 { x k } k=0 满足 lim k E[ x k x k1 2 ]=0 ,有下式成立

k=1 E[ σ k 2 ] <, k=1 E[ ξ k ] <. (13)

基于上述算法分析以及相关假设,我们在本节将对随机DR算法的收敛性进行分析。考虑到非凸问题的收敛性分析大部分是基于Kurdyka-Łojasiewicz (KL)框架给出的,本文也采用这一框架对该算法进行收敛性分析。具体的,收敛性框架需要证明以下三个条件成立,包括充分下降性条件、相对误差条件和函数连续性条件。本文我们首先给出了Lyapunov函数在前后迭代步的充分下降性(引理3.2),并建立DR价值函数的相对误差界条件(引理3.3),最后本文利用KL性质给出了算法的全局收敛性(定理3.1)。

D γ ( x k , z k , y k ),  D γ ( x k+1 , z k+1 , y k+1 ) 分别为函数 D γ k次和第 k+1 次的迭代步,在下述引理中,我们将给出该函数前后迭代步的关系。

引理3.1 若假设1与假设2成立, { ( x k , z k , y k ) } k 是由随机DR算法生成的序列。对于任意 k ,我们有

E[ D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k , z k , y k ) ] ( 1 2θ +4+3γ )[ σ k 2 + A 1 ( E[ x k+1 x k 2 ] ) ]+( 4+3γ )[ σ k1 2 + A 1 ( E[ x k x k1 2 ] ) ]    +( 4 L 2 +3γ L 2 ) x k x k1 2 ( 1 2γ L 2 θ 2 4 ) x k+1 x k 2 .

证明:针对 D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k , z k , y k ) ,做如下处理

D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k , z k , y k ) =( D γ ( x k+1 , z k , y k ) D γ ( x k , z k , y k ) )+( D γ ( x k+1 , z k+1 , y k ) D γ ( x k+1 , z k , y k ) )    +( D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k+1 , z k+1 , y k ) ).                                 

由公式(4)可得:

D γ ( x k+1 , z k , y k ) D γ ( x k , z k , y k ) =f( x k+1 )+ 1 2γ y k x k+1 2 [ f( x k )+ 1 2γ y k x k 2 ]. (14)

f i ( i{ 1,2,,N } ) 的梯度Lipschitz连续性和引理2.2.1可知

f( x k+1 )f( x k ) f( x k ), x k+1 x k + L 2 x k+1 x k 2 . (15)

结合公式(2)~(4),(14),(15)可以计算化简得出

D γ ( x k+1 , z k , y k ) D γ ( x k , z k , y k ) 1 2γ y k x k+1 2 1 2γ y k x k+1 + x k+1 x k 2 + f( x k ), x k+1 x k + L 2 x k+1 x k 2 = 1 γ y k x k+1 , x k+1 x k 1 2γ x k+1 x k 2 + f( x k ), x k+1 x k + L 2 x k+1 x k 2 ,

其中等式是由 a+b 2 = a 2 +2 a,b + b 2 得到的。又由(8)可以得到以下不等式

D γ ( x k+1 , z k , y k ) D γ ( x k , z k , y k ) f( x k ) g k , x k+1 x k ( 1 2γ L 2 ) x k+1 x k 2 . (16)

利用 a,b 1 2β a 2 + β 2 b 2  ( β>0 ) 可得到

D γ ( x k+1 , z k , y k ) D γ ( x k , z k , y k ) 1 2β f( x k ) g k 2 ( 1 2γ L 2 β 2 ) x k+1 x k 2 . (17)

接下来处理z的前后迭代步关系。首先根据公式(3)可得

D γ ( x k+1 , z k+1 , y k ) D γ ( x k+1 , z k , y k ) =h( z k+1 )+ 1 2γ z k+1 ( 2 x k+1 y k ) 2 1 γ x k+1 z k+1 2    [ h( z k )+ 1 2γ z k ( 2 x k+1 y k ) 2 1 γ x k+1 z k 2 ],

进一步结合迭代步(6)和(7),有下式成立

D γ ( x k+1 , z k+1 , y k ) D γ ( x k+1 , z k , y k ) 1 γ y k+1 y k 2 + 1 γ x k+1 z k 2 . (18)

下面处理 1 γ x k+1 z k 2 这一项。由(8)可得

 { 0= g k + 1 γ ( x k+1 y k ), 0= g k1 + 1 γ ( x k y k1 ).

因此有

y k y k1 = x k+1 x k +γ( g k g k1 ) (19)

所以

y k y k1 x k+1 x k +γ g k g k1 = x k+1 x k +γ g k f( x k )+f( x k )f( x k1 )+f( x k1 ) g k1 x k+1 x k +γ g k f( x k ) +γ f( x k1 ) g k1 +γL x k x k1 .      (20)

其中最后一个不等式利用公式 x+y x + y 和定义2.1.3。进而可得

y k y k1 2 x k+1 x k 2 + γ 2 g k f( x k ) 2 + γ 2 g k1 f( x k1 ) 2                        + γ 2 L 2 x k x k1 2 +2γ x k+1 x k , g k f( x k )                        +2γ x k+1 x k , g k1 f( x k1 ) +2γ x k+1 x k ,L( x k x k1 )                        +2 γ 2 g k f( x k ), g k1 f( x k1 )                        +2 γ 2 g k f( x k ),L( x k x k1 )                        +2 γ 2 g k1 f( x k1 ),L( x k x k1 ) .

进一步利用不等式 2 a,b a 2 + b 2 可得

y k y k1 2 ( 1+3γ ) x k+1 x k 2 +( γ+3 γ 2 ) g k f( x k ) 2 +( γ+3 γ 2 ) g k1 f( x k1 ) 2 +( γ L 2 +3 γ 2 L 2 ) x k x k1 2 . (21)

由不等式 a+b+c 2 3 a 2 +3 b 2 +3 c 2 可得

g k g k1 2 = g k f( x k )+f( x k1 ) g k1 +f( x k1 )f( x k ) 2                   3 g k f( x k ) 2 +3 f( x k1 ) g k1 2 +3 f( x k1 )f( x k ) 2 . (22)

结合公式(7),(19)~(21)可得

1 γ x k+1 z k 2 = 1 γ x k+1 x k 2 + 1 γ x k z k 2 + 2 γ x k+1 x k , x k z k                       1 γ x k+1 x k 2 +( 1 γ +3 ) x k+1 x k 2 +( 1+3γ ) g k f( x k ) 2                        +( 1+3γ ) g k1 f( x k1 ) 2 +( L 2 +3γ L 2 ) x k x k1 2                        + 2 γ x k+1 x k , x k x k+1 γ( g k g k1 )                       1 γ x k+1 x k 2 +( 1 γ +3 ) x k+1 x k 2 +( 1+3γ ) g k f( x k ) 2                        +( 1+3γ ) g k1 f( x k1 ) 2 +( L 2 +3γ L 2 ) x k x k1 2 2 γ x k+1 x k 2                         +2 x k x k+1 , g k g k1

结合该式和不等式 2 a,b a 2 + b 2 ,公式(22)可得

1 γ x k+1 z k 2 4 x k+1 x k 2 +( 4+3γ ) g k f( x k ) 2 +( 4+3γ ) g k1 f( x k1 ) 2                        +( 4 L 2 +3γ L 2 ) x k x k1 2 .

利用该式和公式(18)可推出

D γ ( x k+1 , z k+1 , y k ) D γ ( x k+1 , z k , y k ) 1 γ y k+1 y k 2 +4 x k+1 x k 2 +( 4+3γ ) g k f( x k ) 2   +( 4+3γ ) g k1 f( x k1 ) 2 +( 4 L 2 +3γ L 2 ) x k x k1 2 . (23)

最后处理y的前后迭代步关系。根据(2)可得

D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k+1 , z k+1 , y k )= 1 γ y k+1 y k , z k+1 x k+1 .

再由公式(7)整理可得

D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k+1 , z k+1 , y k )= 1 γ y k+1 y k 2 . (24)

所以结合 x,z,y 的前后迭代步关系,即公式(17) (23) (24)可以得证函数 D γ 的前后迭代步的关系,即

D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k , z k , y k ) ( 1 2β +4+3γ ) f( x k ) g k 2 +( 4+3γ ) g k1 f( x k1 ) 2   +( 4 L 2 +3γ L 2 ) x k x k1 2 ( 1 2γ L 2 β 2 4 ) x k+1 x k 2 . (25)

此时由于使用了随机梯度,所以接下来对公式(25)左右两边同时求期望,并利用假设2,可得

E[ D γ ( x k+1 , z k+1 , y k+1 ) D γ ( x k , z k , y k ) ] ( 1 2β +4+3γ )[ σ k 2 + A 1 ( E[ x k+1 x k 2 ] ) ]   +( 4+3γ )[ σ k1 2 + A 1 ( E[ x k x k1 2 ] ) ]   +( 4 L 2 +3γ L 2 ) x k x k1 2 ( 1 2γ L 2 β 2 4 ) x k+1 x k 2 , (26)

得证。

为了得到算法的下降性,本文定义如下的Lyapunov函数

T k+1 = D γ ( x k+1 , z k+1 , y k+1 )+a σ k+1 2 +b σ k 2 +c x k+1 x k 2 ,

其中 a,b,c 的取值分别为

a= b+ 1 2β +4+3γ ρ = ( 4+3γ )( 1+ρ )2β+ρ 2β ρ 2 ,b= 4+3γ ρ ,c=4 L 2 +3γ L 2 + 4+3γ ρ A 1 .

引理3.2 若假设1与假设2成立, { ( x k , z k , y k ) } k 是由随机DR算法生成的序列,步长 γ 满足 γ( 0,  B 2 + 24( ρ 2 +ρ+1 ) A 1 ρ 2 B 48( ρ 2 +ρ+1 ) A 1 ρ 2 ) ,其中 B=L+β+8+( 9ρ+8 ρ 2 + 1 β +8 ) A 1 。对于任意 k ,我们有

E[ T k+1 ]E[ T k ] B 1 E x k+1 x k 2 ,

其中 B 1 = 1 2γ L 2 β 2 4a A 1 ( 1 2β +4+3γ ) A 1 >0

证明:由引理3.1和函数T的定义可得到以下不等式

E[ T k+1 ]=E[ D γ ( x k+1 , z k+1 , y k+1 ) ]+a σ k+1 2 +b σ k 2 +cE x k+1 x k 2              E[ D γ ( x k , z k , y k ) ]+a σ k 2 +b σ k1 2 +cE x k x k1 2                  ( 1 2γ L 2 β 2 4a A 1 ( 1 2β +4+3γ ) A 1 )E x k+1 x k 2              =E[ T k ] B 1 E x k+1 x k 2 , (27)

由于 γ 满足 γ( 0,  B 2 + 24( ρ 2 +ρ+1 ) A 1 ρ 2 B 48( ρ 2 +ρ+1 ) A 1 ρ 2 ) ,其中 B=L+β+8+( 9ρ+8 ρ 2 + 1 β +8 ) A 1 ,所以 B 1 = 1 2γ L 2 β 2 4a A 1 ( 1 2β +4+3γ ) A 1 >0 ,得证。

本文将基于KL框架分析算法的收敛性,上文已得到充分下降性,接下来我们要证明相对误差条件。

引理3.3 若假设1和假设2成立,令 { ( x k+1 , z k+1 , y k+1 ) } 是由随机DR算法生成的序列,那么存在 ω k+1 D γ ( x k+1 , z k+1 , y k+1 ) ,使得

E ω k+1 ( 2L+ 1 γ +2 A 2 )E x k+1 x k +( A 2 + 2 γ )E x k+2 x k+1 +2E ξ k +E ξ k+1 .

证明:令

{ ω x k+1 =f( x k+1 ) 1 γ ( y k+1 x k+1 ) ω z k+1 = 1 γ ( 2 x k+1 y k z k+1 )+ 1 γ ( y k+1 z k+1 ) ω y k+1 = 1 γ ( z k+1 x k+1 ).

则我们有 ω k+1 =( ω x k+1 , ω z k+1 , ω y k+1 ) D γ ( x k+1 , z k+1 , y k+1 ) 。由公式(12)与定义2.1.3可得

ω x k+1 = f( x k+1 ) 1 γ ( y k+1 x k+1 )          = f( x k+1 )f( x k )+f( x k ) g k + g k 1 γ ( y k+1 x k+1 )          L x k+1 x k + f( x k ) g k + 1 γ y k+1 y k .                     

结合公式(19)整理可得

ω x k+1 L x k+1 x k + 1 γ x k+2 x k+1 + f( x k ) g k + g k+1 g k . (28)

整理可得

ω z k+1 = 1 γ y k+1 y k           1 γ x k+1 x k + g k+1 g k . (29)

针对 ω y k+1 ,有

ω y k+1 = 1 γ y k+1 y k           1 γ x k+2 x k+1 + g k+1 g k , (30)

其中不等式是由公式(19)得到的。由公式(28),(29),(30)可得

ω k+1 ( L+ 1 γ ) x k+1 x k + 2 γ x k+2 x k+1 + f( x k ) g k + g k+1 g k        ( L+ 1 γ ) x k+1 x k + 2 γ x k+2 x k+1 + f( x k ) g k          + g k+1 f( x k+1 )+f( x k+1 )f( x k )+f( x k ) g k        ( 2L+ 1 γ ) x k+1 x k +2 f( x k ) g k          + f( x k+1 ) g k+1 + 2 γ x k+2 x k+1 .

对上式左右两边同时求期望可得

E ω k+1 ( 2L+ 1 γ )E x k+1 x k +2E f( x k ) g k            +E f( x k+1 ) g k+1 + 2 γ E x k+2 x k+1          ( 2L+ 1 γ +2 A 2 )E x k+1 x k            +( A 2 + 2 γ )E x k+2 x k+1 +2E ξ k +E ξ k+1 ,

其中第二个不等式是由公式(11)得到的。相对误差界条件得证。

为便于收敛性分析,我们用 S( μ 0 ) 表示由初始值 μ 0 产生的序列 { μ k =( x k , y k , z k ) } k 的聚点集。

S( μ 0 ):={ x*|  { μ k j } j=0  使  lim j   μ 0 =  μ ¯ }.

命题3.1 假设1,2成立,令 { μ k =( x k , y k , z k ) } k 是由随机DR分裂算法所生成的迭代序列,且该序列有界,其初始点为 μ 0 =( x 0 , y 0 , z 0 ) 。则可以得到以下结论:

(1) lim k E[ T k ]= lim k E[ D γ ( μ k ) ]= lim k E[ F( y k ) ]= F * ,其中 F * [ F, )

(2) lim k E[ dist(0, D γ ( μ k )) ]=0

(3) 对于所有的 μ ¯ =( x ¯ , y ¯ , z ¯ )S( μ 0 ) 有集合 S( μ 0 )ϕ E[ dist( 0, D γ ( μ ¯ ) ) ]=0

(4) dist( μ k ,S( μ 0 ) ) a.s. 0 ,当 k

(5) S( μ 0 ) 是几乎处处紧的且联通的;

(6) 对于所有的 μ ¯ S( μ 0 ) ,有 E[ D γ ( μ ¯ ) ]= F *

证明:(1) 根据引理3.2,我们知道 E[ T k ] 是收敛的且 lim k E[ x k+1 x k 2 ]=0 。进而我们能得到 lim k E[ x k+1 x k 2 ]=0 lim k E[ z k+1 y k+1 2 ]=0 ,根据 x k+1 的更新,我们有 z k+1 z k = x k+1 x k + x k1 x k + y k+1 y k ,进而可推导出 lim k E[ z k+1 z k 2 ]=0 。同理我们可以得到 lim k E[ μ k+1 μ k 2 ]=0 。所以我们可以推出

lim k E[ T k ]= lim k E[ D γ ( μ k ) ]= lim k E[ F( y k ) ]= F * .

(2) 通过引理3.3,我们可以推导出 w k D γ ( μ k ) ,存在一个常数 b 2 使得

  E[ w k ]( 2L+ 1 γ +2 A 2 )E x k x k1 +( A 2 + 2 γ )E x k+1 x k +2E ξ k1 +E ξ k .

由于 lim k E[ x k+1 x k 2 ]=0 ,易得 lim k E[ y k y k1 ]= lim k E[ y k+1 y k ]=0

又因为假设2,故我们有 lim k E[ dist( 0, D γ ( μ k ) ) ]=0

(3) 对任意 μ ¯ =( x ¯ , y ¯ , z ¯ )S( μ 0 ) ,让 { μ k j } j=0 { μ k } k=0 的收敛到 μ ¯ 的子序列,我们有 lim j h( z k j +1 )=h( z ¯ ) 。根据f的连续性,我们可以得到 lim j D γ ( μ k j )= D γ ( μ ¯ ) 。根据引理3.3和上面对(2)的分析我们得到了 w k j D γ ( μ k j ) lim j E[ w k j ]=0 ,通过进一步利用次微分的闭性,我们有 lim j E[ w k j ]=E[ dist( 0, D γ ( μ ¯ ) ) ]=0

(4)和(5)对于任意满足 μ k μ k1 a.s. 0, k 条件的序列成立。这一结论可由[20, Lemma 5, Remark 5]和[21, Lemma 4.3 (5) (6)]证到。

(6)从(1)的证明中,我们得到了 lim k E[ D γ ( μ k ) ]= F * ,则可以推导出对任意收敛于 μ ¯ S( μ 0 ) 的序列 { μ k j } j=0 都满足 lim k E[ D γ ( μ k ) ]= F * 。因为函数f的连续性以及 lim j h( z k j +1 )=h( z ¯ ) ,我们有 lim j E[ D γ ( μ k j ) ]=E[ D γ ( μ ¯ ) ]=E[ F( y ¯ ) ] ,所以,这可以推导出 D γ S( μ 0 ) 上的期望为常数。

充分下降性和相对误差条件已被建立,接下来我们要证明随机DR分裂算法在KL性质下的全局收敛性。对于任意满足p阶矩 ( p1 ) 有限的随机变量X,我们定义 | X | p = ( E[ X p ] ) 1/p , p1 。则我们可以得到 | X | p | X | q , 1pq

引理3.4 [21] 在假设1,假设2成立的条件下,令 { μ k =( x k , z k , y k ) } k 是由随机DR分裂算法产生的序列,如果序列 { μ k } k 是有界的,并且函数 D γ 是一个半代数函数,假设 D γ 满足 φ(t)=a t 1θ 的KL性质,即存在 k 0 >0 ,使得

φ ( E[ D γ k F k * ] )E[ dist( 0, D γ k ) ]1,k> k 0 .

其中 { F k * } k=0 是收敛到 E[ D γ ( μ ¯ ) ] 的非递减序列。

定理3.1 (随机DR分裂算法的全局收敛)在假设1,假设2成立的条件下,令 { μ k =( x k , z k , y k ) } k 是由随机DR分裂算法产生的序列且假设其有界。假设 D γ k 满足KL性质,则 k=0 E x k+1 x k < 成立,且算法全局收敛。

证明:由 D γ k 满足KL性质可知,存在常数 k 1 >0 和函数 φ(x)=a x 1θ , θ( 0,1 ) 满足

φ'( E[ D γ k F k ] )E[ dist( 0, D γ k ) ]1,

其中 { F k } kΝ 是一个收敛到 E[ D γ ( μ ¯ ) ] 的非减序列, μ ¯ 为序列 { μ k =( x k , y k , z k ) } k 的子列的极限点。当 θ( 0, 1 2 ) 时, D γ k 满足指数为 1 2 时的KL性质。因此只需分析 θ[ 1 2 ,1 ) 的情况。

由假设2可得

E[ ξ k ]=E[ i=1 s α k i ] s ( E [ i=1 s α k i ] 2 ) 1/2 s ( E[ σ k 2 ] ) 1/2 = s | σ k | 2 .

由上式以及性质2.2.1,还有 { F s * } 的非减性整理KL不等式可得

E[ dist( 0, D γ k ) ] ( A 2 + 2 γ )E x k+1 x k + B 2 E x k x k1 +2E ξ k1 +E ξ k ( A 2 + 2 γ )E | x k+1 x k | 2 + B 2 E | x k x k1 | 2 +2 s | σ k1 | 2 + s | σ k | 2 , (31)

其中 B 2 =2L+ 1 γ +2 A 2

ρ( 0,1 ) 时有以下不等式成立

| σ k | 2 ( 1ρ ) | σ k1 | 2 2 + A 3 | x k x k1 | 2 2         ( 1ρ ) | σ k1 | 2 + A 3 | x k x k1 | 2        ( 1 ρ 2 ) | σ k1 | 2 + A 3 | x k x k1 | 2 ,

其中第二步是由不等式 x+y x + y 得到。进而可以推出以下不等式

| σ k1 | 2 2 A 3 ρ | x k x k1 | 2 + 2 ρ ( | σ k1 | 2 | σ k | 2 ), | σ k | 2 2 A 3 ρ | x k+1 x k | 2 + 2 ρ ( | σ k | 2 | σ k+1 | 2 ).

由此将上式左右两边分别乘 2 s s 作为系数可以计算得到

2 s | σ k1 | 2 4 s A 3 ρ | x k x k1 | 2 + 4 s ρ ( | σ k1 | 2 | σ k | 2 ), (32)

s | σ k | 2 2 s A 3 ρ | x k+1 x k | 2 + 2 s ρ ( | σ k | 2 | σ k+1 | 2 ). (33)

所以综合公式(31),(32),(33)可以计算得出此不等式

E[ dist( 0, D γ k ) ]( B 2 + 4 s A 3 ρ ) | x k x k1 | 2 +( A 2 + 2 γ + 2 s A 3 ρ ) | x k+1 x k | 2                               + 4 s ρ ( σ k1 2 σ k 2 )+ 2 s ρ ( σ k 2 σ k+1 2 ).

我们定义一个新的序列 C k

C k :=( B 2 + 4 s A 3 ρ ) | x k x k1 | 2 +( A 2 + 2 γ + 2 s A 3 ρ ) | x k+1 x k | 2         + 4 s ρ ( σ k1 2 σ k 2 )+ 2 s ρ ( σ k 2 σ k+1 2 ).

M=max{ ( B 2 + 4 s A 3 ρ ),( A 2 + 2 γ + 2 s A 3 ρ ) } ,则有

C k M[ | x k+1 x k | 2 + | x k x k1 | 2 +( σ k1 2 σ k 2 )+( σ k 2 σ k+1 2 ) ]. (34)

定义函数 φ( t )=a t 1θ , θ[ 1 2 ,1 ) 。对于所有的 k k 1 D γ k 满足KL不等式,所以

φ'( E[ D γ k F k ] )=a( 1θ ) ( E[ D γ k F k ] ) θ ( E[ D γ k F k ] ) θ a( 1θ ) C k .

而对于所有的 k k 2 ,结合假设2可知存在常数 c>0 满足以下不等式

( E[ a σ k 2 +b σ k1 2 +c x k x k1 2 ] ) θ O( ( x k+1 x k + x k x k1 + σ k1 2 ) θ )                                                       c C k .

又因为 ( a+b ) θ a θ + b θ , θ[ 1 2 ,1 ) ,因此可以得到对于所有的 k k 3 =max{ k 1 , k 2 } ,以下不等式成立

( E[ T γ k F k * ] ) θ =( E [ D γ ( x k , z k , y k )+a σ k 2 +b σ k1 2 +c x k x k1 2 F k * ] ) θ                          ( E[ D γ k F k ] ) θ + ( E[ a σ k 2 +b σ k1 2 +c x k x k1 2 ] ) θ                         a( 1θ ) C k +c C k .

进而可以得到以下不等式

( E[ T γ k F k * ] ) θ ad( 1θ ) C k , k> k 2 , (35)

其中d满足 ad( 1θ )a( 1θ )+c 。定义函数 ϕ( t )=ad t 1θ , θ[ 1 2 ,1 ) ,由(35)可得

ϕ ( E( T k F k * ) ) C k 1 .

对于所有的 k ,我们定义 Δ k,k+1 =ϕ( E[ T γ k F k ] )ϕ( E[ T γ k+1 F k+1 ] ).

由函数 ϕ 的凹性可得

Δ k,k+1 ϕ ( E[ T γ k F k ] )( E[ T γ k+1 T γ k + F k F k+1 ] )          ϕ ( E[ T γ k F k ] )E[ T γ k+1 T γ k ]          B 1 E x k+1 x k 2 C k .                                         

综合上式和(34),整理可得以下不等式

9E x k+1 x k 2 9M B 1 Δ k,k+1 [ | x k+1 x k | 2 + | x k x k1 | 2 + 4 s ρM ( σ k1 2 σ k 2 )+ 2 s ρM ( σ k 2 σ k+1 2 ) ]. 又因为 EX E X 2 ,并且对于任意的 u,v0 2 uv u+v ,因此对上式左右两边同时开根号可得,对于所有的 k k 3 =max{ k 1 , k 2 }

3 | x k+1 x k | 2 9M 4 B 1 Δ k,k+1 + | x k+1 x k | 2 + | x k x k1 | 2                        + 4 s ρM ( σ k1 2 σ k 2 )+ 2 s ρM ( σ k 2 σ k+1 2 ).

化简可得

2 | x k+1 x k | 2 9M 4 B 1 Δ k,k+1 + | x k x k1 | 2                        + 4 s ρM ( σ k1 2 σ k 2 )+ 2 s ρM ( σ k 2 σ k+1 2 ).

最后对上式左右两边同时累加化简可以得到

k k 3 | x k+1 x k | 2 9M 4 B 1 [ ϕ( T k 3 F k 3 * )ϕ( T F * ) ]+ | x k 3 x k 3 1 | 2 + 4 s ρM ( σ k 3 1 2 σ 2 )+ 2 s ρM ( σ k 3 2 σ 2 ) <.

因此可以得到

k k 3 E x k+1 x k = k k 3 | x k+1 x k | 1 k k 3 | x k+1 x k | 2 <.

进而可知序列 { x k } k 柯西收敛。

由公式(20)可得

y k+1 y k x k+2 x k+1 +γ g k+1 f( x k+1 ) +γ f( x k ) g k +γL x k+1 x k .

对上式左右两边同时求期望可得

E y k+1 y k E x k+2 x k+1 +γE g k+1 f( x k+1 ) +γE f( x k ) g k +γLE x k+1 x k ( γ A 2 +1 )E x k+2 x k+1 +( γ A 2 +γL )E x k+1 x k +γE[ ξ k+1 ]+γE[ ξ k ].

又因为 k k 3 E x k+1 x k < ,对上式左右两边同时累和可得

k k 3 E y k+1 y k ( γ A 2 +1 ) k k 3 E x k+2 x k+1 +( γ A 2 +γL ) k k 3 E x k+1 x k +γ k k 3 E[ ξ k+1 ] +γ k k 3 E[ ξ k ] <.

由公式(7)可得

z k+1 z k = y k+1 y k + x k+1 y k + y k1 x k y k+1 y k + y k y k1 + x k+1 x k .

由对上式左右两边同时求期望并累和可得

k k 3 E z k+1 z k = k k 3 E y k+1 y k + x k+1 y k + y k1 x k k k 3 E y k+1 y k + k k 3 E y k y k1 + k k 3 E x k+1 x k <.

所以,序列 { x k },{ y k },{ z k } ( k ) 均柯西收敛。因此算法生成序列 { ( x k , z k , y k ) } ( k ) 柯西收敛,即该算法全局收敛。

4. 数值实验

本节,我们应用本文提出的随机DR分裂算法(SDR)来求解稀疏Logistic回归问题,并将该算法与经典的邻近梯度算法PG以及Prox-SARAH进行比较,以阐述本文所提出的算法的高效性。

首先,我们考虑带有 l 1 l 2 正则化的稀疏Logistic回归模型,如今已被广泛应用于二分类问题。该模型的具体表述如下:

min x d F( x ):= 1 N i=1 N log( 1+exp( b i a i T x ) )+ λ 1 x 1 +  λ 2 2 x 2 ,

其中 a i d , b i { 1,1 },i{ 1,2,,N } 为样本的特征以及相应的标签, λ 1 , λ 2 >0 为正则化参数,用以控制变量的稀疏性。通过令 f( x )= 1 N i=1 N log( 1+exp( b i a i T x ) ), h( x )= λ 1 x 1 +  λ 2 2 x 2 ,上述稀疏Logistic回归问题即可转化为问题(1)。

在实验中,我们随机生成特征矩阵 A=( a 1 , a 2 ,, a N ) d×N ,并计算出对应的标签 b= ( b 1 , b 2 ,, b N ) T N ,稀疏正则化参数设置为 λ 1 = λ 2 = 10 5 。针对问题规模,本文选择样本量为 N=1000 N=1500 ,以及 d=50 d=100 。两两组合共构成4种不同的数据规模设置,以对比分析算法在不同规模下的性能表现。此外,我们将算法的最大迭代次数统一设置为20,000,并以相对误差 F(x)F( x * ) F( x * ) 2× 10 4 作为算法的停机准则,其中 F( x * ) 为最小的函数值。

数值实验结果见下图1,针对不同的样本规模,我们提出的算法SDR总是能够在规定的最大迭代次数内达到收敛,且收敛所用的时间远少于PG和Prox-SARAH,收敛速度最快。此外,可以看到当数据规模增大时,算法达到收敛需要的时间也显著增大,而对比而言,SDR因规模增大而增加的时间也是最少的,充分展示了我们所提出的算法的优越性。

Figure 1. Comparison of SDR, PG and Prox-SARAH under different data scales

1. 不同数据规模下SDR算法与PG、Prox-SARAH算法对比

5. 总结

针对大规模非凸复合优化问题,本文将方差缩减的随机梯度算法引入到DR分裂算法中,提出随机DR分裂算法,可以更高效,更稳定的解决大规模优化问题,降低算法的计算成本,并在KL不等式的前提下,证明随机DR分裂算法的全局收敛性。具体地,我们首先建立Lyapunov函数在算法前后迭代步的下降性,再建立DR价值函数的相对误差界条件,并最终基于KL性质建立算法的全局收敛性。此外,通过数值实验,验证了随机DR分裂算法(SDR)的优越性。

参考文献

[1] Lions, P.L. and Mercier, B. (1979) Splitting Algorithms for the Sum of Two Nonlinear Operators. SIAM Journal on Numerical Analysis, 16, 964-979.
https://doi.org/10.1137/0716071
[2] Beck, A. and Teboulle, M. (2009) Gradient-Based Algorithms with Applications to Signal-Recovery Problems. In: Convex Optimization in Signal Processing and Communications, Cambridge University Press, 42-88.
https://doi.org/10.1017/cbo9780511804458.003
[3] Douglas, J. and Rachford, H.H. (1956) On the Numerical Solution of Heat Conduction Problems in Two and Three Space Variables. Transactions of the American Mathematical Society, 82, 421-439.
https://doi.org/10.1090/s0002-9947-1956-0084194-4
[4] Aragón Artacho, F.J., Borwein, J.M. and Tam, M.K. (2013) Recent Results on Douglas-Rachford Methods for Combinatorial Optimization Problems. Journal of Optimization Theory and Applications, 163, 1-30.
https://doi.org/10.1007/s10957-013-0488-0
[5] Boţ, R.I., Csetnek, E.R. and Hendrich, C. (2015) Inertial Douglas-Rachford Splitting for Monotone Inclusion Problems. Applied Mathematics and Computation, 256, 472-487.
https://doi.org/10.1016/j.amc.2015.01.017
[6] Li, G. and Pong, T.K. (2015) Douglas-Rachford Splitting for Nonconvex Optimization with Application to Nonconvex Feasibility Problems. Mathematical Programming, 159, 371-401.
https://doi.org/10.1007/s10107-015-0963-5
[7] Robbins, H. and Monro, S. (1951) A Stochastic Approximation Method. The Annals of Mathematical Statistics, 22, 400-407.
https://doi.org/10.1214/aoms/1177729586
[8] Li, M., Zhang, T., Chen, Y. and Smola, A.J. (2014). Efficient Mini-Batch Training for Stochastic Optimization. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, 24-27 August 2014, 661-670.
https://doi.org/10.1145/2623330.2623612
[9] Schmidt, M., Le Roux, N. and Bach, F. (2016) Minimizing Finite Sums with the Stochastic Average Gradient. Mathematical Programming, 162, 83-112.
https://doi.org/10.1007/s10107-016-1030-6
[10] Johnson, R. and Zhang, T. (2013) Accelerating Stochastic Gradient Descent Using Predictive Variance Reduction. Advances in Neural Information Processing Systems, 2013, Article 26.
[11] Doucet, A., Godsill, S. and Andrieu, C. (2000) On Sequential Monte Carlo Sampling Methods for Bayesian Filtering. Statistics and Computing, 10, 197-208.
https://doi.org/10.1023/a:1008935410038
[12] Nesterov, Y. (2012) Gradient Methods for Minimizing Composite Functions. Mathematical Programming, 140, 125-161.
https://doi.org/10.1007/s10107-012-0629-5
[13] Nguyen, L.M., van Dijk, M., Phan, D.T., Nguyen, P.H., Weng, T. and Kalagnanam, J.R. (2022) Finite-Sum Smooth Optimization with Sarah. Computational Optimization and Applications, 82, 561-593.
https://doi.org/10.1007/s10589-022-00375-x
[14] Fang, C., Li, C.J., Lin, Z. and Zhang, T. (2018) Near-Optimal Non-Convex Optimization via Stochastic Path-Integrated Differential Estimator.
[15] Ghadimi, S. and Lan, G. (2013) Stochastic First and Zeroth-Order Methods for Nonconvex Stochastic Programming. SIAM Journal on Optimization, 23, 2341-2368.
https://doi.org/10.1137/120880811
[16] Ghadimi, S. and Lan, G. (2015) Accelerated Gradient Methods for Nonconvex Nonlinear and Stochastic Programming. Mathematical Programming, 156, 59-99.
https://doi.org/10.1007/s10107-015-0871-8
[17] Pham, N.H., Nguyen, L.M., Phan, D.T., et al. (2020) Prox SARAH: An Efficient Algorithmic Framework for Stochastic Composite Nonconvex Optimization. Journal of Machine Learning Research, 21, 1-48.
[18] Rockafellar, R.T. and Wets, R.J.B. (2009) Variational Analysis. Springer Science & Business Media.
[19] Nesterov, Y. (2018) Lectures on Convex Optimization. Springer.
[20] Bolte, J., Sabach, S. and Teboulle, M. (2013) Proximal Alternating Linearized Minimization for Nonconvex and Nonsmooth Problems. Mathematical Programming, 146, 459-494.
https://doi.org/10.1007/s10107-013-0701-9
[21] Driggs, D., Tang, J., Liang, J., Davies, M. and Schönlieb, C. (2021) A Stochastic Proximal Alternating Minimization for Nonsmooth and Nonconvex Optimization. SIAM Journal on Imaging Sciences, 14, 1932-1970.
https://doi.org/10.1137/20m1387213