求解非凸优化问题的带惯性项Majorized Bregman交替方向乘子法
Majorized Bregman Alternating Direction Method of Multipliers with Inertia Terms for Solving Nonconvex Optimisation Problems
DOI: 10.12677/aam.2025.146306, PDF,    科研立项经费支持
作者: 吴展雄*, 陆 莎#, 黄清梅:南宁师范大学数学与统计学院,广西 南宁
关键词: 交替方向乘子法Bregman距离惯性项KL性质Alternating Direction Method of Multipliers Bregman Distance Inertial Term Kurdyka-Łojasiewicz Property
摘要: 对非凸两分块优化问题,提出一种带惯性的Majorized Bregman交替方向乘子法。该算法在迭代中结合了目标函数的极大化线性技术和Bregman距离来简化子问题的求解,同时通过引入惯性项加快收敛效果。在适当条件下证明了算法的收敛性质。初步数值实验结果表明该算法是有效的。
Abstract: A Majorized Bregman alternating direction method of multipliers (Bregman-ADMM) with inertial terms is proposed for nonconvex two-block optimization problems. The algorithm combines a linearization technique for the objective function and the Bregman distance in each iteration to simplify subproblem solutions, while accelerating the convergence rate through inertial terms. The convergence of the algorithm is established under appropriate conditions. Preliminary numerical experiments demonstrate the effectiveness of the proposed algorithm.
文章引用:吴展雄, 陆莎, 黄清梅. 求解非凸优化问题的带惯性项Majorized Bregman交替方向乘子法[J]. 应用数学进展, 2025, 14(6): 119-134. https://doi.org/10.12677/aam.2025.146306

1. 引言

本文考虑如下带线性等式约束的两块可分结构非凸优化问题:

minf( x )+g( y ) s.t.  AxBy=0, (1)

其中 f: R s 1 R 是梯度Lipschitz连续可微的凸函数, g: R s 2 R{ + } 是适当下半连续函数, A R m× s 1 ,B R m× s 2 。问题(1)广泛应用于信号处理[1]、图像处理[2]、机器学习[3]和经济调度[4]等领域,其中 f 通常是一个(二次或逻辑)损失函数, g 通常是一个正则项,如 l 1 范数或 l 1/2 拟范数。问题(1)的增广拉格朗日函数定义为

L β ( x,y,λ )=f( x )+g( y )+ λ,AxBy + β 2 AxBy 2 ,

其中 λ R m 是拉格朗日乘子, β>0 是一个惩罚参数。

求解问题(1)的经典ADMM的第 k+1 步迭代格式为

{ y k+1 = argmin y L β ( x k ,y, λ k ) x k+1 = argmin x L β ( x, y k+1 , λ k ) λ k+1 = λ k +β( A x k+1 B y k+1 ). (2)

尽管ADMM在解决凸优化问题方面得到了广泛的应用,但对于非凸优化问题,ADMM的收敛性分析仍值得研究,目前一些学者已经得到了部分研究成果。如Deng Zhao等[5]针对非凸两分块优化问题,在增广拉格朗日函数满足KL性质且罚参数大于某阈值的条件下,证明了ADMM的收敛性。在此基础上,Wang Y等[6]进一步拓展了ADMM的理论框架,他们放松了文献[5]中对矩阵列满秩的严格限制,并在目标函数和系数矩阵满足一些常见约束条件下,证明了ADMM的全局收敛性。

一般将ADMM直接应用于非凸优化问题时,其收敛性不能保证,由此学者们对原始ADMM方法做了改进研究,如线性化技术、松弛技巧等。为了有利于迭代子问题的求解,Wang F等[7]针对非凸两分块优化问题(1)引入Bregman距离改善子问题目标函数的结构,提出Bregman ADMM (BADMM)算法。其过程如下

{ y k+1 = argmin y { L β ( x k ,y, λ k )+ D T 1 ( y, y k ) } x k+1 = argmin x { L β ( x, y k+1 , λ k )+ D T 2 ( x, x k ) } λ k+1 = λ k +β( A x k+1 B y k+1 )

其中 T i ( i=1,2 ) 是凸可微函数,其Bregman距离 D T i 定义为:

D T i ( x,y )= T i ( x ) T i ( y ) T i ( y ),xy , xdom T i , yintdom T i ( i=1,2 ) .

比如当 T i ( x )= x T Cx ,其中 C 是半正定矩阵时有 D T i ( x 1 , x 2 )= ( x 1 x 2 ) T C( x 1 x 2 )

在此基础上,陈建华等[8]的Majorized Bregman ADMM(MBADMM)算法针对非凸两分块优化问题,对目标函数中的光滑函数项进行了极大化线性处理,由于目标函数中的 f 是光滑凸函数,这意味着存在一个半正定矩阵 f 使得对任意 x, x R s 1 ,都有: f( x )f( x )+ f( x ),x x + 1 2 x x f 2 ,又由于函数 f 的梯度是Lipschitz连续的,所以可以找到一个半正定矩阵 ^ f ,且 ^ f _ f ,使得对任意的 x, x R s 1 都有

f( x ) f ^ ( x, x ):=f( x )+ f( x ),x x + 1 2 x x ^ f 2 .

于是针对问题(1),文献[8]构建Majorized增广拉格朗日函数为

L ^ β ( x,y,λ, x )= f ^ ( x, x )+g( y )+ λ T ( AxBy )+ β 2 AxBy 2 . (3)

相应的MBADMM算法迭代过程如下:

{ y k+1 = argmin y { L ^ β ( x k ,y, λ k , x k )+ D T 1 ( y, y k ) } x k+1 = argmin x { L ^ β ( x, y k+1 , λ k , x k )+ D T 2 ( x, x k ) } λ k+1 = λ k +β( A x k+1 B y k+1 ) (4)

另一方面,注意到在迭代算法中,增加惯性力或惯性项可以在产生新方向时充分利用部分旧方向的信息,从而对算法起到加速的作用[9]-[11],Xu J等[12]提出带惯性项的Bregman Generalized ADMM (IBGADMM)算法。针对线性约束 Ax+By=b 非凸优化问题,[12]结合惯性步和Bregman距离思想给出迭代过程

{ x k+1 argmin x { L β ( x, y k , λ k )+ D T 2 ( x, x k )+ θ k x, x k1 x k } x ad k+1 =αA x k+1 +( 1α )( bB y k ) y k+1 argmin y { g( y ) λ k ,B y k + β 2 x ad k+1 +Byb 2 + D T 1 ( y, y k )+ ρ k y, y k1 y k } λ k+1 = λ k β( x ad k+1 +B y k+1 b ),

并建立了算法的子序列收敛性和全局收敛性。

受上述文献的启发,对目标函数中的光滑函数项进行极大化线性处理,可以简化关于该函数子问题的求解,针对目标函数加入Bregman距离可以提升算法在求解非凸优化问题时的性能和收敛性,引入惯性项也可以缩短收敛所需时间。本文提出了针对非凸优化问题(1)的带惯性项Majorized-Bregman-ADMM (IMBADMM)算法,该算法涵盖了ADMM和MBADMM作为其特殊情形。与文献[13]有所区别的是,本文在两个子问题中引入了惯性力[9]-[11]。此外,效益函数的充分递减特性并不需要假设 A B 是满秩。在IMBADMM生成的序列具有有界性且效益函数满足KL性质的条件下,我们证明了IMBADMM的子序列收敛性和全局收敛性。最后运用所提出的IMBADMM算法对稀疏逻辑回归问题进行了数值实验比较。

2. 预备知识

2.1. 基本概念与结论

对任意 x,y R n ,定义它们的内积为 x,y = x T y ,定义 x G 范数 x G = x T Gx ,其中 G _ 0( 0 ) 表明 G 是半正定(正定)矩阵。 λ max ( G ) 表示矩阵 G 的最大特征值。

任意点 y 到集合 S 的距离定义如下

dist( y,S )={ inf xS xy , S +,            S=.

定义1 ([14],引理2.2) 称可微函数 f( x ) μ -强凸函数,若如下不等式成立:

f( y )f( x )+ f( x ),yx + μ 2 yx 2 , x,ydomf.

关于Bregman距离,有下述性质。

性质1 ([15],命题2.3) 令 T: R n R 是可微凸函数, D T ( x,y ) 是与它相关的Bregman距离,则

1) 对任意的 x,y R n ,有: D T ( x,y )0,  D T ( x,x )=0

2) 对于固定的 y D T ( ,y ) 是凸的;

3) 对于任意 x,y R n D T ( x,y ) μ 2 xy 2 ,其中 μ T 的强凸系数;

4) 如果 T 是Lipschitz连续的,且其Lipschitz常数为 l T ,则对任意 x,y R n ,有

T( x,y ) l T 2 xy 2 .

定义2 ([14],定义8.5]) 定义满足以下条件的凹连续函数 φ:[ 0,η ) R + 的集合为 Φ η 函数类:

1) φ( 0 )=0

2) φ ( 0,η ) 内连续可微,在点 0 处连续;

3) 对任意 s( 0,η ) ,都有 φ ( s )>0

根据上面的定义我们可以引入KL性质。

定义3 ([14],定义8.6) (KL性质) 设 g: R s 2 R{ + } 为适当下半连续函数。

1) 称函数 g 在给定点 y ¯ domg  def _ _  { y|g( y ) } 处具有KL性质,若存在 η( 0,+ ] y ¯ 的一个邻域 U 及函数 φ Φ η ,使得对

yU[ g( y ¯ )<g<g( y ¯ )+η ] ,

有以下不等式成立:

φ ( g( y )g( y ¯ ) )dist( 0,g( y ) )1 .

2) 若 g domg 上处处都满足KL性质,则称 g 是一个KL函数。

性质2 ([14],引理8.4) (一致KL性质) 设 Ω 为紧集, g: R s 2 R{ + } 为适当下半连续函数,在 Ω 上为常数且在 Ω 的每个点处都满足KL性质,则存在 ε>0,η>0,φ Φ η ,使得对任意 y ¯ Ω 和所有如下集合中的 y

y { y R s 2 :dist( y,Ω )<ε }[ g( y ¯ )<g<g( y ¯ )+η ] ,

φ ( g( y )g( y ¯ ) )dist( 0,g( y ) )1 .

性质3 ([16],引理A.2) 设 A R m× s 1 是一个非零矩阵, μ A T 表示 A T A 的最小正特征值, Ρ A 是到 Im( A )={ y|y=Ax,x R s 1 } 的欧几里得投影,则有

Ρ A ( u ) 1 μ A T A T u , u R s 1 .

2.2. 主要结论与论文结构

本文主要贡献集中在第3部分和第4部分,分别给出新的算法及其收敛性证明和数值实验。

第3部分提出求解非凸优化问题的带惯性项Majorized Bregman ADMM (IMBADMM)算法,针对两个子问题,在每一步迭代中引入惯性力,在保证算法收敛性的前提下,有效地提高了算法的运算速度。在较弱的条件下,证明了算法的全局收敛性。

第4部分我们将IMBADMM算法应用到稀疏逻辑回归问题中,并分别与MBADMM、ADMM、SGD和LBADMM算法进行比较,数值实验都表明了算法的有效性。

最后,在第5部分给出本文总结。

3. 求解非凸优化问题的带惯性Majorized Bregman ADMM算法

对优化问题(1),我们先给出带惯性项的Majorized Bregman ADMM算法,再讨论该算法的收敛性。

3.1. IMBADMM算法描述

算法1:带惯性项的Majorized Bregman ADMM(IMBADMM)算法

输入: A R m× s 1 ,B R m× s 2 ,λ>0 ρ 0 >0, θ 0 >0,ρ>0,θ>0 eps>0

maxiter>0 ,选取合适的凸可微函数 T 1 , T 2 用于构造Bregman距离;

初始化: x 1 = x 0 =zeros( n,1 ),  y 1 = y 0 =zeros( n,1 ),  λ 0 =zeros( n,1 ) ;令 k:=0

1更新参数,选取适当 ρ k θ k 满足 0 ρ k ρ,0 θ k θ

2计算

y k+1 argmin y { L ^ β ( x k ,y, λ k , x k )+ D T 1 ( y, y k )+ ρ k y, y k1 y k }; (5a)

3固定其他,计算

x k+1 = argmin x { L ^ β ( x, y k+1 , λ k , x k )+ D T 2 ( x, x k )+ θ k x, x k1 x k }; (5b)

4更新乘子

λ k+1 = λ k +β( A x k+1 B y k+1 ); (5c)

5 x k+1 x k max{ x k ,1 } eps ,则停止迭代,令 y= y k+1 ,x= x k+1 ,λ= λ k+1 ,输出 y,x

λ ;否则令 k=k+1 ,转步1。

其中 T 1 T 2 是两个可微凸函数, D T 1 ( y, y k ), D T 2 ( x, x k ) 是Bregman距离, ρ k y, y k1 y k θ k x, x k1 x k 为惯性项。

3.2. 收敛性分析

在分析收敛性之前,我们需要如下假设。

假设1 1) A0,ImBImA

2) f: R s 1 R 是连续可微凸函数, f l f -Lipschitz连续的,且 2 f( x ) 有界, g: R s 2 R( + ) 是适当下半连续函数;

3) 构造Bregman距离函数 T i ( i=1,2 ) μ i -强凸的,且 T i l T i -Lipschitz连续的, μ 1 2ρ>0 μ 2 >6( ( l f + l T 2 + λ max +θ ) 2 + θ 2 + ( l T 2 + λ max ) 2 β μ A T + θ 3 )+ λ max +2 l f ,其中 μ A T 是矩阵 A T A 的最小严格正特征值, λ max 是矩阵 ^ f 的最大特征值。

为了简化表达,记 z k =( x k , y k , λ k ) L ^ β ( ) 的临界点 z =( x , y , λ )

Δ x k = x k x k1 , Δ y k = y k y k1 , Δ λ k = λ k λ k1 ,

z ^ k =( x k , y k , λ k , x k1 , y k1 , x k1 , x k2 ).

引理1 若假设1成立,令 { z k } 是由IMBADMM算法生成的序列,则对于所有 kN ,有

Δ λ k+1 1 μ A T ( ( l f + l T 2 + λ max + θ k ) Δ x k +( l T 2 + λ max ) Δ x k+1 + θ k1 Δ x k1 ). (6)

对IMBADMM算法的收敛性分析,构造效益函数

L ^ ( x,y,λ, x , y ^ , x ^ , x ¯ )= L ^ β ( x,y,λ, x )+ ρ 2 y y ^ 2 + n 1 x x ^ 2 + n 2 x ^ x ¯ 2 ,

L ^ ( z ^ k )= L ^ β ( x k , y k , λ k , x k1 )+ ρ 2 Δ y k 2 + n 1 Δ x k 2 + n 2 Δ x k1 2 , (7)

其中 n 1 = 3 ( l f + l T 2 + λ max +θ ) 2 β μ A T + θ+ λ max +2 l f 2 + 3 θ 2 β μ A T ,  n 2 = 3 θ 2 β μ A T

以下所述的充分下降性质将在我们的收敛性分析中占据关键地位,为了分析 { L ^ ( z ^ k ) } 的单调性,我们记

{ κ 1 := κ 1 ( μ 1 ,ρ )= μ 1 2ρ 2                                                                                      (8a) κ 2 := κ 2 ( μ 2 ,β,θ )= μ 2 λ max 2 l f 2 3( ( l f + l T 2 + λ max +θ ) 2 + θ 2 + ( l T 2 + λ max ) 2 β μ A T + θ 3 )     ( 8b )

证明:因为 λ k+1 λ k =β( A x k+1 B y k+1 )ImA ,所以 Δ λ k+1 = Ρ A ( Δ λ k+1 ) ,由性质3得

Ρ A ( Δ λ k+1 ) 1 μ A T A T Δ λ k+1

根据(5b)式的最优性条件得

0=f( x k )+ ^ f ( x k+1 x k )+ A T λ k+1 + T 2 ( x k+1 ) T 2 ( x k )+ θ k ( x k1 x k ) (9a)

(9a)式移项可得

A T λ k+1 =f( x k+1 ) ^ f ( x k+1 x k ) T 2 ( x k+1 )+ T 2 ( x k ) θ k ( x k1 x k ) (9b)

k=k1 ,有

A T λ k =f( x k ) ^ f ( x k x k1 ) T 2 ( x k )+ T 2 ( x k1 ) θ k ( x k2 x k1 ) (9c)

(9b)和(9c)式相减可得

A T ( λ k+1 λ k )=( f( x k )f( x k1 ) )- ^ f [ ( x k+1 x k )( x k x k1 ) ]                        [ T 2 ( x k+1 ) T 2 ( x k ) ]+[ T 2 ( x k ) T 2 ( x k1 ) ] θ k ( x k1 x k )+ θ k1 ( x k2 x k1 )

由于 f l f -Lipschitz连续的, T 2 l T 2 -Lipschitz连续的,且 λ max 是矩阵 ^ f 的最大特征值,则

A T Δ λ k+1 l f Δ x k + λ max Δ x k+1 +Δ x k + l T 2 Δ x k+1 + l T 2 Δ x k + θ k Δ x k + θ k1 Δ x k1                 =( l f + l T 2 + λ max + θ k ) Δ x k +( l T 2 + λ max ) Δ x k+1 + θ k1 Δ x k1

上述不等式两边乘 1 μ A T

Ρ A ( Δ λ k+1 ) = Δ λ k+1 1 μ A T ( ( l f + l T 2 + λ max + θ k ) Δ x k +( l T 2 + λ max ) Δ x k+1 + θ k1 Δ x k1 ).

引理2 若假设1成立,令 { z k } 是由IMBADMM算法生成的序列,那么以下结论成立:

1) 对于所有 kN ,有 L ^ ( z ^ k+1 ) L ^ ( z ^ k ) κ 1 Δ y k+1 2 κ 2 Δ x k+1 2 (10)

2) 如果 { z k } 是有界的,则 k=0 + z k+1 z k 2

证明:

1) (充分下降性质)

由于 y k+1 是(5a)式的最优解,所以

L ^ β ( x k , y k+1 , λ k , x k ) L ^ β ( x k , y k , λ k , x k ) D T 1 ( y k+1 , y k )+ ρ k y k y k+1 , y k1 y k ρ k μ 1 2 Δ y k+1 2 + ρ k 2 Δ y k 2 , (11)

其中第2个不等式根据性质1的3)得出,由于 x k+1 是(5b)式的最优解,故有

f ^ ( x k+1 , x k )+ λ k ,A x k+1 + β 2 A x k+1 B y k+1 2 + D T 2 ( x k+1 , x k )+ θ k x k+1 , x k1 x k f ^ ( x k , x k )+ λ k ,A x k + β 2 A x k B y k+1 2 + θ k x k , x k1 x k ,

再利用 ab 2 a 2 =2 a,b + b 2 和性质1的3),可推出

f ^ ( x k+1 , x k ) f ^ ( x k , x k )+ λ k ,AΔ x k+1 β A x k+1 B y k+1 ,AΔ x k+1 + β 2 AΔ x k+1 2 + θ k μ 2 2 Δ x k+1 2 + θ k 2 Δ x k 2 , (12)

根据Majorized增广拉格朗日函数 L ^ β ( ) 的定义得

L ^ β ( x k+1 , y k+1 , λ k , x k ) L ^ β ( x k , y k+1 , λ k , x k ) ( 12 ) θ k 2 Δ x k 2 + θ k μ 2 2 Δ x k+1 2 , (13)

根据 L ^ β ( ) 的定义及引理1,得

L ^ β ( x k+1 , y k+1 , λ k+1 , x k ) L ^ β ( x k+1 , y k+1 , λ k , x k ) 3 β μ A T ( ( l f + l T 2 + λ max + θ k ) 2 Δ x k 2 + ( l T 2 + λ max ) 2 Δ x k+1 2 + θ k1 2 Δ x k1 2 ), (14)

根据 L ^ β ( ) 的定义及拉格朗日中值定理,得

L ^ β ( x k , y k , λ k , x k ) L ^ β ( x k , y k , λ k , x k1 )( l f + λ max 2 ) Δ x k 2 , (15)

由(11)、(13)、(14)、(15)式相加可得

L ^ β ( x k+1 , y k+1 , λ k+1 , x k ) L ^ β ( x k , y k , λ k , x k1 ) ρ μ 1 2 Δ y k+1 2 + ρ 2 Δ y k 2 +( 3 ( l T 2 + λ max ) 2 β μ A T + θ μ 2 2 ) Δ x k+1 2 +( 3 ( l f + l T 2 + λ max +θ ) 2 β μ A T + θ+ λ max +2 l f 2 ) Δ x k 2 + 3 θ 2 β μ A T Δ x k1 2 , (16)

由算法过程可知 0 ρ k ρ 0 θ k θ ,其中最后一个不等式由此得出。

根据(16)式,得

L ^ β ( x k+1 , y k+1 , λ k+1 , x k )+ ρ 2 Δ y k+1 2 + n 1 Δ x k+1 2 + n 2 Δ x k 2 L ^ β ( x k , y k , λ k , x k1 )+ ρ 2 Δ y k 2 + n 1 Δ x k 2 + n 2 Δ x k1 2 κ 1 Δ y k+1 2 κ 2 Δ x k+1 2 ,

L ^ ( z ^ k+1 ) L ^ ( z ^ k ) κ 1 Δ y k+1 2 κ 2 Δ x k+1 2

2) 由于 { z k } 有界,则 { z ^ k } 有界并且至少有一个聚点,即存在子序列 { z ^ k j } ,使得 lim j z ^ k j = z ^ * 。因为 f 是连续可微函数, g 是下半连续函数,所以 L ^ ( ) 为下半连续函数,因此, lim j inf L ^ ( z ^ k j ) L ^ ( z ^ * ) L ^ ( z ^ k j ) 有下界。

根据假设1的3)知 κ i >0,i=1,2 ,因此 { L ^ ( z ^ k ) } 单调非增,由于单调序列的子列收敛等价于全序列收敛,即有 { L ^ ( z ^ k ) } 收敛且 L ^ ( z ^ * ) L ^ ( z ^ k ) 。由(10)式,得

κ 1 k=0 + Δ y k+1 2 + κ 2 k=0 + Δ x k+1 2 L ^ ( z ^ 0 ) L ^ ( z ^ * )<+ .

基于 κ i >0,i=1,2 ,可推导出 k=0 Δ y k+1 2 <+ k=0 Δ x k+1 2 <+

进而由(6)式,可得 k=0 Δ λ k+1 2 <+ 。因此 k=0 z k+1 z k 2 <+

1 由引理2的1)可知,若 κ i >0,i=1,2 ,则序列 { L ^ ( z ^ k ) } 是非增的。

下面的引理给出效益函数次梯度的上限估计。

引理3 若假设1成立,令 { z k } 是由IMBADMM算法生成的序列,当它有界时,对于每一个 k0 ,有

ε k+1 = ( ε 1 k+1 , ε 2 k+1 , ε 3 k+1 , ε 4 k+1 , ε 5 k+1 , ε 6 k+1 , ε 7 k+1 ) T L ^ ( z ^ k+1 ) ,

其中 { ε 1 k+1 =f( x k )+ ^ f ( x k+1 x k )+ A T λ k+1 +β A T ( A x k+1 B y k+1 )+2 n 1 Δ x k+1 ε 2 k+1 g( y k+1 ) B T λ k+1 β B T ( A x k+1 B y k+1 )+ρΔ y k+1 ε 3 k+1 = Δ λ k+1 /β ε 4 k+1 =( 2 f( x k ) ^ f )Δ x k+1 ε 5 k+1 =ρΔ y k+1 ε 6 k+1 =2 n 2 Δ x k 2 n 1 Δ x k+1 ε 7 k+1 =2 n 2 Δ x k ,

且存在 τ>0 ,使得 d( 0, L ^ ( z ^ k+1 ) ) ε k+1 τ( Δ y k + Δ y k+1 + Δ x k1 + Δ x k + Δ x k+1 )

证明:根据(7)式效益函数的定义得

L ^ ( z ^ k+1 )= f ^ ( x k+1 , x k )+g( y k+1 )+ λ k+1 ,A x k+1 B y k+1 + β 2 A x k+1 B y k+1 2              + ρ 2 Δ y k+1 2 + n 1 Δ x k+1 2 + n 2 Δ x k 2 (17)

L ^ ( ) 各分量求偏导, ε k+1 可以表示为

{ ε 1 k+1 =f( x k )+ ^ f ( x k+1 x k )+ A T λ k+1 +β A T ( A x k+1 B y k+1 )+2 n 1 Δ x k+1                          (18a) ε 2 k+1 g( y k+1 ) B T λ k+1 β B T ( A x k+1 B y k+1 )+ρΔ y k+1                                                     (18b) ε 3 k+1 =A x k+1 B y k+1                                                                                                               (18c) ε 4 k+1 =( 2 f( x k ) ^ f )Δ x k+1                                                                                                 (18d)  ε 5 k+1 =ρΔ y k+1                                                                                                                       (18e) ε 6 k+1 =2 n 2 Δ x k 2 n 1 Δ x k+1                                                                                                        (18f) ε 7 k+1 =2 n 2 Δ x k .                                                                                                                     (18g)

根据(5b)式的最优性条件得

f( x k )+ ^ f ( x k+1 x k )= A T λ k β A T ( A x k+1 B y k+1 )+ T 2 ( x k ) T 2 ( x k+1 ) θ k ( x k1 x k ) 

代入(18a)式有

ε 1 k+1 = A T Δ λ k+1 + T 2 ( x k ) T 2 ( x k+1 ) θ k ( x k1 x k )+2 n 1 Δ x k+1 .

由于 T 2 l T 2 -Lipschitz连续的,则

ε 1 k+1 A Δ λ k+1 +( l T 2 +2 n 1 ) Δ x k+1 + θ k Δ x k . (19)

根据(5a)式的最优性条件得

g( y k+1 ) B T λ k +β B T ( A x k B y k+1 )+ T 1 ( y k ) T 1 ( y k+1 ) ρ k ( y k1 y k )

代入(18b)式有

ε 2 k+1 = B T Δ λ k+1 β B T AΔ x k+1 + T 1 ( y k ) T 1 ( y k+1 )+ ρ k Δ y k +ρΔ y k+1 .

由于 T 1 l T 1 -Lipschitz连续的,则

ε 2 k+1 B Δ λ k+1 +β B A Δ x k+1 +( l T 1 +ρ ) Δ y k+1 + ρ k Δ y k . (20)

根据(5c)式得 A x k+1 B y k+1 = 1 β Δ λ k+1 ,则

ε 3 k+1 = 1 β Δ λ k+1 . (21)

因此, ε k+1 L ^ ( z ^ k+1 ) ,根据(18d~18g)式及(19~21)式,存在 ξ 1 >0 使得

ε k+1 ξ 1 ( Δ x k + Δ x k+1 + Δ y k + Δ y k+1 + Δ λ k+1 ) .

根据引理1,存在 ξ 2 >0 使得 Δ λ k+1 ξ 2 ( Δ x k + Δ x k+1 + Δ x k1 )

综合上述两个不等式,当 ε k+1 L ^ ( z ^ k+1 ) 时,可得

d( 0, L ^ ( z ^ k+1 ) ) ε k+1 ξ 1 ( 1+ ξ 2 )( Δ y k + Δ y k+1 + Δ x k1 + Δ x k + Δ x k+1 ) =τ( Δ y k + Δ y k+1 + Δ x k1 + Δ x k + Δ x k+1 ),

其中 τ= ξ 1 ( 1+ ξ 2 )>0

定理1 (子序列收敛性) 若假设1成立, { z k } 为IMBADMM算法生成的序列,且假设 { z k } 有界。令 Ω 表示序列 { z k } 的聚点集, Ω ^ 表示序列 { z ^ k } 的聚点集,则以下结论成立:

1) Ω 是一个非空紧集,且当 k 时, d( z k ,Ω )0 Ω 里面的点都是 L β ( ) 的临界点; ( x , y , λ , x , y ^ , x ^ , x ¯ ) Ω ^ ,当且仅当 x = x = x ^ = x ¯ , y = y ^ ( x , y , λ )Ω

2) L ^ ( ) 是有限的且在 Ω ^ 上为常数, inf kN L ^ ( z ^ k )= lim k+ L ^ ( z ^ k )

接下来的结果显示,当效益函数是KL函数时,序列 { z k } 将收敛到优化问题(1)的临界点。

证明:

1) 因 { z k } 有界,故 { z k } 至少存在一个聚点,其聚点集 Ω 非空且为紧集。

z Ω ,那么存在 { z k } 的一个子序列 { z k j } ,使得: lim j ( z k j )= z

根据引理2的2),有 lim j z k j +1 z k j =0 ,进而可得 lim j ( z k j +1 )= z

由于 λ k j +1 = λ k j +β( A x k j +1 B y k j +1 ) β>0 ,从而 A x B y =0

又由于 y k+1 是(5a)的最优解,故有

L ^ ( x k , y k+1 , λ k , x k , y k , x k1 , x k2 ) L ^ ( x k , y , λ k , x k , y k , x k1 , x k2 ) + D T 1 ( y , y k ) D T 1 ( y k+1 , y k )+ ρ 2 y k+1 y k 2 ρ 2 y y k 2 ρ k y y k+1 ,Δ y k . (22)

因为效益函数 L ^ ( x,y,λ, x , y ^ , x ^ , x ¯ ) 关于变量 ( x,λ, x , y ^ , x ^ , x ¯ ) 是连续的,所以

lim j sup L ^ ( z ^ k j +1 ) ( 22 ) lim j sup{ L ^ ( x k j , y , λ k j , x k j , y k j , x k j 1 , x k j 2 )+ Δ T 1 ( y , y k j ) Δ T 1 ( y k j +1 , y k j ) + ρ 2 y k j +1 y k j 2 ρ 2 y y k j 2 ρ k y y k j +1 ,Δ y k j }= L ^ ( z ^ ). (23)

由于 f 是连续函数且 g 是下半连续函数,则 L ^ ( ) 是下半连续函数。因此,

L ^ ( z ^ ) lim j inf L ^ ( z ^ k j +1 ). (24)

根据(23)式和(24)式可得

lim j L ^ ( z ^ k j +1 )= L ^ ( z ^ ). (25)

由此可得 lim k j g( y k j +1 )=g( y * ) 。利用 f 的连续性和 g 的闭合性质,结合(5)式的最优性条件得 B T λ g( y ), f( x )= A T λ , A x B y =0

这表明 z L β ( ) 的临界点。

2) 根据(25)式有 lim k inf L ^ ( z ^ k+1 )= lim j L ^ ( z ^ k j +1 )= L ^ ( z )=f( x )+g( y )= L β ( z ) ,又由引理2, L ^ ( ) 是单调非增的,故有 inf kN L ^ ( z ^ k )= lim k L ^ ( z ^ k )= L ^ ( z )

定理2 (全局收敛性) 若假设1成立, { z k } 是IMBADMM算法生成的序列,且假设 { z k } 有界。设 Ω ^ 表示序列 { z ^ k } 的聚点集,如果 L ^ ( ) 满足 Ω ^ 上的KL性质,则以下结论成立:

1) 序列 { z k } 具有有限长度,即: k=0 + z k+1 z k <+

2) 序列 { z k } 收敛到优化问题(1)的临界点。

证明:根据定理1的2)得 lim k L ^ ( z ^ k )= L ^ ( z ^ * ) ,对所有 z ^ * Ω ^ ,我们考虑以下两种情况。

a) 假设存在 k 0 N ,满足 L ^ ( z ^ k 0 )= L ^ ( z ^ * ) 。由引理2的1)知

κ 1 >0 κ 2 >0 时,不等式 κ 1 Δ y k+1 2 + κ 2 Δ x k+1 2 L ^ ( z ^ k ) L ^ ( z ^ k+1 ) 成立。由于假设了 L ^ ( z ^ k 0 )= L ^ ( z ^ * ) ,则对于任意 k> k 0 ,有 L ^ ( z ^ k ) L ^ ( z ^ k+1 ) L ^ ( z ^ k 0 ) L ^ ( z ^ * )=0 。结合 κ 1 >0 κ 2 >0 ,可推出对任意 k> k 0 ,有 x k+1 = x k y k+1 = y k

再结合引理1,可知对任意 k> k 0 λ k+1 = λ k ,综上有 z k+1 = z k

b) 假设对于任意 k>1 ,均有 L ^ ( z ^ k )> L ^ ( z ^ * ) 。因为 d( z ^ k , Ω ^ )0 ,对于给定 ε>0 ,存在 k 1 >0 ,当 k> k 1 时,有 d( z ^ k , Ω ^ )<ε 。又因为 lim k L ^ ( z ^ k )= L ^ ( z ^ ) ,对于给定 η>0 ,存在 k 2 >0 ,当 k> k 2 时,有 L ^ ( z ^ k )< L ^ ( z ^ )+η  。如果 k> k ˜ =max{ k 1 , k 2 } ,那么 d( z ^ k , Ω ^ )<ε L ^ ( z ^ )< L ^ ( z ^ k )< L ^ ( z ^ )+η 。根据性质2,对任意的 k> k ˜ ,存在可微凹函数 φ Φ η ,有 φ ( L ^ ( z ^ k ) L ^ ( z ^ ) )d( 0, L ^ ( z ^ k ) )1 。因为: φ ( L ^ ( z ^ k ) L ^ ( z ^ ) )>0 ,所以

1 φ ( L ^ ( z ^ k ) L ^ ( z ^ ) ) d( 0, L ^ ( z ^ k ) ). (26)

根据 φ 的凹性得

φ( L ^ ( z ^ k ) L ^ ( z ^ ) )φ( L ^ ( z ^ k+1 ) L ^ ( z ^ ) ) φ ( L ^ ( z ^ k ) L ^ ( z ^ ) )( L ^ ( z ^ k ) L ^ ( z ^ k+1 ) )

由此可推导出 0 L ^ ( z ^ k ) L ^ ( z ^ k+1 ) φ( L ^ ( z ^ k ) L ^ ( z ^ ) )φ( L ^ ( z ^ k+1 ) L ^ ( z ^ ) ) φ ( L ^ ( z ^ k ) L ^ ( z ^ ) ) .

为了简化表达,定义 Δ p,q :=φ( L ^ ( z ^ p ) L ^ ( z ^ * ) )φ( L ^ ( z ^ q ) L ^ ( z ^ ) ) ,以及

Γ k = Δ y k1 + Δ y k + Δ x k + Δ x k1 + Δ x k2 .

由(26)式及引理3,对于任意 k1 ,有

L ^ ( z ^ k ) L ^ ( z ^ k+1 ) (26) Δ kk+1 d( 0, L ^ ( z ^ k ) )τ Δ kk+1 Γ k .

根据引理2的1)及上述不等式,可知对任意 k> k ˜ ,有

κ 1 Δ y k+1 2 + κ 2 Δ x k+1 2 τ Δ k,k+1 Γ k .

上述分析表明,存在 ξ=min{ κ 1 , κ 2 }>0 ,使得

Δ x k+1 2 + Δ y k+1 2 τ ξ Δ k,k+1 Γ k .

利用不等式 2ab a 2 + b 2 ,有

( Δ x k+1 + Δ y k+1 ) 2 2( Δ x k+1 2 + Δ y k+1 2 )2 τ ξ Δ k,k+1 Γ k .

可推出

4( Δ x k+1 + Δ y k+1 ) Γ k + 8τ ξ Δ k,k+1 Γ k + Δ y k2 + 8τ ξ Δ k,k+1 .

由于 2 Γ k 1 2 ( 2 2τ ξ Δ k,k+1 1 2 ) Γ k + 8τ ξ Δ k,k+1

根据上述公式得

4 k= k ˜ +1 m ( Δ x k+1 + Δ y k+1 ) k= k ˜ +1 m ( Γ k + Δ y k2 ) + 8τ ξ Δ k ˜ +1,m+1 .

两边取极限 m+ ,得

k= k ˜ +1 + ( Δ x k+1 + Δ y k+1 ) k= k ˜ +1 + ( Δ y k1 + Δ y k + Δ x k + Δ x k1 + Δ x k2 + Δ y k2 )+ 8τ ξ Δ k ˜ +1,m+1 ( 3 Δ y k ˜ +1 +2 Δ y k ˜ + Δ y k ˜ 1 +3 Δ x k ˜ +1 +2 Δ x k ˜ + Δ x k ˜ 1 )+ 8τ ξ φ( L ^ ( z ^ k ˜ +1 ) L ^ ( z ^ ) )

因此, k= k ˜ +1 ( Δ x k+1 + Δ y k+1 ) <+

根据引理1及 0 θ k θ ,我们推导出 k=1 ( Δ λ k+1 ) <+

进一步观察到 z k+1 = ( Δ x k+1 2 + Δ y k+1 2 + Δ λ k+1 2 ) 1 2 Δ x k+1 + Δ y k+1 + Δ λ k+1

由此可得 k=1 Δ z k+1 <+ ,这表明 { z k } 是一个柯西序列,从而 { z k } 收敛。

从定理1,我们知 { z k } 收敛到 L β ( ) 的临界点。

4. 数值实验

下面通过数值实验对比IMBADMM、MBADMM [8]、ADMM [17]、SGD [18]与LBADMM [19]算法的性能。所有实验均在配备16 GB内存、3.20 GHz、AMD Ryzen 7 6800H with Radeon Graphics CPU的联想电脑上进行,操作系统为Windows 11,使用Matlab R2023a版本进行编码和执行。

针对问题(1)考虑稀疏逻辑回归问题,基本模型如下:

min x i=1 n log( 1+exp( b i a i T x ) ) +nρ x q (27)

其中: a i R d 是样本 i( i=1,2,,n ) 的特征向量, b i { 1,1 } 是相应的二分类, ρ 是一个正则化参数, . q

l q 范数,对任意的 x R d x q = ( i=1 n | x i | q ) 1/q q( 0,1 ] 。令 A= ( a 1 , a 2 ,, a n ) T R n×d

b= ( b 1 , b 2 ,, b n ) T R n ,则 ( a i , b i ) ( i{ i=1,2,,n } ) 是训练集 ( a,b ) 的一个样本。该问题有 n 个样本,维数为 d

在实际应用中,我们将(27)式转化为:

min x i=1 n log( 1+exp( b i a i T x ) ) +nρ y q ,   s.t. xy=0. (28)

于是(28)式即为优化问题(1)的形式,其中 f( x )= i=1 n log( 1+exp( b i a i T x ) ) g( y )=nρ y q 。易知: f 是Lipschitz连续的,其Lipschitz连续常数 L= 1 4 A 2 。所以存在一个半正定矩阵 ^ f 使得对任意给定的 x R d ,有:

f( x ) f ^ ( x, x ):=f( x )+ f( x ),x x + 1 2 x x ^ f 2 ,

C i T = b i a i T ,经计算有:

f( x )= i=1 n C i e C i x 1+ e C i x ,  2 f( x )= C i C i T i=1 n C i e C i x ( 1+ e C i x ) 2 _ 1 4 i=1 n C i C i T ,因此, ^ f 的近似项可以选择为: ^ f = 1 4 C C T ,其中 C=[ C 1 ,, C n ] R d×n 。对五种算法最大迭代次数设为5000,取 ρ k =0.01,  θ k =0.01

本实验数据来源于LIBSVM数据库(https://www.csie.ntu.edu.tw/cjlin/libsvmtools/)提供的a2000a数据集进行了数值实验。分别取不同的范数正则项q = 1和q = 1/2,表1展示了IMBADMM、MBADMM、ADMM、SGD以及LBADMM算法在处理稀疏逻辑回归问题(28)时的数值结果比较。观察表1中的数据,在计算效率方面,IMBADMM仅需0.07秒即可完成优化,相比MBADMM提速25~30倍;在收敛速度方面,IMBADMM所需迭代次数最少,相比ADMM减少约50%~65%的迭代次数;特别值得注意的是,在保持计算精度的前提下(q = 1时目标函数值616.01 vs MBADMM的616.02),IMBADMM实现了计算效率的显著提升。对于非光滑情况(q = 1/2),IMBADMM同样展现出强大优势,相比LBADMM将计算时间从11.37秒降至0.07秒,提速162倍,同时迭代次数从2326次减少至57次。这些实验结果充分证明了IMBADMM算法在处理大规模优化问题的卓越性能。与随机梯度下降(SGD)算法的对比显示:虽然SGD在计算时间上略有优势(0.02 s vs 0.07 s),但IMBADMM在优化质量和收敛性方面表现出优势。为了直观分析算法的收敛性能,我们分别绘制了IMBADMM、MBADMM和ADMM算法在参数取值为q = 1和q = 1/2时的收敛曲线。其中,图1展示了IMBADMM算法的误差随迭代次数的演化过程,图2则呈现了三种算法的目标函数值随迭代次数的收敛特性。通过图2可知,IMBADMM算法展现出最平滑的收敛轨迹,算法更具有稳定性且收敛速度快。

Table 1. Comparison of numerical results of the five algorithms

1. 五个算法的数值结果对比

算法

维度大小

数据来源

迭代次数

计算时间/s

目标函数值

IMBADMM (q = 1)

999 × 60

a2000a

55

0.07

616.01

MBADMM (q = 1)

999 × 60

a2000a

55

1.82

616.02

ADMM (q = 1)

999 × 60

a2000a

119

1.76

613.91

SGD (q = 1)

999 × 60

a2000a

150

0.02

962.71

LBADMM (q = 1)

999 × 60

a2000a

3006

1.18

620.00

IMBADMM (q = 1/2)

999 × 60

a2000a

57

0.07

672.07

MBADMM (q = 1/2)

999 × 60

a2000a

57

2.07

672.07

ADMM (q = 1/2)

999 × 60

a2000a

166

1.96

670.5

SGD (q = 1/2)

999 × 60

a2000a

150

0.02

1395.03

LBADMM (q = 1/2)

999 × 60

a2000a

2326

11.37

692.45

Figure 1. Evolution curve of the error with number of iterations when q = 1 and q = 1/2

1.q = 1和q = 1/2时,误差随迭代次数的演化曲线

Figure 2. Evolution curve of the objective function value with the number of iterations when q = 1 and q = 1/2

2.q = 1和q = 1/2时,目标函数值随迭代次数的演化曲线

5. 结论

本文针对非凸两分块优化问题,提出了一种带惯性项的Majorized Bregman交替方向乘子法(简称IMBADMM),新算法结合了Majorized Bregman ADMM和惯性Bregman generalized ADMM的基本思想。 在适当的条件下,我们建立了算法的子序列收敛性和全局收敛性。最后,初步数值实验结果表明IMBADMM算法的有效性和可靠性。

基金项目

广西自然科学基金(2022GXNSFAA035618)。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] Schizas, I.D., Ribeiro, A. and Giannakis, G.B. (2007) Consensus in AD Hoc WSNs with Noisy Links—Part I: Distributed Estimation of Deterministic Signals. IEEE Transactions on Signal Processing, 56, 350-364.
https://doi.org/10.1109/TSP.2007.906734
[2] Afonso, M.V., Bioucas-Dias, J.M. and Figueiredo, M.A.T. (2010) An Augmented Lagrangian Approach to the Constrained Optimization Formulation of Imaging Inverse Problems. IEEE Transactions on Image Processing, 20, 681-695.
https://doi.org/10.1109/TIP.2010.2076294
[3] Dhar, S., Yi, C., Ramakrishnan, N. and Shah, M. (2015) ADMM Based Scalable Machine Learning on Spark. 2015 IEEE International Conference on Big Data (Big Data), Santa Clara, 29 October 2015-1 November 2015, 1174-1182.
https://doi.org/10.1109/bigdata.2015.7363871
[4] Yang, Q., Chen, G. and Wang, T. (2020) ADMM-Based Distributed Algorithm for Economic Dispatch in Power Systems with Both Packet Drops and Communication Delays. IEEE/CAA Journal of Automatica Sinica, 7, 842-852.
https://doi.org/10.1109/jas.2020.1003156
[5] 邓钊, 晁绵涛, 简金宝. 非凸两分块问题乘子交替方向法的收敛性分析[J]. 广西科学, 2016, 23(5): 422-427.
[6] Wang, Y., Yin, W. and Zeng, J. (2019) Global Convergence of ADMM in Nonconvex Nonsmooth Optimization. Journal of Scientific Computing, 78, 29-63.
https://doi.org/10.1007/s10915-018-0757-z
[7] Wang, F., Cao, W. and Xu, Z. (2018) Convergence of Multi-Block Bregman ADMM for Nonconvex Composite Problems. Science China Information Sciences, 61, Article No. 12201.
https://doi.org/10.1007/s11432-017-9367-6
[8] 陈建华, 彭建文, 罗洪林. 求解非凸两分块优化问题的Majorized Bregman交替方向乘子法[J]. 重庆师范大学学报(自然科学版), 2023, 40(5): 1-10.
[9] Polyak, B.T. (1964) Some Methods of Speeding up the Convergence of Iteration Methods. USSR Computational Mathematics and Mathematical Physics, 4, 1-17.
https://doi.org/10.1016/0041-5553(64)90137-5
[10] Ochs, P., Chen, Y., Brox, T. and Pock, T. (2014) iPiano: Inertial Proximal Algorithm for Nonconvex Optimization. SIAM Journal on Imaging Sciences, 7, 1388-1419.
https://doi.org/10.1137/130942954
[11] Boţ, R.I., Csetnek, E.R. and László, S.C. (2016) An Inertial Forward-Backward Algorithm for the Minimization of the Sum of Two Nonconvex Functions. EURO Journal on Computational Optimization, 4, 3-25.
https://doi.org/10.1007/s13675-015-0045-8
[12] Xu, J. and Chao, M. (2022) An Inertial Bregman Generalized Alternating Direction Method of Multipliers for Nonconvex Optimization. Journal of Applied Mathematics and Computing, 68, 1-27.
https://doi.org/10.1007/s12190-021-01590-1
[13] Chao, M.T., Zhang, Y. and Jian, J.B. (2020) An Inertial Proximal Alternating Direction Method of Multipliers for Nonconvex Optimization. International Journal of Computer Mathematics, 98, 1199-1217.
https://doi.org/10.1080/00207160.2020.1812585
[14] 刘浩洋, 户将, 李勇锋, 等. 最优化: 建模、算法与理论[M]. 北京: 高等教育出版社, 2020.
[15] Wang, F., Xu, Z. and Xu, H.K. (2014) Convergence of Bregman Alternating Direction Method with Multipliers for Nonconvex Composite Problems. arXiv:1410.8625.
[16] Gonçalves, M.L.N, Melo, J.G. and Monteiro, R.D.C. (2017) Convergence Rate Bounds for a Proximal ADMM with Over-Relaxation Step Size Parameter for Solving Nonconvex Linearly Constrained Problems. arXiv:1702.01850.
[17] Boyd, S. (2010) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends® in Machine Learning, 3, 1-122.
https://doi.org/10.1561/2200000016
[18] 李晶晶. 基于梯度的三种优化方法及比较[J]. 统计学与应用, 2024, 13(1): 21-29.
[19] Chao, M., Deng, Z. and Jian, J. (2020) Convergence of Linear Bregman ADMM for Nonconvex and Nonsmooth Problems with Nonseparable Structure. Complexity, 2020, Article 6237942.
https://doi.org/10.1155/2020/6237942