随机邻近牛顿型交替极小化算法
Stochastic Proximity Newtonian Alternating Miniaturization Algorithm
摘要: 本文研究一类大规模有限和形式的非凸非光滑复合优化问题,其目标函数为适当下半连续凸函数与连续可微函数(有限和形式)之和。邻近交替线性极小化算法在求解这类问题上有显著优势,但考虑到针对大规模优化问题,该算法需在每一迭代计算全梯度,成本较高,故本文将目标函数光滑部分的随机梯度引入到已有算法,以降低算法的计算成本。此外,考虑到一阶算法在求解病态问题时速度较慢,故本文在算法中引入目标函数的二阶信息,提出了一种随机邻近牛顿型交替极小化算法。在适当的步长边界的基础上,我们建立了算法在期望意义下的全局收敛性。本文提出的随机邻近牛顿型交替极小化算法,不仅提升了算法在机器学习、统计学和图像处理等领域实际应用中的效率和实用性,也为非凸非光滑优化领域的理论发展提供了新的理论基础和算法框架。
Abstract: This article investigates a class of large-scale finite and structured nonconvex nonsmooth composite optimization problems, where the objective function is the sum of an appropriately lower semicontinuous convex function and a continuous differentiable function (finite and structured). The alternating linear minimization algorithm has significant advantages in solving such problems. However, considering the large-scale optimization problems, this algorithm requires computing the full gradient at each iteration, which is costly. Therefore, this article introduces the stochastic gradient of the smooth part of the objective function into the existing algorithm to reduce the computational cost. Additionally, considering that first-order algorithms are slow in solving ill-conditioned problems, this article incorporates the second-order information of the objective function into the algorithm and proposes a stochastic proximal Newton-type alternating minimization algorithm. Based on appropriate step size bounds, we establish the global convergence of the algorithm in the expected sense. The stochastic neighborhood Newton-type alternating minimization algorithm proposed in this paper not only improves the efficiency and practicability of the algorithm in practical applications in the fields of machine learning, statistics and image processing, but also provides a new theoretical foundation and algorithmic framework for the theoretical development in the field of nonconvex nonsmooth optimization.
文章引用:黄静仪, 高任杰, 李磊. 随机邻近牛顿型交替极小化算法[J]. 运筹与模糊学, 2024, 14(6): 676-688. https://doi.org/10.12677/orf.2024.146568

1. 引言

1.1. 研究背景及意义

随着信息技术的高速发展,许多学科领域涌现出了许多大规模优化问题,因此对于优化问题的高效求解,是当今研究的热点问题之一。本文研究的是一类具有有限和形式的非凸非光滑复合优化问题,该问题的具体格式如下:

minψ( x,y )=f( x )+g( y )+H( x,y ), (1.1)

其中 f( x ) g( y ) 是适当下半连续凸函数, H( x,y )= h i ( x,y )i=1,2,,n 是连续可微函数。这类模型在许多领域都有应用,包括机器学习、统计学和图像处理等。典型的例子包括非负或稀疏矩阵分解[1]、稀疏(PCA) [2] [3]、鲁棒PCA [4]、最小二乘[5]和盲图像反卷积[6]等。下面我们给出稀疏非负矩阵分解(sparse-NMF)模型,该模型的具体形式为

min AXY F 2 , X,Y0,  X i 0 s,  i=1,,r,

其中 X i 表示X的第i列。在字典学习和稀疏编码中,X被称为系数为Y的学习字典。在该模型中,X上的稀疏性使用非凸 l 0 约束。模型可以表述为问题(1.1)的形式,具体地,我们假设 f( x )= δ Ω 1 ( X ) Ω 1 ={ X0, X j 0 s,j=1,,r } g( Y )= δ Ω 2 ( Y ) Ω 2 ={ Y0 } H( X,Y )= h i ( X,Y ) = ( e p T ( AXY ) e q ) 2 ,其中 e j 是第j个元素为1,其他元素均为0的向量。形如问题(1.1)的有限和形式的非凸非光滑复合优化问题在机器学习,图像处理和计算机视觉等领域中存在广泛应用,因此研究计算成本低、收敛速度快的算法是很有必要的。

1.2. 研究现状

针对非凸非光滑复合优化问题(1.1),一个经典的求解算法是交替极小化算法(alternating minimization, AM) [7],当函数凸且连续可微时,若其中一个参数固定时,关于另外一个参数它是严格凸的,那么用这种方法生成的序列的每一个极限点都是的极小点。AM算法为一系列研究此问题的算法提供了理论或实践上的支撑。然而在许多实际问题中,目标函数通常不满足上述较为严格的条件。为克服收敛性条件较强的缺陷,一些学者通过在AM算法的子问题中引入邻近项,提出了PAM算法[8],在非凸情形下,当目标函数满足KL性质时,该算法的收敛性分析已被建立。然而,PAM算法涉及两个函数和的邻近算子的计算,这通常是难以求解的。Bolte等人[9]通过将目标函数中的光滑部分进行线性化处理,提出了邻近交替线性极小化算法(Proximal alternating linearized minimization, PALM),其具体迭代格式如下所示:

x k+1 argmin{ f( x )+ x H( x k , y k ),x x k + c k 2 x x k 2 },

y k+1 argmin{ g( y )+ y H( x k+1 , y k ),y y k + d k 2 y y k 2 }.

需要说明的是,PALM算法中子问题通常有显式解或易于求解。在非凸情形下,Bolte等人在KL框架下证明了PALM算法的全局收敛性。本文正是围绕PALM算法的改进展开的。Bolte等人的工作为本文的研究提供了算法设计的灵感,展示了如何通过交替优化策略来处理非凸非光滑问题,而且他们的全局收敛性证明为本文的算法分析提供了理论基础。

针对非凸非光滑复合优化问题(1.1),当n很大的时候,PALM算法在每次迭代计算成本将非常昂

贵,因为它需要涉及到对全梯度 H( x,y ):= 1 n i=1 n h i ( x,y ) 的计算,这将导致较大的计算成本。为了克服这个问题,针对 f=g=0 ,仅涉及变量x的情形,随机梯度算法(SGD) [10]被提出,但是SGD要求步长随迭代进程不断衰减到0以弥补随机梯度带来的方差。为提高SGD算法的求解效率,一系列方差缩减的随机梯度算法被提出,包括SVRG [11],SAGA [12],SARAH [13]等。随机梯度也被引入到邻近梯度算法,用以邻近梯度算法的降低计算成本,包括prox-SGD,prox-SVRG,prox-SAGA [14]和prox-SARAH [15]等。本文在处理大规模优化问题时,在设计算法的迭代步骤时引入随机梯度,大大降低计算成本。

近年来,针对非凸非光滑复合优化问题(1.1),已有学者将随机梯度策略引入到PALM算法中,提出了一系列随机的PALM算法。具体的,Xu和Yin [16]首先将简单随机梯度下降法(SGD)与PALM相结合,提出了块随机梯度法(BSG)并在对目标函数 ψ 的一些较为苛刻的假设条件下,证明了BSG方法的收敛性。基于此,Driggs等人[17]提出了一种随机邻近交替线性极小化(SPRING)的方法,其中他们使用了方差减少的随机梯度算法,而不是BSG方法中使用的简单的SGD算法。数值实验表明,SPRING的收敛速度比BSG方法快。值得注意的是,与Xu和Yin的先前工作相比,SPRING的收敛性是在对目标函数更弱的假设下建立的。

然而,针对病态问题,上述一阶算法存在收敛速度较慢的问题。一个自然的想法是在算法中引入目标函数的二阶信息,以提升算法的求解速度。针对邻近梯度算法,Yang等人[18]提出了一个随机外推拟牛顿算法(stochastic extra-step quasi-Newton method),并证明了该算法在期望意义下的次线性收敛率。本文受到了他们方法的启发,在算法中通过残差方程引入目标函数的二阶信息,这些策略有助于提高算法的收敛速度。

本文扩展了PALM算法,通过引入随机梯度和二阶信息,提出了随机邻近牛顿型交替极小化算法。在计算效率和收敛速度上都有显著提升,这对于解决大规模优化问题尤为重要。

1.3. 本文的动机与贡献

考虑到一阶算法在处理病态问题时,收敛速度较慢,甚至有时不收敛。针对非凸非光滑复合优化问题(1.1),我们希望引入高阶信息以提升一阶算法的收敛速度,此外引入随机梯度算法以实现计算量的降低。具体的,本文将随机邻近牛顿型算法与邻近交替线性极小化算法相结合,提出了随机邻近牛顿型交替极小化算法,并对该算法的收敛性分析进行了证明。

1.4. 文章框架

本文框架如下,在第二节中,给出了本文所需要用到的基本符号、定义以及相关引理。在第三节中,我们给出了随机邻近牛顿型交替极小化算法的具体迭代格式,并给出算法在基本假设下的收敛性分析。在第四节,我们进行了总结。

2. 预备知识

纸型

为便于下文研究本文所提出算法的收敛性,本节将介绍文中涉及到的符号、定义以及相关引理。首先,我们对文中所涉及到的符号做出如下定义:用 , := 2 表示标准欧几里得内积和范数。对称正定 n×n 矩阵的集合用 S ++ n 表示。对于给定矩阵 Λ S ++ n ,我们定义内积 x,y Λ := x,Λy = Λx,y x Λ := x,x Λ 。对于任意 n ,我们令 [ n ]:={ 1,,n } [ n ] 0 ={ 0 }[ n ] 。设 ( Ω,F,P ) 为概率空间。我们将使用大写字母来描述随机变量 X:Ω n Y:Ω n 。而小写字母通常保留给随机变量 x:Ω n y:Ω n 。我们用 L p ( Ω ):= L p ( Ω,Ρ ) p[ 1, ] 来表示Ω上的标准 L p 空间。我们用 XF 表示X是可测量的。此外, σ( X 1 ,, X k ) 表示由随机变量族 X 1 ,, X k 生成。对于随机变量 X L 1 ( Ω ) 和子 σ 代数 HF ,给定H的X的条件期望记为 Ε[ X|H ] 。我们使用缩写“a.e.”和“a.s.”,分别代表“几乎处处”和“几乎一定”。

定义2.1 (凸函数的次微分) 设 f: n { + } 为适当下半连续凸函数,对 xdomf ,函数f在点x处的次微分记作 f( x ) ,定义为所有满足下述条件的 u n 所构成的集合:

f( y )f( x )+ u,yx ,y n .

xdomf ,定义f在该点的次微分 f( x )=

定义2.2 (L-光滑) 对于可微函数 f: n ,若存在常数 L>0 ,使其满足下列不等式

f( x )f( y ) L xy ,  x,y n .

则称函数f是梯度Lipschitz连续的,其中L为Lipschitz常数。

引理2.1 (下降引理) 函数 f: n 是可微的且L-光滑(L > 0),则它满足下列不等式:

f( y )f( x )+ f( x ),yx + L 2 xy 2 ,x,y n .

3. 随机邻近牛顿型交替极小化算法及其收敛性分析

针对大规模非凸非光滑复合优化问题(1.1),许多确定型一阶算法已被设计用以对其进行求解。但确定型算法由于计算量较大导致计算成本昂贵,如PALM算法在处理有限和形式的非凸非光滑复合优化问题时,需计算光滑部分函数的所有梯度,这将导致较大的计算成本。此外,由于一阶算法在求解病态问题时,求解速度较慢,甚至不收敛,因此将二阶信息引入到算法中,以实现算法的快速高效求解,也是本文需要考虑的一点。

具体的,在算法设计方面,为降低计算成本,提高算法的求解速度,本文将提出一种新颖的算法,即将随机梯度思想引入到PALM算法中,并借助广义残差方程引入目标函数的二阶信息,从而设计出随机邻近牛顿型交替极小化算法。在理论分析方面,本文在非凸情形下建立目标函数在期望意义下的下降性分析,进而证明出该算法收敛性。

3.1. 随机邻近牛顿型交替极小化算法

在这一小节,我们给出本文所提算法的具体结构。为更好的描述算法,我们首先给出相关符号解释。

首先,问题(1.1)最优性条件可以等价地改写为一个不动点方程,即点 x,ydomψ 是(1.1)的稳定点当且仅当

{ R α x ( x )=xpro x α x f ( x α x x H( x,y ) )=0,  α x R + , R α y ( y )=ypro x α y g ( y α y y H( x,y ) )=0,  α y R + .

邻近算子是稳定非扩张的,即它是一个常数为1的全局Lipschitz连续函数,且满足:

{ pro x α x f ( x 1 )pro x α x f ( x 2 ) 2 x 1 x 2 ,pro x α x f ( x 1 )pro x α x f ( x 2 ) ,   x 1 , x 2 ; pro x α y g ( y 1 )pro x α y g ( y 2 ) 2 y 1 y 2 ,pro x α y g ( y 1 )pro x α y g ( y 2 ) ,   y 1 , y 2 .

给定随机方向 v x , v y n ,我们考虑不动点方程的变体

{ R v x α x ( x )=xpro x α x f ( x α x v x ); R v y α y ( y )=ypro x α y g ( y α y v y ).

我们用

{ p v x α x ( x )=pro x α x f ( x α x v x ) p v y α y ( y )=pro x α y g ( y α y v y )

分别表示关于 x,y 的随机邻近梯度步。当 v x = x H( x,y ), v y = y H( x,y ) 时,用 p α x ( x ), p α y ( y ) 分别表示关于 x,y 的邻近梯度步。

下面给出算法的具体框架和步骤。

算法1 随机邻近牛顿型交替极小化算法

初始化:选择正的步长 { α x k } k { α x,+ k } k { λ x k } k { β x k } k ,点 ( x 0 , y 0 )domψ

For k=0,1, do

计算随机梯度 v x k x H( x k , y k ) ,残差

R v x k α x k ( x k )= x k pro x α x k f ( x k α x k v x k ). (3.1)

以及方向 d x k = W x k R v x k α x k 。计算 x ¯ k = x k + β x k d x k 及随机梯度 v x,+ k x H( x ¯ k , y k ) ,并执行更新

x k+1 =pro x α x,+ k f ( x k + λ x k d x k α x,+ k v x,+ k ). (3.2)

计算随机梯度 v y k y H( x k+1 , y k ) ,以及残差

R v y k α y k ( y k )= y k pro x α y k g ( y k α y k v y k ). (3.3)

和方向 d y k = W y k R v y k α y k 。计算 y ¯ k = y k + β y k d y k 及随机梯度 v y,+ k y H( x k+1 , y ¯ k ) ,并执行更新

y k+1 =pro x α y,+ k g ( y k + λ y k d y k α y,+ k v y,+ k ). (3.4)

本文算法根据残差方程的随机变体生成方向 d x d y ,基于此在算法中引入了目标函数的二阶信息。具体来说,本文考虑下述形式的方向

{ d x = W x R v x α x ( x ); d y = W y R v y α y ( y ).

其中矩阵 W x , W y n×n 用以对基本随机邻近梯度方向 R v x α x ( x ), R v y α y ( y ) 进行细化和改进, v x x H( x,y ) 是对 x H( x,y ) 的随机近似, v y y H( x,y ) 是对 y H( x,y ) 的随机近似。针对每一迭代步x的更新,我们首先通过 x ¯ =x+βd 计算一个新的点,然后执行额外的邻近梯度步骤,以获得下一个迭代点 x +

[ x ¯ =x+ β x d x x + =pro x α x,+ f ( x+ λ x d x α x,+ v x,+ ).

其中 λ x , β x 0, α x , α x,+ + 是合适的步长参数, v x,+ n 是梯度 x H( x,y ) 的随机近似。y的更新过程与x的更新类似,这里不再赘述。

3.2. 基本假设

为了分析随机邻近牛顿型交替极小化算法的收敛性及收敛率分析,在这一小节我们首先给出保障算法收敛性的相关假设,具体如下。

假设1 给定函数 H( x,y ): n × n ,设

(A.1) H( x,y ) 关于 x, y 都连续可微,且梯度映射 x H( x,y ) y H( x,y ) n 上是Lipschitz连续的,模 L x , L y 1

(A.2) 目标函数 ψ domf×domg 上下有界。

本文假设随机近似 v x k v x,+ k 对应于随机向量 V x k :Ω n V x,+ k :Ω n 的实现, v y k v y,+ k 对应于随机向量 V y k :Ω n V y,+ k :Ω n 的实现。此外,我们假设概率空间 ( Ω,F,P ) 足够丰富,允许我们以统一的方式建模所涉及的随机过程。我们现在定义滤流

F k :=σ( V x 0 , V x,+ 0 ,, V x k , V y 0 , V y,+ 0 ,, V y k ),  F + k :=σ( F x k σ( V x,+ k ) F y k σ( V y,+ k ) ).

{ D x k } k 表示与算法中选择的方向 { d x k } k 相关的随机过程, { d y k } k 表示与算法中选择的方向 { d y k } k 相关的随机过程。我们给出一下随机假设。

假设2 (B.1) 映射 D x k :Ω n D y k :Ω n 对于所有k是可测的。

(B.2) 存在 v k >0 ,使得对于所有 k ,都有

E[ D y k 2 | F + k1 ] v k 2 E[ R V y k λ k ( Y k ) 2 | F + k1 ] a.e.

(B.3) 对于所有 k E[ V x k | F + k1 ]= x H( X k , Y k ) E[ V x,+ k | F k ]= x H( X ¯ k , Y k ) E[ V y k | F + k1 ]= y H( X k+1 , Y k ) E[ V y,+ k | F k ]= y H( X k+1 , Y ¯ k ) a.e.,且存在 σ k , σ k,+ >0 ,使得

E[ x H( X k , Y k ) V k 2 | F + k1 ] σ k 2 E[ x H( X ¯ k , Y k ) V + k 2 | F k ] σ k,+ 2 a.e,

E[ y H( X k+1 , Y k ) V k 2 | F + k1 ] σ k 2 E[ y H( X k+1 , Y ¯ k ) V + k 2 | F k ] σ k,+ 2 a.e。

假设2 (B.3)中 V x k V x,+ k V y k V y,+ k 的条件在随机优化中很常见[19]。第二个假设要求所选方向 { d x k } k 和随机过程 { D x k } k 与随机非光滑残差 R v x k λ k ( X k ) k 有关,并且所选方向 { d y k } k 和随机过程 { D y k } k 与随机非光滑残差 R v y k λ k ( Y k ) k 相关。在假设(B.1)下,算法的设计意味着 { ( X k , Y k ) } k { ( X k+1 , Y k ) } k 适用于滤流 F k { ( X ¯ k , Y k ) } k { ( X k+1 , Y ¯ k ) } k 适用于滤流 F + k 。即我们有

{ ( X ¯ k , Y k ) } k , { ( X k+1 , Y ¯ k ) } k F k 并且 { ( X k+1 , Y k+1 ) } k , { ( X k+2 , Y k+1 ) } k F + k k0

3.3. 算法的收敛性分析

本节对提出的算法的收敛性展开分析,首先给出4个辅助引理以建立目标函数 ψ 的近似下降性,最后在定理1中证明了算法的收敛性。下面首先给出引理1,在该引理中给出了目标函数f的近似下降性。

引理1假设1成立, { ( x k , y k ) } k 为随机邻近牛顿型交替极小化算法生成的序列,则有

f( x k+1 )f( x k ) λ x k α x,+ k d x k v x,+ k , x k+1 p v x k α x k ( x k ) + v x k , p α x k ( x k ) p v x k α x k ( x k )                              + x H( x k , y k ), x k p α x k ( x k ) + 1 2 α x,+ k x k p v x k α x k ( x k ) 2 (3.5)

证明由迭代 x k+1 =pro x α x,+ k f ( x k + λ x k d x k α x,+ k v x,+ k ) 的最优性条件可得

0f( x k+1 )+ v x,+ k + 1 α x,+ k ( x k+1 x k λ x k d x k ),

进一步有

1 α x,+ k ( x k + λ x k d x k x k+1 α x,+ k v x,+ k )f( x k+1 ). (3.6)

利用函数f的凸性可知,

f( x k+1 )f( p v x k α x k ( x k ) ) f( x k+1 ), x k+1 p v x k α x k ( x k ) . (3.7)

结合公式(3.5)和(3.6)可得:

f( x k+1 )f( p v x k α x k ( x k ) ) λ x k α x,+ k d x k v x,+ k , x k+1 p v x k α x k ( x k ) + 1 α x,+ k x k x k+1 , x k+1 p v x k α x k ( x k )                                    = λ x k α x,+ k d x k v x,+ k , x k+1 p v x k α x k ( x k ) + 1 2 α x,+ k x k p v x k α x k ( x k ) 2 (3.8)

其中等式是由 ab,cd = 1 2 ( ab 2 ac 2 + bc 2 bd 2 ) 得到的。

p v x k α x k ( x k )=pro x α x k f ( x k α x k v x k ) 可得,

1 α x k ( x k p v x k α x k ( x k ) ) v x k f( p v x k α x k ( x k ) ), (3.9)

又由函数f的凸性可知

f( p v x k α x k ( x k ) )f( p α x k ( x k ) ) f( p v x k α x k ( x k ) ), p v x k α x k ( x k ) p α x k ( x k ) . (3.10)

因此

f( p v x k α x k ( x k ) )f( p α x k ( x k ) ) v x k , p α x k ( x k ) p v x k α x k ( x k ) + 1 2 α x k x k p α x ( x k ) 2                                                1 2 α x k p v x k α x k ( x k ) x k 2 1 2 α x k p v x k α x k ( x k ) p α x ( x k ) 2 . (3.11)

p α x k ( x k ) 的定义可得

1 α x k ( x k p α x k ( x k ) ) x H( x k , y k )f( p α x k ( x k ) ), (3.12)

又由函数f的凸性可知

f( p α x k ( x k ) )f( x k ) f( p α x k ( x k ) ),  p α x k ( x k ) x k , (3.13)

由(3.11)、(3.12)得

f( p α x k ( x k ) )f( x k ) x H( x k , y k ), x k p α x k ( x k ) + 1 2 α x k x k x k 2                                      1 2 α x k p α x k ( x k ) x k 2 1 2 α x k p α x k ( x k ) x k 2 . (3.14)

结合公式(3.7),(3.10)和(3.13)可得(3.14)。

类似的,对于变量y,有以下结论。

引理2假设1成立, { ( x k , y k ) } k 为随机邻近牛顿型交替极小化算法生成的序列,则有

g( y k+1 )g( y k ) λ y k α y,+ k d y k v y,+ k , y k+1 p v y k α y k ( y k ) + v y k , p α y k ( y k ) p v y k α y k ( y k )                              + y H( x k+1 , y k ), y k p α y k ( y k ) + 1 2 α y,+ k y k p v y k α y k ( y k ) 2 (3.15)

基于引理1和引理2,可以建立 ψ 的近似下降性。首先,由 ψ 定义可得

   ψ( x k+1 , y k+1 )ψ( x k , y k ) =f( x k+1 )+g( y k+1 )+H( x k+1 , y k+1 )f( x k )g( y k )H( x k , y k ) =f( x k+1 )+H( x k+1 , y k )( f( x k )+H( x k , y k ) )    +g( y k+1 )+H( x k+1 , y k+1 )( g( y k )+H( x k+1 , y k ) ), (3.16)

下面首先给出 f( x k+1 )+H( x k+1 , y k )( f( x k )+H( x k , y k ) ) 的近似下降性。

引理3假设1成立, { ( x k , y k ) } kN 为随机邻近牛顿型交替极小化算法生成的序列,则有

    f( x k+1 )+H( x k+1 , y k )( f( x k )+H( x k , y k ) ) α x,+ k 2 ( L x β x k + λ x k α x,+ k ) 2 d x k 2 + α x,+ k 2 x H( x ¯ k , y k ) v x,+ k 2   + x H( x ¯ k , y k ) v x,+ k , α x,+ k ( x H( x k , y k ) x H( x ¯ k , y k ) )+ λ x k d x k   + α x k 2 x H( x k , y k ) v x k 2 +( 1 2 α x,+ k 1 2 α x k ) x k p v x k α x k ( x k ) 2    +( L x 2 1 2 α x,+ k ) x k+1 x k 2 1 2 α x k x k p α x k ( x k ) 2 . (3.17)

证明关于H的部分我们使用下降引理可得

H( x k+1 , y k )H( x k , y k )+ x H( x k , y k ), x k+1 x k + L x 2 x k+1 x k 2 , (3.18)

则由(3.5)和(3.18)可得:

    f( x k+1 )+H( x k+1 , y k )( f( x k )+H( x k , y k ) ) λ x k α x,+ k d x k v x,+ k , x k+1 p v x k α x k ( x k ) + v x k , p α x k ( x k ) p v x k α x k ( x k )   + x H( x k , y k ), x k p α x k ( x k ) + x H( x k , y k ), x k+1 x k   +( 1 2 α x,+ k 1 2 α x k ) x k p v x k α x k ( x k ) 2 1 2 α x,+ k x k x k+1 2 1 2 α x,+ k x k+1 p v x k α x k ( x k ) 2    1 2 α x k p v x k α x k ( x k ) p α x ( x k ) 2 1 2 α x k p α x k ( x k ) x k 2 + Lx 2 x k+1 x k 2 ,

整理可得

    f( x k+1 )+H( x k+1 , y k )( f( x k )+H( x k , y k ) ) λ x k α x,+ k d x k v x,+ k , x k+1 p v x k α x k ( x k ) + v x k , p α x k ( x k ) p v x k α x k ( x k )   + x H( x k , y k ), x k+1 p v x k α x k ( x k )+ p v x k α x k ( x k ) p α x k ( x k )   +( 1 2 α x,+ k 1 2 α x k ) x k p v x k α x k ( x k ) 2 1 2 α x,+ k x k x k+1 2 1 2 α x,+ k x k+1 p v x k α x k ( x k ) 2    1 2 α x k p v x k α x k ( x k ) p α x ( x k ) 2 1 2 α x k p α x k ( x k ) x k 2 + Lx 2 x k+1 x k 2 x H( x k , y k )+ λ x k α x,+ k d x k v x,+ k , x k+1 p v x k α x k ( x k )   + x H( x k , y k ) v x k , p v x k α x k ( x k ) p α x k ( x k ) +( 1 2 α x,+ k 1 2 α x k ) x k p v x k α x k ( x k ) 2    +( L x 2 1 2 α x,+ k ) x k+1 x k 2 1 2 α x,+ k x k+1 p v x k α x k ( x k ) 2    1 2 α x k p v x k α x k ( x k ) p α x ( x k ) 2 1 2 α x k p α x k ( x k ) x k 2 . (3.19)

利用公式(3.18)和不等式 2 a,b α x k a 2 + 1 α x k b 2 可得

   f( x k+1 )+H( x k+1 , y k )( f( x k )+H( x k , y k ) ) α x,+ k 2 x H( x k , y k )+ λ x k α x,+ k d x k v x,+ k 2 + α x k 2 x H( x k , y k ) v x k 2   +( 1 2 α x,+ k 1 2 α x k ) x k p v x k α x k ( x k ) 2 +( L x 2 1 2 α x,+ k ) x k+1 x k 2 1 2 α x k x k p α x k ( x k ) 2

α x,+ k 2 x H( x k , y k ) x H( x ¯ k , y k )+ λ x k α x,+ k d x k 2 + α x,+ k 2 x H( x ¯ k , y k ) v x,+ k 2   + x H( x ¯ k , y k ) v x,+ k , α x,+ k ( x H( x k , y k ) x H( x ¯ k , y k ) )+ λ x k d x k   + α x k 2 x H( x k , y k ) v x k 2 +( 1 2 α x,+ k 1 2 α x k ) x k p v x k α x k ( x k ) 2    +( L x 2 1 2 α x,+ k ) x k+1 x k 2 1 2 α x k x k p α x k ( x k ) 2 ,

其中第二个不等式利用了 a+b 2 2 a 2 +2 b 2 。进一步,根据 H( x,y ) 关于变量x连续可微且 x ¯ k = x k + β x k d x k 可得(3.17)。

类似地,我们可以建立 g( y k+1 )+H( x k+1 ,  y k+1 )( g( y k )+H( x k+1 ,  y k ) ) 的近似下降性。

引理4假设1成立, { ( x k , y k ) } kN 为随机邻近牛顿型交替极小化算法生成的序列,则有

   g( y k+1 )+H( x k+1 , y k+1 )( g( y k )+H( x k+1 , y k ) ) α y,+ k 2 ( L y β y k + λ y k α y,+ k ) 2 d y k 2 + α y,+ k 2 y H( x k+1 , y ¯ k ) v y,+ k 2   + y H( x k+1 , y ¯ k ) v y,+ k , α y,+ k ( y H( x k+1 , y k ) y H( x k+1 , y ¯ k ) )+ λ y k d y k   + α y k 2 y H( x k+1 , y k ) v y k 2 +( 1 2 α y,+ k 1 2 α y k ) y k p v y k α y k ( y k ) 2    +( L y 2 1 2 α y,+ k ) y k+1 y k 2 1 2 α y k y k p α y k ( y k ) 2 . (3.20)

基于引理1~4,下面给出算法的收敛性分析。

定理1令随机过程 { ( X k , Y k ) } k 为算法生成的序列。假设1和假设2成立,且步长 { α x k } k , { α x,+ k } k , { λ x k } k , { β x k } k 以及 { α y k } k , { α y,+ k } k , { λ y k } k , { β y k } k 满足对于所有的 k 和某个 ρ ¯ ( 0,1 ) 有以下式子成立

α x,+ k 1 L x ,  α x k ( 1 ρ ¯ ) α x,+ k 1+ ( v x k ) 2 ( α x k + L x β x k α x,+ k ) 2 ;  α y,+ k 1 L y ,  α y k ( 1 ρ ¯ ) α y,+ k 1+ ( v y k ) 2 ( α y k + L y β y k α y,+ k ) 2 . (3.21)

则若 α x k = α x k ( σ x k ) 2 < α x,+ k ( σ x,+ k ) 2 < α y k = α y k ( σ y k ) 2 < ,有

lim inf k E[ F 1 ( X k ) 2 ]=0 lim inf k E[ F 1 ( Y k ) 2 ]=0 lim inf k F 1 ( X k ) =0

lim inf k F 1 ( Y k ) =0 a.s.,并且 lim k E X k+1 X k =0 lim k E Y k+1 Y k =0

证明: F + k1 F k X k , D x k , X ¯ k , Y k , D y k , Y ¯ k F k 可得下述结果几乎处处成立

  E[ x H( X ¯ k , Y k ) V x,+ k , α x,+ k ( x H( X k , Y k ) x H( X ¯ k , Y k ) )+ λ x k D x k | + k1 ] =E[ E[ x H( X ¯ k , Y k ) V x,+ k | k ], α x,+ k ( x H( X k , Y k ) x H( X ¯ k , Y k ) )+ λ x k D x k | + k1 ] =0,

  E[ y H( X k+1 , Y ¯ k ) V y,+ k , α y,+ k ( y H( X k+1 , Y k ) y H( X k+1 , Y ¯ k ) )+ λ y k D y k | + k1 ] =E[ E[ y H( X k+1 , Y ¯ k ) V y,+ k | k ], α y,+ k ( y H( X k+1 , Y k ) y H( X k+1 , Y ¯ k ) )+ λ y k D y k | + k1 ] =0,

其中我们用到了 V x,+ k V y,+ k 分别是 x H( X ¯ k , Y k ) y H( X k+1 , Y ¯ k ) 的无偏估计。基于此,将公式(3.17)与公式(3.20)相加,求条件期望,并利用假设2可得以下结果几乎处处成立:

  E[ ψ( X k+1 , Y k+1 )| + k1 ψ( X k , Y k ) ] α x,+ k ( σ x,+ k ) 2 2 + 1 2 ( L x 1 α x,+ k )E[ X k+1 X k 2 | + k1 ] 1 2 α x k F α x k ( X k ) 2  + α x k ( σ x k ) 2 2 + 1 2 [ 1 α x,+ k 1 α x k + ( v x k ) 2 α x,+ k ( L x β x k + λ x k α x,+ k ) 2 ]E[ F V x k α x k ( X k ) 2 | + k1 ]  + α y,+ k ( σ y,+ k ) 2 2 + 1 2 ( L y 1 α y,+ k )E[ Y k+1 Y k 2 | + k1 ] 1 2 α y k F α y k ( Y k ) 2  + α y k ( σ y k ) 2 2 + 1 2 [ 1 α y,+ k 1 α y k + ( v y k ) 2 α y,+ k ( L y β y k + λ y k α y,+ k ) 2 ]E[ F V y k α y k ( Y k ) 2 | + k1 ]. (3.23)

结合公式(3.21)与(3.23)可得

  E[ ψ( X k+1 , Y k+1 )| + k1 ]ψ( X k , Y k ) α x,+ k ( σ x,+ k ) 2 2 + α x k ( σ x k ) 2 2 1 2 α x k F α x k ( X k ) 2 ρ ¯ 2 α x k E[ F V x k α x k ( X k ) 2 | + k1 ]   + α y,+ k ( σ y,+ k ) 2 2 + α y k ( σ y k ) 2 2 1 2 α y k F α y k ( Y k ) 2 ρ ¯ 2 α y k E[ F V y k α y k ( Y k ) 2 | + k1 ].

由假设1可知存在 ψ * 满足 ψ( x,y ) ψ * 对于所有的 ( x,y ) n × n 。对上式左右两边求全期望并移项可得

   E[ F α x k ( X k ) 2 + ρ ¯ F V x k α x k ( X k ) 2 ] α x k + E[ F α y k ( Y k ) 2 + ρ ¯ F V y k α y k ( Y k ) 2 ] α y k 2[ ψ( x k , y k )ψ( x k+1 , y k+1 ) ]+ α x,+ k ( σ x,+ k ) 2 + α x k ( σ x k ) 2 + α y,+ k ( σ y,+ k ) 2 + α y k ( σ y k ) 2 .

对上式左右两边同时累和可得对于所有的 K

   k=0 K   E[ F α x k ( X k ) 2 + ρ ¯ F V x k α x k ( X k ) 2 ] α x k + E[ F α y k ( Y k ) 2 + ρ ¯ F V y k α y k ( Y k ) 2 ] α y k 2[ ψ( x 0 , y 0 ) ψ * ]+ k=0 K [ α x,+ k ( σ x,+ k ) 2 + α x k ( σ x k ) 2 + α y,+ k ( σ y,+ k ) 2 + α y k ( σ y k ) 2 ] .

因为 L x , L y 1 ,则 α x,+ k 1, α x k 1 并且 α y,+ k 1, α y k 1 。又映射 δ δ 1 F 1 δ ( x ) 是一个关于 δ 的递减函数[20],因此,对于所有的 k ,有

E[ F 1 ( X k ) 2 ] ( α x k ) 2 E[ F α x k ( X k ) 2 ], E[ F 1 ( Y k ) 2 ] ( α y k ) 2 E[ F α y k ( Y k ) 2 ],

进而我们可以得到 α x k E[ F 1 ( X k ) 2 ]< α y k E[ F 1 ( Y k ) 2 ]< 。又因为 α x k = α y k =  ,因此 lim inf k E[ F 1 ( X k ) 2 ]=0 lim inf k E[ F 1 ( Y k ) 2 ]=0 。又根据Borel-Cantelli引理[21]可知:当 α x k E[ F 1 ( X k ) 2 ]< α y k E[ F 1 ( Y k ) 2 ]< 几乎处处成立时,可以推出 lim inf k F 1 ( X k ) =0 lim inf k F 1 ( Y k ) =0 必定成立。

由公式(3.21)和(3.23)可得

   1 2 ( 1 α x,+ k L x )E[ X k+1 X k 2 | + k1 ]+ 1 2 ( 1 α y,+ k L y )E[ Y k+1 Y k 2 | + k1 ] ψ( X k , Y k )E[ ψ( X k+1 , Y k+1 )| + k1 ]   + α x,+ k ( σ x,+ k ) 2 2 + α x k ( σ x k ) 2 2 1 2 α x k F α x k ( X k ) 2 ρ ¯ 2 α x k E[ F V x k α x k ( X k ) 2 | + k1 ]   + α y,+ k ( σ y,+ k ) 2 2 + α y k ( σ y k ) 2 2 1 2 α y k F α y k ( Y k ) 2 ρ ¯ 2 α y k E[ F V y k α y k ( Y k ) 2 | + k1 ] ψ( X k , Y k )E[ ψ( X k+1 , Y k+1 )| + k1 ]   + α x,+ k ( σ x,+ k ) 2 2 + α x k ( σ x k ) 2 2 + α y,+ k ( σ y,+ k ) 2 2 + α y k ( σ y k ) 2 2 .

M=min{ 1 2 ( 1 α x,+ k L x ), 1 2 ( 1 α y,+ k L y ) } ,由上式可得

  E[ X k+1 X k 2 | + k1 ]+E[ Y k+1 Y k 2 | + k1 ] 1 M [ ψ( X k , Y k )E[ ψ( X k+1 , Y k+1 )| + k1 ] ]   + 1 2M [ α x,+ k ( σ x,+ k ) 2 + α x k ( σ x k ) 2 + α y,+ k ( σ y,+ k ) 2 + α y k ( σ y k ) 2 ].

对上式左右两边求全期望并累和可得

   k=0 E X k+1 X k 2 + k=0 E Y k+1 Y k 2 1 M [ ψ( X 0 , Y 0 ) ψ * ]   + 1 2M k=0 [ α x,+ k ( σ x,+ k ) 2 + α x k ( σ x k ) 2 + α y,+ k ( σ y,+ k ) 2 + α y k ( σ y k ) 2 ] <,

由此我们可以得到 lim k E X k+1 X k 2 =0 lim k E Y k+1 Y k 2 =0 。进一步可以得到 lim k E X k+1 X k =0 lim k E Y k+1 Y k =0

4. 总结

本文提出一种随机邻近牛顿型交替极小化算法用以求解大规模有限和形式的非凸非光滑复合优化问题,相较于邻近交替线性极小化算法PALM,本文采用的随机梯度算法可大大降低计算成本。此外,本文通过残差方程引入目标函数的二阶信息以提升算法的收敛速度。在目标函数非凸的情形下,本文给出了算法的收敛性分析,建立了随机邻近牛顿型交替极小化算法在期望意义下的收敛性。

参考文献

[1] Kawasumi, R. and Takeda, K. (2023) Automatic Hyperparameter Tuning in Sparse Matrix Factorization. Neural Computation, 35, 1086-1099.
https://doi.org/10.1162/neco_a_01581
[2] d’Aspremont, A., El Ghaoui, L., Jordan, M.I. and Lanckriet, G.R.G. (2007) A Direct Formulation for Sparse PCA Using Semidefinite Programming. SIAM Review, 49, 434-448.
https://doi.org/10.1137/050645506
[3] Zou, H., Hastie, T. and Tibshirani, R. (2006) Sparse Principal Component Analysis. Journal of Computational and Graphical Statistics, 15, 265-286.
https://doi.org/10.1198/106186006x113430
[4] Candès, E.J., Li, X., Ma, Y. and Wright, J. (2011) Robust Principal Component Analysis? Journal of the ACM, 58, 1-37.
https://doi.org/10.1145/1970392.1970395
[5] Aravkin, A. and Davis, D. (2020) Trimmed Statistical Estimation via Variance Reduction. Mathematics of Operations Research, 45, 292-322.
https://doi.org/10.1287/moor.2019.0992
[6] Patrizio, C. and Karen, E. (2017) Blind Image Deconvolution: Theory and Applications. CRC Press, 12-21.
[7] Wang, Q. and Han, D. (2024) Stochastic Gauss-Seidel Type Inertial Proximal Alternating Linearized Minimization and Its Application to Proximal Neural Networks. Mathematical Methods of Operations Research, 99, 39-74.
https://doi.org/10.1007/s00186-024-00851-6
[8] Attouch, H., Bolte, J., Redont, P. and Soubeyran, A. (2010) Proximal Alternating Minimization and Projection Methods for Nonconvex Problems: An Approach Based on the Kurdyka-Łojasiewicz Inequality. Mathematics of Operations Research, 35, 438-457.
https://doi.org/10.1287/moor.1100.0449
[9] Bolte, J., Sabach, S. and Teboulle, M. (2013) Proximal Alternating Linearized Minimization for Nonconvex and Nonsmooth Problems. Mathematical Programming, 146, 459-494.
https://doi.org/10.1007/s10107-013-0701-9
[10] Nguyen, L.M., Scheinberg, K. and Takáč, M. (2020) Inexact SARAH Algorithm for Stochastic Optimization. Optimization Methods and Software, 36, 237-258.
https://doi.org/10.1080/10556788.2020.1818081
[11] Pan, H. and Zheng, L. (2022) N-SVRG: Stochastic Variance Reduction Gradient with Noise Reduction Ability for Small Batch Samples. Computer Modeling in Engineering & Sciences, 131, 493-512.
https://doi.org/10.32604/cmes.2022.019069
[12] Defazio, A., Bach, R.F. and Lacoste-Julien, S. (2014) SAGA: A Fast Incremental Gradient Method with Support for Non-Strongly Convex Composite Objectives.
[13] Wang, Z. and Wen, B. (2022) Proximal Stochastic Recursive Momentum Algorithm for Nonsmooth Nonconvex Optimization Problems. Optimization, 73, 481-495.
https://doi.org/10.1080/02331934.2022.2112191
[14] Huang, F., Gu, B., Huo, Z., Chen, S. and Huang, H. (2019) Faster Gradient-Free Proximal Stochastic Methods for Nonconvex Nonsmooth Optimization. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 1503-1510.
https://doi.org/10.1609/aaai.v33i01.33011503
[15] Pham, N.H., et al. (2020) ProxSARAH: An Efficient Algorithmic Framework for Stochastic Composite Nonconvex Optimization. Journal of Machine Learning Research, 21, 1-48.
[16] Xu, Y. and Yin, W. (2015) Block Stochastic Gradient Iteration for Convex and Nonconvex Optimization. SIAM Journal on Optimization, 25, 1686-1716.
https://doi.org/10.1137/140983938
[17] Driggs, D., Tang, J., Liang, J., et al. (2020) SPRING: A Fast Stochastic Proximal Alternating Method for Non-Smooth Non-Convex Optimization.
[18] Yang, M., Milzarek, A., Wen, Z. and Zhang, T. (2021) A Stochastic Extra-Step Quasi-Newton Method for Nonsmooth Nonconvex Optimization. Mathematical Programming, 194, 257-303.
https://doi.org/10.1007/s10107-021-01629-y
[19] Bollapragada, R., Byrd, R.H. and Nocedal, J. (2018) Exact and Inexact Subsampled Newton Methods for Optimization. IMA Journal of Numerical Analysis, 39, 545-578.
https://doi.org/10.1093/imanum/dry009
[20] Nesterov, Y. (2012) Gradient Methods for Minimizing Composite Functions. Mathematical Programming, 140, 125-161.
https://doi.org/10.1007/s10107-012-0629-5
[21] Durrett, R. (2019) Probability: Theory and Examples. Cambridge University Press.
https://doi.org/10.1017/9781108591034