用于求解多块可分凸优化问题的惯性临近严格收缩PRSM
Inertial Proximal Strictly Contractive PRSM for Solving Multi-Block Separable Convex Optimization
摘要: 近年来,PRSM成为了处理具有线性约束的两部分可分凸优化问题的一个热门研究方向。本研究聚焦于目标函数由三个解耦变量函数之和构成的可分凸优化问题。单纯地运用PRSM可能无法保证其收敛性。因此,我们引入了一种带有惯性项和临近项的严格收缩PRSM。借助变分不等式、临近点算法以及基本不等式,我们对所提出的方法进行了全局收敛性的分析。此外,我们将这种新方法应用于鲁棒主成分分析(PCA)问题的求解,并提供了一些初步的数值结果,用以展示该方法的可行性和有效性。
Abstract: In recent years, PRSM has become a popular research direction for dealing with two-block separable convex optimization problems with linear constraints. This study focuses on separable convex optimization problems where the objective function is composed of the sum of three decoupled variable functions. Simply applying the PRSM may not guarantee its convergence. Therefore, we introduce a strictly contractive PRSM with inertial and proximal terms. By means of variational inequalities, the proximal point algorithm, and fundamental inequalities, we have analyzed the global convergence of the proposed method. In addition, we applied this new method to the solution of the Robust Principal Component Analysis (PCA) problem and provided some preliminary numerical results to demonstrate the feasibility and effectiveness of the method.
文章引用:王丽敏, 蒋君, 邓钊, 冯育强, 侯聪雅. 用于求解多块可分凸优化问题的惯性临近严格收缩PRSM[J]. 理论数学, 2025, 15(3): 203-218. https://doi.org/10.12677/pm.2025.153094

1. 介绍

我们研究以下的可分凸规划模型

min{ θ 1 ( x 1 )+ θ 2 ( x 2 )+ θ 3 ( x 3 )| A 1 x 1 + A 2 x 2 + A 3 x 3 =b, x i X i ,i=1,2,3 } (1)

其中, θ i : n i { + }( i=1,2,3 ) 是闭合凸函数(可能是非光滑的), X i n i ( i=1,2,3 ) 是非空闭凸集, A i l× n i 是线性算子, b l 是一个给定的向量。可分离问题(1)在许多领域有着广泛的应用,例如图像处理[1] [2]、统计学习[3] [4]以及矩阵分解[5]

方程(1)的增广拉格朗日函数是

L β ( x 1 , x 2 , x 3 ,λ )= θ 1 ( x 1 )+ θ 2 ( x 2 )+ θ 3 ( x 3 ) λ T ( A 1 x 1 + A 2 x 2 + A 3 x 3 b ) + β 2 A 1 x 1 + A 2 x 2 + A 3 x 3 b 2 , (2)

其中 λ l 是拉格朗日乘数, β>0 是惩罚参数。

问题(1)可以通过使用许多经典方法有效解决,例如Hestenes [6]和Powell [7]的乘子法,特别是增广拉格朗日方法(ALM) [8],Douglas-Rachford分裂方法(DRSM) [9],交替方向乘子法(ADMM) [10] [11],PRSM [12]以及前向–后向分裂方法[13]。在本文中,我们将专注于PRSM。

为了确保PRSM生成的迭代序列具有严格的收缩性,He等人[14]开发了一种严格收缩的Peaceman-Rachford分裂方法(SCPRSM),并建立了全局收敛性。惯性可以提高算法的计算效率,惯性起源于动态系统,可以追溯到20世纪60年代的重球方法[15]。多块可分离凸优化问题是一个热门话题。Wu等人[16]提出了一个临近PRSM来解决多块可分离凸最小化问题,其中一些子问题可以并行求解。对于其他多块可分离凸优化问题的研究,我们请读者参考[17]

在本文中,提出了一种带有不确定项的惯性临近严格收缩的PRSM,用于解决多块可分离凸优化问题。

{ ( x ¯ 1 k , x ¯ 2 k , x ¯ 3 k , λ ¯ k )=( x 1 k ,  x 2 k ,  x 3 k , λ k )+ ρ k ( x 1 k   x 1 k1 ,  x 2 k   x 2 k1 ,  x 3 k   x 3 k1 , λ k λ k1 ),   x 1 k+1 = argmin x 1 χ 1 { θ 1 ( x 1 ) ( λ ¯ k ) T A 1 x 1 + β 2 A 1 x 1 + A 2 x ¯ 2 k + A 3 x ¯ 3 k b 2 + 1 2   x 1 x ¯ 1 k B 2 },   x 2 k+1 = argmin x 2 χ 2 { θ 2 ( x 2 ) ( λ ¯ k ) T A 2 x 2 + β 2 A 1 x 1 k+1 + A 2 x 2 + A 3 x ¯ 3 k b 2 + 1 2   x 2 x ¯ 2 k C 2 }, λ k+ 1 2 = λ ¯ k αβ( A 1 x 1 k+1 + A 2 x 2 k+1 + A 3 x ¯ 3 k b ),   x 3 k+1 = argmin x 3 χ 3 { θ 3 ( x 3 ) ( λ k+ 1 2 ) T A 3 x 3 + β 2 A 1 x 1 k+1 + A 2 x 2 k+1 + A 3 x 3 b 2 + 1 2   x 3 x ¯ 3 k D 2 }, λ k+1 = λ k+ 1 2 αβ( A 1 x 1 k+1 + A 2 x 2 k+1 + A 3 x 3 k+1 b ), (3)

其中 ρ k [0,1/3 ) 是一个惯性参数, α( 0, ( 1+ 17 )/8 ) 是一个步长参数, β>0 是一个惩罚参数和

B= r 1 I n 1 β A 1 T A 1 ,C= r 2 I n 2 β A 2 T A 2 ,D=τ r 3 I n 3 β A 3 T A 3 , (4)

其中 r 1 β A 1 T A 1 , r 2 β A 2 T A 2 , r 3 >β A 3 T A 3

在上述描述中, r 1 β A 1 T A 1 意味着矩阵 B 是半正定的,   r 2 β A 2 T A 2 意味着矩阵 C 是半正定的,而 τ( ( 1+α )/2 ,1 ) 表示矩阵 D 的不定性。

本文的其余部分组织如下。在第2节中,我们总结了一些为进一步分析所需的预备知识。然后,在第3节中,我们对惯性临近严格收缩的Peaceman-Rachford分裂方法(IPSCPRSM)的预测–校正进行重新表述,以通过变分不等式建立全局收敛性。在第4节中,我们进行了一些数值模拟来说明所提出方法的有效性。第5节得出了一些结论。

2. 预备知识

在这一部分,我们提供一些预备知识和简单的结果,以便进行进一步的分析。首先,我们用 来表示通常的欧几里得空间,并用 . .,. 来表示 中的欧几里得范数和内积。如果 x n 中的一个向量, D 是一个 n×n 的对称矩阵,我们使用记号 x D 2 = x T Dx 来表示D-范数。

接下来,我们引入一些辅助序列和矩阵:

x=(   x 1   x 2   x 3 ),w=(   x 1   x 2   x 3 λ ),F( w )=(   A 1 T λ   A 2 T λ   A 3 T λ r ),r= A 1 x 1 + A 2 x 2 + A 3 x 3 b, (5)

w ˜ k =( x ˜ 1 k x ˜ 2 k x ˜ 3 k λ ˜ k )=(   x 1 k+1   x 2 k+1   x 3 k+1 λ ¯ k β( A 1 x 1 k+1 + A 2 x ¯ 2 k + A 3 x ¯ 3 k b ) ). (6)

Q=( B 0 0 0 0 β A 2 T A 2 +C 0 0 0 ( 1+α )β A 2 A 3 T β A 3 T A 3 +D 0 0   A 2   A 3 1 β I l ), (7)

M=(   I n 1 0 0 0 0   I n 2 0 0 0 0   I n 3 0 0 2αβ A 2 αβ A 3 2α I l ), (8)

H=( B 0 0 0 0 r 2 I n 2 0 0 0 ( 1+α )β A 2 A 3 T τ r 3 I n 3 0 0 0 1 2 A 3 1 2αβ I l ), (9)

G=( B 0 0 0 0 ( 12α )β A 2 T A 2 +C ( 1α )β A 2 A 3 T ( 2α1 ) A 2 0 αβ A 2 A 3 T ( 1α )β A 3 T A 3 +D ( α1 ) A 3 0 ( 2α1 ) A 2 ( 2α1 ) A 3 ( 22α ) β I l ). (10)

定义

D 0 = r 3 I n 3 β A 3 T A 3 ,

从问题(4)中,我们可以得出结论,矩阵   D 0 是正定的,并且

D=τ D 0 ( 1τ )β A 3 T A 3 . (11)

变分不等式特征描述

设方程(1)的拉格朗日函数为

L( x 1 , x 2 , x 3 ,λ )= θ 1 ( x 1 )+ θ 2 ( x 2 )+ θ 3 ( x 3 ) λ T ( A 1 x 1 + A 2 x 2 + A 3 x 3 b ),

其定义域为 Ω:= X 1 × X 2 × X 3 × R l 。如果它满足条件,我们称 w * =( x 1 * ,  x 2 * ,  x 3 * , λ * )Ω 为拉格朗日函数的鞍点。

L( x 1 * ,  x 2 * ,  x 3 * ,λ )L( x 1 * ,  x 2 * ,  x 3 * , λ * )  L   x i χ i ,(i=1,2,3) ( x 1 ,  x 2 ,  x 3 , λ * ).

相应地,我们推导出以下不等式:

{ θ 1 ( x 1 ) θ 1 ( x 1 )+ ( x 1 x 1 ) T ( A 1 T λ )0,   x 1 X 1 , θ 2 ( x 2 ) θ 2 ( x 2 )+ ( x 2 x 2 ) T ( A 2 T λ )0,  x 2 X 2 , θ 3 ( x 3 ) θ 3 ( x 3 )+ ( x 3 x 3 ) T ( A 3 T λ )0,  x 3 X 3 , (λ λ ) T ( A 1 x 1 + A 2 x 2 + A 3 x 3 b )0,      λ R l . (12)

变分不等式(12)可以通过引用(5)以以下紧凑的形式表达出来:

VI( Ω,F,θ ):θ( x )θ( x )+ ( w w ) T F( w )0,wΩ, (13)

其中

θ( x )=θ( x 1 )+θ( x 2 )+θ( x 3 ).

根据映射 F 在(5)中的定义,我们有:

( w 1 w 2 ) T F( w 1 ) ( w 1 w 2 ) T F( w 2 ),wΩ. (14)

我们用 Ω * 表示变分不等式 VI( Ω,F,θ ) 的解集,这个解集是非空的。如果 w * =( x 1 * ,  x 2 * ,  x 3 * , λ * ) Ω * ,那么 ( x 1 * ,  x 2 * ,  x 3 * ) 就是问题(1)的一个解。

我们在下面的引理中总结了上述定义的矩阵的一些性质。

引理 2.1. α( 0, ( 1+ 17 )/8 ) τ( ( 1+α )/2 ,1 ) ,则分别在(7)、(8)和(9)中定义的矩阵 Q M H 满足:

H0,HM=Q, (15)

G0,G= Q T +Q M T HM. (16)

证明。利用 B0 C0 r 3 >β A 3 T A 3

H ˜ =( B 0 0 0 0 β A 2 T A 2 0 0 0 ( 1+α )β A 2 A 3 T τβ A 3 T A 3 0 0 0 1 2 A 3 1 2αβ I l ),

是半正定的。注意, H ˜ 可以表示为:

H ˜ = 1 2 (   I n 1 0 0 0 0   A 2 T 0 0 0   A 3 T   A 3 T 0 0 0 0 I )( 2B 0 0 0 0 2β 0 0 0 2αβ 2τβ 0 0 0 1 1 αβ )(   I n 1 0 0 0 0   A 2 0 0 0 0   A 3 0 0 0 0 I ).

由于 α( 0, ( 1+ 17 )/8 ) ,我们只需要检查

( 2B 0 0 0 0 2β 0 0 0 2αβ 2τβ 0 0 0 1 1 αβ )( 2B 0 0 0 0 2β 0 0 0 2αβ 2τβ 0 0 0 1 1 β )0,

回顾 τ( ( 1+α )/2 ,1 ) ,我们随后明确得到了H的半正定性。

因此,我们将证明在方程(10)中定义的矩阵 G 是一个半正定矩阵。同样,通过使用 τ> ( 1+α )/2 , r 2 β A 2 T A 2 r 3 >β A 3 T A 3 ,我们知道,如果以下矩阵是半正定的,那么 G0 是有保证的。

G ˜ =( B 0 0 0 0 ( 12α )β A 2 T A 2 ( 1α )β A 2 A 3 T ( 2α1 ) A 2 0 αβ A 2 A 3 T ( 1α ) 2 β A 3 T A 3 ( α1 ) A 3 0 ( 2α1 ) A 2 ( 2α1 ) A 3 ( 22α ) β I l )0.

并等价地证明以下方程

f( α )=2 α 2 + 1 2 α+ 1 2 ,

因此,我们得到对于任意 α( 0, ( 1+ 17 )/8 ) ,矩阵 G 的正半定性自然得以确立。

3. 收敛性分析

在本节中,我们将基于变分不等式建立IPSCPRSM(3)的全局收敛性,并展示它如何被重写为He等人[18] [19]提出的预测–校正框架。最终,我们将展示IPSCPRSM(3)的全局收敛性。

3.1. 预测–校正重构

假设 3.1. { ρ k } k=0 被选择使得:(i) 对于所有 k0,0 ρ k ρ 其中 ρ[ 0,1/3 ) ,(ii) 由IPSCPRSM(3)生成的序列 { w k } 满足

k=0 ρ k w k w k1 H 2 <. (17)

确保假设3.1的一种方式是选择

ρ k =min{ ρ,1/ ( k w k w k1 H ) 2 }

假设3.2. 设问题(1)的解集非空。

辅助变量 { w ˜ k } 表示预测变量,而 { w k+1 } 表示校正变量。下面,我们展示IPSCPRSM (3)的预测步骤的结果。

θ( x )θ( x ˜ k )+ ( w w ˜ k ) T F( w ˜ k ) ( w w ˜ k ) T Q( w ¯ k w ˜ k ),wΩ. (18)

其中 Q 在(7)中定义。

证明。基于(3)中 x 1 子问题的一阶最优性条件,我们得到

θ 1 ( x 1 ) θ 1 ( x ˜ 1 k )+ ( x 1 x ˜ 1 k ) T [ A 1 T λ ˜ k +B( x ˜ 1 k x ¯ 1 k ) ]0, x 1 X 1 . (19)

类似地,结合最优性条件和(5),我们得到 x ˜ 2 k   X 2

θ 2 ( x 2 ) θ 2 ( x ˜ 2 k )+ ( x 2 x ˜ 2 k ) T [ A 2 T λ ¯ k +β A 2 T ( A 1 x 1 k+1 + A 2 x 2 k+1 + A 3 x ¯ 3 k b )+C( x 2 k+1 x ¯ 2 k ) ]0, x 2 X 2 .

从方程(6)我们推导出

β( A 1 x 1 k+1 + A 2 x 2 k+1 + A 3 x ¯ 3 k b )=( λ ¯ k λ ˜ k )+β A 2 ( x 2 k+1 x ¯ 2 k ). (20)

将方程(20)代入上述不等式中,我们得到

θ 2 ( x 2 ) θ 2 ( x ˜ 2 k )+ ( x 2 x ˜ 2 k ) T [ A 2 T λ ˜ k +( β A 2 T A 2 +C )( x ˜ 2 k x ¯ 2 k ) ]0, x 2 χ 2 . (21)

类似地,我们有

θ 3 ( x 3 ) θ 3 ( x ˜ 3 k )+ ( x 3 x ˜ 3 k ) T [ A 3 T λ k+ 1 2 +β A 3 T ( A 1 x ˜ 1 k + A 2 x ˜ 2 k + A 3 x ˜ 3 k b )+D( x ˜ 3 k x ¯ 3 k ) ]0, x 3 χ 3 .

根据(6)中对 w ˜ k 的定义和(3)中的方案,我们推导出

λ k+ 1 2 = λ ¯ k +α( λ ˜ k λ ¯ k )αβ  A 2 ( x 2 k+1 x ¯ 2 k ). (22)

将方程(22)和 λ ˜ k = λ ¯ k β( A 1 x ˜ 1 k + A 2 x ¯ 2 k + A 3 x ¯ 3 k b ) 代入上述不等式中,我们得到

θ 3 ( x 3 ) θ 3 ( x ˜ 3 k )+ ( x 3 x ˜ 3 k ) T [ A 3 T λ ˜ k +( 1+α )β A 2 A 3 T ( x ˜ 2 k x ¯ 2 k )+( β A 3 T A 3 +D )( x ˜ 3 k x ¯ 3 k ) A 3 T α( λ ˜ k λ ¯ k ) ]0, x 3 χ 3 . (23)

最后,我们可以将(6)中的关系式 λ ˜ k = λ ¯ k β( A 1 x 1 k+1 + A 2 x ¯ 2 k + A 3 x ¯ 3 k b ) 重写为

( λ λ ˜ k ) T [ r ˜ k   A 2 ( x ˜ 2 k x ¯ 2 k )  A 3 ( x ˜ 3 k x ¯ 3 k )+ 1 β ( λ ˜ k λ ¯ k ) ]0,λ  R l . (24)

结合(19)、(21)、(23)和(24),我们可以直接得到断言(18)。

现在我们来说明如何使用预测变量 w ˜ k 和前一个点 w ¯ k 来构造校正点 w k+1

引理3.2. { w k } 由IPSCPRSM(3)生成, { w ˜ k } 在(6)中定义。那么,我们有

w ¯ k   w k+1 =M( w ¯ k w ˜ k ), (25)

其中M在(8)中定义。

证明。根据(6)

λ ¯ k λ ˜ k =β( A 1 x 1 k+1 + A 2 x ¯ 2 k + A 3 x ¯ 3 k b ).

利用 w ˜ k 的表示,以及(3)、(5)和(22),我们得出结论

λ k+1 = λ ¯ k [ 2α( λ ¯ k λ ˜ k )2αβ A 2 ( x ¯ 2 k x ˜ 2 k )αβ A 3 ( x ¯ 3 k x ˜ 3 k ) ].

因此,我们有以下关系

(   x 1 k+1   x 2 k+1   x 3 k+1 λ k+1 )=( x ¯ 1 k x ¯ 2 k x ¯ 3 k λ ¯ k )(   I n 1 0 0 0 0   I n 2 0 0 0 0   I n 3 0 0 2αβ A 2 αβ A 3 2α I l )( x ¯ 1 k x ˜ 1 k x ¯ 2 k x ˜ 2 k x ¯ 3 k x ˜ 3 k λ ¯ k λ ˜ k ),

它可以被改写成一个简洁的形式

  w k+1 = w ¯ k M( w ¯ k w ˜ k ),

其中M在式(8)中定义。

3.2. 全局收敛性

在本节中,我们展示了IPSCPRSM (3)的全局收敛性,并考察了其迭代复杂度。

引理3.3. { w k } 由IPSCPRSM (3)生成, { w ˜ k } 在(6)中定义。那么对于任何 w ˜ k Ω ,我们有

( w w ˜ k ) T Q( w ¯ k w ˜ k )= 1 2 ( w  w k+1 H 2 w w ¯ k H 2 )+ 1 2 w ¯ k w ˜ k G 2 . (26)

证明。结合 Q=HM (15)和 ( w ¯ k   w k+1 )=M( w ¯ k w ˜ k ) (25),我们推导出

( w w ˜ k ) T Q( w ¯ k w ˜ k )= ( w w ˜ k ) T HM( w ¯ k w ˜ k )= ( w w ˜ k ) T H( w ¯ k   w k+1 ).

对于一个对称矩阵 H 和向量 a,b,c,d R t ,它遵循以下恒等式

( ab ) T H( cd )= 1 2 ( ad H 2 ac H 2 )+ 1 2 ( cb H 2 db H 2 ).

应用上述恒等式,令 a=w,b= w ˜ k ,c= w ¯ k ,d= w k+1 ,得到

( w w ˜ k ) T H( w ¯ k w k+1 )= 1 2 ( w w k+1 H 2 w w ¯ k H 2 )                                      + 1 2 ( w ¯ k w ˜ k H 2 w k+1 w ˜ k H 2 ). (27)

对于(27)中的最后一项,我们可以推导出

w ¯ k w ˜ k H 2 w k+1 w ˜ k H 2 = w ¯ k w ˜ k H 2 ( w ¯ k w ˜ k )M( w ¯ k w ˜ k ) H 2 = w ¯ k w ˜ k G 2 . (28)

现在,结合(10)、(27)和(28),我们得到断言(26)。

有了3.1和3.3两个引理,我们可以得到以下结果。

引理3.4. { w k } 由IPSCPRSM (3)生成, { w ˜ k } 在(6)中定义。那么,我们有

θ( x )θ( x ˜ k )+ ( w w ˜ k ) T F( w ˜ k ) 1 2 ( w  w k+1 H 2 w w ¯ k H 2 )+ 1 2 w ¯ k w ˜ k G 2 ,wΩ. (29)

证明。通过关联(18)和(26)来验证恒等式(29)。

引理3.5. { w k } 由IPSCPRSM (3)生成,那么对于任何 w k+1 Ω ,我们有

θ( x )θ( x k+1 )+ ( w w k+1 ) T [ F( w k+1 )+H( w k+1 w ¯ k ) ] β ( r k+1 ) T A 2 ( x ¯ 2 k x 2 k+1 )+( 1α )β ( r k+1 ) T A 3 ( x ¯ 3 k x 3 k+1 )+( 12α )β r k+1 2 . (30)

其中 r 在(5)中定义。

借助引理3.5,我们使用基本不等式推导出下一个引理。

引理3.6. { w k } 由IPSCPRSM (3)生成,那么对于任何 w k+1 Ω ,我们有

β ( r k+1 ) T A 2 ( x ¯ 2 k x 2 k+1 )( 1α )β ( r k+1 ) T A 3 ( x ¯ 3 k x 3 k+1 )( 12α )β r k+1 2 1 2 w k+1 w ¯ k M 0 2 . (31)

其中

  M 0 =( 0 0 0 0 0 β A 2 T A 2 +C 0 0 0 ( 1+α )β A 2 A 3 T β A 3 T A 3 +D 0 0 0 1 2 A 3 1 2αβ I l ), (32)

  H 0 =( β A 2 T A 2 0 0 ( 1+α )β A 2 A 3 T β A 3 T A 3 0 0 1 2 A 3 1 2αβ I l ). (33)

证明。根据(32)的定义,我们有

1 2 w k+1 w ¯ k M 0 2 = 1 2 v k+1 v ¯ k H 0 2 + 1 2 x 2 k+1 x ¯ 2 k C 2 + 1 2 x 3 k+1 x ¯ 3 k D 2 .

类似地,根据(33)中 H 0 的关系,我们得到

1 2 v k+1 v ¯ k H 0 2 = 1 2 β A 2 2 ( x 2 k+1 x ¯ 2 k ) 2 + 1 2 ( 1+α )β A 2 A 3 T ( x 2 k+1 x ¯ 2 k ) T ( x 3 k+1 x ¯ 3 k ) + 1 2 β A 3 2 ( x 3 k+1 x ¯ 3 k ) 2 1 4 A 3 ( x 3 k+1 x ¯ 3 k ) T ( λ k+1 λ ¯ k )+ 1 4αβ ( λ k+1 λ ¯ k ) 2 .

通过使用(4)中 C,D 的定义以及 τ> ( 1+α )/2 α( 0, ( 1+ 17 )/8 ) ,我们推导出

1 2 w k+1 w ¯ k M 0 2 αβ ( r k+1 ) 2 + 1α 4 β A 3 2 ( x 3 k+1 x ¯ 3 k ) 2 β ( r k+1 ) T A 2 ( x ¯ 2 k x 2 k+1 ). (34)

由于 α( 0, ( 1+ 17 )/8 ) ,应用 a T b a 2 + 1 4 b 2 a= r k+1 b= A 3 ( x 3 k+1 x ¯ 3 k ) 的不等式,我们可以得出

( 1α )β ( r k+1 ) T A 3 ( x ¯ 3 k x 3 k+1 )( 12α )β r k+1 2 αβ r k+1 2 + 1α 4 β A 3 ( x 3 k+1 x ¯ 3 k ) 2 . (35)

将(34)和(35)结合起来,我们可以直接得到断言(31)。

参考(9)中 H 的定义,(32)中 M 0 的定义,以及(4)中矩阵 B 的正半定性,还有矩阵 C D 的定义,我们得到 M 0 H

引理3.7. { w k } 由IPSCPRSM (3)生成,则对于任何 w * Ω * ,我们有 k=0 w k   w * H 2 <

证明。通过将 w= w k+1 代入(16)中,以及将 w= w * 代入(30)中,我们得到

θ( x k+1 )θ( x * )+ ( w k+1 w * ) T F( w * )0.

θ( x * )θ( x k+1 )+ ( w * w k+1 ) T [ F( w k+1 )+H( w k+1 w ¯ k ) ] β ( r k+1 ) T A 2 ( x ¯ 2 k x 2 k+1 )+( 1α )β ( r k+1 ) T A 3 ( x ¯ 3 k x 3 k+1 )+( 12α )β r k+1 2 .

将它们相加并结合(14),我们得到

( w k+1 w * ) T H( w k+1 w ¯ k )+β ( r k+1 ) T A 2 ( x ¯ 2 k x 2 k+1 ) +( 1α )β ( r k+1 ) T A 3 ( x ¯ 3 k x 3 k+1 )+( 12α )β r k+1 2 0. (36)

通过回顾(3),我们有

w ¯ k =  w k + ρ k ( w k w k1 ). (37)

因此可以得出

( w k+1 w * ) T H( w k+1 w ¯ k ) = φ k+1 φ k ρ k ( φ k φ k1 )+ 1 2 w k+1 w k H 2 ρ k 2 w k w k1 H 2     ρ k ( w k+1 w k ) T H( w k w k1 ). (38)

结合(31)、(36)和(38),我们得到

φ k+1 φ k ρ k ( φ k φ k1 ) 1 2 w k+1 w k H 2 + ρ k 2 w k w k1 H 2     + ρ k ( w k+1 w k ) T H( w k w k1 )+ 1 2 w k+1 w ¯ k M 0 2 . (39)

将此与关系式(37)结合起来,注意 M 0 H ,我们得出

φ k+1 φ k ρ k ( φ k φ k1 ) ρ k + ρ k 2 2 w k w k1 H 2 .

因为 ρ k [ 0,1/3 ) ,这意味着 ( ρ k + ρ k 2 )/2 ρ k ,那么我们有

φ k+1 φ k ρ k ( φ k φ k1 ) ρ k w k w k1 H 2 . (40)

θ k = φ k φ k1 δ k = ρ k w k w k1 H 2 ,关系(40)表明 θ k+1 ρ k θ k + δ k ρ [ θ k ] + + δ k ,

注意 w 0 = w 1 ,那么 θ 0 = [ θ 0 ] + =0 δ 0 =0 。通过假设3.1,我们得到

k=0 [ θ k ] + 1 1ρ k=0 δ k = 1 1ρ k=1 δ k <. (41)

m k = φ k j=1 k [ θ j ] + ,结合(41)和 φ k 0 ,我们得到了序列 { m k } 的下界。另一方面

m k+1 = φ k+1 [ θ k+1 ] + j=1 k [ θ j ] + φ k+1 θ k+1 j=1 k [ θ j ] + = φ k j=1 k [ θ j ] + = m k .

这意味着 { m k } 是一个单调非增序列,因此 { m k } 收敛到

lim k φ k = j=1 [ θ j ] + + lim k m k .

因此, { φ k } 收敛,并且作为结果, k=0 w k w * H 2 < 也成立。引理3.7得证。

接下来的引理总结了有助于分析式(3)收敛性的几个关键事实。

引理3.8. { w k } 由IPSCPRSM (3)生成,则对于任何 w k+1 Ω ,我们有

k=0 w k+1 w ¯ k G 2 <,wΩ. (42)

证明。利用 F 的单调性,可以得到

( w w ˜ k ) T F( w ) ( w w ˜ k ) T F( w ˜ k ).

将上述不等式代入方程(18),我们得到

θ( x )θ( x ˜ k )+ ( w w ˜ k ) T F( w ) ( w w ˜ k ) T Q( w ¯ k w ˜ k ),wΩ.

设置 w= w * 和式(13),我们得到

( w ˜ k w * ) T Q( w ¯ k w ˜ k )0,wΩ.

w= w * 代入(26)中,我们得到

( w * w ˜ k ) T Q( w ¯ k w ˜ k )= 1 2 ( w * w k+1 H 2 w * w ¯ k H 2 )+ 1 2 w ¯ k w ˜ k G 2 .

因为 ( w ˜ k w * ) T Q( w ¯ k w ˜ k )0 ,我们有

w ¯ k w ˜ k G 2 w k+1 w * H 2 + w ¯ k w * H 2 .

根据 w ¯ k 的定义以及关系式 a+b H 2 2 a H 2 +2 b H 2 ,我们有

w ¯ k w ˜ k G 2 2 w k w * H 2 w k+1 w * H 2 +2 ρ k ( w k w k1 ) H 2 .

k = 0 k= 对两边求和。回顾假设3.1、引理3.7和式(41),引理3.8得证。

借助引理3.7和3.8,以下定理证明了由IPSCPRSM (3)生成的序列的渐近可行性以及目标函数的收敛性定理。

定理3.1. { α k } k=0 满足假设3.1, α( 0, ( 1+ 17 )/8 ) β>0 。由IPSCPRSM (3)生成的无限序列是 { w k } k=0 ,因此我们有

(i) k=1 r k 2 < ,因此 lim k r k =0 ,其中 r k = A 1 x 1 k + A 2 x 2 k + A 3 x 3 k b

(ii) 当 k 时,目标函数值 θ 1 ( x 1 k )+ θ 2 ( x 2 k )+ θ 3 ( x 3 k ) 收敛到(1)的最优值;

(iii) 序列 { w k } 收敛到 Ω * 中的点 w

以下定理为所提出的IPSCPRSM (3)提供了特定的渐近复杂度结果。我们展示了IPSCPRSM (3)能够找到一个近似解,该解对于变分不等式 VI( Ω,F,θ ) 的精度为 o( 1/ k ) 。我们给出以下定理

定理3.2. 假设序列 { w k } 由IPSCPRSM (3)生成,当 k 时。

(i) min 1ik w i w ¯ i1 G =o( 1/ k )

(ii) min 1ik r i =o( 1/ k )

(iii) min 1ik | θ 1 ( x 1 i )+ θ 2 ( x 2 i )+ θ 3 ( x 3 i ) θ 1 ( x 1 * ) θ 2 ( x 2 * ) θ 3 ( x 3 * ) |=o( 1/ k )

4. 数值实验

在这一部分,我们通过将IPSCPRSM应用于一个特定用例:鲁棒PCA,来展示其实际效果。我们展示了IPSCPRSM的初始数值结果,并将其性能与VASALM [20]和EADMM [21]进行了评估。

我们可以使用以下鲁棒PCA模型来描述它。

min X * +τ Y 1 + 1 2μ P Ω ( Z ) F 2 , s.t.   X+Y+Z=N, (43)

其中 N g×n ,  . * 表示核范数(一个矩阵所有奇异值的和), . 1 表示促进稀疏性的   l 1 范数,定义为所有条目的绝对值之和,并且 τ>0 是一个平衡参数, μ>0 是一个控制高斯噪声包含的小常数。 Ω 是集合 { 1,2,,g }×{ 1,2,,n } 的一个子集,而 P Ω ( ): g×n g×n 是对应的投影算子。

然后,我们可以将(43)重新表述,使其适合于可分离的凸优化(1)的范畴。具体来说,设

( x 1 , x 2 , x 3 )=( X,Y,Z ),  A i =  I p ,i=1,2,3,b=N,

θ 1 ( x 1 )= X * , θ 2 ( x 2 )=τ Y 1 , θ 3 ( x 3 )= 1 2μ P Ω ( Z ) F 2 .

因此,所提出的IPSCPRSM是适用的。首先,让我们引入两个重要的算子。这些算子对于获得封闭形式的解是有用的。设 c>0 为一个常数, E g×n 为一个给定的矩阵。对于矩阵变量的收缩算子 shrink( , ) 定义如下:

( shrink( E,c ) ) ij :=sign( E ij )max{ | E ij |c,0 },1ig,1jn.

此外,我们在奇异值域中定义算子   S c ( ): g×n g×n 如下:

S c ( E )=Udiag( shrink( Σ,c ) ) V T ,E g×n .

Λ g×n 是与问题(43)中的线性约束相关联的拉格朗日乘子。接下来,我们将详细说明应用IPSCPRSM到问题(43)时产生的子问题的显式表述。

X 子问题可以通过以下方式显式求解:

X k+1 =arg min X { X * ( λ ¯ k ) T X+ β 2 X+ Y ¯ k + Z ¯ k N 2 + 1 2 X X ¯ k B 2 }        = S 1 r 1 [ 1 r 1 ( ( r 1 β ) X ¯ k β Y ¯ k β Z ¯ k + λ ¯ k +βN ) ].

Y 子问题可以通过以下方式求解:

Y k+1 =arg min Y { τ Y 1 λ ¯ k Y+ β 2 X k+1 +Y+ Z ¯ k N 2 + 1 2 Y Y ¯ k C 2 }       =shrink( 1 r 2 ( βN+( r 2 β ) Y ¯ k β Z ¯ k β X k+1 + λ ¯ k ), τ r 2 ).

更新拉格朗日乘子 Λ k+ 1 2 通过

Λ k+ 1 2 = Λ ¯ k αβ( X k+1 + Y k+1 + Z ¯ k N ).

Z 子问题可以通过以下方式求解:

Z k+1 =arg min Z { 1 2μ P Ω ( Z ) F 2 ( λ k+ 1 2 ) T Z+ β 2 X k+1 + Y k+1 +ZN 2 }           + 1 2 Z Z ¯ k D 2 .

其中 Λ ˜ k = Λ k+ 1 2 β( X k+1 +  Y k+1 + Z ¯ k N ) 。那么, Z 的封闭形式解描述如下:

  Z ij k ={ μτ r 3 1+μτ r 3 Z ˜ ij k , if( i,j )Ω Z ˜ ij k ,              otherwise

其中 Z ˜ k = Z ¯ k + 1 τ  r 3 Λ ˜ k

对偶变量 Λ k+1 可以更新为

Λ k+1 = Λ k+ 1 2 αβ( X k+1 +  Y k+1 +  Z k+1 N ) .

为了展示所提出方法解决(43)问题的可行性和有效性。在这一部分中,我们将使用合成数据测试我们的算法,正如[20]中所测试的那样。具体来说,设 N= X * + Y * 为观测矩阵,其中 X * Y * 分别是 N 的待恢复的低秩和稀疏分量。 X * 是作为 X * = L T R 生成的,其中 L R 是两个全行秩矩阵, L R 的条目是独立同分布的高斯值,均值为零,方差为单位方差。对于稀疏分量 Y * ,其非零条目在区间 [ 500,500 ] 内均匀随机生成。索引集 Ω 是随机确定的,有一个预设的样本比率(用sr表示),定义为 sr=( | Ω |/ gn ) ,其中 | Ω | Ω 的基数。设 rr 为低秩比率(定义为 rr=ϑ/g ),并且设 spr 为稀疏比率( spr= Y * 0 / gn ,其中 . 0 表示非零条目的数量)。最后,观测数据被均值为零、标准差 σ= 10 3 的高斯噪声污染。在实验中,我们设定了 τ=1/ g μ= g+ 8gδ / 10 。对于测试数据,在本节中,我们只考虑样本比率 sr = 80% g=n{500,1000} 的情况。相应地,我们分别测试了两个场景,其中 rr{ 0.05,0.10 } 和三个场景,其中 spr{ 0.05,0.10,0.15 }

在我们的实验中,所有变量都初始化在原点。整个实验过程中,停止准则是

max{ X k+1   X k F 1+ X k F , Y k+1   Y k F 1+ Y k F }<tol.

其中 tol > 0 是一个容差参数,我们设定 tol:= 10 4

在我们的实验中,所有变量都初始化为原点。在实验中,惩罚参数 β 是通过 β= t ^ | Ω |/ P Ω ( N ) 1 来确定的,对于所有测试的方法,其中 t ^ 分别对应于 spr = 0.05,0.10 和0.15的情况,取值为0.05,0.10和0.20。

为了说明效率,我们将所提出的IPSCPRSM与[20]中的VASALM和[21]中的EADMM进行了比较。对于VASALM,我们设定 η=2.01 。对于我们的方法,我们设定 α= ( 1+ 17 )/8 ,并且对于IPSCPRSM,我们设定 ρ k =0.3 。数值结果在表1中给出,其中Iter.、Time和Tol分别代表迭代次数、计算时间(以秒为单位)以及恢复的低秩分量的相对误差(即 X k   X * F / X * F )。

表1中的结果表明,在大多数情况下,IPSCPRSM在迭代次数和CPU时间方面都比VASALM更快。IPSCPRSM的相对误差也优于VASALM。初看表1中的结果似乎表明,EADMM在迭代次数最少方面优于其他两种方法。然而,EADMM得到的相对误差结果也比其他所有方法的结果更差。事实上,所提出的IPSCPRSM算法在所有测试案例中都获得了最佳的相对误差结果。EADMM在最后阶段的收敛速度可能非常慢。因此,EADMM通常需要许多次迭代才能将相对误差结果提高到与IPSCPRSM方法相当的水平。

Table1. Numerical comparisons of different algorithms for solving the robust PCA

1. 解决鲁棒主成分分析问题的不同算法的数值比较

IPSCPRSM

EADMM

VASALM

g

spr

rr

Iter.

Time

Tol

Iter.

Time

Tol

Iter.

Time

Tol

100

0.05

0.05

104

1.8

6.19e−04

147

1.2

6.40e−04

146

1.4

6.34e−04

0.05

0.10

389

3.4

5.87e−03

505

4.3

6.66e−03

505

4.2

6.65e−03

0.10

0.05

115

1.0

6.29e−04

149

1.1

6.63e−04

148

1.2

6.58e−04

0.10

0.10

358

3.4

2.44e−03

477

4.4

3.08e−03

477

4.5

3.07e−03

0.15

0.05

154

2.0

4.18e−04

170

1.9

5.71e−04

166

1.0

5.65e−04

0.15

0.10

757

6.6

7.01e−02

790

6.7

7.09e−02

796

6.1

7.08e−02

500

0.05

0.05

57

10.1

1.01e−04

52

9.0

1.01e−04

58

9.7

1.02e−04

0.05

0.10

60

10.9

1.20e−04

48

8.5

1.98e−04

71

12.4

1.39e−04

0.10

0.05

81

15.6

1.11e−04

50

9.5

1.99e−04

62

10.9

1.89e−04

0.10

0.10

86

16.6

1.25e−04

62

10.3

3.66e−04

82

14.7

2.30e−04

0.15

0.05

79

15.8

1.02e−04

38

6.7

1.82e−04

78

15.0

9.45e−05

0.15

0.10

104

21.1

1.75e−04

78

13.7

3.27e−04

91

16.7

1.79e−04

1000

0.05

0.05

66

72.8

5.86e−05

46

46.2

8.85e−05

69

71.5

6.55e−05

0.05

0.10

70

78.8

6.31e−05

48

50.4

1.26e−04

77

79.4

9.55e−05

0.10

0.05

81

111.2

6.18e−05

50

76.6

1.09e−04

76

119.6

8.25e−05

0.10

0.10

87

105.2

7.32e−05

59

68.4

1.45e−04

87

134.5

9.64e−05

0.15

0.05

105

171.1

5.94e−05

45

49.3

9.61e−05

94

107.9

6.63e−05

0.15

0.10

114

205.1

6.56e−05

63

132.2

1.21e−04

118

190.6

7.81e−05

最后,为了进一步观察所提方法的收敛性,在图1中,我们绘制了恢复的低秩和稀疏成分的相对误差演变曲线、 X k 的秩以及 Y k 的稀疏性随迭代计数器 k 的变化情况,其中 g=500, spr{ 0.10,0.15 }, rr=0.10 。VASALM和IPSCPRSM具有全局收敛保证,而EADMM则没有。图1中的结果表明,我们所提出的IPSCPRSM方法能够以更少的迭代次数收敛到期望的最优解,从而比VASALM和EADMM得到更好的解。

Figure 1. Evolution of relative errors of the recovered low-rank and sparse components (the left four subplots), the rank of X k and sparsity of Y k (the right four subplots) with respect to the number of iterations

1. 恢复的低秩和稀疏成分的相对误差演变(左侧四个子图)、 X k 的秩和 Y k 的稀疏性(右侧四个子图)随迭代次数的变化

5. 结论

在本文中,我们考虑了具有线性约束的可分离凸最小化问题,其目标函数是两个以上不含耦合变量的函数之和。为了解决这个问题,我们考虑了一种带有不定邻近项的惯性邻近严格压缩Peaceman-Rachford分裂方法,并且结合惯性项和不定线性化技术,提高了算法的计算效率。此外,我们证明了该方法的全局收敛性和 o( 1/ k ) 收敛速率。最后,我们将所提出的算法应用于鲁棒主成分分析的求解,并验证了其可行性和有效性。

基金项目

国家级大学生创新创业训练计划项目(编号:202210488007)。

参考文献

[1] Peng, Y., Ganesh, A., Wright, J., et al. (2012) RASL: Robust Alignment by Sparse and Low-Rank Decomposition for Linearly Correlated Images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34, 2233-2246.
https://doi.org/10.1109/tpami.2011.282
[2] Yang, J. and Zhang, Y. (2011) Alternating Direction Algorithms for $\ell_1$-Problems in Compressive Sensing. SIAM Journal on Scientific Computing, 33, 250-278.
https://doi.org/10.1137/090777761
[3] Bouwmans, T., Aybat, N.S. and Zahzah, E.H. (2016) Handbook of Robust Low-Rank and Sparse Matrix Decomposition: Applications in Image and Video Processing. CRC Press.
[4] Boyd, S. (2010) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends in Machine Learning, 3, 1-122.
https://doi.org/10.1561/2200000016
[5] Padcharoen, A., Kumam, P. and Martínez-Moreno, J. (2019) Augmented Lagrangian Method for Tv-l1-l2 Based Colour Image Restoration. Journal of Computational and Applied Mathematics, 354, 507-519.
https://doi.org/10.1016/j.cam.2018.09.053
[6] Hestenes, M.R. (1969) Multiplier and Gradient Methods. Journal of Optimization Theory and Applications, 4, 303-320.
https://doi.org/10.1007/bf00927673
[7] Powell, M.J.D. (1969) A Method for Nonlinear Constraints in Minimization Problems. In: Fletcher, R., Ed., Optimization, Academic Press, 283-298.
[8] Douglas, J. and Rachford, H.H. (1956) On the Numerical Solution of Heat Conduction Problems in Two and Three Space Variables. Transactions of the American Mathematical Society, 82, 421-439.
https://doi.org/10.1090/s0002-9947-1956-0084194-4
[9] Lions, P.L. and Mercier, B. (1979) Splitting Algorithms for the Sum of Two Nonlinear Operators. SIAM Journal on Numerical Analysis, 16, 964-979.
https://doi.org/10.1137/0716071
[10] Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation. Computers & Mathematics with Applications, 2, 17-40.
https://doi.org/10.1016/0898-1221(76)90003-1
[11] Glowinski, R. and Marroco, A. (1975) Sur l’approximation, paréléments finis d’ordre un, et la résolution, par pénalisation-dualité d’une classe de problèmes de Dirichlet non linéaires. Revue française dautomatique, informatique, recherche opérationnelle. Analyse numérique, 9, 41-76.
https://doi.org/10.1051/m2an/197509r200411
[12] Peaceman, D.W. and Rachford, Jr., H.H. (1955) The Numerical Solution of Parabolic and Elliptic Differential Equations. Journal of the Society for Industrial and Applied Mathematics, 3, 28-41.
https://doi.org/10.1137/0103003
[13] Combettes, P.L. and Wajs, V.R. (2005) Signal Recovery by Proximal Forward-Backward Splitting. Multiscale Modeling & Simulation, 4, 1168-1200.
https://doi.org/10.1137/050626090
[14] He, B., Liu, H., Wang, Z. and Yuan, X. (2014) A Strictly Contractive Peaceman—Rachford Splitting Method for Convex Programming. SIAM Journal on Optimization, 24, 1011-1040.
https://doi.org/10.1137/13090849x
[15] Polyak, B.T. (1964) Some Methods of Speeding up the Convergence of Iteration Methods. USSR Computational Mathematics and Mathematical Physics, 4, 1-17.
https://doi.org/10.1016/0041-5553(64)90137-5
[16] Wu, Z., Liu, F. and Li, M. (2018) A Proximal Peaceman-Rachford Splitting Method for Solving the Multi-Block Separable Convex Minimization Problems. International Journal of Computer Mathematics, 96, 708-728.
https://doi.org/10.1080/00207160.2018.1435864
[17] Sun, M., Wang, Y. and Liu, J. (2016) Generalized Peaceman-Rachford Splitting Method for Multiple-Block Separable Convex Programming with Applications to Robust PCA. Calcolo, 54, 77-94.
https://doi.org/10.1007/s10092-016-0177-0
[18] Li, P., Chen, W.G. and Sun, Q.Y. (2023) Inertial Proximal ADMM for Separable Multi-Block Convex Optimizations and Compressive Affine Phase Retrieval. Acta Mathematica Sinica, English Series, 39, 1459-1496.
https://doi.org/10.1007/s10114-023-1401-x
[19] He, B., Tao, M. and Yuan, X. (2012) Alternating Direction Method with Gaussian Back Substitution for Separable Convex Programming. SIAM Journal on Optimization, 22, 313-340.
https://doi.org/10.1137/110822347
[20] Tao, M. and Yuan, X. (2011) Recovering Low-Rank and Sparse Components of Matrices from Incomplete and Noisy Observations. SIAM Journal on Optimization, 21, 57-81.
https://doi.org/10.1137/100781894
[21] Li, S., Li, K., Li, W. and Yang, M. (2024) Evolutionary Alternating Direction Method of Multipliers for Constrained Multi-Objective Optimization with Unknown Constraints. IEEE Transactions on Evolutionary Computation.
https://doi.org/10.1109/tevc.2024.3425629