基于广义近似交替方向乘子法求解可分离凸优化问题

doi:10.12677/PM.2021.114062

期刊菜单

基于广义近似交替方向乘子法求解可分离凸优化问题
Solving Separable Convex Optimization Problem Based on Generalized Proximal Alternating Direction Method of Multipliers

DOI: 10.12677/PM.2021.114062, PDF, HTML, XML, 国家自然科学基金支持
作者: 殷倩雯, 党亚峥^*, 向浩东：上海理工大学管理学院，上海
关键词: 广义近似交替方向乘子法；可分离凸优化；随机加速；全局收敛；Generalized-Proximal Alternating Direction Method of Multipliers； Separable Convex Optimization； Random Acceleration； Global Convergence

摘要: 本文提出了一种广义近似交替方向乘子法(gPADMM)来求解可分离凸优化问题。和近似邻近点算法(APPA)和扩展邻近交替方向方法(ePADM)相比，新算法不仅更新自定义矩阵的结构，而且引入随机变量进行随机加速更新步长，从而克服了旧算法固定步长的不灵活性。在某些适当的假设条件下，本文证明了新算法的全局收敛性，并且初步数值实验表明该算法是有效的，收敛速度比旧算法更快。

Abstract: In this paper, we propose a generalized-proximal alternating direction method of multipliers (gPADMM) for separable convex optimization problem. Compared with the approximate proximal point algorithm (APPA) and the extend proximal alternating directions method (ePADM), the new algorithm not only updates the structure of customed matrix, but also induces random variables for random acceleration to update the step length, which overcomes the inflexibility of the old al-gorithms' fixed step length. We prove the global convergence of the new algorithm under certain mild conditions. And preliminary numerical experiments show that the algorithm is effective and the gPADMM converges faster than the old algorithms.

文章引用：殷倩雯, 党亚峥, 向浩东. 基于广义近似交替方向乘子法求解可分离凸优化问题[J]. 理论数学, 2021, 11(4): 485-495. https://doi.org/10.12677/PM.2021.114062

1. 引言

本文考虑一个具有如下形式的可分离凸优化问题

$\min {f (x) + g (y) | A x + B y = b, x \in X, y \in Y},$ (1.1)

其中 $X \subset R^{n_{1}}, Y \subset R^{n_{2}}$ 是有界闭合的、凸的、非空集合， $f : X \to R$ 和 $g : Y \to R$ 是凸函数(不一定是平滑函数)。 $A \in R^{m \times n_{1}}, B \in R^{m \times n_{2}}$ 是给定的矩阵， $b \in R^{m}$ 是一个向量。

Glowinski [1] 和Gabay [2] 证明了基于增广拉格朗日方法(ALM)的交替方向乘子方法对于问题(1.1)是非常有效的。针对问题(1.1)，ALM算法的迭代形式为

${\begin{cases} x^{k + 1} = \underset{x \in X}{\arg \min} {f (x) + \frac{β}{2} {‖ A x + B y^{k} - b - \frac{1}{β} λ^{k} ‖}^{2}}, \\ y^{k + 1} = \underset{x \in X}{\arg \min} {g (y) + \frac{β}{2} {‖ A x^{k + 1} + B y - b - \frac{1}{β} λ^{k} ‖}^{2}}, \\ λ^{k + 1} = λ^{k} - β (A x^{k + 1} + B y^{k + 1} - b) . \end{cases}$ (1.2)

Gabay [3] 表明ADMM算法在本质上是Douglas-Rachford分裂方法的一种应用 [4]。Cai，Gu和He在文献 [5] 中提供了一种新颖简单的邻近点算法(PPA)来解释ADMM算法，并提出了一种广义的ADMM算法(gADMM)，即它首先产生了一个预测算子，形式如下：

${\begin{cases} {\tilde{x}}^{k} = \underset{x \in X}{\arg \min} {f (x) + \frac{β}{2} {‖ A x + B y^{k} - b - \frac{1}{β} λ^{k} ‖}^{2}}, \\ {\tilde{λ}}^{k} = λ^{k} - β (A {\tilde{x}}^{k} + B y^{k} - b), \\ {\tilde{y}}^{k} = \underset{y \in Y}{\arg \min} {g (y) + \frac{β}{2} {‖ A {\tilde{x}}^{k} + B y - b - \frac{1}{β} {\tilde{λ}}^{k} ‖}^{2}}, \\ x^{k + 1} = {\tilde{x}}^{k}, \\ y^{k + 1} = y^{k} - γ (y^{k} - {\tilde{y}}^{k}), \\ λ^{k + 1} = λ^{k} - γ (λ^{k} - {\tilde{λ}}^{k}), γ \in (0, 2) . \end{cases}$ (1.3)

其中新的迭代步表示为 $w^{k + 1} = (x^{k + 1}, y^{k + 1}, λ^{k + 1})$ 。自定义矩阵表示为：

$Q = (\begin{matrix} 0_{n_{1} \times n_{1}} & 0_{n_{1} \times n_{2}} & 0_{n_{1} \times m} \\ 0_{n_{2} \times n_{1}} & β B^{T} B & - B^{T} \\ 0_{m \times n_{1}} & - B & - \frac{1}{β} I_{m} \end{matrix})$

通过以上分析，可以发现针对问题(1.1)，ADMM算法有许多变体。进一步研究得到，文献 [6] 中提出了DRSM算法并在 [7] 中被进一步解释为邻近点算法的应用。Jiang, B. Q.，Peng, Z.，Deng, K. K.提出了两种新颖的定制邻近点算法，在 [8] 中将建立所提出方法的全局收敛性和O (1/k)收敛速率。因此，在 [6] 中建议对PPA应用 [9] 中提出的加速方案来加速原始ADMM。最近， [10] 中的工作表明了开发下降型方法求解的可能性，其下降方向是从ADM生成的迭代中得出的。在 [11] 中，李、袁等人考虑将广义交替方向乘子法与对数-二次近端正则化相结合，以解决具有可分离结构的变分不等式问题(VI)，并建立由在遍历和非遍历意义上的迭代复杂度。袁晓明提出了一种改进的基于PADM的下降方法，该方法继承了 [12] 中ADM，PPA和下降类型方法的所有优点。在 [13] 中，徐使用服从高斯分布的随机数来随机扩展步长，并针对一类变分不等式提出了随机步长收缩方法。但是，在某些实际应用中，宽松的步骤可能是不可接受的，甚至是不被允许的。

为了应对这些实际情况，本文修改了预测步长，并采用随机变量来更新步长，而不是放松固定步长。然后，提出了广义的邻近交替方乘子向法。在一些适当的假设下，本文证明了算法的收敛性。同时，本文通过数值实验，还验证了与以前提出的某些算法相比，新算法在实践中具有更好的数值性能。

本文的其余部分安排如下。本文的第2节描述了一些相关的基础知识和引理，以便后续证明。在第3节中，本文针对问题(1.1)提出了广义近邻交替方向乘子方法。所提方法的收敛性将在第4节中得到证明。在第5节中，与以前提出的算法相比，一些初步的数值结果被提出来表明新方法的高效率。第六部分总结了本文的一些结论。

2. 预备知识

本节给出了将在后续当中使用的一些预备知识。贯穿全文，本文将 $‖ u ‖ = \sqrt{u^{T} u}$ 表示为Educlidean范数，而 $〈 \cdot, \cdot 〉$ 表示为内积。令 $Ω \in R^{m} \times R^{n} \times R^{r}$ 是R上的一个非空闭合子集。当 $P_{Ω}$ 的可行集Ω是非负正数 $R_{+}^{N}$ 时，向量 $x \in R$ 的每个分量i的投影很简单，表示为 ${(P_{Ω} [x])}_{i} = \max {0, x_{i}}$ 。

引理2.1 令 $ζ > 0$ 为常数，C为非空封闭的凸集。当且仅当

$x^{*} = P_{C} [x^{*} - ζ f (x^{*})], x^{*} \in C$

是 $VI (f, C)$ 的最优解。

记 $e (x, ζ) = x - P_{C} [x - ζ f (x)]$ 为投影方程的残差，则 $VI (f, C)$ 等价于找到 $e (x, ζ)$ 的零点。因此，我们可以将 $‖ (x, ζ) ‖$ 记为算法的停止准则。下一个引理表明，对于任何 $ζ > 0$ ， $‖ (x, ζ) ‖$ 是一个非递减函数。

众所周知，对于任何x和y，正交投影算子 $P_{Ω}$ 具有以下特性：

引理2.2 [14] 令 $Ω \in R^{m} \times R^{n} \times R^{r}$ 是一个非空闭合凸集，那么对于任意的 $x, y \in R^{n}$ ，都有

(1) $〈 x - P_{Ω} (x), P_{Ω} (x) - y 〉 \geq 0, \forall y \in Ω$

(2) $〈 P_{Ω} (x) - P_{Ω} (y), x - y 〉 \geq 0, \forall x, y \in R^{m} \times R^{n} \times R^{r}$

(3) $‖ P_{Ω} (x) - P_{Ω} (y) ‖ \leq ‖ x - y ‖, \forall x, y \in R^{m} \times R^{n} \times R^{r}$

(4) $〈 x - y, P_{Ω} (x) - P_{Ω} (y) 〉 \geq {‖ P_{Ω} (x) - P_{Ω} (y) ‖}^{2}, \forall x, y \in R^{m} \times R^{n} \times R^{r}$

在许多情况下，可行集C具有以下形式： $C = {x | A x + B y = b, x \in Q}$ ，其中 $A, B \in R^{m \times n}, b \in R^{m}$ ，而Q是 $R_{+}^{N}$ 的简单凸子集。基本的 $VI (f, C)$ 可以转换为结构化的变分不等式问题，表示为 $VI (F, C)$ ：寻找一个 $u^{*} \in Q$ ，使得

$F {(u^{*})}^{T} (u - u^{*}) \geq 0, \forall u \in Q,$

其中 $u : = (\begin{matrix} x \\ y \end{matrix})$ ， $w : = (\begin{matrix} x \\ y \\ λ \end{matrix})$ ， $F (w) : = (\begin{matrix} - A^{T} λ \\ - B^{T} λ \\ A x + B y - b \end{matrix})$ 。

关于目标函数f的以下定义是非常重要的，并且会在后面证明会使用到。

定义2.3 设f为从 $C \to R^{n}$ 的映射。如果 ${(u - v)}^{T} (f (u) - f (v)) \geq 0, \forall u, v \in C$ ，那么f在C上是单调的。

如果C是 $R^{n}$ 的紧凸集，而 $F : C \to R^{n}$ 是连续映射，则变分不等式问题(VIP)至少具有一个解。假设函数是单调的，那么可以保证变分不等式问题的解存在且唯一。

引理2.4 如果C是 $R^{n}$ 的非空闭凸集，而 $F : C \to R^{n}$ 是一个连续映射，那么对于任给的 $x, y \in C$ ，有 $〈 x - y, F (x) - F (y) 〉 \geq 0, \forall x, y \in C$ 。

定义2.5 假设序列 ${X_{n}}$ 是由 $X_{1}, X_{2}, \dots, X_{n}, \dots$ 组成的随机变量，如果对于任意的 $ϵ > 0$ ，有 $\lim_{n \to \infty} P {(X_{n} - X) > ϵ} = 0$ ，那么就说序列 ${X_{n}}$ 以概率收敛到X，并且记为 $X_{n} \overset{P}{\to} X$ 。

引理2.6 马尔可夫不等式：对于任何 $ϵ > 0$ 和 $r > 0$ ，都有

$P (| X | \geq ϵ) \leq \frac{E {(| X |)}^{r}}{ϵ^{r}}$

引理2.7 假设 $X_{n} \overset{P}{\to} X$ ，那么一定有 $X_{n_{k}} \to X a . s .$ (几乎必然地)。

3. 算法提出

本节提出了一个gPADMM算法来解决问题(1.1)，其中问题(1.1)的增广拉格朗日形式为

$L (x, y, λ) = θ_{1} (x) + θ_{2} (y) - λ^{T} (A x + B y - b) + \frac{β}{2} {‖ A x + B y - b ‖}^{2} .$ (3.1)

如果 ${(x^{*}, y)}^{*} \in X \times Y$ 是问题的最优解，那么存在一个 $λ^{*} \in R^{m}$ ，使得 $(x^{*}, y^{*}, λ^{*})$ 是一个鞍点，满足

${\begin{cases} L (x, y^{*}, λ^{*}) - L (x^{*}, y^{*}, λ^{*}) \geq 0, \forall x \in X \\ L (x^{*}, y, λ^{*}) - L (x^{*}, y^{*}, λ^{*}) \geq 0, \forall y \in Y \\ L (x^{*}, y^{*}, λ^{*}) - L (x^{*}, y^{*}, λ) \geq 0, \forall λ \in R^{m} \end{cases}$ (3.2)

因此，由(3.2)得出

${\begin{cases} x^{*} = \arg \min_{x \in X} L (x, y^{*}, λ^{*}), \\ y^{*} = \arg \min_{y \in Y} L (x^{*}, y, λ^{*}), \\ λ^{*} = \arg \min_{x \in X} L (x^{*}, y^{*}, λ) . \end{cases}$ (3.3)

根据 [12] 中的引理2.1，本文可以得到问题(3.3)的一阶最优条件：

${\begin{cases} f (x) - f (x^{*}) - (x - x^{*}) (A^{T} λ^{*}) \geq 0, \forall x \in X, \\ g (y) - g (y^{*}) - (y - y^{*}) (B^{T} λ^{*}) \geq 0, \forall y \in Y, \\ {(λ - λ^{*})}^{T} (A x^{*} + B y^{*} - b) \geq 0, \forall λ \in R^{m}, \end{cases}$ (3.4)

因此，问题的解集也可以表示为包括所有满足条件的 $w^{*} \in W^{*}$ ，其中 $W : = X \times Y \times R^{m}$ ， $θ (u) : = θ_{1} (x) + θ_{2} (y)$ 和

$u : = (\begin{matrix} x \\ y \end{matrix}), w : = (\begin{matrix} x \\ y \\ λ \end{matrix}), F (w) : = (\begin{matrix} - A^{T} λ \\ - B^{T} λ \\ A x + B y - b \end{matrix}) .$ (3.5)

综上所述，针对可分离凸优化问题(1.1)，本文提出如下的gPADMM算法：

注3.1为了确保收敛， $ξ_{k} = ω (a, b)$ 需要满足是某个独立且均匀分布的扩展序列，并且 $ξ_{k} = ω (a, b)$ 的数学期望为 $E (ξ_{k}), k = 1, 2, \dots$ 。另外，在整个迭代过程不需要计算 $ρ (A^{T} A)$ 或 $A^{- 1}$ 。

4. 收敛性证明

在本节中，本文充分结合变分不等式来证明算法3.1的全局收敛性。因此，公式(3.6)可变为具有如下形式的变分不等式：

${\begin{cases} (x^{'} - {\tilde{x}}^{k}) {θ_{1} ({\tilde{x}}^{k}) - A^{T} [λ^{k} - β (A {\tilde{x}}^{k} + B y^{k} - b)] + (R + S) {‖ {\tilde{x}}^{k} - x^{k} ‖}^{2}} \geq 0, \forall x^{'} \in X, \\ (y^{'} - {\tilde{y}}^{k}) {θ_{2} ({\tilde{y}}^{k}) - B^{T} [λ^{k} - β (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)] + S {‖ {\tilde{y}}^{k} - y^{k} ‖}^{2}} \geq 0, \forall y^{'} \in Y, \\ {\tilde{λ}}^{k} = λ^{k} - β (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b) . \end{cases}$ (4.1)

接下来将引入一些重要的引理和定理来证明算法的收敛性，如下所示。

引理4.1 令 ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 是由公式(3.6)生成得到，那么对于任意的 $w^{*} \in W^{*}$ 是问题(1.1)的最优解，得到

${(w^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k}) \geq {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} B (y^{k} - {\tilde{y}}^{k}),$ (4.2)

其中 $Q = (\begin{matrix} (R + S) I_{n_{1}} & 0_{n_{1} \times n_{2}} & 0_{n_{1} \times m} \\ 0_{n_{2} \times n_{1}} & β B^{T} B + S I_{n_{2}} & 0_{n_{2} \times m} \\ 0 & 0 & \frac{1}{β} I_{m} \end{matrix})$ 。

证明由于 $w^{*} \in W^{*}, \tilde{x} \in X$ 并且 $\tilde{y} \in Y$ ，那么可知

${\begin{cases} {({\tilde{x}}^{k} - x^{*})}^{T} (θ_{1} (x^{*}) - A^{T} λ^{*}) \geq 0, \\ {({\tilde{y}}^{k} - y^{*})}^{T} (θ_{2} (y^{*}) - B^{T} λ^{*}) \geq 0. \end{cases}$ (4.3)

将(3.6)分别加入(4.3)中且算子 $θ_{1}$ 和 $θ_{2}$ 的单调性，得出

${\begin{cases} {(A {\tilde{x}}^{k} - A x^{*})}^{T} ({\tilde{λ}}^{k} - λ^{*}) + ({\tilde{x}}^{k} - x^{*}) (R + S) (x^{k} - {\tilde{x}}^{k}) \geq β {(A {\tilde{x}}^{k} - A x^{*})}^{T} (B y^{k} - B {\tilde{y}}^{k}), \\ {(B {\tilde{y}}^{k} - B y^{*})}^{T} ({\tilde{λ}}^{k} - λ^{*}) + ({\tilde{y}}^{k} - x^{*}) S (y^{k} - {\tilde{y}}^{k}) \geq 0, \end{cases}$ (4.4)

因此，由(4.4) (3.6)以及 $A x^{*} + B y^{*} = b$ 得知

$\begin{array}{l} \frac{1}{β} {({\tilde{λ}}^{k} - λ^{*})}^{T} (λ^{k} - {\tilde{λ}}^{k}) + {({\tilde{x}}^{k} - x^{*})}^{T} (R + S) (x^{k} - {\tilde{x}}^{k}) + {({\tilde{y}}^{k} - x^{*})}^{T} S (y^{k} - {\tilde{y}}^{k}) \\ \geq β {(A {\tilde{x}}^{k} - A x^{*})}^{T} (B y^{k} - B {\tilde{y}}^{k}), \end{array}$ (4.5)

在(4.5)的两边同时加上 $β {(B {\tilde{y}}^{k} - B y^{*})}^{T} (B y^{k} - B {\tilde{y}}^{k})$ 及矩阵Q的定义和 $A x^{*} + B y^{*} = b$ ，于是得到

$\begin{matrix} {({\tilde{w}}^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k}) \geq β {(A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)}^{T} (B y^{k} - B {\tilde{y}}^{k}) \\ \geq {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k}), \end{matrix}$ (4.6)

这意味着

${({\tilde{w}}^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k}) \geq {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k}) .$

因此，引理4.1得证。

引理4.2 令 ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 是由公式(3.6)生成得到，那么对于任意的 $w^{*} \in W^{*}$ 是问题(1.1)的最优解，有

${‖ w^{k} - w^{*} ‖}_{Q}^{2} \geq {‖ {\tilde{w}}^{k} - w^{*} ‖}_{Q}^{2} + 2 {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k}) + {‖ {\tilde{w}}^{k} - w^{k} ‖}_{Q}^{2} .$ (4.7)

证明由引理4.1和(3.6)式得

$\begin{matrix} {‖ {\tilde{w}}^{k} - w^{*} ‖}_{Q}^{2} = {‖ w^{k} - w^{*} - (w^{k} - {\tilde{w}}^{k}) ‖}_{Q}^{2} \\ = {‖ w^{k} - w^{*} ‖}_{Q}^{2} + 2 {(w^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k}) + {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} \\ \leq {‖ w^{k} - w^{*} ‖}_{Q}^{2} - 2 [{‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k})] + {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} \\ \leq {‖ w^{k} - w^{*} ‖}_{Q}^{2} - {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} - 2 {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k}) \end{matrix}$

因此，引理4.2证毕且公式(4.7)表明 $d (w^{k}, {\tilde{w}}^{k}) = w^{k} - {\tilde{w}}^{k}$ 是 ${‖ w^{k} - w^{*} ‖}_{Q}^{2}$ 的下降方向。

定理4.1 假设 $w^{*}$ 是问题(1.1)的解，那么对任给的迭代点 ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ ，本文定义如下的一些函数：

${\begin{cases} w^{k + 1} (α) = w^{k} - α_{k} (w^{k} - {\tilde{w}}^{k}), \\ θ^{k} (α) = {‖ w^{k} - w^{*} ‖}_{Q}^{2} - {‖ w^{k + 1} (α) - w^{*} ‖}_{Q}^{2}, \\ φ (w^{k}, {\tilde{w}}^{k}) = {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k}), \\ ψ^{k} (α) = 2 α φ (w^{k}, {\tilde{w}}^{k}) - α^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} . \end{cases}$ (4.8)

那么对任意的 $w^{*} = (x^{*}, y^{*}, λ^{*}) \in W^{*}, α \geq 0$ ，存在 $θ^{k} (α) \geq ψ^{k} (α)$ (4.9)

证明由(4.8)可知

$\begin{matrix} {‖ w^{k + 1} (α) - w^{*} ‖}_{Q}^{2} = {‖ w^{k} - α_{k} (w^{k} - {\tilde{w}}^{k}) - w^{*} ‖}_{Q}^{2} \\ = {‖ w^{k} - w^{*} ‖}_{Q}^{2} - 2 α_{k} {(w^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k}) + α_{_{k}}^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} \\ \leq {‖ w^{k} - w^{*} ‖}_{Q}^{2} - 2 α φ (w^{k}, {\tilde{w}}^{k}) + α^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} \\ = {‖ w^{k} - w^{*} ‖}_{Q}^{2} - ψ^{k} (α) . \end{matrix}$

因此，(4.9)得证。

从定理4.1可知 $ψ^{k} (α)$ 是 $θ^{k} (α)$ 的一个下界且 $θ^{k} (α) \geq ψ^{k} (α)$ 。由 $ψ^{k} (α)$ 的定义可知，它是关于 $α$ 的一个二次函数，且它的最大值

$α_{k} = \frac{φ (w^{k}, {\tilde{w}}^{k})}{{‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}} = \frac{{‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k})}{{‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}}$ 。

也是最优的步长。

定理4.2 如果 $0 < a < E (ξ_{k}) = ρ < b$ ，序列 ${w^{k}}$ 是由广义的邻近交替方向乘子法生成，那么有

$E ({‖ w^{k + 1} - w^{*} ‖}_{Q}^{2}) \leq E ({‖ w^{k} - w^{*} ‖}_{Q}^{2}) - \frac{ρ (2 - p)}{4} E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}),$ (4.10)

证明由引理4.1和(3.7)，我们得到

$\begin{array}{l} {‖ w^{k + 1} - w^{*} ‖}_{Q}^{2} = {‖ w^{k} - η_{k} α_{k} (w^{k} - {\tilde{w}}^{k}) - w^{*} ‖}_{Q}^{2} \\ = {‖ w^{k} - w^{*} ‖}_{Q}^{2} - 2 η_{k} α_{k} {(w^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k}) + (^{η_{k} α_{k}) 2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} \\ \leq {‖ w^{k} - w^{*} ‖}_{Q}^{2} - 2 η_{k} α_{k} ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k})) + η_{_{k}}^{2} α_{_{k}}^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} \\ \leq {‖ w^{k} - w^{*} ‖}_{Q}^{2} - \frac{1}{2} η_{k} (2 - η_{k}) α_{k} ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k})) . \end{array}$ (4.11)

由于 $ξ_{1}, ξ_{2}, \dots, ξ_{k}, \dots$ 是独立且均匀分布，可以推出 $η_{k}, w^{k}, {\tilde{w}}^{k}$ 和 ${‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k})$ 也是独立的。又因为

$E (η_{k}) = E (\frac{1}{k} \sum_{i = 1}^{k} ξ_{k}) = \frac{1}{k} \sum_{i = 1}^{k} E (ξ_{k}) = ρ, E (α) > \frac{1}{2},$

那么 ${‖ w^{k + 1} - w^{*} ‖}_{Q}^{2}$ 的数学期望满足

$\begin{matrix} E ({‖ w^{k + 1} - w^{*} ‖}_{Q}^{2}) = E ({‖ w^{k} - η_{k} α_{k} (w^{k} - {\tilde{w}}^{k}) - w^{*} ‖}_{Q}^{2}) \\ = E ({‖ w^{k} - w^{*} ‖}_{Q}^{2}) - E (2 η_{k} α_{k} {(w^{k} - w^{*})}^{T} Q (w^{k} - {\tilde{w}}^{k})) + {(η_{k} α_{k})}^{2} E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}) \\ \leq E ({‖ w^{k} - w^{*} ‖}_{Q}^{2}) - 2 E (η_{k}) E (α_{k}) E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} (B y^{k} - B {\tilde{y}}^{k})) \\ + E (η_{k}^{2}) E (α_{k}^{2}) E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}) \\ \leq E ({‖ w^{k} - w^{*} ‖}_{Q}^{2}) - \frac{1}{4} ρ (2 - ρ) E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}) . \end{matrix}$

最后，获得本文期望的结果。

推论4.1 如果 $0 < a < E (ξ_{k}) = ρ < b$ ，序列 ${w^{k}}$ 是由广义的邻近交替方向乘子法生成，那么有

(1) 序列 $E (w^{k})$ 和 $E ({\tilde{w}}^{k})$ 都是有界的。

(2) 序列 $E ({‖ w^{k + 1} - w^{*} ‖}_{Q}^{2})$ 是单调且有界的。

(3) $\lim_{k \to \infty} E ({‖ w^{k} - {\tilde{w}}^{k} ‖}^{2}) = 0$ 。

定理4.3 如果 $0 < a < E (ξ_{k}) = ρ < b$ ，序列 ${w^{k}}$ 是由广义的邻近交替方向乘子法生成，那么序列 ${w^{k}}$ 依概率收敛到 $w^{\infty} \in W^{*}$ 。

证明从推论4.1和引理4.2，得到

$\lim_{k \to \infty} E ({‖ A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b ‖}_{Q}^{2} + {‖ B (y^{k} - {\tilde{y}}^{k}) ‖}_{Q}^{2}) = 0.$ (4.12)

因为序列 ${E ({\tilde{w}}^{k})}$ 是有界的，那么它至少有一个聚集点。令 $E (w^{\infty})$ 是序列 ${E ({\tilde{w}}^{k})}$ 的一个聚集点，并且存在一个子序列 ${E ({\tilde{w}}^{k_{j}})}$ 收敛到 $E (w^{\infty})$ ，那么存在一个子序列 ${{\tilde{w}}^{k_{j}}}$ 依概率收敛到 $ω^{\infty} \in W^{*}$ ，记为 ${\tilde{w}}^{k_{j}} \overset{P}{\to} w^{\infty}$ 。

从引理2.3得到子序列 ${{\tilde{w}}^{k_{j}}}$ 几乎必然地收敛到 $ω^{\infty}$ ，那么它也可标记子序列为 ${{\tilde{w}}^{k_{j}}}$ ，记作

$\lim_{j \to \infty} {\tilde{w}}^{k_{j}} = w^{\infty} a . s .$ (4.13)

结合公式(3.6)、(4.12)和(4.13)，有

${\begin{cases} \lim_{j \to \infty} {(x - {\tilde{x}}^{k_{j}})}^{T} {θ_{1} ({\tilde{x}}^{k_{j}}) - A^{T} {\tilde{λ}}^{k_{j}}} \geq 0, \forall x \in X \\ \lim_{j \to \infty} {(y - {\tilde{y}}^{k_{j}})}^{T} {θ_{2} ({\tilde{y}}^{k_{j}}) - B^{T} {\tilde{λ}}^{k_{j}}} \geq 0, \forall y \in Y \\ \lim_{j \to \infty} (A {\tilde{x}}^{k_{j}} + B {\tilde{y}}^{k_{j}} - b) = 0 \end{cases}$

从而有 ${\begin{cases} {(x - x^{\infty})}^{T} {θ_{1} (x^{\infty}) - A^{T} λ^{\infty}} \geq 0, \forall x \in X \\ {(y - y^{\infty})}^{T} {θ_{2} (y^{\infty}) - B^{T} λ^{\infty}} \geq 0, \forall y \in Y \\ (A x^{\infty} + B y^{\infty} - b) = 0 \end{cases}$ 。

因此，可以推出 $ω^{\infty} \in W^{*}$ 。

又因为 $\lim_{j \to \infty} E ({\tilde{w}}^{k_{j}}) = E (w^{\infty})$ ，则 $\lim_{l \to \infty} E ({‖ {\tilde{w}}^{k_{l}} - w^{\infty} ‖}_{Q}^{2}) = 0$ 。同时因为 $\lim_{k \to \infty} E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{Q}^{2}) = 0$ ，且对任给地 $ε > 0$ ，有 $l > 0$ ，于是得到

$E ({‖ w^{k_{l}} - {\tilde{w}}^{k_{l}} ‖}_{Q}^{2}) = \frac{ε}{2}$

和

$E ({‖ {\tilde{w}}^{k_{l}} - w^{\infty} ‖}_{Q}^{2}) < \frac{ε}{2} .$ (4.14)

因此，对任意的 $k > k_{l}$ ，由(4.14)，可知

$E ({‖ w^{k} - w^{\infty} ‖}_{Q}^{2}) \leq E ({‖ w^{k_{l}} - w^{\infty} ‖}_{Q}^{2}) \leq E ({‖ w^{k_{l}} - {\tilde{w}}^{k_{l}} ‖}_{Q}^{2}) + E ({‖ {\tilde{w}}^{k_{l}} - w^{\infty} ‖}_{Q}^{2}) < ε .$ (4.15)

由此推出 $\lim_{k \to \infty} E ({‖ w^{k} - w^{\infty} ‖}_{Q}^{2}) = 0$ 。

结合引理2.2和公式(4.15)，可得对任给的 $ε > 0$ ，如果存在 $l > 0$ ，只要 $k > l$ ，就有

$P ({‖ w^{k} - w^{\infty} ‖}_{Q}^{2} \geq ϵ) \leq \frac{E ({‖ w^{k} - w^{\infty} ‖}_{Q}^{2})}{ϵ} < ε$

那么得到 $\lim_{k \to \infty} P ({‖ w^{k} - w^{\infty} ‖}_{Q}^{2} \geq ϵ) = 0$ 。

因此，序列 ${ω^{k}}$ 依概率收敛到 $w^{\infty} \in W^{*}$ ，记作 $ω^{k} \overset{P}{\to} ω^{\infty}$ 。

至此，收敛性证明全部完成。

5. 数值实验

本节通过数值实验重点介绍算法的有效性。

例5.1 首先，考虑陶、袁和何 [15] 提出的财务和统计问题，其形式如下：

$\min {\frac{1}{2} {‖ X - C ‖}_{F}^{2} | X \in S_{+}^{n} \cap S_{B}},$ (5.1)

其中 $S_{B} = {H \in R^{n \times n} | H_{L} \geq H \geq H_{U}}$ 。

通过引入一个辅助变量Y使得 $X - Y = 0$ ，问题(5.1)可以重新表示为如下形式的可分离凸优化问题

$\min {\frac{1}{2} {‖ X - C ‖}_{F}^{2} + \frac{1}{2} {‖ Y - C ‖}_{F}^{2} | X = Y, X \in S_{+}^{n}, Y \in S_{B}},$ (5.2)

显然地，问题(5.2)是问题(1.1)的一个特殊形式，其中 $ρ (A^{T} A) = ρ (B^{T} B) = 1$ 。令 $λ \in R^{n}$ 是线性约束 $X - Y = 0$ 的拉格朗日乘子。对于给定的 $(X^{k}, Y^{k}, λ^{k})$ ，算法能产生第k+1次迭代步，有

${\begin{cases} {\tilde{X}}^{k} = \underset{X \in S_{+}^{n}}{\arg \min} {\frac{1}{2} {‖ X - C ‖}^{2} + 〈 λ^{k}, X - Y^{k} 〉 + \frac{β}{2} {‖ X - Y^{k} ‖}^{2} + \frac{R + S}{2} {‖ X - X^{k} ‖}^{2}}, \\ {\tilde{Y}}^{k} = \underset{Y \in S_{B}}{\arg \min} {\frac{1}{2} {‖ Y - C ‖}^{2} + 〈 λ^{k}, {\tilde{X}}^{k} - Y 〉 + \frac{β}{2} {‖ {\tilde{X}}^{k} - Y ‖}^{2} + \frac{S}{2} {‖ Y - Y^{k} ‖}^{2}}, \\ {\tilde{λ}}^{k} = λ^{k} - β ({\tilde{X}}^{k} - {\tilde{Y}}^{k}) . \end{cases}$ (5.3)

迭代(5.3)的X-子问题是通过SVD分解来进行求解，它承担每次迭代过程中的主要计算负荷。迭代(5.3)的Y-子问题也是一个投影，有如下形式

${\tilde{Y}}^{k} = P_{S_{B}} {\frac{1}{S + 1 + β} ({\tilde{X}}^{k} - λ^{k} + C + S Y^{k})},$

其中 $P_{S_{B}}$ 表示根据欧几里得范数到集合S_B的投影。

在数值实验中，对于任意的所有 $i, j$ ，设 $C = {(c_{i j})}_{n \times n}$ 是一个满足 $c_{i j} \in (- 1, 1)$ 随机矩阵。对于每个给定，将测试20个随机实例。公平地说，将X⁰和Y⁰设置为 $n \times n$ 独立性矩阵， $λ^{0}$ 是一个n维零向量，并且将 $ε = \frac{\max (| w^{k + 1} - w^{k} |)}{\max (| w^{0} - {\tilde{w}}^{0} |)} \leq 10^{- 6}$ 记为算法的终止准则。

得到的实验结果如下图1所示。

Figure 1. Comparisons of APPA, ePADM, gPADMM: n = 100, 200, 500

图1. APPA，ePADM，gPADMM三种算法的比较：n取100，200，500

Table 1. Numerical results of Example 5.1: Comparisons of APPA, ePADM, gPADMM

表1. 例5.1的实验结果：APPA，ePADM，gPADMM三种算法的比较

显然，从表1中可以看出，算法3.1的性能优于APPA算法和ePADM算法，因为其迭代和计算时间更少。因此，结果表明对于问题(1.1)，提出的算法是有效的。

6. 结论

本文针对线性凸优化问题和可分离凸优化问题，提出了广义的近似交替方向乘子算法，并且通过初步实验结果验证了算法是可行的。算法3.1是一种简单且有希望的迭代方案，其收敛速度比原有算法的收敛速度快。它在其他加速技术和其他应用中进行分析和设计的潜力以及更全面的计算研究是我们进一步研究的方向。

基金项目

国家自然科学基金(72071130)。

参考文献

[1]	Glowinski, R. and Marrocco, A. (1974) Analyse numerique du champ magnetique d’un alternateur par elements finis et sur-relaxation ponctuelle non lineaire. Computer Methods in Applied Mechanics and Engineering, 3, 55-85. https://doi.org/10.1016/0045-7825(74)90042-5
[2]	Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation. Computers & Mathematics with Ap-plications, 2, 17-40. https://doi.org/10.1016/0898-1221(76)90003-1
[3]	Gabay, D. (1983) Chapter IX: Applications of the Method of Multipliers to Variational Inequalities. Studies in Mathematics and Its Applications, 15, 299-331. https://doi.org/10.1016/S0168-2024(08)70034-1
[4]	Douglas, J. and Rachford, H.H. (1956) On the Numerical Solution of Heat Conduction Problems in Two and Three Space Variables. Transactions of the AMS, 82, 421-439. https://doi.org/10.1090/S0002-9947-1956-0084194-4
[5]	Cai, X.J., Gu, G.Y., He, B.S. and Yuan, X.M. (2013) A Proximal Point Algorithm Revisit on the Alternating Direction Method of Multipliers. Science China Mathematics, 56, 2179-2186. https://doi.org/10.1007/s11425-013-4683-0
[6]	Eckstein, J. and Bertsekas, D. (1992) On the Douglas-Rachford Splitting Method and the Proximal Point Algorithm for Maximal Monotone Operators. Mathematical Programming, 55, 293-318. https://doi.org/10.1007/BF01581204
[7]	Martinet, B. (1970) Regularisation, d’inequations variationelles par approximations succesives. Revue française d’informatique et de recherche opérationnelle, 4, 154-159. https://doi.org/10.1051/m2an/197004R301541
[8]	Jiang, B.Q., Peng, Z. and Deng, K.K. (2019) Two New Customized Proximal Point Algorithms without Relaxation for Linearly Constrained Convex Optimization. Bulletin of the Iranian Mathematical Society, 46, 865-892. https://doi.org/10.1007/s41980-019-00298-0
[9]	Gol’shtein, E.G. and Tret’yakov, N.V. (1979) Modified Lagrangian in Convex Programming and Their Generalizations. In: Point-to-Set Maps and Mathematical Programming, Mathematical Programming Studies Vol. 10, Springer, Berlin, 86-97. https://doi.org/10.1007/BFb0120845
[10]	Ye, C.H. and Yuan, X.M. (2007) A Descent Method for Structured Monotone Variational Inequalities. Optimization Methods and Software, 22, 329-338. https://doi.org/10.1080/10556780600552693
[11]	Li, M., Li, X.X. and Yuan, X.M. (2014) Convergence Analysis of the Generalized Alternating Direction Method of Multipliers with Logarithmic-Quadratic Proximal Regularization. Journal of Optimization Theory and Applications, 164, 218-233. https://doi.org/10.1007/s10957-014-0567-x
[12]	Yuan, X.M. (2009) An Improved Proximal Alternating Direction Method for Monotone Variational Inequalities with Separable Structure. Computational Optimization and Applications, 49, 17-29. https://doi.org/10.1007/s10589-009-9293-y
[13]	徐海文. 一类变分不等式的随机步长收缩算法[J]. 工程数学学报, 2011, 28(4): 462-469.
[14]	Wang, Y., Yang, J., Yin, W. and Zhang, Y. (2008) A New Alternating Minimization Algorithm for Total Variation Image Reconstruction. SIAM Journal on Imaging Sciences, 1, 248-272. https://doi.org/10.1137/080724265
[15]	Tao, M., Yuan, X.M. and He, B.S. (2011) Solving a Class of Matrix Minimization Problems by Linear Variational Inequality Approaches. Linear Algebra and Its Applications, 434, 2343-2352. https://doi.org/10.1016/j.laa.2010.11.041
[16]	He, B.S., Li, O.L.Z. and Wang, X. (2012) Proximal-Like Contraction Methods for Monotone Variational Inequalities in a Unified Framework II: Effective Quadruplet and Primary Methods. Computational Optimization and Applications, 5, 649-679.

为你推荐

友情链接