一种基于M范数惩罚项的线性化ADMM算法

doi:10.12677/aam.2024.134155

期刊菜单

一种基于M范数惩罚项的线性化ADMM算法
A Linearized ADMM Algorithm Based on M-Norm Penalty Terms

DOI: 10.12677/aam.2024.134155, PDF, HTML, XML,
作者: 王博冉：中央民族大学理学院，北京
关键词: 变分不等式；交替方向乘子法；临近点算法；全局收敛性；Variational Inequality； Alternating Direction Method of Multipliers； Proximity Point Algorithm； Global Convergence

摘要: ADMM算法是求解两块可分凸优化问题的经典算法，主要思想是在增广拉格朗日乘子法的基础上，利用目标函数关于两块变量的可分性，降低了求解子问题的计算难度。当增广拉格朗日函数中的惩罚项是M范数时，求解子问题往往较为困难。因此，我们在增广拉格朗日函数的基础上，通过增加一个半正定或正定的临近项，将M范数的惩罚项变为2范数的惩罚项，这样，就可以很快得到子问题的闭形式解。该方法同时具备弱化的惩罚项的条件和半正定临近项的优势，具有更广的适用性和更高的求解效率。这种改进的新算法可以看成临近点算法，它的收敛性易于分析，且无需要较强的假设条件。实验结果表明，新算法和其他几种主流的高效算法相比，新算法是可行的。

Abstract: The ADMM algorithm is a conventional strategy for solving two separable convex optimization problems. Its fundamental idea is to use the objective function on the basis of augmented Lagrangian multiplier method, reducing the computing burden of addressing subproblems. When the penalty term in the augmented Lagrangian function is M-norm, it is generally more difficult to solve subproblems. As a consequence of augmented Lagrange function, we shift the penalty term of the M-norm to the penalty term of the 2-norm by adding a semipositive definite or positive definite proximity term, allowing us to rapidly find the closed form solution of the subproblem. This approach has the advantages of a weaker penalty term and a semipositive definite proximity term, which allows for a broader range of applications. This improved new algorithm can be viewed as a proximity point algorithm, which is easy to analyze in terms of convergence and does not require strong assumptions. Experimental results show that the new algorithm is feasible compared to several other mainstream efficient algorithms.

文章引用：王博冉. 一种基于M范数惩罚项的线性化ADMM算法[J]. 应用数学进展, 2024, 13(4): 1637-1642. https://doi.org/10.12677/aam.2024.134155

1. 引言

本文考虑如下具有线性约束的可分凸优化问题：

$\min {f (x) + g (y) | A x + B y = b, x \in X, y \in Y}$ (1)

其中 $f ： R^{n_{1}} \to R$ 和 $g ： R^{n_{2}} \to R$ 是凸函数(但不一定光滑)， $A \in R^{m \times n_{1}}, B \in R^{m \times n_{2}}, b \in R^{m}, X \subseteq R^{n_{1}}$ 和 $Y \subseteq R^{n_{2}}$ 是闭凸集。

众所周知，交替方向乘子法是求解(1)的有效方法，该方法最早由Gabay和Mercier，Glowinski [1] 以及Marrocco [2] 提出，该方法是一种求解具有可分离的凸优化问题的重要方法，由于其收敛速度快、收敛性能好，在求解可分离凸优化问题上具有简单、灵活、实用性强的特点，可以将大规模问题拆分成两个甚至多个小规模的子问题，随后交替求解各个小规模子问题，从而提高了求解的速率，其优势在于利用对偶上升算法的可分离性，后来被广泛研究与应用。

为了提高ADMM的适用性，一些学者提出了许多改进的ADMM方法。He等人在文献 [3] 中提出了不定临近线性化ADMM。Gao [4] 提出了如下一个带不定临近正则项的线性化ADMM。Fang [5] 将增广Lagrange函数中的惩罚项采用M-范数，M是一个是对称正定矩阵。将2-范数形式改进为M-范数形式，弱化了惩罚项的条件。因为2-范数形式的惩罚项是矩阵范数M-范数的一种特殊形式，所以M-范数的使用范围更广。

基于上述讨论，本文结合半正定临近项和基于M-范数的惩罚项，提出了一种求解可分凸优化问题(1)的基于M-范数惩罚项的带半正定临近项的线性化ADMM算法。新方法在y-子问题中引入了一个半正定临近项，进而将M-范数惩罚项转化为2范数惩罚项。该方法同时具备弱化的惩罚项的条件和半正定临近项的优势，具有更广的适用性和更高的求解效率。针对所提出的算法，本文基于变分不等式和最优化理论给出了严格的收敛性分析以及收敛速率分析，并通过数值实验验证了算法的有效性。

2. 一种基于M范数惩罚项的ADMM算法

假设 $f : R^{n} \to R \cup + \infty$ 和 $g : R^{n} \to R \cup + \infty$ 是合适的、闭的、凸函数。

本文提出的算法如下：

算法1. 一种基于M范数惩罚项的ADMM算法

输入： $x^{0} ， y^{0} ， λ^{0}$

计算： $x^{k + 1} ， y^{k + 1} ， λ^{k + 1}$

$x^{k + 1} = \arg \min_{x} L_{β} (x, y^{k}, λ^{k})$

$y^{k + 1} = \arg \min_{y} L_{β} (x^{k + 1}, y, λ^{k}) + 1 / 2 {‖ y - y^{k} ‖}_{D}^{2}$

$λ^{k + 1} = λ^{k} - β M (A x^{k + 1} + B y^{k + 1} - b)$

若满足停止准则，则输出： $x^{k + 1} ， y^{k + 1} ， λ^{k + 1}$ ，其中 $L_{β} (x, y, λ) = f (x) + g (y) - λ^{T} (A x + B y - b) + β / 2 {‖ A x + B y - b ‖}_{M}^{2}$ ，M是一个正定矩阵， $D = s I - β B^{T} M B (s \geq ‖ β B^{T} M B ‖)$ 是一个半正定矩阵。

3. 收敛性分析

引理3.1. 设序列 $w^{k}$ 由算法1迭代产生，令 $u = (\begin{matrix} x \\ y \end{matrix})$ ， $θ (u) = f (x) + g (y), w = (\begin{matrix} x \\ y \\ λ \end{matrix})$ 。

那么有 $w^(k + 1) \in Ω$ ，

$θ (u) - θ (u^{k + 1}) + (w - w^{k + 1}) {\begin{matrix} F (w^{k + 1}) + β (\begin{matrix} A^{T} \\ B^{T} \\ O \end{matrix}) M B (y^{k} - y^{k + 1}) \\ + (\begin{matrix} β B^{T} M B + D & O \\ O & \frac{1}{β} M^{- 1} \end{matrix}) (\begin{matrix} y^{k + 1} - y^{k} \\ λ^{k + 1} - λ^{k} \end{matrix}) \end{matrix}} \geq 0$ (2)

其中 $F (w^{k + 1}) = (\begin{matrix} - A^{T} λ^{k + 1} \\ - B^{T} λ^{k + 1} \\ A x^{k + 1} + B y^{k + 1} - b \end{matrix})$ 。

引理3.2. 设序列 $w^{k}$ 由算法1迭代产生，则

$w^{k + 1} \in Ω$ ，

$θ (u) - θ (u^{k + 1}) + (w - w^{k + 1}) {F (w) + β (\begin{matrix} A^{T} \\ B^{T} \end{matrix}) M B (y^{k} - y^{k + 1})} \geq (v - v^{k + 1}) G (v - v^{k + 1}), \forall w \in Ω$ (3)

其中 $G = (\begin{matrix} β B^{T} M B + D & O \\ O & \frac{1}{β} M^{- 1} \end{matrix}), v = (\begin{matrix} y \\ λ \end{matrix})$ 。

证明：因为 ${(w - w^{k + 1})}^{T} (F (w) - F (w^{k + 1})) \geq 0, \forall w \in Ω$ ，所以F是单调算子。

由(2)可得，(3)成立。

引理3.3. 设序列 $w^{k}$ 由算法1迭代产生，其中 $w^{*} \in Ω^{*}, Ω^{*}$ 为变分不等式的解集，那么有

${(v^{k + 1} - v^{*})}^{T} G (v^{k} - v^{k + 1}) \geq {(λ^{k} - λ^{k + 1})}^{T} B (y^{k} - y^{k + 1})$ (4)

证明：

${(v^{k + 1} - v^{*})}^{T} G (v^{k} - v^{k + 1})$

$\begin{array}{l} \geq θ (u^{k + 1}) - θ (u^{*}) + {(w^{k + 1} - w^{*})}^{T} F (w^{*}) + β {(\begin{matrix} x^{k + 1} - x^{*} \\ y^{k + 1} - y^{*} \end{matrix})}^{T} (\begin{matrix} A^{T} \\ B^{T} \end{matrix}) M B (y^{k} - y^{k + 1}) \\ \geq β (\begin{matrix} x^{k + 1} - x^{*} \\ y^{k + 1} - y^{*} \end{matrix}) (\begin{matrix} A^{T} \\ B^{T} \end{matrix}) M B (y^{k} - y^{k + 1}) \\ = β {[(A x^{k + 1} - A x^{*}) + (B y^{k + 1} - B y^{*})]}^{T} B (y^{k} - y^{k + 1}) = {(λ^{k} - λ^{k + 1})}^{T} B (y^{k} - y^{k + 1}) \end{array}$

引理3.4. 设序列 $w^{k}$ 由算法1迭代产生，那么有：

${(λ^{k} - λ^{k + 1})}^{T} B (y^{k} - y^{k + 1}) \geq \frac{1}{2} {‖ y^{k} - y^{k + 1} ‖}_{D}^{2} - \frac{1}{2} {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}$ (5)

证明：对于算法1，由变分不等式可得：

$y^{k + 1} \in Y, g (y^{k}) - g (y^{k + 1}) + {(y^{k} - y^{k + 1})}^{T} - B^{T} λ^{k + 1} + D (y^{k + 1} - y^{k}) \geq 0, \forall y^{k} \in Y$

$y^{k} \in Y, g (y^{k + 1}) - g (y^{k}) + {(y^{k + 1} - y^{k})}^{T} - B^{T} λ^{k} + D (y^{k} - y^{k - 1}) \geq 0, \forall y^{k + 1} \in Y$

两式相加可得： ${(y^{k} - y^{k + 1})}^{T} B^{T} (λ^{k} - λ^{k + 1}) + D [(y^{k + 1} - y^{k}) - (y^{k} - y^{k - 1})] \geq 0$ ，所以 ${(y^{k} - y^{k + 1})}^{T} B^{T} (λ^{k} - λ^{k + 1}) \geq {(y^{k} - y^{k + 1})}^{T} D [(y^{k} - y^{k + 1}) - (y^{k - 1} - y^{k})]$ 。

由柯西不等式可得：

${(y^{k} - y^{k + 1})}^{T} D [(y^{k} - y^{k + 1}) - (y^{k - 1} - y^{k})] \geq \frac{1}{2} {‖ y^{k} - y^{k + 1} ‖}_{D}^{2} - \frac{1}{2} {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}$

故(5)得证。

引理3.5. 设序列 $w^{k}$ 由算法1迭代产生，那么有：

${(v^{k + 1} - v^{*})}^{T} G (v^{k} - v^{k + 1}) \geq \frac{1}{2} {‖ y^{k} - y^{k + 1} ‖}_{D}^{2} - \frac{1}{2} {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}$ (6)

证明：

$\begin{matrix} {‖ v^{k} - v^{*} ‖}_{G}^{2} = {‖ (v^{k + 1} - v^{*}) + (v^{k} - v^{k + 1}) ‖}_{G}^{2} \\ \geq {‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ v^{k} - v^{k + 1} ‖}_{G}^{2} + 2 (v^{k + 1} - v^{*}) G (v^{k} - v^{k + 1}) \\ \geq {‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ v^{k} - v^{k + 1} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2} - {‖ y^{k - 1} - y^{k} ‖}_{D}^{2} \end{matrix}$

显然，(6)式成立。

定理3.1.对于任意的 $w^{*} \in Ω^{*}$ ，序列 ${‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2}$ 是单调递减的。

证明：由引理3.5可得：

${‖ v^{k} - v^{k + 1} ‖}_{G}^{2} \leq ({‖ v^{k} - v^{*} ‖}_{G}^{2} + {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}) - ({‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2})$

因为 ${‖ v^{k} - v^{k + 1} ‖}_{G}^{2} \geq 0$ ，所以 ${‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2} \leq {‖ v^{k} - v^{*} ‖}_{G}^{2} + {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}$ 。

故序列 ${‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2}$ 是单调递减的。

定理3.2. 设序列 $w^{k}$ 由算法1迭代产生，那么序列 $v^{k_{j}}$ 收敛到 $v^{\infty}$ 。

证明：因为 ${‖ v^{k} - v^{k + 1} ‖}_{G}^{2} \leq ({‖ v^{k} - v^{*} ‖}_{G}^{2} + {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}) - ({‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2})$ 。

对上式求和可得： ${\sum_{k = 1}^{\infty} ‖ v^{k} - v^{k + 1} ‖}_{G}^{2} \leq {‖ v^{1} - v^{*} ‖}_{G}^{2} + {‖ y^{0} - y^{1} ‖}_{D}^{2}$ 。

因为G是正定的，所以 ${\sum_{k = 1}^{\infty} ‖ v^{k} - v^{k + 1} ‖}_{G}^{2}$ 是正项级数。

由正项级数收敛的必要条件可知： $\lim_{k \to \infty} {‖ v^{k} - v^{k + 1} ‖}_{G}^{2} = 0$ 。

因为 $0 \leq {‖ v^{k} - v^{k + 1} ‖}_{G}^{2} \leq ({‖ v^{k} - v^{*} ‖}_{G}^{2} + {‖ y^{k - 1} - y^{k} ‖}_{D}^{2}) - ({‖ v^{k + 1} - v^{*} ‖}_{G}^{2} + {‖ y^{k} - y^{k + 1} ‖}_{D}^{2})$ 。

所以 ${‖ v^{k + 1} - v^{*} ‖}_{G}^{2} \leq {‖ v^{k} - v^{*} ‖}_{G}^{2} + {‖ y^{k - 1} - y^{k} ‖}_{D}^{2} \leq {‖ v^{1} - v^{*} ‖}_{G}^{2} + {‖ y^{0} - y^{1} ‖}_{D}^{2}, \forall k \geq 1$ 。

所以序列 $v^{k}$ 是有界的并且至少存在一个聚点 $v^{\infty}$ ，存在一个子列 $v^{k_{j}}$ 收敛到 $v^{\infty}$ 。

即 $\lim_{k \to \infty} v^{k_{j}} = v^{\infty}$ ，其中 $v^{\infty} = (\begin{matrix} y^{\infty} \\ λ^{\infty} \end{matrix}) \in V^{*}$ 。

定理3.3. $w^{\infty}$ 是(1)的一个解。

证明：因为 $\lim_{k \to \infty} {‖ v^{k} - v^{k + 1} ‖}_{G}^{2} = 0$ ，所以 $\lim_{k \to \infty} (y^{k} - y^{k + 1}) = 0$ 和 $\lim_{k \to \infty} (λ^{k} - λ^{k + 1}) = 0$ 。

由变分不等式可知：

$\begin{array}{l} w^{k + 1} \in Ω, θ (u) - θ (u^{k + 1}) \\ + {(w - w^{k + 1})}^{T} {\begin{cases} F (w^{k + 1}) + β (\begin{matrix} A^{T} \\ B^{T} \\ O \end{matrix}) M B (y^{k} - y^{k + 1}) \\ + (\begin{matrix} β B^{T} M B + D & O \\ O & \frac{1}{β} M^{- 1} \end{matrix}) (\begin{matrix} y^{k + 1} - y^{k} \\ λ^{k + 1} - λ^{k} \end{matrix}) \end{cases}} \geq 0, \forall w \in Ω \end{array}$

令上式中 $k \to \infty$ ，可得： $θ (u) - θ (u^{\infty}) + {(w - w^{\infty})}^{T} F (w^{\infty}) \geq 0$ ，故 $w^{\infty}$ 是(1)的解。

4. 数值实验

统计中的LASSO问题如下：

$\min_{x, y} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + μ {‖ y ‖}_{1} s . t . x = y$ (7)

其中 $A \in R^{m \times n}, b \in R^{m}, x \in R^{n}, y \in R^{n}$ 。

使用算法1求解(7)得到 $x$ 子问题： $x^{k + 1} = \frac{1}{δ} [A^{T} b + λ^{k} + (δ I - A^{T} A) y^{k}]$ 。

并且y子问题的闭式解是： $y^{k + 1} = s h r i n k (y^{k} - \frac{1}{δ} [λ^{k} + M (y^{k} - x^{k + 1})], \frac{μ}{β δ})$ 。

$λ$ 子问题的解为： $λ^{k + 1} = λ^{k} - β M (x^{k + 1} - y^{k + 1})$ ，其中 $M = δ I - A^{T} A, D = A^{T} A$ 。

本文通过数值实验比较了算法1和线性化DMM算法的迭代次数。

将每个算法的参数设置如下：

算法1： $δ = ‖ A^{T} A ‖ + 0.001, β = 1, μ = 0.1 {‖ A^{T} b ‖}_{\infty}$ 。

Linearized ADMM: $δ = ‖ A^{T} A ‖ + 0.001, β = 1, μ = 0.1 {‖ A^{T} b ‖}_{\infty}$ ， $D = δ I - A^{T} A$ 。

停止准则是： $‖ x^{k + 1} - y^{k + 1} ‖ < ε^{p r i}, ‖ β (y^{k + 1} - y^{k}) ‖ < ε^{d u a l}$ ，其中 $ε^{p r i} = \sqrt{n} ε^{a b s} + ε^{r e l} \max (‖ x^{k + 1} ‖ ， ‖ y^{k + 1} ‖ ， ε^{d u a l} = \sqrt{n} ε^{a b s} + ε^{r e l} ‖ y^{k + 1} ‖)$ 。

$ε^{p r i}$ 和 $ε^{d u a l}$ 被设置为 $10^{- 4}$ 和 $10^{- 2}$ 。

对于给定的维度 $m \times n$ ，我们随机生成数据，如下所示：

$p = \frac{1}{n}, x^{0} = s p r a n d n (n, 1, p), A = r a n d n (m, n), b = A * x^{0} + s q r t (0.001) * r a n d n (m, 1)$

二种算法的实验结果如表1所示：

Table 1. Comparison of the number of iterations between Algorithm 1 and Linearized ADMM

表1. 算法1和Linearized ADMM的迭代次数比较

实验结果表明，算法1的迭代次数少。因此，算法1是有可比较性的。

5. 结论

在本文中，我们提出了一种基于M范数罚项的具有半正定邻近项的广义线性化ADMM算法，对其进行了全局收敛性分析。最后，通过数值实验验证了算法的有效性。

参考文献

[1]	Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation. Computers & Mathematics with Applications, 2, 17-40. [Google Scholar] [CrossRef]
[2]	Glowinski, R. and Marrocco, A. (1974) Analyse numérique du champ magnétique d’un alternateur par éléments finis et sur-relaxation ponctuelle non linéaire. Computer Methods in Applied Mechanics and Engineering, 3, 55-85. [Google Scholar] [CrossRef]
[3]	He, B., Ma, F. and Yuan, X. (2020) Optimally Linearizing the Alternating Direction Method of Multipliers for Convex Programming. Computational Optimization and Applications, 75, 361-388. [Google Scholar] [CrossRef]
[4]	Gao, B. and Ma, F. (2016) Symmetric ADMM with Positive-Indefinite Proximal Regularization for Linearly Constrained Convex Optimization. http://www.optimization-online.org
[5]	Fang, C., Chen, J. and Chen, S. (2022) Image Denoising Algorithm of Compressed Sensing Based on Alternating Direction Method of Multipliers. International Journal of Modeling, Simulation, and Scientific Computing, 13, 2250009. [Google Scholar] [CrossRef]

为你推荐

友情链接