正则化Consensus问题的收敛性证明

doi:10.12677/PM.2021.113049

期刊菜单

正则化Consensus问题的收敛性证明
Convergence Proof of Regularized Consensus Problems

DOI: 10.12677/PM.2021.113049, PDF, HTML, XML, 科研立项经费支持
作者: 刘玉洁, 毕文静, 张炎, 俞露, 李伟南：巢湖学院数学与统计学院，安徽合肥
关键词: ADMM；Consensus；收敛性；ADMM； Consensus； The Convergence

摘要: 交替方向乘子法(ADMM算法)是求解可分离凸优化问题的一种有效方法。该算法利用目标函数的可分性，将原问题拆分成若干个极小化的子问题，然后交替迭代求解。而一致性(Consensus)问题是求解大数据问题的重要的一种形式，本文提出了一种正则化的一致性问题，给出了其迭代过程，并在适当的假设下，证明了其收敛性。

Abstract: Alternating direction multiplier method (ADMM algorithm) is an effective method to solve sepa-rable convex optimization problems. The algorithm USES the separability of the objective function to divide the original problem into several minimization subproblems and then solve them alter-nately iteratively. Consensus is an important form of solving big data problems. In this paper, a regularized consistency problem is proposed, its iterative process is given, and its convergence is proved under appropriate assumptions.

文章引用：刘玉洁, 毕文静, 张炎, 俞露, 李伟南. 正则化Consensus问题的收敛性证明[J]. 理论数学, 2021, 11(3): 371-376. https://doi.org/10.12677/PM.2021.113049

1. 引言

乘子交替方向法(ADMM)是一种求解线性约束凸优化问题的高效算法，由Glowinski等 [1] 及Gabay等 [2] 分别于1975年和1976年提出。该算法首先构造原问题的增广拉格朗日函数，每个迭代步由多个子问题构成，每个子问题对于增广拉格朗日函数关于1块变量进行极小化，当所有子问题求解结束后更新乘子(对偶变量)。该算法收敛速度较快，且子问题规模较小、计算量较低，因而该算法的计算效率较高，已被广泛应用于求解信息科学、统计学、机器学习等领域的多种优化问题，如矩阵完整化问题、图像去模糊去噪问题、协方差矩阵校正问题等 [3] [4] [5] [6] [7]。斯坦福大学Boyd等 [6] 于2011年对ADMM进行了综述，并指出该算法适合求解大规模分布式优化问题。

所谓全局变量一致性优化问题，即目标函数根据数据分解成N子目标函数(子系统)，每个子系统和子数据都可以获得一个参数解，但是全局解只有一个z，于是就可以写成如下优化命题：

$\begin{array}{l} \min \sum_{i = 1}^{N} f_{i} (x_{i}) \\ s .t . x_{i} - z = 0, i = 1, \dots, N \end{array}$

注意，此时仍是凸函数，而并不是对参数空间进行划分，这里是对数据而言，所以维度一样，与之前的问题并不太一样。这种问题其实就是所谓的并行化处理，或分布式处理，希望从多个分块的数据集中获取相同的全局参数解。

在ADMM算法框架下(先返回最初从扩增lagrangian导出的ADMM)，这种问题解法相当明确：

$\begin{array}{l} L_{ρ} (x_{1}, \dots, x_{N}, z, y) = \sum_{i = 1}^{N} (f_{i} (x_{i}) + y_{i}^{T} (x_{i} - z) + (ρ / 2) {‖ x_{i} - z ‖}_{2}^{2}) \\ s .t . C = {(x_{1}, \dots, x_{N}) | x_{1} = \dots = x_{N}} \end{array}$

从而迭代结果为

$\begin{array}{l} x_{i}^{k + 1} = \underset{x_{i}}{\arg \min} (f_{i} (x_{i}) + y_{i}^{k T} (x_{i} - z^{k}) + (ρ / 2) {‖ x_{i} - z^{k} ‖}_{2}^{2}) \\ z^{k + 1} = \frac{1}{N} \sum_{i = 1}^{N} (x_{i}^{k + 1} + (1 / ρ) y_{i}^{k}) \\ y_{i}^{k + 1} = y_{i}^{k} + ρ (x_{i}^{k + 1} - z^{k + 1}) \end{array}$

对y-update和z-update的和分别求个平均，易得，于是可以知道z-update步其实可以简化为，于是上述ADMM其实可以进一步化简为如下形式：

$\begin{array}{l} x_{i}^{k + 1} = \underset{x_{i}}{\arg \min} (f_{i} (x_{i}) + y_{i}^{k T} (x_{i} - {\bar{x}}^{k}) + (ρ / 2) {‖ x_{i} - {\bar{x}}^{k} ‖}_{2}^{2}) \\ y_{i}^{k + 1} = y_{i}^{k} + ρ (x_{i}^{k + 1} - {\bar{x}}^{k + 1}) \end{array}$

这种迭代算法写出来了，并行化那么就是轻而易举了，各个子数据分别并行求最小化，然后将各个子数据的解汇集起来求均值，整体更新对偶变量，然后再继续回带求最小值至收敛。当然也可以分布式部署(hadoop化)，但是说起来容易，真正工程实施起来又是另外一回事，各个子节点机器间的通信更新是一个需要细细揣摩的问题。

另外，对于全局一致性优化，也需要给出相应的终止迭代准则，与一般的ADMM类似，这里的primal和dual的residuals为

$r^{k} = (x_{1}^{k} - {\bar{x}}^{k}, \dots, x_{N}^{k} - {\bar{x}}^{k}), s^{k} = - ρ ({\bar{x}}^{k} - {\bar{x}}^{k - 1}, \dots, {\bar{x}}^{k} - {\bar{x}}^{k - 1})$

从而2-norm为

${‖ r^{k} ‖}_{2}^{2} = \sum_{i = 1}^{N} {‖ x_{i} - {\bar{x}}^{k} ‖}_{2}^{2}, {‖ s^{k} ‖}_{2}^{2} = N ρ^{2} {‖ {\bar{x}}^{k} - {\bar{x}}^{k - 1} ‖}_{2}^{2}$

本文主要考虑正则化的Consensus问题，即在目标函数后面加个正则项g(z)，并且这个正则项存在偏导数。证明提出的正则化的一致性算法的收敛性，给出了详细证明。

2. 正则化的Consensus问题

下面就是要将之前所谈到的经典的机器学习算法并行化起来。想法很简单，就是对全局变量加上正则项即可，

$\begin{array}{l} \min \sum_{i = 1}^{N} f_{i} (x_{i}) + g (z) \\ s .t . x_{i} - z = 0, i = 1, \dots, N \end{array}$

首先构建非增广的Lagrangian $L_{0}$ 有

$L_{0} (x_{1}, \dots, x_{N}, z, y) = \sum_{i = 1}^{N} (f_{i} (x_{i}) + y_{i}^{T} (x_{i} - z)) + g (z)$ ，

从而增广的Lagrangian $L_{ρ}$ 有

$L_{ρ} (x_{1}, \dots, x_{N}, z, y) = \sum_{i = 1}^{N} (f_{i} (x_{i}) + y_{i}^{T} (x_{i} - z) + (ρ / 2) {‖ x_{i} - z ‖}_{2}^{2}) + g (z)$ .

因此ADMM算法只需要改变下z-update步即可

$\begin{array}{l} x_{i}^{k + 1} = \underset{x_{i}}{\arg \min} (f_{i} (x_{i}) + y_{i}^{k T} (x_{i} - z^{k}) + (ρ / 2) {‖ x_{i} - z^{k} ‖}_{2}^{2}) \\ z^{k + 1} = \underset{z}{\arg \min} (g (z) + \sum_{i = 1}^{N} - y_{i}^{k T} z + (ρ / 2) {‖ x_{i}^{k + 1} - z ‖}_{2}^{2}) \\ y_{i}^{k + 1} = y_{i}^{k} + ρ (x_{i}^{k + 1} - z^{k + 1}) \end{array}$

同样的，我们仍对z做一个平均处理，于是就有

$z^{k + 1} = \underset{z}{\arg \min} (g (z) + (N ρ / 2) {‖ z - {\bar{x}}^{k + 1} - (1 / ρ) {\bar{y}}^{k} ‖}_{2}^{2})$

上述形式都取得是最原始的ADMM形式，简化处理，写成scaled形式即有

$\begin{array}{l} x_{i}^{k + 1} = \underset{x_{i}}{\arg \min} (f_{i} (x_{i}) + (ρ / 2) {‖ x_{i} - z^{k} + u_{i}^{k} ‖}_{2}^{2}) \\ z^{k + 1} = \underset{z}{\arg \min} (g (z) + (N ρ / 2) {‖ z - {\bar{x}}^{k + 1} - {\bar{u}}^{k} ‖}_{2}^{2}) \\ u_{i}^{k + 1} = u_{i}^{k} + x_{i}^{k + 1} - z^{k + 1} \end{array}$

这样对于后续处理问题就清晰明了多了。可以看到如果 $g (z) = λ {‖ z ‖}_{1}$ ，即lasso问题，那么z-update步就用软阈值operator即

$z^{k + 1} = S_{λ / N ρ} ({\bar{x}}^{k + 1} - (1 / ρ) {\bar{y}}^{k})$

因此，对于大规模数据，要想用lasso等算法，只需要对数据做切块(切块也最好切均匀点)，纳入到全局变量一致性的ADMM框架中，即可并行化处理。

3. 项收敛性证明

本部分主要说明上述算法的收敛性，在证明之前首先给出一些符号说明及条件假设。

符号说明：令 $(x_{1}, \dots, x_{N}, y, z)$ 为 $(x, y, z)$ ， $f (x) = \sum_{i = 1}^{n} f (x_{i})$ 。

假设1：函数 $f_{i}, g$ 是偏导数存在的凸函数。

假设2：非增广的Lagrangian $L_{0}$ 存在鞍点，即存在 $(x^{*}, y^{*}, z^{*})$ ，对任意的 $(x, y, z)$ 使得：

$L_{0} (x^{*}, y, z^{*}) \leq L_{0} (x^{*}, y^{*}, z^{*}) \leq L_{0} (x, y^{*}, z)$

定理：在满足上述假设条件1，2和上述算法的迭代过，当 $k \to \infty$ ，

$r^{k} \to 0, z^{k + 1} - z^{k} \to 0$

从而我们有

$\lim_{k \to \infty} p^{k} = p^{*}$

证明：

部分1

因为 $(x^{*}, y^{*}, z^{*})$ 是函数 $L_{0}$ 的鞍点，所以有：

$L_{0} (x^{*}, z^{*}, y^{*}) \leq L_{0} (x^{k + 1}, z^{k + 1}, y^{*})$ (1)

再利用 $x^{*} - z^{*} = 0$ ，令

$p^{k + 1} = f (x^{k + 1}) + g (z^{k + 1})$ ， $p^{*} = f (x^{*}) + g ( z * )$

从而(1)式有

$p^{*} \leq p^{k + 1} + y^{* T} r^{k + 1}$ (2)

部分2

通过定义我们知道， $x^{k + 1}$ 是 $L_{ρ} (x, z^{k}, y^{k})$ 的极小值。由于f是可偏导的凸函数。所以：

$0 \in \partial L_{ρ} (x^{k + 1}, z^{k}, y^{k}) = \partial f (x^{k + 1}) + y^{k} + ρ (x^{k + 1} - z^{k})$

又因为 $y^{k + 1} = y^{k} + ρ r^{k + 1}$ ，所以有 $y^{k} = y^{k + 1} + ρ r^{k + 1}$ ，从而

$0 \in \partial L_{ρ} (x^{k + 1}, z^{k}, y^{k}) = \partial f (x^{k + 1}) + y^{k + 1} - ρ (z^{k + 1} - z^{k})$

这里表明 $x^{k + 1}$ 是下面这个函数的极小值

$f (x) + y^{k + 1} - ρ (z^{k + 1} - z^{k}) x$ (4)

与上面相似的证法可以说明 $z^{k + 1}$ 是函数 $g (z) + y^{(k + 1) T} z$ 的极小值。结合(4)式有

$f (x^{k + 1}) + y^{k + 1} - ρ (z^{k + 1} - z^{k}) x^{k + 1} \leq f (x^{*}) + y^{k + 1} - ρ (z^{k + 1} - z^{k}) x^{*}$ (5)

$g (z^{k + 1}) + y^{(k + 1) T} z^{k + 1} \leq g (z^{*}) + y^{(k + 1) T} z^{*}$ (6)

再结合 $x^{*} - z^{*} = 0$ ，结合(5)和(6)式有

$p^{k + 1} - p^{*} \leq - {(y^{k + 1})}^{T} r^{k + 1} - ρ {(z^{k + 1} - z^{k})}^{T} (- r^{k + 1} + z^{k + 1} - z^{*})$ (7)

证明3

结合(2)和(7)有

$2 {(y^{k + 1} - y^{*})}^{T} r^{k + 1} - 2 ρ {(z^{k + 1} - z^{k})}^{T} r^{k + 1} + 2 ρ {(z^{k + 1} - z^{k})}^{T} (z^{k + 1} - z^{*}) \leq 0$ (8)

对于(8)式中的第一部分利用 $y^{k + 1} = y^{k} + ρ r^{k + 1}$ 有

$2 {(y^{k} - y^{*})}^{T} r^{k + 1} + ρ {‖ r^{k + 1} ‖}_{2}^{2} + ρ {‖ r^{k + 1} ‖}_{2}^{2}$ (9)

再利用 $r^{k + 1} = (1 / ρ) (y^{k + 1} - y^{k})$ ，因此(9)式中的前两部分有

$(2 / ρ) {(y^{k} - y^{*})}^{T} (y^{k + 1} - y^{k}) + (1 / ρ) {‖ y^{k + 1} - y^{k} ‖}_{2}^{2} + ρ {‖ r^{k + 1} ‖}_{2}^{2}$

又因为 $y^{k + 1} - y^{k} = (y^{k + 1} - y^{*}) - (y^{k} - y^{*})$ ，从而上式变为

$(1 / ρ) ({‖ y^{k + 1} - y^{*} ‖}_{2}^{2} - {‖ y^{k} - y^{*} ‖}_{2}^{2}) + ρ {‖ r^{k + 1} ‖}_{2}^{2}$ (10)

接下来，整理(8)和(9)式中剩下的部分，即

$ρ {‖ r^{k + 1} ‖}_{2}^{2} - 2 ρ {(z^{k + 1} - z^{k})}^{T} r^{k + 1} + 2 ρ {(z^{k + 1} - z^{k})}^{T} (z^{k} - z^{*})$

再利用 $z^{k + 1} - z^{*} = (z^{k + 1} - z^{k}) - (z^{k} - z^{*})$ ，有

$ρ {‖ r^{k + 1} - (z^{k + 1} - z^{k}) ‖}_{2}^{2} + ρ {‖ z^{k + 1} - z^{k} ‖}_{2}^{2} + 2 ρ {(z^{k + 1} - z^{k})}^{T} (z^{k} - z^{*})$

再结合 $z^{k + 1} - z^{k} = (z^{k + 1} - z^{*}) - (z^{k} - z^{*})$ ，从而有

$ρ {‖ r^{k + 1} - (z^{k + 1} - z^{k}) ‖}_{2}^{2} + ρ ({‖ z^{k + 1} - z^{*} ‖}_{2}^{2} - {‖ z^{k} - z^{*} ‖}_{2}^{2})$

令

$U_{k} = (1 / ρ) {‖ y^{k} - y^{*} ‖}_{2}^{2} + ρ {‖ z^{k} - z^{*} ‖}_{2}^{2}$

从而(8)可以写成

$U_{k} - U_{k + 1} \geq ρ {‖ r^{k + 1} - (z^{k + 1} - z^{k}) ‖}_{2}^{2}$ (11)

由证明2中可以看出， $z^{k + 1}$ 是函数 $g (z) + y^{(k + 1) T} z$ 的极小值， $z^{k}$ 是函数 $g (z) + y^{(k) T} z$ 的极小值，从而有

$g (z^{k + 1}) + y^{(k + 1) T} z^{k + 1} \leq g (z^{k}) + y^{(k + 1) T} z^{k}$

$g (z^{k}) + y^{(k) T} z^{k} \leq g (z^{k + 1}) + y^{(k) T} z^{k + 1}$

结合上面两个不等式，有

${(y^{k + 1} - y^{k})}^{T} (z^{k + 1} - z^{k}) \leq 0$

又因为 $y^{k + 1} - y^{k} = ρ r^{k + 1}$ ，从而得到

$ρ r^{k + 1} (z^{k + 1} - z^{k}) \leq 0$ (12)

结合(12)式，使得(11)有

$U_{k} - U_{k + 1} \geq ρ ‖ r^{k + 1} ‖ + ρ {‖ z^{k + 1} - z^{k} ‖}_{2}^{2}$

从而有

$\sum_{k = 0}^{\infty} (ρ ‖ r^{k + 1} ‖ + ρ {‖ z^{k + 1} - z^{k} ‖}_{2}^{2}) \leq U_{0}$ (13)

从(13)式可以看出 $r^{k} \to 0, z^{k + 1} - z^{k} \to 0, k \to \infty$ ，从而得到

$\lim_{k \to \infty} p^{k} = p^{*}$

4. 总结

通过正则化的一致性问题，我们可以看到并行和分布式部署优化方案的可行性。我们可以切分数据以及相应的目标函数，也可以切分变量到各个子系统上去，分别作优化，甚至我们可以大胆想象对不同类型数据块用不同的优化算法，结合Consensus问题和ADMM算法，达到同一个全局变量的优化目的；并且在理论上说明了算法的收敛性。

致谢

本文的撰写感谢程一元老师的指导。

基金项目

巢湖学院省级大学生创新创业训练计划资助项目(S201910380067)，巢湖学院省级大学生创新创业训练计划资助项目(S201910380065)，巢湖学院校级科研项目(XLY-201903)。

参考文献

[1]	Glowinski, R. and Marroco, A. (1975) Sur l’approximation, par éléments finis d’ordre un, et la résolution, par pénalisation-dualitéd’une classe de problèmes de Dirichlet nonlinéaires. Re-vue Francaise Dautomatique, Informatique, Recherhe Operationnelle. Analyse Numerique, 9, 41-46. [Google Scholar] [CrossRef]
[2]	Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximations. Computers & Mathematics with Applications, 2, 17-40. [Google Scholar] [CrossRef]
[3]	Lin, F., Jovanovic, M.R. and Georgiou, T.T. (2013) An ADMM Algorithm for Matrix Completion of Partially Known State Covariances. Decision & Control, 2013, 1684-1689.
[4]	Wang, Y.L., Yang, J.F., Yin, W.T., et al. (2008) A New Alternating Minimization Algorithm for Total Variation Image Reconstruction. SIAM Journal on Imaging Sciences, 1, 248-272. [Google Scholar] [CrossRef]
[5]	Shen, Y. and Wang, H.Y. (2016) New Augmented Lagrangian-Based Proximal Point Algorithm for Convex Optimization with Equality Constraints. Journal Optimization Theory and Ap-plication, 171, 251-261. [Google Scholar] [CrossRef]
[6]	Boyd, S., Parikh, N., Chu, E., et al. (2011) Distributed Optimi-zation and Statistical Learning via the Alternating Direction Method of Multipliers. Found Trends Mach Learning, 3, 1-122. [Google Scholar] [CrossRef]
[7]	申远, 孔玉倩, 纪磊. 一种新参数条件的线性化逐块交替方向乘子法[J]. 徐州工程学院学报(自然科学版), 2020, 35(2): 23-32.

为你推荐

友情链接