求解约束极小极大问题的隐式梯度加速方法

doi:10.12677/aam.2025.144225

期刊菜单

求解约束极小极大问题的隐式梯度加速方法
Accelerated Implicit Gradient-Based Methods for Solving Constrained Minimax Problems

DOI: 10.12677/aam.2025.144225, PDF, HTML, XML,
作者: 胡清莹：河北工业大学理学院，天津
关键词: 极小极大优化；非线性约束；基于梯度方法；Nesterov加速梯度算法；Minimax Optimization； Nonlinear Constraints； Gradient-Based Methods； Nesterov Accelerated Gradient Algorithm

摘要: 求解约束极小极大问题的隐式梯度(GBAL)算法基本思路是，采用增广拉格朗日方法处理内层优化问题，再利用隐式梯度信息对外部变量进行迭代更新。在此基础上，本文提出了一种求解约束极小极大问题的隐式梯度加速算法，通过引入Nesterov加速梯度算法的一个变体算法更新外部变量来提升算法性能。理论分析表明，在内层问题解映射满足Lipschitz连续性且目标函数对外层变量为凸的条件下，所提出的加速算法实现了R-线性收敛速率，通过数值实验验证，加速算法在计算效率和收敛性方面均展现出优越性能。

Abstract: The fundamental approach of the Implicit Gradient-Based (GBAL) algorithm for solving constrained minimax problems involves using the augmented Lagrangian method to address the inner optimization problem, followed by iterative updates of the external variables utilizing implicit gradient information. Building upon this, this paper introduces an accelerated implicit gradient algorithm for solving constrained minimax problems, which enhances the algorithm’s performance by incorporating a variant of the Nesterov accelerated gradient algorithm to update the external variables. Theoretical analysis demonstrates that under the conditions where the solution mapping of the inner problem satisfies Lipschitz continuity and the objective function is convex with respect to the outer variables, the proposed accelerated algorithm achieves an R-linear convergence rate. Numerical experiments confirm that the accelerated algorithm exhibits superior performance in terms of computational efficiency and convergence.

文章引用：胡清莹. 求解约束极小极大问题的隐式梯度加速方法[J]. 应用数学进展, 2025, 14(4): 1035-1050. https://doi.org/10.12677/aam.2025.144225

1. 引言

极小极大问题(minmax problem)起源于博弈论中的基础数学问题，是最优化领域中一类典型的优化问题。随着计算机技术的飞速发展，约束最优化方法作为一种有效的最优化方法，在工业工程设计，优化管理等多方面的应用，越来越受到研究者的重视[1]，以下是带约束的极小极大问题的常见形式：

$min_{x \in X} max_{y \in Y} f (x, y),$ (1)

其中 $X = {x \in ℝ^{n} : g_{i} (x) \leq 0, i \in ℐ_{1}, h_{j} (x) = 0, j \in ℰ_{1}}$ ， $Y = {y \in ℝ^{m} : g_{i} (x, y) \leq 0, i \in ℐ_{2}, h_{j} (x, y) = 0, j \in ℰ_{2}}$ 。

尽管(1)和无约束的极小极大问题似乎密切相关，但前者实际上更具挑战性。例如，若 $f (x, y)$ 关于 $x$ 是凸的，关于 $y$ 是凹的时，无约束的极小极大问题很容易解决，但问题(1)通常是NP-困难的，即使对于 $f (x, y)$ 是强凸强凹情况也是一样。此外，经典的极小极大不等式[2]不适用于这类问题。综上，为求解无约束的极小极大问题开发的现有算法不能直接应用于求解(1)。但另一方面，与无约束的极小极大问题相比，(1)可用于对更广泛的应用进行建模，所以研究其解法也有着极其重要的意义。

在本文关注以下带约束的极小极大问题：

(P) $min_{x \in X} max_{y \in Y (x)} f (x, y)$ ，

其中 $Y (x) = {y \in ℝ^{m} : h (x, y) = 0, g (x, y) \leq 0}$ ，函数 $f : ℝ^{n \times m} \mapsto ℝ$ ， $h : ℝ^{n \times m} \mapsto ℝ^{m_{1}}$ ， $g : ℝ^{n \times m} \mapsto ℝ^{m_{2}}$ 是连续可微的， $X \subseteq ℝ^{n}$ 是一个闭凸集。

2. 预备知识

基于梯度方法是利用梯度信息来指导搜索方向，该方法已经在求解无约束双层优化问题中显示出成效[3]。求解约束极小极大问题的隐式梯度(GBAL)算法扩展了基于梯度方法用于处理约束极小极大问题。首先定义内层问题 $(P_{x})$ ：

$(P_{x}) max_{y \in ℝ^{m}} f (x, y) s .t . h (x, y) = 0, g (x, y) \leq 0.$

假设函数 $f, h$ 和 $g$ 在某个 $(x^{*}, y^{*})$ 的邻域内是连续可微的，并且对变量 $y$ 是二次连续可微的。用 $S (x)$ 表示问题 $(P_{x})$ 的可行集。问题 $(P_{x})$ 的拉格朗日函数定义如下：

$L (x, y, λ, μ) : = f (x, y) + λ^{T} h (x, y) - μ^{T} g (x, y),$

其中 $h = {(h_{1}, \dots, h_{m_{1}})}^{T}, g = {(g_{1}, \dots, g_{m_{2}})}^{T}$ ，且 $(λ, μ) \in ℝ^{m_{1}} \times ℝ^{m_{2}}$ 是拉格朗日乘子。

定义集合

$\begin{array}{l} α : = {j : g_{j} (x, y (x)) = 0, μ_{j} (x) > 0}, \\ β : = {j : g_{j} (x, y (x)) = 0, μ_{j} (x) = 0}, \\ γ : = {j : g_{j} (x, y (x)) < 0, μ_{j} (x) = 0} . \end{array}$

记 $z (x) : = (y (x), λ (x), μ_{α} (x))$ 和

$M (x) : = [\begin{matrix} R (x) & Q (x) \\ 0 & S (x) \end{matrix}], N (x) : = [\begin{matrix} K (x) \\ 0 \end{matrix}],$

其中 $S (x) : = - I_{| γ |}$ 且

$\begin{array}{l} R (x) : = [\begin{matrix} \nabla_{y y}^{2} L (x, y (x), λ (x), μ (x)) & \nabla_{y} h {(x, y (x))}^{T} & \nabla_{y} g_{α} {(x, y (x))}^{T} \\ \nabla_{y} h (x, y (x)) & 0 & 0 \\ \nabla_{y} g_{α} (x, y (x)) & 0 & 0 \end{matrix}], \\ Q (x) : = [\begin{matrix} \nabla_{y} g_{γ} {(x, y (x))}^{T} \\ 0 \\ 0 \end{matrix}], K (x) : = [\begin{matrix} \nabla_{y x}^{2} L (x, y (x), λ (x), μ (x)) \\ \nabla_{x} h (x, y (x)) \\ \nabla_{x} g_{α} (x, y (x)) \end{matrix}] . \end{array}$

假设2.1. a) 假设 $h, \nabla h$ 和 $\nabla^{2} h$ 是Lipschitz连续的，并且各自的常数为 $L_{h_{0}} > 0, L_{h_{1}} > 0$ 和 $L_{h_{2}} > 0$ 。

b) 假设 $g, \nabla g$ 和 $\nabla^{2} g$ 是Lipschitz连续的，并且各自的常数为 $L_{g_{0}} > 0, L_{g_{1}} > 0$ 和 $L_{g_{2}} > 0$ 。

假设2.2. a) 假设 $f, \nabla_{x} f, \nabla_{y} f, \nabla_{y x}^{2} f$ 和 $\nabla_{y y}^{2} f$ 在 $y$ 上是Lipschitz连续的，各自的常数为 $L_{f_{0, 2}} > 0, L_{f_{1, 2}} > 0, L_{f_{2, 2}} > 0, L_{f_{21, 2}} > 0$ 和 $L_{f_{22, 2}} > 0$ 。

b) 假设 $\nabla_{x} f, \nabla_{y} f, \nabla_{y x}^{2} f$ 和 $\nabla_{y y}^{2} f$ 在 $x$ 上是Lipschitz连续的，各自的常数为 $L_{f_{1, 1}} > 0, L_{f_{2, 1}} > 0, L_{f_{21, 1}} > 0$ 和 $L_{f_{22, 1}} > 0$ 。

假设2.3. 假设内层问题的雅可比唯一性条件成立。

在假设2.3成立的条件下，拉格朗日乘子是有界的，有如下假设成立。

假设2.4. 假设存在常数 $ℳ$ ，使得对于任何满足KKT条件的 $(λ, μ)$ ，以下成立：

$‖ λ, μ ‖ \leq ℳ .$

在假设2.3成立的条件下，使用标准的隐函数定理，可以得到如下结论，说明内层问题解的存在性与局部与唯一性：

引理2.1. 设 $(x^{*}, y^{*}) \in X \times ℝ^{m}$ 是一个点，在此点附近函数 $f, h$ 和 $g$ 都是二次连续可微的。设存在 $(λ^{*}, μ^{*}) \in ℝ^{m_{1}} \times ℝ^{m_{2}}$ 使得问题 $(P_{x^{*}})$ 的雅可比唯一性条件在 $(y^{*}, λ^{*}, μ^{*})$ 处满足，则存在 $δ_{0} > 0$ 和 $ε_{0} > 0$ ，以及一个二次连续可微的映射 $(y, λ, μ) : B_{δ_{0}} (x^{*}) \mapsto B_{ε_{0}} (y^{*}) \times B_{ε_{0}} (λ^{*}) \times B_{ε_{0}} (μ^{*})$ ，使得当 $x \in B_{δ_{0}} (x^{*})$ 时，问题 $(P_{x})$ 的雅可比唯一性条件在 $(y (x), λ (x), μ (x))$ 处满足。

在假设内层问题具有唯一局部解的情况下，极小极大问题(P)可以简化为以下单层问题：

$min_{x \in X} ϕ (x) : = f (x, y (x)) : y (x) = arg max_{y \in Y (x)} f (x, y)$ .

为了解决这个问题，GBAL算法的基本思路如下：首先在每次迭代中使用增广拉格朗日法得到 $y (x)$ 的值。然后，基于通过链式法则计算的 $ϕ$ 的梯度更新变量 $x$ ，具体如下：

$\nabla ϕ (x) = \nabla_{x} f (x, y (x)) + \nabla y {(x)}^{T} \nabla_{y} f (x, y (x)),$

其中 $\nabla y (x)$ 在雅可比唯一性条件成立的前提下，可以使用隐函数定理获得。然而除非内层问题有闭式解，否则 $\nabla y (x)$ 不能被直接使用，这就限制了这仅适用于非常特定的问题。为了突破这一限制，GBAL算法提出通过隐函数定理来估计 $\nabla y (x)$ 的值，这需要用到以下引理。

引理2.2. 假设引理2.1中的条件成立。则对于任意 $x \in B_{δ_{0}} (x^{*})$ 和在引理2.1中定义的 $(y (x), λ (x), μ (x))$ ，以下结论成立。

a) 梯度函数 $\nabla z (x)$ 可以表示为：

$\nabla z (x) = - R {(x)}^{- 1} K (x) .$ (2)

b) 存在常数 $0 < δ_{1} < δ_{0}$ 和 $0 < ε_{1} < ε_{0}$ ，使得对于 $(x, y, λ, μ) \in B_{δ_{1}} (x^{*}) \times B_{ε_{1}} (y^{*}) \times B_{ε_{1}} (λ^{*}) \times B_{ε_{1}} (μ^{*})$ ，矩阵 $R (x, y, λ, μ)$ 是非奇异的，其中 $R (x, y, λ, μ)$ 是通过将 $R (x)$ 中的 $y (x), λ (x)$ 和 $μ (x)$ 替换为 $y, λ$ 和 $μ$ 来定义的。此外，存在 $η > 0$ ，使得

$‖ R {(x, y, λ, μ)}^{- 1} ‖ \leq η$ .

给出目标函数 $f$ 的近似梯度如下：

$\bar{\nabla} f (\bar{x}, \bar{y}) : = \nabla_{x} f (\bar{x}, \bar{y}) + U_{\bar{λ}, \bar{μ}} (\bar{x}, \bar{y}) \nabla_{y} f (\bar{x}, \bar{y}),$ (3)

其中 $U_{\bar{λ}, \bar{μ}} (\bar{x}, \bar{y}) : = {[\begin{array}{l} E & 0 & 0 \end{array}] \nabla z (\bar{x}, \bar{y}, \bar{λ}, \bar{μ})}^{T}$ ， $\nabla z (\bar{x}, \bar{y}, \bar{λ}, \bar{μ})$ 是将(2)中的 $\bar{y}, \bar{λ}$ 和 $\bar{μ}$ 替换为 $y (\bar{x}), λ (\bar{x})$ 和 $μ (\bar{x})$ 来定义的。

下面是近似梯度与原始梯度之间的一些连续属性和误差界限。

引理2.3. 在假设2.1，2.2，2.3和2.4成立的情况下，以下陈述成立：

a) 假设存在 $(\bar{x}, \bar{y}, \bar{λ}, \bar{μ}) \in B_{δ_{1}} (x^{*}) \times B_{ε_{1}} (y^{*}) \times B_{ε_{1}} (λ^{*}) \times B_{ε_{1}} (μ^{*})$ ，且 $(y (x), λ (x), μ (x))$ 如引理2.1所给出，则：

$‖ \bar{\nabla} f (\bar{x}, \bar{y}) - \nabla f (\bar{x}, y (\bar{x})) ‖ \leq L_{1} ‖ \bar{y} - y (\bar{x}) ‖ + L_{2} ‖ \bar{λ} - λ (\bar{x}) ‖ + L_{3} ‖ \bar{μ} - μ (\bar{x}) ‖,$ (4)

其中 $L_{1} : = L_{f_{1, 2}} + η C_{K} L_{f_{2, 2}} + L_{U_{y}} L_{f_{0, 2}}$ ， $L_{2} : = η L_{h_{1}} L_{f_{0, 2}} + η^{2} C_{K} L_{h_{1}} L_{f_{0, 2}}$ ， $L_{3} : = η L_{g_{1}} L_{f_{0, 2}} + η^{2} C_{K} L_{g_{1}} L_{f_{0, 2}}$ 且 $C_{K} : = L_{f_{2, 1}} + ℳ L_{h_{1}} + ℳ L_{g_{1}} + L_{h_{0}} + L_{g_{0}}$ ， $L_{U_{y}} : = η L_{K_{y}} + η^{2} C_{K} L_{R_{y}}$ ， $L_{K_{y}} : = L_{f_{21, 2}} + ℳ L_{h_{2}} + ℳ L_{g_{2}} + L_{h_{1}} + L_{g_{1}}$ ， $L_{R_{y}} : = L_{f_{22, 2}} + ℳ L_{h_{2}} + ℳ L_{g_{2}} + 2 L_{h_{1}} + 2 L_{g_{1}}$ 。

b) 对于 $\bar{x} \in B_{δ_{1}} (x^{*})$ ， $y (\bar{x}), λ (\bar{x})$ 和 $μ (\bar{x})$ 在 $x$ 上是Lipschitz连续的，常数为 $L_{y} = η C_{K}$ 。

c) 对于 $\bar{x} \in B_{δ_{1}} (x^{*})$ ， $\nabla f$ 在 $x$ 上是Lipschitz连续的，常数为 $L_{f}$ ，即对于任意给定的 ${\bar{x}}_{1}, {\bar{x}}_{2} \in B_{δ_{1}} (x^{*})$ ，有：

$‖ \nabla f ({\bar{x}}_{1}, y ({\bar{x}}_{1})) - \nabla f ({\bar{x}}_{2}, y ({\bar{x}}_{2})) ‖ \leq L_{f} ‖ {\bar{x}}_{1} - {\bar{x}}_{2} ‖,$ (5)

其中 $L_{f} : = (L_{1} + L_{2} + L_{3}) L_{y} + L_{f_{1, 1}} + η C_{K} L_{f_{2, 1}} + L_{U_{x}} L_{f_{0, 2}}$ ， $L_{U_{x}} : = η L_{K_{x}} + η^{2} C_{K} L_{R_{x}}$ $L_{R_{x}} : = L_{f_{22, 1}} + ℳ L_{h_{2}} + ℳ L_{g_{2}} + 2 L_{h_{1}} + 2 L_{g_{1}}$ ， $L_{K_{x}} : = L_{f_{21, 1}} + ℳ L_{h_{2}} + ℳ L_{g_{2}} + L_{h_{1}} + L_{g_{1}}$ 。

以下是具体的GBAL算法：

算法1. 求解约束极小极大问题的隐式梯度(GBAL)算法

输入： $x_{0} \in X$ ， $y_{0} \in ℝ^{m}$ ， $ζ > 0$ 和非负序列 ${α_{k}}_{k \geq 0}$ 。

1：初始化 $k = 0$ ， ${\bar{y}}_{0} = y_{0}$ 。

for $k = 0, 1, 2, \dots$ do

2：利用算法2求解内层问题 $(P_{x_{k}})$ ，得到 ${\bar{y}}_{k}, {\bar{λ}}_{k}$ 和 ${\bar{μ}}_{k}$ ；

3：如果 $\bar{\nabla} f (x_{k}, {\bar{y}}_{k}) < ζ$ 则停止，其中 $\bar{\nabla} f$ 的定义在(3)中给出；

4：更新

$x_{k + 1} = \arg min_{u \in X} {〈 \bar{\nabla} f (x_{k}, {\bar{y}}_{k}), u 〉 + \frac{1}{2 α_{k}} {‖ u - x_{k} ‖}^{2}};$ (6)

end for

其中使用的非精确增广拉格朗日算法[4]如下：

算法2. 非精确增广拉格朗日算法

输入： $y_{0} \in ℝ^{m}, w_{0} \in ℝ^{m}$ 和固定常数 $x_{k}$ ，乘子 $λ_{0} \in ℝ^{m_{1}}, μ_{0} \in ℝ_{+}^{m_{2}}$ ，非负序列 ${c_{t}}_{t \geq 0}$ ，参数 $σ \in [0, 1)$ 和整数 $t_{k}$ 。

for $t = 1, 2, \dots, t_{k}$ do

1：定义

$v_{t} = \nabla_{y} L_{c_{t}} (x_{k}, y_{t - 1}, λ_{t - 1}, μ_{t - 1})$ ；

2：找到 $y_{t} \in ℝ^{m}$ 使得

$\frac{2}{c_{t}} | 〈 w_{t - 1} - y_{t}, v_{t} 〉 | + {‖ v_{t} ‖}^{2} \leq σ ({‖ h (x_{k}, y_{t}) ‖}^{2} + {‖ min {\frac{1}{c_{t}} μ_{t - 1}, - g (x_{k}, y_{t})} ‖}^{2})$ ；

3：更新

$\begin{array}{l} λ_{t} = λ_{t - 1} + c_{t} h (x_{k}, y_{t}), \\ μ_{t} = max {0, μ_{t - 1} + c_{t} g (x_{k}, y_{t})}, \\ w_{t} = w_{t - 1} - c_{t} v_{t} . \end{array}$

end for

其中 $c > 0$ ， $L_{c}$ 是问题 $(P_{x})$ 的增广拉格朗日函数：

$\begin{matrix} L_{c} (x, y, λ, μ) : = f (x, y) + \sum_{i = 1}^{m_{1}} (λ_{i} h_{i} (x, y) + \frac{c}{2} h_{i} {(x, y)}^{2}) \\ + \frac{1}{2 c} \sum_{i = 1}^{m_{2}} [{(max {0, μ_{i} + c g_{i} (x, y)})}^{2} - μ_{i}^{2}] . \end{matrix}$

以下是关于算法2收敛速率的结论。

引理2.4. [5]令 $S (x)$ 是问题 $(P_{x})$ 的解集， $M (x)$ 是问题 $(P_{x})$ 的对偶问题的解集。假设 $S (x)$ 和 $M (x)$ 都是非空的，则以下结论成立。

a) 整个序列 $p_{t} : = (λ_{t}, μ_{t})$ 收敛到问题 $(P_{x})$ 对偶问题的解。

b) 对于 $y (x_{k}) \in S (x_{k})$ 和任意充分大的 $t$ ，有：

$‖ y_{t} - y (x_{k}) ‖ \leq \frac{κ (1 + \sqrt{σ})}{c_{t}} ‖ p_{t - 1} - p_{t} ‖,$ (7)

因此

$\lim_{t \to \infty} ‖ y_{t} - y (x_{k}) ‖ = 0$ .

其中 $κ$ 是引用[5]中的一个误差界比例系数。

c) 如果额外满足

$\underset{t \to \infty}{\lim \inf} c_{t} > 2 κ (σ + \sqrt{σ}),$

那么对于 $p (x_{k}) \in M (x_{k})$ 和任意充分大的 $t$ ，有：

$‖ p_{t} - p (x_{k}) ‖ \leq ρ_{t} ‖ p_{t - 1} - p (x_{k}) ‖,$ (8)

其中

$ρ_{t} : = \frac{κ \sqrt{1 + σ}}{\sqrt{c_{t}^{2} - 2 κ (σ + \sqrt{σ}) c_{t} + κ^{2} (1 + σ)}},$

并且

$\underset{t \to \infty}{\lim \sup} {ρ_{t}} < 1$ .

3. 求解约束极小极大问题的隐式梯度加速算法

3.1节介绍了Nesterov加速梯度算法变体。3.2节将提到的Nesterov加速梯度算法变体应用到GBAL算法中，提出了求解约束极小极大问题的隐式梯度加速(aGBAL)算法，并对其进行了收敛性分析。最后的3.3节进行了数值实验的测试，验证了所提出的加速算法的加速性能。

3.1. Nesterov加速梯度算法变体

Nesterov加速梯度算法(Nesterov Accelerated Gradient, NAG)由Nesterov于1983年提出[1] [6]，旨在解决传统梯度下降法在优化光滑凸函数时收敛速度不足的问题。为了更好地处理复杂目标函数，下面引入一个NAG变体[1] [7]，这个算法通过引入动量权重和正则化项来增强稳定性，以更好地适应不同的优化问题。

定义动量权重如下，其中为了对目标函数的强凸性进行动态调节，引入了广义参数 $λ_{k} \geq 0$ ：

$η_{k} = \frac{θ_{k} (μ_{f} + λ_{k}) - θ_{k}^{2} μ_{f}}{μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}},$

则中间点

$x_{k}^{m d} = η_{k} x_{k} + (1 - η_{k}) x_{k}^{a g}$

当 $λ_{k} = 0$ 时，就退化为经典Nesterov形式，此时 $η_{k} = θ_{k} / (1 + θ_{k})$ ，与NAG中 $γ_{k} = 1 / (k + 2)$ 的参数设计相同。

迭代点的更新通过求解以下优化问题实现：

$x_{k + 1} = \arg \min_{u \in X} 〈 \nabla f (x_{k}^{m d}), u 〉 + \frac{μ_{f}}{4} {‖ u - x_{k}^{m d} ‖}^{2} + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4 θ_{k}} {‖ u - x_{k} ‖}^{2},$

其目标函数可视为梯度项与复合二次正则项的组合。当 $λ_{k} = 0$ 且 $θ_{k}$ 满足递推关系：

$θ_{k + 1}^{2} = (1 - θ_{k + 1}) θ_{k}^{2},$

该问题等价于Nesterov的校正步骤，其解析解可显式写为：

$x_{k + 1} = x_{k}^{m d} - \frac{2 θ_{k}}{μ_{f}} \nabla f (x_{k}^{m d}) .$

3.2. 隐式梯度加速算法

结合上一节所提到的Nesterov加速梯度算法的变体，提出了下方求解约束极小极大问题的隐式梯度加速(aGBAL)算法。

算法3. 求解约束极小极大问题的隐式梯度加速(aGBAL)算法

输入： $x_{0} \in X, y_{0} \in ℝ^{m}, ζ > 0$ 以及非负序列 ${α_{k}}_{k \geq 0}, {λ_{k}}_{k \geq 0}$ 。

1：初始化 $k = 0, x_{0}^{a g} = x_{0}$ 和 ${\bar{y}}_{0} = y_{0}$ 。

for $k = 0, 1, 2, \dots$ do

2：定义

$η_{k} = \frac{θ_{k} (μ_{f} + λ_{k}) - θ_{k}^{2} μ_{f}}{μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}} 和 x_{k}^{m d} = η_{k} x_{k} + (1 - η_{k}) x_{k}^{a g} .$ (9)

3：利用算法2求解内层问题 $(P_{x_{k}^{m d}})$ ，得到 ${\bar{y}}_{k}, {\bar{λ}}_{k}$ 和 ${\bar{μ}}_{k}$ ；

4：如果 $\bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}) < ζ$ ，则停止，其中 $\bar{\nabla} f$ 的定义见(3)；

5：更新

$x_{k + 1} = arg min_{u \in X} {〈 \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}), u 〉 + \frac{μ_{f}}{4} {‖ u - x_{k}^{m d} ‖}^{2} + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4 θ_{k}} {‖ u - x_{k} ‖}^{2}},$

$x_{k + 1}^{a g} = \arg min_{u \in X} {〈 \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}), u 〉 + \frac{1}{2 α_{k}} {‖ u - x_{k}^{m d} ‖}^{2}} .$ $(10)$

end for

注意到，如果 $\bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}) = \nabla f (x_{k}^{m d}, y (x_{k}^{m d}))$ ，则(9)和(10)构成的就是上述Nesterov加速梯度变体。以下，分析此算法的主要收敛特性。

定理3.1. 假设序列 ${{\bar{y}}_{k}, x_{k}, x_{k}^{m d}, x_{k}^{a g}}_{k \geq 0}$ 是通过算法3生成的，并且满足假设2.1，2.2，2.3和2.4以及引理2.4的假设。取 $k_{0} \geq 0$ ，使得对于任意 $k \geq k_{0}$ ，都有 $(x_{k}, {\bar{y}}_{k}, λ_{k}, μ_{k}) \in B_{δ_{1}} (x^{*}) \times B_{ε_{1}} (y^{*}) \times B_{ε_{1}} (λ^{*}) \times B_{ε_{1}} (μ^{*})$ ，其中 $δ_{1}$ 和 $ε_{1}$ 在引理2.2中给出了定义。步长选择满足：

$α_{k} \leq \frac{1}{L_{f}}, \forall k \geq k_{0}$ (11)

且

$θ_{k}^{2} \leq \frac{α_{k} (μ_{f} + λ_{k})}{4}, \forall k \geq k_{0}$ (12)

a) 如果 $f$ 是关于 $x$ 是强凸函数，参数为 $μ_{f} > 0$ ，且满足

$\frac{λ_{k_{0}}}{Γ_{k_{0} + 1}} = \frac{λ_{k_{0} + 1}}{Γ_{k_{0} + 2}} = \dots,$ (13)

选择 $γ_{k} = θ_{k}$ ，则对于任意 $N \geq k_{0} + 1$ ，有：

$f (x_{N}^{a g}, y (x_{N}^{a g})) - f^{*} \leq Γ_{N} [f (x_{k_{0}}, y (x_{k_{0}})) - f^{*} + \frac{μ_{f} + λ_{k_{0}} Γ_{k_{0} + 1}^{- 1}}{4} {‖ x^{*} - x_{k_{0}} ‖}^{2} + \frac{1}{2 μ_{f}} \sum_{k = k_{0}}^{N - 1} \frac{(6 θ_{k} + α_{k} μ_{f}) T_{k}^{2}}{Γ_{k + 1}}]$ (14)

其中

$T_{k} : = \frac{L_{1} κ (1 + \sqrt{σ}) (1 + ρ_{k})}{c_{k}} \prod_{i = k_{0} + 1}^{k - 1} ρ_{i} ‖ p_{k_{0}} - p (x_{k}) ‖ + (L_{2} + L_{3}) \prod_{i = k_{0} + 1}^{k} ρ_{i} ‖ p_{k_{0}} - p (x_{k}) ‖,$

$Γ_{k_{0} + 1} : = {\begin{array}{l} 1, & γ_{k_{0}} = 1 \\ 1 - γ_{k_{0}}, & γ_{k_{0}} < 1 \end{array}, Γ_{k} : = Γ_{k_{0} + 1} \prod_{i = k_{0} + 1}^{k - 1} (1 - γ_{i}), \forall k \geq k_{0} + 2,$

$0 < γ_{k} \leq \frac{\sqrt{α_{k} μ_{f}}}{2}, \forall k \geq k_{0} .$ (15)

其中 $L_{1}, L_{2}, L_{3}$ 的定义见(4)， $κ, ρ_{k}$ 和 $c_{k}$ 的定义见(7)和(8)。

b) 如果 $f$ 关于 $x$ 是凸函数， $X$ 有界，且满足(13)，则对于任意 $N \geq k_{0} + 1$ ，有：

$\begin{matrix} f (x_{N}^{a g}, y (x_{N}^{a g})) - f^{*} \leq Γ_{N} [\frac{(1 - γ_{k_{0}}) [f (x_{k_{0}}, y (x_{k_{0}})) - f^{*}]}{Γ_{k_{0} + 1}} + \frac{λ_{k_{0}}}{Γ_{k_{0} + 1}} {‖ x^{*} - x_{k_{0}} ‖}^{2} \\ + \sum_{k = k_{0}}^{N - 1} \frac{1}{Γ_{k + 1}} (θ_{k} D_{x} T_{k} + \frac{α_{k} T_{k}^{2}}{2}), \end{matrix}$ (16)

其中在 $Γ_{k}$ 中取 $γ_{k} = θ_{k}$ 。

Proof. 首先证明a)。注意到子问题(10)的强凸性，对 $\forall x \in X$ ，有：

$\begin{matrix} 〈 \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}), x_{k + 1} - x 〉 \leq \frac{μ_{f}}{4} [{‖ x - x_{k}^{m d} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2} - {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2}] \\ + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4 θ_{k}} [{‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2} - {‖ x_{k + 1} - x_{k} ‖}^{2}], \end{matrix}$ (17)

并且对 $\forall u \in X$ ，有：

$〈 \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}), x_{k + 1}^{a g} - u 〉 \leq \frac{1}{2 α_{k}} [{‖ u - x_{k}^{m d} ‖}^{2} - {‖ u - x_{k + 1}^{a g} ‖}^{2} - {‖ x_{k + 1}^{a g} - x_{k}^{m d} ‖}^{2}] .$ (18)

令 $u = (1 - θ_{k}) x_{k}^{a g} + θ_{k} x_{k + 1}$ ，借助 ${‖ \cdot ‖}^{2}$ 的凸性，得出：

$\begin{matrix} {‖ u - x_{k}^{m d} ‖}^{2} = {‖ \frac{η_{k} (1 - θ_{k})}{1 - η_{k}} (x_{k + 1} - x_{k}) + \frac{θ_{k} - η_{k}}{1 - η_{k}} (x_{k + 1} - x_{k}^{m d}) ‖}^{2} \\ \leq \frac{η_{k} θ_{k} (1 - θ_{k})}{1 - η_{k}} {‖ x_{k + 1} - x_{k} ‖}^{2} + \frac{θ_{k} (θ_{k} - η_{k})}{1 - η_{k}} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2}, \end{matrix}$

将(9)中 $η_{k}$ 的表达式代入上式，有：

${‖ u - x_{k}^{m d} ‖}^{2} \leq \frac{θ_{k}^{2} [(μ_{f} + λ_{k}) - θ_{k} μ_{f}] (1 - θ_{k})}{μ_{f} + λ_{k} - θ_{k} μ_{f} - θ_{k} λ_{k}} {‖ x_{k + 1} - x_{k} ‖}^{2}$

$\begin{matrix} + \frac{θ_{k} (θ_{k} - \frac{θ_{k} (μ_{f} + λ_{k}) - θ_{k}^{2} μ_{f}}{μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}})}{\frac{μ_{f} + λ_{k} - θ_{k} (μ_{f} + λ_{k})}{μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}}} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} \\ = \frac{θ_{k}^{2} (μ_{f} + λ_{k} - θ_{k} μ_{f} - θ_{k} μ_{f} - θ_{k} λ_{k} + θ_{k}^{2} μ_{f})}{μ_{f} + λ_{k} - θ_{k} μ_{f} - θ_{k} λ_{k}} {‖ x_{k + 1} - x_{k} ‖}^{2} \\ + \frac{θ_{k}^{2} - \frac{θ_{k}^{2} (μ_{f} + λ_{k} - θ_{k}^{3} μ_{f}}{μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}}}{\frac{μ_{f} + λ_{k} - θ_{k} (μ_{f} + λ_{k})}{μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}}} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} \\ = θ_{k}^{2} (1 - \frac{θ_{k} μ_{f} - θ_{k}^{2} μ_{f}}{μ_{f} + λ_{k} - θ_{k} μ_{f} - θ_{k} λ_{k}}) {‖ x_{k + 1} - x_{k} ‖}^{2} \\ + \frac{(μ_{f} + λ_{k} - θ_{k}^{2} μ_{f}) θ_{k}^{2} - θ_{k}^{2} (μ_{f} + λ_{k}) + θ_{k}^{3} μ_{f}}{μ_{f} + λ_{k} - θ_{k} (μ_{f} + λ_{k})} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} \\ = θ_{k}^{2} (1 - \frac{θ_{k} μ_{f} (1 - θ_{k})}{(1 - θ_{k}) μ_{f} + (1 - θ_{k}) λ_{k}}) {‖ x_{k + 1} - x_{k} ‖}^{2} \\ + \frac{θ_{k}^{2} (θ_{k} μ_{f} - θ_{k}^{2} μ_{f})}{(1 - θ_{k}) μ_{f} + (1 - θ_{k}) λ_{k}} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} \\ = θ_{k}^{2} (1 - \frac{θ_{k} μ_{f}}{μ_{f} + λ_{k}}) {‖ x_{k + 1} - x_{k} ‖}^{2} + \frac{θ_{k}^{2} (1 - θ_{k}) θ_{k} μ_{f}}{(1 - θ_{k}) μ_{f} + (1 - θ_{k}) λ_{k}} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} \\ = θ_{k}^{2} [(1 - \frac{θ_{k} μ_{f}}{μ_{f} + λ_{k}}) {‖ x_{k + 1} - x_{k} ‖}^{2} + \frac{θ_{k} μ_{f}}{μ_{f} + λ_{k}} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2}] \end{matrix}$ (19)

此外，由引理2.3 c)的光滑性，得到：

$f (x_{k + 1}^{a g}, y (x_{k + 1}^{a g})) \leq f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x_{k + 1}^{a g} - x_{k}^{m d} 〉 + \frac{L_{f}}{2} {‖ x_{k + 1}^{a g} - x_{k}^{m d} ‖}^{2} .$ (20)

将(17)乘以 $θ_{k}$ ，并将其与(18)相加，有：

$\begin{array}{l} 〈 \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}), θ_{k} (x_{k + 1} - x) + x_{k + 1}^{a g} - u 〉 \\ \leq \frac{θ_{k} μ_{f}}{4} [{‖ x - x_{k}^{m d} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2} - {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2}] \\ + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4} [{‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2} - {‖ x_{k + 1} - x_{k} ‖}^{2}] \\ + \frac{1}{2 α_{k}} [{‖ u - x_{k}^{m d} ‖}^{2} - {‖ u - x_{k + 1}^{a g} ‖}^{2} - {‖ x_{k + 1}^{a g} - x_{k}^{m d} ‖}^{2}] . \end{array}$

将(19)代入上式，注意到对于项 $‖ x_{k + 1} - x_{k}^{m d} ‖$ 与 $‖ x_{k + 1} - x_{k} ‖$ ，可以合并同类项，即：

$[\frac{1}{2 α_{k}} (\frac{θ_{k}^{3} μ_{f}}{μ_{f} + λ_{k}}) - \frac{θ_{k} μ_{f}}{4}] {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2}$

$\begin{array}{l} = \frac{2 θ_{k}^{3} μ_{f} - α_{k} θ_{k} μ_{f} (μ_{f} + λ_{k})}{4 α_{k} (μ_{f} + λ_{k})} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} \\ = \frac{θ_{k} μ_{f} [2 θ_{k}^{2} - α_{k} (μ_{f} + λ_{k})]}{4 α_{k} (μ_{f} + λ_{k})} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2}, \end{array}$

$\begin{array}{l} [\frac{θ_{k}^{2}}{2 α_{k}} (1 - \frac{θ_{k} μ_{f}}{μ_{f} + λ_{k}}) - \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4}] {‖ x_{k + 1} - x_{k} ‖}^{2} \\ = [\frac{θ_{k}^{2} (μ_{f} + λ_{k} - θ_{k} μ_{f})}{2 α_{k} (μ_{f} + λ_{k})} - \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4}] {‖ x_{k + 1} - x_{k} ‖}^{2} \\ = \frac{2 θ_{k}^{2} (μ_{f} + λ_{k} - θ_{k} μ_{f}) - [(1 - θ_{k}) μ_{f} + λ_{k}] α_{k} (μ_{f} + λ_{k})}{4 α_{k} (μ_{f} + λ_{k})} {‖ x_{k + 1} - x_{k} ‖}^{2} \\ = \frac{2 θ_{k}^{2} μ_{f} (1 - θ_{k}) - α_{k} (1 - θ_{k}) μ_{f} (μ_{f} + λ_{k}) + 2 θ_{k}^{2} λ_{k} - α_{k} λ_{k} (μ_{f} + λ_{k})}{4 α_{k} (μ_{f} + λ_{k})} {‖ x_{k + 1} - x_{k} ‖}^{2} \\ = \frac{[2 θ_{k}^{2} - α_{k} (μ_{f} + λ_{k})] [(1 - θ_{k}) μ_{f} + λ_{k}]}{4 α_{k} (μ_{f} + λ_{k})} {‖ x_{k + 1} - x_{k} ‖}^{2}, \end{array}$

整理可以得到：

$\begin{array}{l} 〈 \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}), θ_{k} (x_{k + 1} - x) + x_{k + 1}^{a g} - u 〉 \\ \leq - \frac{1}{4} (1 - \frac{2 θ_{k}^{2}}{α_{k} (μ_{f} + λ_{k})}) {θ_{k} μ_{f} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} + [(1 - θ_{k}) μ_{f} + λ_{k}] {‖ x_{k + 1} - x_{k} ‖}^{2}} \\ + \frac{θ_{k} μ_{f}}{4} ({‖ x - x_{k}^{m d} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2}) + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4} ({‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2}) \\ - \frac{1}{2 α_{k}} ({‖ u - x_{k + 1}^{a g} ‖}^{2} + {‖ x_{k + 1}^{a g} - x_{k}^{m d} ‖}^{2}), \end{array}$

结合不等式(20)，并定义 $Δ_{k}^{m d} : = \nabla f (x_{k}^{m d}, {\bar{y}}_{k}) - \nabla f (x_{k}^{m d}, y (x_{k}^{m d}))$ ，可以获得：

$\begin{array}{l} f (x_{k + 1}^{a g}, y (x_{k + 1}^{a g})) \\ \leq (1 - θ_{k}) [f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x_{k}^{a g} - x_{k}^{m d} 〉] \\ + θ_{k} [f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x - x_{k}^{m d} 〉 + \frac{μ_{f}}{4} {‖ x - x_{k}^{m d} ‖}^{2}] \\ - \frac{1}{2 α_{k}} {(1 - L_{f} α_{k}) {‖ x_{k + 1}^{a g} - x_{k}^{m d} ‖}^{2} + {‖ u - x_{k + 1}^{a g} ‖}^{2}} - \frac{θ_{k} μ_{f}}{4} {‖ x - x_{k + 1} ‖}^{2} \\ + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4} [{‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2}] + 〈 Δ_{k}^{m d}, θ_{k} (x_{k + 1} - x) + x_{k + 1}^{a g} - u 〉 . \end{array}$ (21)

可以将上式末尾的内积表达式分解为三部分：

$〈 Δ_{k}^{m d}, θ_{k} (x_{k + 1} - x_{k}^{m d}) + θ_{k} (x_{k}^{m d} - x) + x_{k + 1}^{a g} - u 〉,$

对每一部分内积 $〈 Δ_{k}^{m d}, \cdot 〉$ 应用Cauchy-Schwarz不等式 $〈 a, b 〉 \leq \frac{α}{2} {‖ a ‖}^{2} + \frac{1}{2 α} {‖ b ‖}^{2}$ ，对于第一部分 $θ_{k} 〈 Δ_{k}^{m d}, x_{k + 1} - x_{k}^{m d} 〉$ ，选择 $α_{1} = \frac{4}{μ_{f}}$ ，得到：

$θ_{k} 〈 Δ_{k}^{m d}, x_{k + 1} - x_{k}^{m d} 〉 \leq \frac{2 θ_{k}}{μ_{f}} {‖ Δ_{k}^{m d} ‖}^{2} + \frac{θ_{k} μ_{f}}{8} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} .$

对于第二部分 $θ_{k} 〈 Δ_{k}^{m d}, x_{k}^{m d} - x 〉$ ，选择 $α_{2} = \frac{2}{μ_{f}}$ ，得到：

$θ_{k} 〈 Δ_{k}^{m d}, x_{k}^{m d} - x 〉 \leq \frac{θ_{k}}{μ_{f}} {‖ Δ_{k}^{m d} ‖}^{2} + \frac{θ_{k} μ_{f}}{4} {‖ x - x_{k}^{m d} ‖}^{2} .$

对于第三部分 $〈 Δ_{k}^{m d}, x_{k + 1}^{a g} - u 〉$ ，选择 $α_{k}$ ，得到：

$〈 Δ_{k}^{m d}, x_{k + 1}^{a g} - u 〉 \leq \frac{α_{k}}{2} {‖ Δ_{k}^{m d} ‖}^{2} + \frac{1}{2 α_{k}} {‖ u - x_{k + 1}^{a g} ‖}^{2} .$

将上述三个不等式相加，合并同类项，最终得到不等式：

$\begin{array}{l} 〈 Δ_{k}^{m d}, θ_{k} (x_{k + 1} - x) + x_{k + 1}^{a g} - u 〉 \\ \leq (\frac{3 θ_{k}}{μ_{f}} + \frac{α_{k}}{2}) {‖ Δ_{k}^{m d} ‖}^{2} + \frac{θ_{k} μ_{f}}{4} [\frac{1}{2} {‖ x_{k + 1} - x_{k}^{m d} ‖}^{2} + {‖ x - x_{k}^{m d} ‖}^{2}] + \frac{1}{2 α_{k}} {‖ u - x_{k + 1}^{a g} ‖}^{2} . \end{array}$ (22)

由函数 $f$ 关于 $x$ 的强凸性，可以得到：

$\begin{array}{l} 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x_{k}^{a g} - x_{k}^{m d} 〉 \leq f (x_{k}^{a g}, y (x_{k}^{a g})) - f (x_{k}^{m d}, y (x_{k}^{m d})) - \frac{μ_{f}}{2} {‖ x_{k}^{a g} - x_{k}^{m d} ‖}^{2}, \\ 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x - x_{k}^{m d} 〉 \leq f (x, y (x)) - f (x_{k}^{m d}, y (x_{k}^{m d})) - \frac{μ_{f}}{2} {‖ x - x_{k}^{m d} ‖}^{2}, \end{array}$

将上式代入(21)并结合(22)，可以得出：

$\begin{matrix} f (x_{k + 1}^{a g}, y (x_{k + 1}^{a g})) \leq (1 - θ_{k}) f (x_{k}^{a g}, y (x_{k}^{a g})) + θ_{k} f (x, y (x)) + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4} {‖ x - x_{k} ‖}^{2} \\ - \frac{λ_{k} + μ_{f}}{4} {‖ x - x_{k + 1} ‖}^{2} + \frac{6 θ_{k} + μ_{f} α_{k}}{2 μ_{f}} {‖ Δ_{k}^{m d} ‖}^{2} . \end{matrix}$

将 $x = x^{*}$ 代入上述不等式，再将两边减去 $f (x^{*}, y (x^{*}))$ ，可以得到：

$\begin{array}{l} f (x_{k + 1}^{a g}, y (x_{k + 1}^{a g})) - f (x^{*}, y (x^{*})) \\ \leq (1 - θ_{k}) f (x_{k}^{a g}, y (x_{k}^{a g})) + θ_{k} f (x^{*}, y (x^{*})) + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4} {‖ x - x_{k} ‖}^{2} \\ - \frac{λ_{k} + μ_{f}}{4} {‖ x - x_{k + 1} ‖}^{2} + \frac{6 θ_{k} + μ_{f} α_{k}}{2 μ_{f}} Δ_{k}^{m d}^{2} - f (x^{*}, y (x^{*})) \\ = (1 - θ_{k}) [f (x_{k}^{a g}, y (x_{k}^{a g})) - f (x^{*}, y (x^{*}))] + \frac{(1 - θ_{k}) μ_{f} + λ_{k}}{4} {‖ x - x_{k} ‖}^{2} \\ - \frac{λ_{k} + μ_{f}}{4} {‖ x - x_{k + 1} ‖}^{2} + \frac{6 θ_{k} + μ_{f} α_{k}}{2 μ_{f}} {‖ Δ_{k}^{m d} ‖}^{2}, \end{array}$

结合 $γ_{k} = θ_{k}$ ，并重新排列项后，可以得到：

$e_{k + 1} \leq (1 - γ_{k}) e_{k} + \frac{λ_{k}}{4} [{‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2}] + \frac{6 θ_{k} + μ_{f} α_{k}}{2 μ_{f}} {‖ Δ_{k}^{m d} ‖}^{2},$ (23)

其中 $e_{k} : = f (x_{k}^{a g}, y (x_{k}^{a g})) - f (x^{*}, y (x^{*})) + \frac{μ_{f}}{4} {‖ x - x_{k} ‖}^{2}$ 。由引理2.4有：

$‖ p_{k - 1} - p_{k} ‖ \leq ‖ p_{k - 1} - p (x_{k}^{m d}) ‖ + ‖ p_{k} - p (x_{k}^{m d}) ‖ \leq (1 + ρ_{k}) ‖ p_{k - 1} - p (x_{k}^{m d}) ‖,$

因此

$‖ y_{k} - y (x_{k}^{m d}) ‖ \leq \frac{κ (1 + \sqrt{σ}) (1 + ρ_{k})}{c_{k}} ‖ p_{k - 1} - p (x_{k}^{m d}) ‖,$

联系(4)和(8)可以得到：

$\begin{array}{l} ‖ Δ_{k}^{m d} ‖ = ‖ \bar{\nabla} f (x_{k}^{m d}, {\bar{y}}_{k}) - \nabla f (x_{k}^{m d}, y (x_{k})) ‖ \\ \leq \frac{L_{1} κ (1 + \sqrt{σ}) (1 + ρ_{k})}{c_{k}} ‖ p_{k - 1} - p (x_{k}^{m d}) ‖ + (L_{2} + L_{3}) ‖ p_{k} - p (x_{k}^{m d}) ‖ \\ \leq \frac{L_{1} κ (1 + \sqrt{σ}) (1 + ρ_{k})}{c_{k}} \prod_{i = k_{0} + 1}^{k - 1} ρ_{i} ‖ p_{k_{0}} - p (x_{k}^{m d}) ‖ + (L_{2} + L_{3}) \prod_{i = k_{0} + 1}^{k} ρ_{i} ‖ p_{k_{0}} - p (x_{k}^{m d}) ‖ \\ : = T_{k} . \end{array}$

对不等式(23)两边除以 $Γ_{k + 1}$ ，并结合上式以及(13)，(7)和(4)，将它们求和后，得出(14)。

现在证明b)。如果 $f$ 关于 $x$ 是凸函数，将 $μ_{f} = 0$ 代入(21)再进行放缩，可以得到：

$\begin{matrix} f (x_{k + 1}^{a g}, y (x_{k + 1}^{a g})) \leq (1 - θ_{k}) [f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x_{k}^{a g} - x_{k}^{m d} 〉] \\ + θ_{k} [f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x - x_{k}^{m d} 〉] - \frac{1}{2 α_{k}} {‖ u - x_{k + 1}^{a g} ‖}^{2} \\ + \frac{λ_{k}}{4} [{‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2}] + 〈 Δ_{k}^{m d}, θ_{k} (x_{k + 1} - x) + x_{k + 1}^{a g} - u 〉, \end{matrix}$ (24)

对最后一个内积应用Cauchy-Schwarz不等式，有：

$\begin{array}{l} 〈 Δ_{k}^{m d}, θ_{k} (x_{k + 1} - x) + x_{k + 1}^{a g} - u 〉 \\ = 〈 Δ_{k}^{m d}, θ_{k} (x_{k + 1} - x) 〉 + 〈 Δ_{k}^{m d}, x_{k + 1}^{a g} - u 〉 \\ \leq θ_{k} ‖ x - x_{k + 1} ‖ ‖ Δ_{k}^{m d} ‖ + \frac{α_{k}}{2} {‖ Δ_{k}^{m d} ‖}^{2} + \frac{1}{2 α_{k}} {‖ x_{k + 1}^{a g} - u ‖}^{2} . \end{array}$ (25)

因为 $f$ 是凸函数，根据凸函数的一阶条件，分别对变量 $x_{k}^{a g}$ 和 $x$ 有：

$\begin{array}{l} f (x_{k}^{a g}, y (x_{k}^{a g})) \geq f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x_{k}^{a g} - x_{k}^{m d} 〉, \\ f (x, y (x)) \geq f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), x - x_{k}^{m d} 〉 . \end{array}$

将第一个不等式乘以 $(1 - θ_{k})$ ，第二个乘以 $θ_{k}$ ，然后相加：

$\begin{array}{l} (1 - θ_{k}) f (x_{k}^{a g}, y (x_{k}^{a g})) + θ_{k} f (x, y (x)) \\ \geq (1 - θ_{k} + θ_{k}) f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), (1 - θ_{k}) (x_{k}^{a g} - x_{k}^{m d}) + θ_{k} (x - x_{k}^{m d}) 〉 \\ = f (x_{k}^{m d}, y (x_{k}^{m d})) + 〈 \nabla f (x_{k}^{m d}, y (x_{k}^{m d})), (1 - θ_{k}) (x_{k}^{a g} - x_{k}^{m d}) + θ_{k} (x - x_{k}^{m d}) 〉 . \end{array}$ (26)

将(25)和(26)代入(24)，可以得到：

$\begin{matrix} f (x_{k + 1}^{a g}, y (x_{k + 1}^{a g})) \leq (1 - θ_{k}) f (x_{k}^{a g}, y (x_{k}^{a g})) + θ_{k} f (x, y (x)) \\ + \frac{λ_{k}}{4} [{‖ x - x_{k} ‖}^{2} - {‖ x - x_{k + 1} ‖}^{2}] + θ_{k} ‖ x - x_{k + 1} ‖ ‖ Δ_{k}^{m d} ‖ + \frac{α_{k}}{2} {‖ Δ_{k}^{m d} ‖}^{2} . \end{matrix}$

结合(13)以及 $X$ 的有界性，与a)类似可以推导出(16)。 $□$

接下来的结果中，通过选择适当算法参数来分析算法3的收敛速率。

推论3.1. 假设序列 ${{\bar{y}}_{k}, x_{k}, x_{k}^{m d}, x_{k}^{a g}}_{k \geq k_{0}}$ 由算法3生成，并且满足定理3.1的条件。对于每个 $k$ 将 $c_{k}$ 和 $ρ_{k}$ 固定为 ${c_{k} : = c_{0}}$ 和 ${ρ_{k} : = ρ_{0}}$ 。步长选择满足如下条件：

$α_{k} = \frac{1}{3 L_{f}}, λ_{k} = \frac{4 Γ_{k + 1}}{α_{k}}, \forall k \geq k_{0} .$ (27)

a) 如果 $f$ 关于 $x$ 是强凸的且参数为 $μ_{f} > 0$ ，并且有：

$θ_{k}^{2} = \frac{α_{k} μ_{f}}{4} +_{\bar{Γ} k + 1},$ (28)

其中 $_{\bar{Γ} k} = Γ_{k}$ ，且选择 $γ_{k} = θ_{k}$ ，则对于任意的 $N \geq k_{0} + 1$ ，有：

$\begin{array}{l} f (x_{N}, y (x_{N})) - f^{*} \\ \leq {(1 - γ)}^{N - k_{0}} [f (x_{k_{0}}, y (x_{k_{0}})) - f^{*} + \frac{μ_{f} + 12 L_{f}}{4} {‖ x^{*} - x_{k_{0}} ‖}^{2} + \frac{7 {[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{2 μ_{f} ρ_{0} (1 - ρ_{0})}], \end{array}$ (29)

其中

$γ_{k} = γ = min (\frac{1}{2} \sqrt{\frac{μ_{f}}{3 L_{f}}}, 1 - ρ_{0}), \forall k \geq k_{0} .$ (30)

且 $M = max_{x \in X} ‖ p_{k_{0}} - p (x_{k}) ‖, A = \frac{L_{1} κ (1 + \sqrt{σ})}{c_{0}}, B = L_{2} + L_{3}$ 。

b) 如果 $f$ 关于 $x$ 是凸函数， $X$ 有界且 $γ_{k} = θ_{k} = \frac{1}{{(N - k)}^{2}}$ ，则对于任意 $N \geq k_{0} + 1$ ，有：

$\begin{matrix} f (x_{N}, y (x_{N})) - f^{*} \leq {(1 - γ)}^{N - k_{0}} [f (x_{k_{0}}, y (x_{k_{0}})) - f^{*} + \frac{{[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{6 L_{f} ρ_{0} (1 - ρ_{0})} \\ + 12 L_{f} D_{X}^{2} + \frac{(1 - ρ_{0}) π^{2} D_{X}}{6 ρ_{0}} [A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]], \end{matrix}$ (31)

Proof. 首先，证明步长的定义是良好的。结合(15)，(27)，(28)和(30)可知：

$γ_{k} \leq θ_{k},_{\bar{Γ} k + 1} \leq Γ_{k + 1}, \frac{λ_{k}}{Γ_{k + 1}} = \frac{4}{α_{k}}, \forall k \geq k_{0}$ ,

这确保了条件(12)和(13)的满足。因为 $_{\bar{Γ} k} = Γ_{k}$ ，且 $γ_{k} = θ_{k}$ ，所以：

$_{\bar{Γ} k + 1} = Γ_{k + 1} = (1 - γ_{k}) Γ_{k} = (1 - γ_{k})_{\bar{Γ} k} = (1 - θ_{k})_{\bar{Γ} k}$ ,

代入(28)，得到 $θ_{k}^{2} = \frac{α_{k} μ_{f}}{4} + (1 - θ_{k})_{\bar{Γ} k}$ ，这表明：

$θ_{k} = \frac{-_{\bar{Γ} k} + \sqrt{_{\bar{Γ}}^{k} + 4_{\bar{Γ} k} + α_{k} μ_{f}}}{2}, \forall k \geq k_{0}$ ,

并且有 $θ_{k} \in (0, 1)$ 。

定义 $M = max_{x \in X} ‖ p_{k_{0}} - p (x_{k}) ‖$ ，和 $A = \frac{L_{1} κ (1 + \sqrt{σ})}{c_{0}}$ ， $B = L_{2} + L_{3}$ ，结合(15)和(30)有：

$Γ_{k + 1} = {(1 - γ)}^{k - k_{0} + 1} \geq ρ_{0}^{k - k_{0} + 1}, T_{k} \leq [A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M] ρ_{0}^{k - k_{0}} .$ (32)

因此，可以从几何级数的求和公式和条件 $0 < ρ_{0} < 1$ 中得到：

$\begin{matrix} \sum_{k = k_{0}}^{N - 1} \frac{α_{k} T_{k}^{2}}{Γ_{k + 1}} \leq \frac{{[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{3 L_{f}} \sum_{k = k_{0}}^{N - 1} \frac{ρ_{0}^{2 k - 2 k_{0}}}{ρ_{0}^{k - k_{0} + 1}} \\ = \frac{{[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{3 L_{f}} \sum_{k = k_{0}}^{N - 1} ρ_{0}^{k - k_{0} - 1} \\ = \frac{{[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{3 L_{f}} (\frac{1}{ρ_{0}} + \frac{1 - ρ_{0}^{N - k_{0} - 1}}{1 - ρ_{0}}) \\ \leq \frac{{[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{3 L_{f}} (\frac{1}{ρ_{0}} + \frac{1}{1 - ρ_{0}}) \\ = \frac{{[A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M]}^{2}}{3 L_{f} ρ_{0} (1 - ρ_{0})} . \end{matrix}$ (33)

将(27)和(33)代入(14)，注意到 $6 θ_{k} + α_{k} μ_{f} \leq 7$ 可以得出(29)。

其次，结合(32)，(33)和 $γ_{k} = θ_{k} = \frac{1}{{(N - k)}^{2}}$ ，得到：

$\begin{matrix} \sum_{k = k_{0}}^{N - 1} \frac{θ_{k} D_{X} T_{k}}{Γ_{k + 1}} \leq (1 - ρ_{0}) D_{X} [A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M] \sum_{k = k_{0}}^{N - 1} \frac{θ_{k} ρ_{0}^{k - k_{0}}}{ρ_{0}^{k - k_{0} + 1}} \\ \leq \frac{(1 - ρ_{0}) π^{2} D_{X}}{6 ρ_{0}} [A M (1 + ρ_{0}) ρ_{0}^{- 1} + B M], \end{matrix}$ (34)

这些加上不等式(16)，就可以推导出(31)。

可以看出，此算法在目标函数关于外层变量强凸的情况时具有R-线性局部收敛速率，同时在处理关于外层变量凸的目标函数时，算法随着目标值接近局部极小值也达到了R-线性局部收敛速率。

4. 数值实验

本节的数值实验均在一台配备12代Intel(R) Core(TM) i5-1240P1.70GHz处理器和16 GB RAM的笔记本电脑上使用MATLAB R2018a实现，操作系统为Windows 11。基于文献[8]，采用以下自适应方法来控制 $σ$ 。初始 $σ$ 设置为0.99。如果在迭代到t步时，算法的起始点 $y = y_{t - 1}$ 已经满足误差标准，就将 $σ$ 更新为 $σ \leftarrow σ / 10$ 。相反，如果内层循环未能在所需精度内找到子问题的解，就将 $σ$ 更新为 $σ \leftarrow min {0.99, 10 σ}$ 。

接下来，考虑如下含有非线性约束的极小极大问题 $(P_{1})$ ：

$\begin{array}{l} f (x, y) = \frac{1}{m} [- \frac{1}{2} {‖ y ‖}^{2} - b^{T} y + y^{T} W x] + \frac{λ}{2} {‖ x ‖}^{2}, \\ g (x, y) = - c {‖ x ‖}^{2} + d {‖ y ‖}^{2} - e, \end{array}$

其中矩阵 $W \in ℝ^{m \times n}$ 的行是从高斯分布 $N (0, I)$ 中生成的。参数 $c, d$ 和 $e$ 被限制在区间 $(0, 1)$ 内随机选取。在后续实验中，设置 $n = m = 10, b = 0$ 和 $λ = 1 / m$ 。

在这里，内层算法的迭代步长设置为0.4，外层迭代步长 $α_{k} = 0.2$ ，最大迭代数 $K = 1000$ 。固定参数 $μ_{f} = 1, λ_{k} = 1$ ， ${θ_{k}}$ 是生成的从0.5到1均匀递增的1000点序列。这样选取的理由如下：若目标函数 $f$ 的强凸系数未知时，通常可设 $μ_{f} = 1$ 进行标准化，这样做既不影响算法收敛性分析且因为在增广拉格朗日框架下， $μ_{f}$ 与 $λ_{k}$ 共同调节梯度下降和惩罚项的权重，设为1可简化参数调节。同时若问题约束较温和或初始点 $x_{0}$ 接近可行域，固定 $λ_{k} = 1$ 可避免动态调整的复杂性。初始 $θ_{k} = 0.5$ 表示较弱动量，随着迭代逐步增至1，逐步增强加速效果，符合Nesterov加速梯度的理论框架，且均匀递增序列可避免突变导致的振荡，确保优化过程平稳收敛。

图1展示了aGBAL算法与GBAL算法相比解决问题 $(P_{1})$ 更优越的性能。

Figure 1. The variation trends of the errors of the GBAL algorithm and the aGBAL algorithm in solving problem (P₁) with CPU time

图1. GBAL算法与aGBAL算法解决问题(P₁)的误差随CPU时间的变化趋势

5. 结论

我们通过对GBAL算法的外层迭代进行加速，提出了求解约束极小极大问题的隐式梯度加速算法。理论分析表明，在目标函数关于外层变量为凸的情况下，加速算法达到了R-线性收敛速率。这一改进使得算法在处理相关优化问题时更具竞争力。

参考文献

[1]	Boyd, S. and Vandenberghe, L. (2004) Convex Optimization. Cambridge University Press. https://doi.org/10.1017/CBO9780511804441
[2]	Nesterov, Y., et al. (2018) Lectures on Convex Optimization, Volume 137. Springer.
[3]	Ghadimi, S. and Wang, M. (2018) Approximation Methods for Bilevel Programming. arXiv: 1802.02246.
[4]	Zhao, X. and Chen, L. (2020) The Linear and Asymptotically Superlinear Convergence Rates of the Augmented Lagrangian Method with a Practical Relative Error Criterion. Asia-Pacific Journal of Operational Research, 37, Article ID: 2040001. https://doi.org/10.1142/S0217595920400011
[5]	Robinson, S.M. (1976) An Implicit-Function Theorem for Generalized Variational Inequalties. Technical Summary Report No.1672, Mathematics Research Center, University of Wisconsin-Madison.
[6]	Nesterov, Y. (1983) A Method of Solving a Convex Programming Problem with Convergence Rate . Doklady Akademii Nauk SSSR, 269, 543-547.
[7]	Nesterov, Y. (2004) Introductory Lectures on Convex Optimization: A Basic Course. Kluwer Academic Publishers. https://doi.org/10.1007/978-1-4419-8853-9
[8]	Eckstein, J. and Silva, P.J.S. (2012) A Practical Relative Error Criterion for Augmented Lagrangians. Mathematical Programming, 141, 319-348. https://doi.org/10.1007/s10107-012-0528-9

为你推荐

友情链接