基于Polyak步长的动量方法

doi:10.12677/aam.2025.143097

期刊菜单

基于Polyak步长的动量方法
Polyak Step-Size for Momentum Method

DOI: 10.12677/aam.2025.143097, PDF, HTML, XML,
作者: 张欣悦：河北工业大学理学院，天津；张欣彤^*：山东建筑大学理学院，山东济南
关键词: 机器学习；动量方法；自适应步长；Machine Learning； Momentum Method； Adaptive Step-Size

摘要: 近年来，动量方法广泛地应用在机器学习训练中。本文基于Polyak步长和移动平均动量(MAG)方法提出了一个新的动量方法(LAGP)，并将其与随机梯度结合，提出SLAGP方法。建立了LAGP方法在半强凸条件下的线性收敛性，以及SLAGP算法在半强凸条件下的线性收敛性。数值实验表明LAGP和SLAGP与其他流行算法相比有明显优势。

Abstract: Recently, momentum methods have been widely adopted in training machine learning. In this paper, based on the Polyak step-size and the Moving Average Gradient (MAG) method, a new momentum method (LAGP) is proposed. By combining it with the stochastic gradient, the SLAGP method is developed. The linear convergence of the LAGP method under the semi-strongly convex condition, and the linear convergence of the SLAGP algorithm under the semi-strongly convex condition are established. Numerical experiments show that LAGP and SLAGP have significant advantages compared with other popular algorithms.

文章引用：张欣悦, 张欣彤. 基于Polyak步长的动量方法[J]. 应用数学进展, 2025, 14(3): 117-122. https://doi.org/10.12677/aam.2025.143097

1. 引言

机器学习被认为是人工智能(Artificial Intelligence, AI)领域中最前沿、最能够体现智能、发展最快速的一个分支，它是人工智能的核心，是计算机获得“智能”的根本途径[1] [2]。机器学习中的大多数问题可归结为求解如下优化问题：

$\min_{x \in ℝ^{d}} f (x) = \frac{1}{n} \sum_{i = 1}^{n} f_{i} (x),$

其中每个 $f_{i} (x)$ 是损失函数。移动平均梯度(MAG)广泛用于求解上述优化问题, 其迭代格式为

$m_{k} = \nabla f (x_{k}) + β m_{k - 1}, x_{k + 1} = x_{k} - η m_{k},$

其中 $η > 0, β \in (0, 1)$ 。当前主流的自适应动量方法如Adam、RMSProp等，通过结合历史梯度信息动态调整学习率，显著提升了非凸优化问题的训练效率。然而，这些方法在强凸或半强凸问题中可能存在收敛速度不足或超参数敏感性问题。MAG方法通过引入移动平均梯度有效缓解了噪声干扰，但步长固定限制了其泛化能力。

2. LAGP和SLAGP

首先，基于MAG算法提出LAG算法

$m_{k} = β_{1} \nabla f (x_{k}) + β_{2} m_{k - 1}, x_{k + 1} = x_{k} - η m_{k},$

其中 $η > 0, β_{1} > 0, β_{2} \in (0, 1)$ 。借鉴Polyak步长[3] [4]的思想，求解

$\min_{η_{k}} {‖ x_{k + 1} (η_{k}) - x^{*} ‖}^{2},$

得到

$η_{k} = \frac{〈 m_{k}, x_{k} - x^{*} 〉}{{‖ m_{k} ‖}^{2}},$

其中 $x^{*}$ 是不可得的。所以，根据f的凸性，

${‖ x_{k + 1} - x^{*} ‖}^{2} \leq {‖ x_{k} - x^{*} ‖}^{2} - 2 β_{1} η_{k} [f (x_{k}) - f^{*}] + η_{k}^{2} {‖ m_{k} ‖}^{2}$

求解上式右边的最小值得到

$η_{k} = β_{1} \frac{f (x_{k}) - f^{*}}{{‖ m_{k} ‖}^{2}},$

其中 $f^{*} = i n f f (x)$ 。结合LAG和上述步长提出LAGP算法，见算法1。与Adam通过一阶矩和二阶矩估计调整步长不同，LAGP直接利用Polyak步长公式动态计算最优步长，避免了二阶矩估计带来的计算开销。此外，LAGP的半强凸收敛性保证使其在条件数较大的问题上更具鲁棒性。

算法1：LAGP

输入： $x_{0}, β_{1} > 0, β_{2} \in (0, 1), m_{0} = 0, T .$

1： for $t = 1, 2, \dots, T$ do

2： $m_{k} = β_{1} \nabla f (x_{k}) + β_{2} m_{k - 1} .$

3： $η_{k} = β_{1} \frac{f (x_{k}) - f^{*}}{{‖ m_{k} ‖}^{2}},$

4： $x_{k + 1} = x_{k} - η_{k} m_{k}$

5：end for

输出： $x_{T} .$

3. 收敛性分析

3.1. 确定优化

首先，给出两个关键的引理。

引理1 假设 $m_{k} = β_{1} \nabla f (x_{k}) + β_{2} m_{k - 1},$ $m_{- 1} = 0, β_{1} > 0, β_{2} \in (0, 1)$ 。那么

${‖ m_{k} ‖}^{2} \leq \frac{β_{1}^{2}}{1 - β_{2}} \sum_{j = 0}^{k} β_{2}^{k - j} {‖ \nabla f (x_{j}) ‖}^{2}$

且

$\sum_{k = 0}^{T} {‖ m_{k} ‖}^{2} \leq \frac{β_{1}^{2}}{{(1 - β_{2})}^{2}} \sum_{k = 0}^{T} {‖ \nabla f (x_{k}) ‖}^{2} 。$

引理2 令f是凸的，并且 $x^{*}$ 是最优解，那么对于LAGP生成的 ${x_{i}}_{i = 0}^{k}, η_{i} \leq β_{1} (f (x_{i}) - f^{*}) / {‖ m_{i} ‖}^{2}$ ，有 $〈 m_{k - 1}, x_{k} - x^{*} 〉 \geq 0 。$

进一步，如果f是L-光滑的，那么

$〈 m_{k - 1}, x_{k} - x^{*} 〉 \geq \frac{β_{1}}{2 L} \sum_{j = 0}^{k - 1} β_{2}^{k - 1 - j} {‖ \nabla f (x_{j}) ‖}^{2} 。$

定理1 假设f是L-光滑和μ-半强凸的，那么T步后，LAGP的迭代满足

${‖ x_{T} - x^{*} ‖}^{2} \leq {(1 - \frac{(1 - β_{2}) μ}{2 L})}^{T} {‖ x_{0} - x^{*} ‖}^{2} 。$

证明：根据引理1和引理2，

$\begin{matrix} {‖ x_{k + 1} - x^{*} ‖}^{2} = {‖ x_{k} - x^{*} ‖}^{2} - 2 〈 η_{k} m_{k}, x_{k} - x^{*} 〉 + {‖ η_{k} m_{k} ‖}^{2} \\ = {‖ x_{k} - x^{*} ‖}^{2} - 2 β_{1} η_{k} 〈 \nabla f (x_{k}), x_{k} - x^{*} 〉 - 2 β_{2} η_{k} 〈 m_{k - 1}, x_{k} - x^{*} 〉 + β_{1} η_{k} (f (x_{k}) - f^{*}) \\ \leq {‖ x_{k} - x^{*} ‖}^{2} - 2 β_{1} η_{k} (f (x_{k}) - f^{*} + \frac{1}{2 L} {‖ \nabla f (x_{k}) ‖}^{2}) \\ - 2 β_{2} η_{k} 〈 m_{k - 1}, x_{k} - x^{*} 〉 + β_{1} η_{k} (f (x_{k}) - f^{*}) \\ \leq {‖ x_{k} - x^{*} ‖}^{2} - β_{1} η_{k} (f (x_{k}) - f^{*}) - \frac{β_{1} η_{k}}{L} {‖ \nabla f (x_{k}) ‖}^{2} - 2 β_{2} η_{k} \frac{β_{1}}{2 L} \sum_{j = 0}^{k - 1} β_{2}^{k - 1 - j} {‖ \nabla f (x_{j}) ‖}^{2} \\ = {‖ x_{k} - x^{*} ‖}^{2} - β_{1} η_{k} (f (x_{k}) - f^{*}) - \frac{β_{1} η_{k}}{L} \sum_{j = 0}^{k} β_{2}^{k - j} {‖ \nabla f (x_{j}) ‖}^{2} \\ = {‖ x_{k} - x^{*} ‖}^{2} - β_{1} η_{k} (f (x_{k}) - f^{*}) - \frac{β_{1}^{2} (f (x_{k}) - f^{*})}{L {‖ m_{k} ‖}^{2}} \sum_{j = 0}^{k} β_{2}^{k - j} {‖ \nabla f (x_{j}) ‖}^{2} \\ \leq {‖ x_{k} - x^{*} ‖}^{2} - (β_{1} η_{k} + \frac{1 - β_{2}}{L}) (f (x_{k}) - f^{*}) 。 \end{matrix}$

最后，根据f的μ-半强凸性，

${‖ x_{k + 1} - x^{*} ‖}^{2} \leq (1 - \frac{μ}{2} (η_{k} + \frac{1 - β_{2}}{L})) {‖ x_{k} - x^{*} ‖}^{2} \leq (1 - \frac{(1 - β_{2}) μ}{2 L}) {‖ x_{k} - x^{*} ‖}^{2} 。$

证毕。

3.2. 随机优化

定义

$f_{s_{k}} (x) = \frac{1}{| s_{k} |} \sum_{i \in s_{k}} f (x; ξ_{i}), \nabla f_{s_{k}} (x) = \frac{1}{| s_{k} |} \sum_{i \in s_{k}} \nabla f (x; ξ_{i})$

并且 $E f_{s_{k}} (x) = f (x)$ 和 ${‖ x_{k + 1} - x^{*} ‖}^{2} \leq (1 - \frac{μ}{2} (η_{k} + \frac{1 - β_{2}}{L})) {‖ x_{k} - x^{*} ‖}^{2} \leq (1 - \frac{(1 - β_{2}) μ}{2 L}) {‖ x_{k} - x^{*} ‖}^{2}$ ，以及 $f_{s_{k}}^{*} = i n f_{x} f_{s_{k}} (x)$ 。

结合随机梯度提出SLAGP，

$m_{k} = β_{1} \nabla f_{s_{k}} (x_{k}) + β_{2} m_{k - 1},$

$η_{k} = \min {β_{1} \frac{f (x_{k}) - f_{s_{k}}^{*}}{c {‖ m_{k} ‖}^{2}}, η_{\max}},$

$x_{k + 1} = x_{k} - η_{k} m_{k},$

其中 $c > 0, η_{\max} > 0$ 。c用于控制随机梯度步长的衰减速率， $η_{\max}$ 为避免步长过大导致发散的经验阈值。

假设1 $σ^{2} = E [f_{s_{k}} (x^{*}) - f_{s_{k}}^{*}] \leq \infty$ 。

引理3 对于凸函数, 如果步长 $η_{k} \leq β_{1} (f_{s_{k}} (x_{k}) - f_{s_{k}}^{*}) / {‖ m_{k} ‖}^{2}$ ，那么对于任意的k大于等于1，LAGP的迭代满足

$〈 m_{k - 1}, x_{k} - x^{*} 〉 \geq β_{1} (1 - \frac{1}{c}) \sum_{j = 0}^{k - 1} β_{2}^{k - 1 - j} (f_{s_{j}} (x_{j}) - f_{s_{j}}^{*}) - β_{1} \sum_{j = 0}^{k - 1} β_{2}^{k - 1 - j} (f_{s_{j}} (x^{*}) - f_{s_{j}}^{*}) 。$

定理2 假设 $f_{i}$ 是L-光滑和μ-半强凸的， $η = \max {β_{1} \frac{f_{s_{k}} (x_{k}) - f_{s_{k}}^{*}}{{‖ m_{k} ‖}^{2}}}_{k = 0}^{T} < \infty$ ，那么T步后，SLAGP的迭代满足

$E {‖ x_{T} - x^{*} ‖}^{2} \leq {(1 - a_{1})}^{T} {‖ x_{0} - x^{*} ‖}^{2} + \frac{2 β_{1} η σ^{2}}{a_{1} (1 - β_{2})} ，$

其中 $a_{1} = \frac{(1 - β_{2}) (c - 1) μ}{2 c^{2} L}$ 。

证明：

$\begin{matrix} {‖ x_{k + 1} - x^{*} ‖}^{2} = {‖ x_{k} - x^{*} ‖}^{2} - 2 η_{k} 〈 m_{k}, x_{k} - x^{*} 〉 + {‖ η_{k} m_{k} ‖}^{2} \\ = {‖ x_{k} - x^{*} ‖}^{2} - 2 η_{k} 〈 β_{1} \nabla f_{s_{k}} (x_{k}) + β_{2} m_{k - 1}, x_{k} - x^{*} 〉 + {‖ η_{k} m_{k} ‖}^{2} \\ \leq {‖ x_{k} - x^{*} ‖}^{2} - 2 β_{1} η_{k} (f_{s_{k}} (x_{k}) - f_{s_{k}} (x^{*})) - 2 β_{2} η_{k} 〈 m_{k - 1}, x_{k} - x^{*} 〉 + {‖ η_{k} m_{k} ‖}^{2} \\ \leq {‖ x_{k} - x^{*} ‖}^{2} - β_{1} η_{k} (2 - \frac{1}{c}) (f_{s_{k}} (x_{k}) - f_{s_{k}}^{*}) + 2 β_{1} η_{k} (f_{s_{k}} (x^{*}) - f_{s_{k}}^{*}) \\ \leq {‖ x_{k} - x^{*} ‖}^{2} - 2 β_{1} η_{k} (1 - \frac{1}{c}) \sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x_{j}) - f_{s_{j}}^{*}) + 2 β_{1} η_{k} \sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x^{*}) - f_{s_{j}}^{*}) 。 \end{matrix}$

根据光滑性，

$\sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x_{j}) - f_{s_{j}}^{*}) \geq \frac{1}{2 L} \sum_{j = 0}^{k} β_{2}^{k - j} {‖ \nabla f_{s_{j}} (x_{j}) ‖}^{2} 。$

又根据引理3，

$\begin{matrix} η_{k} \sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x_{j}) - f_{s_{j}}^{*}) = \frac{β_{1} (f_{s_{k}} (x_{k}) - f_{s_{k}}^{*})}{c {‖ m_{k} ‖}^{2}} \sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x_{j}) - f_{s_{j}}^{*}) \\ \geq \frac{(1 - β_{2}) (f_{s_{k}} (x_{k}) - f_{s_{k}}^{*})}{c β_{1} \sum_{j = 0}^{k} β_{2}^{k - j} {‖ \nabla f (x_{j}) ‖}^{2}} \frac{1}{2 L} \sum_{j = 0}^{k} β_{2}^{k - j} {‖ \nabla f_{s_{j}} (x_{j}) ‖}^{2} \\ = \frac{(1 - β_{2}) (f_{s_{k}} (x_{k}) - f_{s_{k}}^{*})}{2 c L β_{1}} 。 \end{matrix}$

那么，

$\begin{matrix} {‖ x_{k + 1} - x^{*} ‖}^{2} \leq {‖ x_{k} - x^{*} ‖}^{2} - \frac{(c - 1) (1 - β_{2})}{c^{2} L} (f_{s_{k}} (x_{k}) - f_{s_{k}}^{*}) + 2 β_{1} η_{k} \sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x^{*}) - f_{s_{j}}^{*}) \\ \leq (1 - \frac{(c - 1) (1 - β_{2}) μ}{2 c^{2} L}) {‖ x_{k} - x^{*} ‖}^{2} + 2 β_{1} η \sum_{j = 0}^{k} β_{2}^{k - j} (f_{s_{j}} (x^{*}) - f_{s_{j}}^{*}) 。 \end{matrix}$

对上述不等式取期望，

$\begin{matrix} E {‖ x_{k + 1} - x^{*} ‖}^{2} \leq (1 - \frac{(c - 1) (1 - β_{2}) μ}{2 c^{2} L}) E {‖ x_{k} - x^{*} ‖}^{2} + 2 β_{1} η \sum_{j = 0}^{k} β_{2}^{k - j} σ^{2} \\ \leq {(1 - \frac{(c - 1) (1 - β_{2}) μ}{2 c^{2} L})}^{k + 1} {‖ x_{0} - x^{*} ‖}^{2} + \frac{4 c^{2} L β_{1} η σ^{2}}{(c - 1) {(1 - β_{2})}^{2} μ} 。 \end{matrix}$

证毕。

4. 数值实验

4.1. 最小二乘问题

考虑最小二乘问题：

$f (x) = \frac{1}{2} {‖ A x - b ‖}^{2}$

其中 $A \in ℝ^{d_{1} \times d}$ 是正定的， $b \in ℝ^{d_{1}}$ 。设置 $d_{1} = d = 1000$ 文以及 $A^{T} A$ 的条件数 $κ$ 是10,000。下面是与一些流行算法的对比，算法LAGP是明显优于其他算法的。

4.2. 逻辑回归问题

考虑逻辑回归损失：

$f_{L o g Re g} (w) = \frac{1}{n} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} x_{i}^{T} w))$

其中 $x_{i} \in ℝ^{d}, y_{i} \in {- 1, + 1}$ 。下面是在合成数据集上的算法对比图。实验参数设置如下： $c = 5, η_{\max} = 100$ ，与[4]中保持一致以确保公平性。

5. 总结

基于MAG算法提出LAG算法，并基于Polyak步长为LAG设计自适应步长，提出LAGP算法。计算大规模机器学习问题时，借助随机梯度，应用SLAGP算法。分析了不同条件下的算法收敛性，数值实验证明了有效性。实验结果表明，LAGP在最小二乘和逻辑回归任务中均显著优于一些流行的自适应算法。这表明基于Polyak步长的自适应策略能有效平衡方向更新与步长调整，为大规模机器学习优化提供了新思路。

NOTES

^*通讯作者。

参考文献

[1]	Joshi, A.V. (2020) Machine Learning and Artificial Intelligence. Springer International Publishing. https://doi.org/10.1007/978-3-030-26622-6
[2]	马宪民. 人工智能的原理与方法[M]. 西安: 西北工业大学出版社, 2002.
[3]	Polyak, B.T. (1987) Introduction to Optimization, Optimization Software, Inc., New York.
[4]	Wang, X., Johansson, M. and Zhang, T. (2023) Generalized Polyak Step Size for First Order Optimization with Momentum. International Conference on Machine Learning (PMLR), Honolulu, HI, 35836-35863.

为你推荐

友情链接