1. 引言
机器学习被认为是人工智能(Artificial Intelligence, AI)领域中最前沿、最能够 体现智能、发展最快速的一个分支,它是人工智能的核心,是计算机获得“智能”的根本途径[1] [2]。机器学习中的大多数问题可归结为求解如下优化问题:
其中每个
是损失函数。移动平均梯度(MAG)广泛用于求解上述优化问题, 其迭代格式为
其中
。当前主流的自适应动量方法如Adam、RMSProp等,通过结合历史梯度信息动态调整学习率,显著提升了非凸优化问题的训练效率。然而,这些方法在强凸或半强凸问题中可能存在收敛速度不足或超参数敏感性问题。MAG方法通过引入移动平均梯度有效缓解了噪声干扰,但步长固定限制了其泛化能力。
2. LAGP和SLAGP
首先,基于MAG算法提出LAG算法
其中
。借鉴Polyak步长[3] [4]的思想,求解
得到
其中
是不可得的。所以,根据f的凸性,
求解上式右边的最小值得到
其中
。结合LAG和上述步长提出LAGP算法,见算法1。与Adam通过一阶矩和二阶矩估计调整步长不同,LAGP直接利用Polyak步长公式动态计算最优步长,避免了二阶矩估计带来的计算开销。此外,LAGP的半强凸收敛性保证使其在条件数较大的问题上更具鲁棒性。
算法1:LAGP |
输入:
|
1: for
do |
2:
|
3:
|
4:
|
5:end for |
输出:
|
3. 收敛性分析
3.1. 确定优化
首先,给出两个关键的引理。
引理1 假设
。那么
且
引理2 令f是凸的,并且
是最优解,那么对于LAGP生成的
,有
进一步,如果f是L-光滑的,那么
定理1 假设f是L-光滑和μ-半强凸的,那么T步后,LAGP的迭代满足
证明:根据引理1和引理2,
最后,根据f的μ-半强凸性,
证毕。
3.2. 随机优化
定义
并且
和
,以及
。
结合随机梯度提出SLAGP,
其中
。c用于控制随机梯度步长的衰减速率,
为避免步长过大导致发散的经验阈值。
假设1
。
引理3 对于凸函数, 如果步长
,那么对于任意的k大于等于1,LAGP的迭代满足
定理2 假设
是L-光滑和μ-半强凸的,
,那么T步后,SLAGP的迭代满足
其中
。
证明:
根据光滑性,
又根据引理3,
那么,
对上述不等式取期望,
证毕。
4. 数值实验
4.1. 最小二乘问题
考虑最小二乘问题:
其中
是正定的,
。设置
文以及
的条件数
是10,000。下面是与一些流行算法的对比,算法LAGP是明显优于其他算法的。
4.2. 逻辑回归问题
考虑逻辑回归损失:
其中
。下面是在合成数据集上的算法对比图。实验参数设置如下:
,与[4]中保持一致以确保公平性。
5. 总结
基于MAG算法提出LAG算法,并基于Polyak步长为LAG设计自适应步长,提出LAGP算法。计算大规模机器学习问题时,借助随机梯度,应用SLAGP算法。分析了不同条件下的算法收敛性,数值实验证明了有效性。实验结果表明,LAGP在最小二乘和逻辑回归任务中均显著优于一些流行的自适应算法。这表明基于Polyak步长的自适应策略能有效平衡方向更新与步长调整,为大规模机器学习优化提供了新思路。
NOTES
*通讯作者。