1. 引言
无约束非凸优化问题广泛存在于科学工程优化控制、经济调度及计算机视觉图像恢复等领域。其目标函数多因系统复杂性与不确定性呈高度非凸特性,求解时面临效率与精度双重难题;尤其在深度学习中,多层神经网络的非线性非凸损失函数不仅使全局最优解难寻,局部最优解判断更属NP难问题,因此高阶优化方法至关重要。
当前大规模机器学习非凸问题的求解仍存瓶颈:一阶算法(如SGD)虽计算廉价,但收敛缓慢(线性收敛),易陷局部极小点且不满足二阶最优性;二阶算法(如牛顿法、信赖域法)受限于Hessian矩阵存储(O(n2))、正定要求及求逆和分解的高开销,难以适配大规模问题;三次正则化方法虽兼顾性能,却因计算代价高昂,不适合大规模数据处理。
本文基于信赖域范式与不动点迭代,提出新型高阶优化算法。通过优化子问题求解与随机采样策略,解决大规模高维非凸问题,提升计算精度与速度,且证明算法全局收敛性,可为深度学习等领域的实际应用提供支撑。
符号:设
为实数空间,并且,
表示
维实向量集合,
表示
维实矩阵集合,
为
阶张量集合。在整个论文的写作中,使用小写粗体字母(如
)表示向量,大写粗体字母(如
)表示矩阵,花体大写字母(如
)表示高阶张量,下标字母(如
,
,
)可表示向量、矩阵、张量中的具体分量。
2. 问题描述
考虑无约束非凸优化问题
(2.1)
其中,
三次连续可微且有下界,其三阶导数满足全局Lipschitz连续性:存在常数
,对于任意
,有
(2.2)
成立,其中
为
阶张量的谱范数,
是
阶导数张量,定义为:
这里
,
为遍历
维索引。
多项式局部模型
依赖
在迭代点
处的三阶泰勒展开构建,形式为:
(2.3)
固定当前迭代点
,第
次迭代中,模型
可表示为:
其中,
表示当前迭代点处的函数值,
表示梯度向量,
表示Hessian矩阵,且
表示三阶导数张量。
3. 算法设计
Cartis等人[1] [2]指出,无约束非凸优化算法逼近局部极小值的核心步骤为:
(1) 求解局部模型:第
次迭代计算搜索方向
;
(2) 更新迭代点:
,逐步降低目标函数值;
(3) 终止条件:函数值变化量小于阈值
,或梯度范数
时,输出近似局部极小值。
子问题求解效率直接影响算法整体性能。在最小化局部模型时,
要满足一阶最优性条件(2.4)和二阶最优性条件(2.5):
(2.4)
(2.5)
子问题算法设计的目标是通过求解关于
的二次方程(2.4)找到序列
,使其收敛至满足
与
,其中
表示对称矩阵
的最小特征值,
分别是一阶最优性条件和二阶最优性条件所允许的误差。
为应对高维计算与实现高效收敛,文章采用随机采样技术,通过高斯分布随机选取采样指标集
,将高维向量、矩阵、张量降维采样,显著压缩计算规模,使子问题求解在内存与时间成本上更可行。接着,采用不动点迭代算法思想将一阶最优性条件变形为不动点迭代函数
(2.6)
以逐步逼近的方式,重复更新采样指标集对应的步长,直至
。
算法1 随机采样不动点迭代法算法(SSFPI)
输入:目标采样数
,下标总数
,当前外层迭代点
,初始内层搜索方向
,内层最大迭代次数
,内层收敛阈值
输出:外层迭代
的最终搜索方向
1) 采样指标集
从
中随机抽取
个不同下标;
2)
根据
对
采样;
3) 初始化内层迭代计数器
,当前采样方向
;
4) while
do
5)
;
6) if
是不正定的 then
7)
计算
的摩尔-彭罗斯伪逆;
8) else
9)
计算
的逆矩阵;
10) end if
11) 更新采样方向:
;
12) if
then
13) 终止内层迭代,令
14) else
15) 跳转至步骤11
16) end if
17) 更新
18)
19) end while
20) 重构全量方向
(非采样分量按0填充,或通过插值补全)
21) return
子问题求解算法SSFPI中,矩阵
非正定时会出现求逆困难且不稳定情况。传统的Tikhonov正则化会引入偏差、需调参。摩尔–彭罗斯伪逆借矩阵自身SVD计算,无偏、稳定、无需调参,能避免迭代中断、加速收敛,还降低额外计算成本。结合三次正则化算法框架和信赖域算法,可进一步得到高阶优化算法SSFPI-HOA.
算法2 高阶优化算法(SSFPI-HOA)
输入:目标函数
及其三阶连续导数
,初始外层迭代点
,外层收敛阈值
,接受阈值
输出:局部最优解
,外层迭代步数
初始化:设定初始
,迭代计数器
,容差
,
1) while True do
2) if
且
then
3)
;
4) return
;
5) end if
6) 根据算法1 (SSFPI)更新步长
;
7) 根据(2.3)计算
8) 计算
9) if
或
then
10)
11) else
11)
12) goto Step 6
13) end if
14)
15) end while
4. 数值实验
4.1. 具体的非凸问题求解
为探究非凸优化求解特性,选取两类典型非凸函数:
(函数A)、
(函数B)。由图1可知,在一维情形下,这两个函数的鞍点均为
。
Figure 1. Function plots of Function A and Function B in the case of one dimension
图1. 函数A和函数B在一维的情况下的函数图像
在后续的实验过程中,围绕问题A和问题B,进行了如下细致的设置:维度n (模拟不同规模问题,探规模对算法性能的影响)、采样规模m (调采样量,探其对收敛的影响);x初始为全1向量,步长随机初始化以避偏差,最大迭代35 (实际均提前收敛,体现算法效率)。
Table 1. Analysis of results of the SSFPI algorithm under different dimensions and sampling sizes
表1. SSFPI算法不同维度n与采样规模m的结果分析
函数类型 |
维度n |
采样数m |
迭代次数 |
运行时间 |
收敛值 |
函数A |
10 |
2 |
13 |
3.25 |
−0.5926 |
10 |
5 |
14 |
1.14 |
−1.4815 |
20 |
2 |
13 |
8.35 |
−0.5926 |
20 |
5 |
13 |
8.49 |
−1.4815 |
20 |
10 |
14 |
8.20 |
−2.9630 |
函数B |
10 |
2 |
29 |
0.81 |
−0.4938 |
10 |
5 |
30 |
0.89 |
−1.2346 |
20 |
2 |
29 |
8.24 |
−0.4938 |
20 |
5 |
30 |
8.60 |
−1.2346 |
20 |
10 |
31 |
8.90 |
−2.4691 |
对表1中的数据进行深入分析,可以得出如下结论:对于所选取的两类非凸函数,随着采样规模m的不断增大,算法的收敛精度均呈现出明显的提升趋势,计算结果也更为理想。然而,与此同时,计算时间也会相应地有所增长,这体现出算法在收敛精度与计算效率之间存在一定的权衡关系,也为后续进一步优化算法以更好地平衡这两者提供了方向。
4.2. 非凸逻辑回归问题的数值实验
为验证SSFPI-HOA算法在非凸逻辑回归问题中的性能表现,选取如下非凸逻辑回归模型展开研究:
(4-1)
其中,
为样本集,
是样本标签,
为非凸逻辑函数,正则化参数
。问题(4-1)的损失函数sigmoid类别(文献[3] [4]同类型),根据文献[5]可为其设计sigmoidal programming模型,验证模型合理性。
实验数据采用来自LIBSVM (可通过https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html获取)的a1a数据集,该数据集样本数量为1605,数据维度为119。将SSFPI-HOA与一阶增量梯度算法SAGA、随机梯度下降SGD三种算法在a1a数据集上求解问题(4-1),通过对比损失值(Loss)下降趋势、梯度范数(Norm_Grad)稳定性以及单次迭代耗时(Time),来分析各算法的性能差异。
从图2中可以看出,SSFPI-HOA算法的损失值下降最为显著且稳定,在迭代过程中能快速且持续地降低损失;SAGA算法损失值下降相对平缓;SGD算法损失值下降幅度和速度均弱于前两者。这表明SSFPI-HOA在优化非凸逻辑回归损失函数时,具有更强的目标函数优化能力。并且,SSFPI-HOA算法的梯度范数整体波动较小,保持着较好的稳定性;SAGA算法梯度范数波动较大;SGD算法梯度范数虽有下降趋势,但波动情况也较为明显。梯度范数的稳定意味着算法在迭代过程中能更平稳地向最优解靠近,减少震荡带来的无效迭代。但是,SSFPI-HOA算法的单次迭代耗时明显低于SAGA和SGD算法,且随着迭代轮次增加,耗时稳定在较低水平。这体现出SSFPI-HOA在计算效率上的优势,能以更少的时间成本完成迭代优化。
综合来看,在非凸逻辑回归问题中,SSFPI-HOA算法在损失函数优化效果、梯度稳定性以及计算效率方面,均展现出优于SAGA和SGD算法的性能,尤其适合处理此类非凸优化任务。
Figure 2. Comparison of results of different algorithms on the a1a dataset
图2. 数据集a1a中不同算法的结果对比
基金项目
国家自然科学基金项目(12326302)。