1. 引言
变分不等式(Variational Inequalities, VI)作为非线性分析与最优化中的核心模型,在机器学习[1]、网络均衡、图像与信号重建、稀疏表示等诸多领域均有广泛应用;在欧式有限与无限维线性空间中,VI的理论与算法已形成较为完备的体系,参见例如[2] [3]及其中的参考文献。近年来,随着数据与约束结构的几何化趋势增强,越来越多的实际问题天然地以流形约束形式出现,变量所在空间不再是线性空间,而是带有内在几何的黎曼流形,典型例子包括正定矩阵空间、Grassmann、Stiefel流形、超球与双曲空间等。此时,约束常表现为非线性甚至非凸,线性空间方法难以直接迁移,促使人们将VI的理论与算法从欧氏空间推广到黎曼流形框架,参见例如[4]-[6]。这一推广不仅能忠实刻画问题的几何本质,还可在不引入局部坐标的情况下利用全局几何结构获得更为稳定与可解释的算法性质;相应地许多欧式空间中的优化、均衡方法在流形情形下也展现出重要优势,参见例如[6]。
具体而言,本文聚焦于Németh [4]在Hadamrd流形上提出的变分不等式问题。设
为一维数有限的Hadamrd流形,
为非空闭测地凸集,
为一单值向量场。该问题旨在寻找一点
,使得对任意
,满足如下不等式:
(1.1)
其中
表示黎曼度量,
表示黎曼指数映射的逆映射。该模型是经典欧氏空间变分不等式在黎曼几何框架下的自然推广,也是后续算法设计与收敛性分析的数学基础。
鉴于流形上度量投影的高昂计算成本,如何设计高效的投影算法成为近年来的研究热点。Censor等人[7]在欧氏空间提出了次梯度外梯度法,通过向包含解集的半空间投影来替代向原约束集的第二次投影。随后,这一思想被推广至黎曼流形环境[8] [9]。
在步长策略的选择上,近期的研究呈现出多样化的趋势。一方面,为了避免线搜索带来的额外计算,Tan等人[10]最近提出了一种基于自适应步长的流形次梯度外梯度算法,通过局部信息动态调整步长参数。类似的自适应方法也见于Sahu等人[11]的研究,此外,Shehu等人[12]引入了惯性加速技术,Alakoya等人[13]则搜索了金分割步长策略。另一方面,经典的Armijo型线搜索凭借其严格的能量耗散性质和理论分析上的几何直观性,在保证算法全局稳健收敛方面依然具有不可替代的重要价值。特别是在处理高维复杂约束问题时,如何结合切空间几何结构,设计出兼具理论深度与计算便捷性的算法框架,仍值得深入探究。
受上述工作启发,本文提出了一种Hadamard流形上的Armijo型切半空间投影外梯度算法(R-SSEG)。与现有工作相比,本文的主要贡献在于:构造了基于KKT条件的显式投影公式,不同于部分文献将半空间投影仅描述为抽象算子,我们利用黎曼指数映射的逆映射将问题转化至切空间,并基于KKT条件推导出了半空间投影的显式解析解。这一处理将复杂的流形子问题简化为切空间中的向量代数运算,极大地提升了算法的可执行性。在Armijo准则下,严格证明了算法生成的序列满足单调下降性质。在算子满足单调性和Lipschitz连续性时证明了全局收敛性;在强伪单调条件下,进一步证明了算法具有Q-线性收敛速率。通过高维的变分不等式算例,验证了该算法在大规模问题中相比于传统算法及同类前沿算法在计算时间与收敛精度上的综合优势。
本文的结构如下。第二节介绍黎曼流形上的基础知识和性质。主要内容在第三节,包括算法的收敛性质以及收敛速率。第四节是数值模拟。第五节是总结。
2. 预备知识
本节介绍本文所用的符号和Hadamard流形上的基本概念和性质,可参阅文献[14]。
设
为一有限维可微流形,对任意
,记其切空间为
。Hadamard流形上切空间
是与
等距同构的Hilbert空间,所有切空间的并
称为切丛。若在每个
上配备一个内积
,则
称为黎曼流形,相应的范数记为
。后续不引起混淆时下标
省略。
记
为与黎曼度量相容且无挠的Levi-Civita连接。设
为分段
曲线,其长度。若
,则称
为测地线;当
时称其为单位测地线。对任意
,定义两点之间的黎曼距离
。若某条曲线的长度达到该下确界,则称其为连接
,
的最短测地线。
设
为光滑曲线。向量场
若满足
,则称向量场
沿
平行。对任意
,会存在唯一平行的向量场
使得
。我们定义平行移动
,
。当
是连接
,
的最短测地线时,记
代替
。平行移动是等距同构:
。
对任意
与
,记
为以
为起点、初速度为
的测地线。指数映射
,即
,该映射是一个微分同胚。本文后续统一记其逆映射(即黎曼对数映射)为
;当
与
由唯一最短测地线相连时,
合法且满足
。
引理1. [14] (Hopf-Rinow)若从任意点出发的测地线在所有
上都有定义,则称
完备。若
完备,则有
(i) 任意两点可由最短测地线连接;
(ii) 度量空间
完备且有界闭集紧;
(iii) 对每个
,
在某领域内为微分同胚。
若
完备、单连通且所有截面曲率非正,则称
为Hadamard流形。
下文算法以及收敛性均在Hadamard流形上讨论,有以下全局性质:
(i) 对任意
,
为微分同胚,因而
在全体
上是良定的;
(ii) 任意两点由唯一最短测地线连接;
(iii) 距离由对数映射给出:
;
(iv) 沿唯一测地线的平行移动
唯一且为等距同构。
引理2. 设
是Hadamard流形
中的一个测地三角形,则对每个
,令
为连接
到
的测地线,其长度为
,并令
表示切向量
与
之间的夹角,那么成立:
(i)
;
(ii)
;
(iii)
。
利用距离函数与对数映射,命题中的(i)和(iii)可分别改写为:
与
这里用到了关系式
。更多细节可参阅[15]。
引理3. 设
,使得
,则有
(i) 对任意的
有
以及
。
(ii) 如果
以及
,那么
。
(iii) 给
以及
,如果
,
,则有
。
定义1. 在Hadamard流形
上,给定非空闭测地凸集
,对任意的
,
到
的投影为
.
定义2. 设
是Hadamard流形,算子
是一个向量场,如果对任意的
,
,则称该向量场
为单值的。
定义3. [16]设
为一个Hadamard流形。称向量场
:
(i) 是单调的,若对任意
,满足
;
(ii) 是伪单调的,若对任意
,满足
,有
;
(iii) 是强伪单调的[17],若对任意
,满足
,则存在常数
,使得
.
定义4. 对任意
,给定常数
,我们说向量场
是Lipschitz的,若

接着将本文研究的主要问题通过以下定义形式给出。
定义5. 设
是Hadamard流形,
是测地凸集,向量场
,黎曼变分不等式(RVI)即对任意的
,找到
,使得
当
时,
,即经典
中的变分不等式(VI),
。
3. 主要结果
在本节中,将介绍我们的一种Armijo型切半空间投影外梯度算法,且在后续讨论中,我们需要假设满足以下条件:
(H1)
解集非空,即
。
(H2)
为Hadamard流形,因而对任意非空闭测地凸集
,度量投影
单值且非扩张。
(H3) 集合
非空、闭、且测地凸。向量场
,满足
,
是强伪单调的,且在有界集上一致连续。
(H4) 取Armijo参数
、步长衰减率
、以及初始步长收缩因子
。
下面的引理将在证明收敛时有用。
引理4. 令能量泛函
,对算法中的
,
,
,且记
,有
其中
。
证明 记
,
,则有
,且
(i) 若
,则
,
,等号成立;
(ii) 若
,则
,那么
综上,不等式成立,且
时能量泛函严格下降。
该引理说明通过修正外法分量后所得的向量沿着迭代方向的能量是严格下降的,在物理或某些其他领域叫做能量耗散,这将为我们后续算法构造Lyapunov型函数提供理论支撑。
引理5. 设
是Hadamard流形,在任意紧领域
内,存在常数
,使得对所有
有
(1.2)
其中余项满足
,特别地,当
时,且
有界时,
。
证明 固定
,记
,
,则
,
;
设
,定义二元映射
,易知
在
附近是
的。且显然
;
令
,对
,令
,
考虑复合曲线
,即
;另一方面,
即
。
令
,对
,令
,记
,
考虑复合曲线
,
。
从而有
由Taylor展开
故(1.1)得证。
对于
,
可看作Banach空间值的
映射。
又
令
,由积空间紧,易知
从而
常数吸收即得
综上得证。
引理6. 设
是Hadamard流形,可行集
闭、测地凸。给定迭代

若存在
满足:
、
、
,
且
,则极限点
满足RVI,即
.
证明 由引理3以及
,且
知
,又由
的度量投影最优性知,
(1.3)
由引理4
(1.4)
其中
,
由Armijo回溯步长可得
的统一上界,
,
连续易得
有界,结合(1.4)有

记
、
、
、
,从而Armijo接受准则为

的Lipschitz性知
,
其中
,则
,
且有
,再由引理4得
,
从而
又

从而
(1.5)
下证
,反证,假设
,则定存在子列
,使得
,即
(1.6)
从而对(1.5),取
,做常数吸收,
,使得
,
但由(1.6),有
,矛盾,从而
。
此时,由Armijo准则给

有
(1.7)
其中
由投影位移和场值差控制,结合(1.3) (1.7)有
令
,则
,即有
综上得证。
该引理直接给出了我们算法(R-SSEG)迭代的停机准则,这是一个必要条件,说明只要当两类残差趋于0,则任何聚点都是RVI的解。
引理7. 设向量场
在
上满足L-Lipschitz连续。若采用算法1中的Armijo线搜索规则,则生成的步长序列
是有界的。即对任意
均有:
其中
为初始缩放因子,
为衰减率,
为Armijo参数。
证明 由算法1的步骤1,每次迭代开始前,令试探步长
。若该步长满足Armijo条件,则
;若不满足,则由因子
进行回溯缩减。最终接受的步长
。
若初始步长
满足条件,则
,下界显然成立。若需回溯,假设在第
次回溯时步长被接受。由Lipschitz连续性及Armijo准则,当试探步长
时,不等式条件成立,即回溯过程不会无限进行,由于
是接受步长,而其前一次试探步长
必定不满足条件,故必有
,综上得证。
引理8. 对
,有
,且若取
以及
,则分别有
证明 在
中,给
,
,
闭且凸,
是
到
的正交投影,
,考虑线段
,其中
,则
都有
,令
,
由
是到
的最近点,则
也是使
最小的点,即
,
,而
是关于
的多项式,
是最小值点,从而右导数
,有
,
,
则
,
,
.
若取
,则
;
若取
,有
即
从而有
即
展开会有
综上得证。
下面这个引理给出的不等式是由RVI结合单调性结合得出的派生不等式。注意这与RVI定义并不产生歧义。
引理9. 若
,则对
,有
.
证明 由(1.1)知,
,有
作平行移动到
,得

由定义3易得
(1.8)
取
,结合(1.8)有

综上得证。
引理10. 由算法步骤3,设
,则对
,有
证明 将距离函数写成一个光滑凸函数,固定
,
(1.9)
在Hadamard流形上,
测地凸,黎曼梯度
,且
。
对
,有
将(1.9)代入上式得
取
,引理得证。
通过上述一系列引理,接下来给出我们拟解决的问题(1.1)的算法(R-SSEG)。
Algorithm 1. Armijo-type Cut Half-space Projection Extragradient Algorithm (R-SSEG)
算法1. Armijo型切半空间投影外梯度算法(R-SSEG)
初始化 选初始点
。设定初始步长缩放因子
,Armijo参数
,步长衰减率
,容忍度
。置迭代计数器
。 步骤1 令试探步长
,执行以下Armijo线搜索过程 计算试探点
,
, 检查Armijo条件 ,
若不满足,则令
,重复上述计算; 若满足,则记当前步长为
、中间点为
。 步骤2 若
,则停止迭代,输出
为(1.1)的解。否则,在切空间
中执行显式修正
,
计算
在半空间
上的投影
,为
. 步骤3 以修正后的方向生成下一个迭代点
. 步骤4 满足以下准则时停止
否则令
,返回步骤1。 |
接下来这个命题给出算法中修正外法向量的显式推导。
命题1 设
为切空间中的闭半空间,其中
。对任意
,其在
上的度量投影
具有如下显式闭式解,
证明 由度量投影的定义,求解投影
等价于在Hilbert空间
中求解如下二次规划问题,
引入拉格朗日乘子
,构造拉格朗日函数
由凸优化的Karush-Kuhn-Tucker (KKT)条件,最优解
与乘子
需满足,
由平稳性条件得
。根据互补松弛条件,分两种情况讨论,
(i) 若
,取
,此时
,满足所有条件。
(ii) 若
,则投影点必位于边界超平面上,即
。代入
得
,
解得
,代回平稳性方程,命题得证。
值得一提的是,在算法1中,以及本节的引理和下文中我们都记该拉格朗日乘子为
。
在确立了算法迭代步骤的显式表达及其计算可行性后,下文将重点讨论算法的收敛性质。我们将证明算法1生成的迭代序列满足引理6所述的收敛准则,从而建立算法的全局收敛性。
定理1 假设条件(H1)~(H4)成立。由算法生成的序列
满足引理6的所有条件,即
收敛至变分不等式(1.1)的解集RVI (C, F)中的点。
证明 令
结合引理10得
即
由度量收缩不等式
有
(1.10)
记
,则
(1.11)
又

由引理9,结合Armijo步长规则,有

再由三角不等式易得
(1.12)
结合(1.10) (1.11) (1.12),得
其中常数
,
,即满足Fejér单调。
由引理4和引理10,
,能量不等式
,其中角项
,作Lyapunov能量泛函,令
,
则有
又因Fejér单调确保序列
和中间点序列
落在以
为中心的某个有界球内,可知
在该球上一致有界,结合Armijo步长序
,易知

从而
再由引理4,做望远求和得
易得
。
由Jacobi场的一阶误差,在含序列
、
的有界球内,存在常数
,使得
,
结合切空间的最优性表达,
,
,从而
下证
,反证,若
,则定存在
,使得子列
,有
取
,使得
,则
,
又因为
,且
,
所以
易得
而
那么
此时令
,
,则有
从而
吸收常数,可记作
此时
与
矛盾,故
那么由引理6知,任何聚点都是(1.1)的解。
事实上,取
是迭代序列的任意收敛子列,若
,则
,易有
,
则
,
,
令
,有
综上得证。
这个定理给出了我们的算法(R-SSEG)生成的迭代序列满足引理6的收敛准则,从而得到了全局收敛性,下面这个定理将会给出强结构下的收敛速率。
定理2 设
是Hadamard流形,
为闭测地凸集,解集
,令
在有界球上满足L-Lipschitz条件,算法R-SSEG产生的序列
以及中间点
由Armijo规则生成,且步长有界,若
在上满足强伪单调性,即
,
则序列
以Q-线性速率收敛至
,即存在
和
,使得对所有
有
.
证明 由Hadamard流形的非正截面曲率性质和测地三角形的几何关系,即引理2,对任意三点
,有
,
结合算法更新步骤,利用
作为度量投影点的性质,即
,我们有如下流形上的基本下降关系
,
此时,又由Armijo型线搜索条件易有

将该估计代入上述距离不等式中有
从而得到如下黎曼距离不等式
结合引理9有
,
由
的强伪单调性有
,
再根据Armijo步长下界得
(1.13)
设测地三角形
,由Young不等式结合三角不等式有
,
简化系数后就有
(1.14)
(1.14)代入(1.13)有
,
即
,
记
,
,只要令
,就有
,
再令
,即
综上得证。
4. 数值算例
在本节中,我们在Hadamard流形背景下通过大规模数值实验验证了本文提出的Armijo型切半空间投影外梯度算法(R-SSEG)的有效性。为了全面评估算法性能,我们R-SSEG分别与经典的Tseng外梯度算法[18]以及同类最新的自适应步长算法[10]进行了多维度的对比测试。所有实验代码均由Python3.11编写,并在配备Inter Core i5 CPU@2.50GHz的计算机上运行。
4.1. 实验环境与流形几何结构
为了验证算法在大规模问题下的表现,我们同最新文献中的设定一致,选取
维正定向量空间
作为底流形。为了使其构成Hadamard流形,我们赋予其如下黎曼度量,对任意点
及切向量
,
定义内积为:
.
在此度量下,流形
具有非正截面曲率。两点
之间的黎曼距离定义为
其中
表示逐分量取自然对数,
为欧式范数。
相应的指数映射
及其逆映射
具有显示表达,分别由下式逐分量计算:
4.2. 伪单调变分不等式问题设置
为了在统一且具有代表性的测试环境下评估算法性能,本文选取了Tan等人[10]中提出的高维伪单调变分不等式问题(Example 4.2)作为基准算例。
我们考虑流形上的变分不等式问题RVI (C, F),其中约束集
设为流形上的闭凸盒约束:
函数
定义为:
该函数在定义域内满足强伪单调性,问题的理论唯一解为
.
为了测试算法在大规模计算中的表现,我们将问题维度统一设定成
。所对比算法的各自参数设置如下:
(1) 通用设置:所有算法均采用相同的停止准则,即当黎曼距离残差
时停止迭代。初始点
在
区间内随机生成。
(2) R-SSEG与Tseng算法:采用相同的Armijo线搜索参数以确保公平对比:缩放因子
,衰减率
,参数
。
(3) Adaptive-SEG算法:采用其原文建议的自适应参数设置:初始步长
,参数,
,序列参数设为
,
。
4.3. 实验结果与分析
4.3.1. 与经典Tseng算法的对比
图1展示了R-SSEG算法与经典的Tseng算法在
维问题上的收敛行为对比。从图1(左)可以看出,两种算法的残差均呈线性下降趋势,这与本文定理中证明的Q-线性收敛速率一致。值得注意的是,R-SSEG算法在达到10−6精度所需的迭代次数显著少于Tseng算法。这一优势同样体现在计算时间上(图1右),尽管R-SSEG引入了半空间构造,但由于其避免了第二次昂贵的流形度量投影,总CPU耗时仍优于Tseng算法。这初步验证了利用切半空间投影策略替代第二次流形投影,能够有效降低单步计算成本并加速收敛。
Figure 1. Comparison of convergence performance between R-SSEG and Tseng algorithms (
)
图1. R-SSEG算法与Tseng算法的收敛性能对比(
)
4.3.2. 与最新Adaptive-SEG算法的对比
为了进一步验证算法在高精度求解下的竞争力,我们将R-SSEG与Tan等人[10]最近发表的自适应步长算法(Adaptive-SEG)进行了对比,结果如图2所示。
Figure 2. Comparison of convergence performance between R-SSEG and Adaptive-SEG algorithms (
)
图2. R-SSEG算法与Adaptive-SEG的收敛性能对比(
)
收敛速率分析(图2左):尽管Adaptive-SEG算法通过自适应策略避免了线搜索,但在处理高维复杂流形问题时,其步长更新在后期趋于保守,导致收敛曲线出现了明显的拖尾现象,迭代次数超过100次仍未达到10−3精度。相比之下,R-SSEG算法凭借Armijo准则保障的能量单调下降性质以及基于KKT条件的显式修正步,获得了更高质量的下降方向,呈现出陡峭且稳定的线性收敛特征,仅需约64次迭代即可达到10−6精度。
综合效率分析(图2右):在计算时间方面,虽然自适应算法因无内循环在迭代初期略快,但R-SSEG算法在追求高精度解时迅速反超。实验结果表明,R-SSEG算法在达到最终停止准则时的总耗时显著短于Adaptive-SEG算法。
4.3.3. 参数敏感性与计算开销分析
为了全面评估R-SSEG算法的鲁棒性,我们基于高维算例(Example 4.2)对Armijo线搜索中的关键参数
进行了敏感性分析。图3展示了在不同参数设置下算法的收敛残差曲线。
可以看出,初始步长缩放因子
主要影响算法的初期下降速度。较大的
(如1.5)能提供更大的初始探测步长,从而加速早期收敛,而较小的
(如0.2)虽然收敛稍缓,但并未破坏算法的收敛性。图3(b)显示,算法在较宽的步长衰减率
范围内均能保持稳定的线性收敛特征。图3(c)则表明算法对Armijo参数
具有较强的钝感性,说明R-SSEG不依赖于苛刻的参数微调。
此外,我们还统计了算法R-SSEG在上述实验中的平均回溯次数(Average Number of Backtracking steps, ANB)。ANB定义为总回溯次数除以总迭代步数,即
,其中
是第
次迭代满足Armijo条件所需的内循环次数。统计结果如表1所示。
Table 1. Statistics of Average Number of Backtracking steps (ANB) under different parameter settings (
)
表1. 不同参数设置下的平均回溯次数(ANB)统计(
)
变化(
) |
变化(
) |
变化(
) |
参数值 |
ANB |
参数值 |
ANB |
参数值 |
ANB |
0.2 |
0.3478 |
0.3 |
1.1900 |
0.1 |
4.4800 |
0.5 |
1.4756 |
0.5 |
1.4756 |
0.4 |
1.4756 |
1.0 |
2.4756 |
0.7 |
2.0588 |
0.7 |
0.4237 |
1.5 |
2.8056 |
0.9 |
5.9538 |
0.9 |
0.2807 |
数据表明,在绝大多数参数组合下,ANB数值均维持在极低水平(通常小于1),这意味着算法生成的试探步长具有极高的接受率,极少触发多次昂贵的函数值评估。这从数值计算角度证明了R-SSEG算法的高效性。
Figure 3. Sensitivity analysis of R-SSEG algorithm under different parameter settings (
)
图3. R-SSEG算法在不同参数设置下的灵敏度分析(
)
4.4. 总结
综合上述两组实验结果,R-SSEG算法不仅在效率上显著优于经典Tseng算法,而且在收敛精度和后期收敛速度上优于最新的自适应算法。这表明,Armijo线搜索方法在本文研究的变分不等式问题上仍具有重要研究价值,且更值得关注的是,Armijo规则结合KKT显示投影的组合策略在处理大规模、高精度流形变分不等式问题时,具有独特的优势和实用价值。此外,参数敏感性实验证实了算法对初始步长及衰减率等设置具有较强鲁棒性,不依赖于苛刻的参数调优。特别是极低的平均回溯次数(ANB < 1)表明,本文采用的Armijo准则能够在保证收敛的前提下,极大地减少函数估值的计算开销,进一步从数值层面解释了算法高效性的来源。
5. 结论
本文构建了一种基于Armijo线搜索的切半空间投影外梯度算法(R-SSEG)。该算法创新性地利用流形切空间的线性结构与KKT条件,推导出了修正步的显式闭式解,在大幅降低单步计算复杂度的同时,通过Armijo准则严格保证了迭代序列的能量耗散性质与强伪单调条件下的Q-线性收敛速率。大规模数值实验证实,R-SSEG在追求高精度解时,相比于经典算法及前沿自适应步长算法展现出显著的效率优势。这一成果不仅确立了显式几何投影结合稳健线搜索策略在处理高维复杂流形问题中的优越性,也为未来结合惯性加速技术或推广至Stiefel等一般黎曼流形的研究提供了坚实的算法框架与理论基础。
NOTES
*通讯作者。