一种用于求解等式约束鞍点问题的递归神经网络
A Recurrent Neural Network for Solving Equality-Constrained Saddle Point Problems
摘要: 鞍点问题在工程优化、经济决策、信号处理、智能控制等诸多领域中具有广泛的应用背景,本文针对等式约束下的鞍点问题,提出了一种新型递归神经网络模型。通过构建相应的动力学方程,分析了该神经网络在Lyapunov意义下的稳定性,并证明了其平衡点与原问题最优解的等价性。
Abstract: Saddle point problems have broad applications in various fields such as engineering optimization, economic decision-making, signal processing, and intelligent control. This paper proposes a novel recurrent neural network model for solving equality-constrained saddle point problems. By constructing the corresponding dynamic equations, the stability of the neural network in the Lyapunov sense is analyzed, and the equivalence between its equilibrium point and the optimal solution of the original problem is proven.
文章引用:叶洪志, 李小兵. 一种用于求解等式约束鞍点问题的递归神经网络 [J]. 应用数学进展, 2026, 15(1): 336-350. https://doi.org/10.12677/aam.2026.151033

1. 引言

鞍点问题是数学规划与计算数学中的一个核心课题,其一般形式可表述为: min x max y f( x,y ) ,也称为min-max问题,该问题的解 ( x * , y * ) 被称为鞍点。这类问题在众多科学与工程领域有着广泛的应用背景。例如,在鲁棒优化中,为了应对数据的不确定性,决策者在最坏情况下做出最优决策,这直接导出了一个min-max问题[1];在现代机器学习中,生成对抗网络(GANs)的训练过程本质上是一个鞍点优化问题[2],而分布式机器学习中的对偶优化方法[3]、公平分类[4]以及对抗性训练[5]等核心问题,也都可归结为求解鞍点问题;在经济学与博弈论中,市场均衡分析中的Nash均衡点也常表现为鞍点形式[6]。再加上各种约束,特别是等式约束的引入,使得这类带约束的鞍点问题具有更加重要的研究价值。

在传统优化方法中,交替梯度下降–上升法[7]、乐观梯度下降法[8]和交替方向乘子法[3] [9]等方法被广泛用于处理鞍点问题。然而,这些传统方法的收敛速度与迭代步长的选择紧密相关,且通常需要进行多次迭代才能获得高精度解。这在需要在线或实时求解的应用场景(如实时优化决策、机器人在线路径规划等)之中可能并不适用。

为解决上述问题,众多学者致力于基于神经网络的优化问题求解方法的研究,并取得了丰硕的成果[10]-[26]。早期工作中,Tank与Hopfield [21]提出了用于线性规划Hopfield网络,开创了神经网络求解优化问题的先河。随后,Kennedy与Chua [22]提出了用于非线性规划的神经网络模型,进一步推动了该领域的发展。在约束处理方面,Zhang与Constantinides [23]提出了拉格朗日神经网络,Xia与Wang [24]提出了投影神经网络,分别用于处理等式与不等式约束问题。

特别地,基于动力系统的递归神经网络(RNN)方法因其能够并行处理的能力与硬件的可实现性,近年来受到了广泛学者的关注[17] [18]。与传统的迭代算法相比,RNN通过构建连续时间动力学系统,能够实现高效、实时的优化求解,特别适用于高维、大规模问题[19] [20] [25]。例如,针对以下带等式约束的优化问题(1),Qin等人[25]提出了一种单层递归神经网络,证明了其平衡点与原问题最优解的等价性,并建立了系统的Lyapunov稳定性与全局收敛性。

min f( x ), s.t. Ax=b, (1)

然而,现研究的许多神经网络模型主要针对的是带等式或不等式约束的单目标优化问题,以及不等式约束下的min-max问题,很多都未涉及等式约束下的鞍点问题。鉴于此,本文在Qin等人[25]的工作基础上,将其研究的单目标等式约束优化问题拓展至等式约束下的min-max问题,并构建了一种新型递归神经网络模型,用于求解带有线性等式约束的鞍点优化问题。

本文的主要贡献包括:(1) 建立了一种用于求解等式约束鞍点问题的新型递归神经网络动力学方程,并证明了其平衡点与鞍点问题最优解的等价性;(2) 分析了神经网络Lyapunov意义下的稳定性,证明了当初始点不在可行域内时其状态向量将指数收敛于可行域,并给出了两个神经网络在Lyapunov意义下全局收敛到鞍点问题最优解的充分条件;(3) 通过数值实验验证了所提神经网络在高维复杂问题中的有效性与快速收敛性。

本文的主要结构如下:第2节介绍相关预备知识;第3节建立问题模型与神经网络动力学方程,介绍与问题模型最优解的等价条件;第4节进行所提神经网络的稳定性和收敛性分析;第5节通过两个数值算例来验证所提理论的有效性和可行性;第6节总结全文并提出未来的研究方向。

2. 预备知识

在本文中,设 R n n 维实欧几里得空间。 , 表示 R n 的内积, 表示其对的范数,对于任意的 x R n ,用 Τ 表示向量的转置,有 x = x,x = x T x 。函数f ( x 0 , y 0 ) 处关于 x y 的梯度分别记为 x f( x 0 , y 0 ) y f( x 0 , y 0 )

Lyapunov稳定性和收敛性的相关定义请参考文献[27]

定义2.1 [28]:设 S R n 是非空凸集, α( 0,1 ) f是定义在S上的函数,如果对任意x1 x 2 S ,有

f( α x 1 +( 1α ) x 2 )+αf( x 1 )+( 1α )f( x 2 ),

则称函数fS上的凸函数。

定义2.2 [29]:设XY是两个集合, T:XY 是一种对应法则,如果对任意 xX ,通过TY中的一个子集 T( x ) 与之对应,则称TXY的一个集值映射。

定义2.3 [29]:设E是实Banach空间, E * E的共轭空间, DE T:D E * x yD 。若T满足

TxTy,xy 0,

则称T是单调算子。

3. 问题描述和模型建立

在本节中,本文将单目标优化问题(1)拓展成一个鞍点问题,并讨论其等价表述。

考虑以下具有等式约束的鞍点问题:

min x max y f( x,y ), s.t. Ax=b, Cy=d, (2)

其中 x= ( x 1 , x 2 ,, x m ) T R m y= ( y 1 , y 2 ,, y n ) T R n f: R m × R n R 是双变量实值函数, A R p×m C R q×n b R p d R q 。在本文中,记可行域 E={ ( x T , y T ) T |Ax=b,Cy=d } ,若点 ( ( x * ) T , ( y * ) T ) T E 满足对任意 ( x T , y T ) T E ,都有

f( x * ,y )f( x, y * ),

则称 ( ( x * ) T , ( y * ) T ) T 是函数f在可行域E上的鞍点。

( ( x * ) T , ( y * ) T ) T E 是问题(2)的鞍点,根据上述定义,易知,对于任意的 xX( y * ) yY( x * ) ,有

f( x * ,y )f( x * , y * )f( x, y * ),

其中 X( y * )={ x|Ax=b } Y( x * )={ y|Cy=d }

假设1(1) f在可行域E上是连续可微的,且在 X( y * ) 上是关于x的凸函数,在 Y( x * ) 是关于y的凹函数;

(2) AC均为行满秩矩阵,即 rank( A )=pm rank( C )=qn

定理3.1:若假设1成立, ( ( x * ) T , ( y * ) T ) T 是问题(2)的最优解,即满足 ( x T , y T ) T E ,有 f( x * ,y )f( x * , y * )f( x, y * ) ,当且仅当存在 λ * R p μ R q ,使得 ( ( x * ) T , ( y * ) T ) T 满足下列方程:

{ x f( x * , y * )+ A T λ * =0, y f( x * , y * )+ C T μ * =0, A x * =b, C y * =d. (3)

证明:假设 ( ( x * ) T , ( y * ) T ) T 是问题(2)的最优解,则有 ( ( x * ) T , ( y * ) T ) T E (即 A x * =b C y * =d )。一方面固定 y * ,由假设1可知f X( y * ) 上是关于x的凸函数,于是f x * X( y * ) 处取最小值,有

x f( x * , y * ) N X( y * ) ( x * ),

其中 N X( y * ) ( x * )={ v R m : v T ( x * x )0,xX( y * ) }

由于 X( y * ) 是中的仿射子空间,则

N X( y * ) ( x * )={ A T λ|λ R p },

故存在一个 λ * R p ,使得当 A T λ * N X( y * ) ( x * ) 时,有

x f( x * , y * )+ A T λ * =0. (4)

同理固定 x * ,由假设1可知f Y( x * ) 是关于y的凹函数,于是f y * Y( x * ) 处取最大值,类似上述证明过程,存在一个 μ * R q ,有

y f( x * , y * )+ C T μ * =0. (5)

根据 A x * =b C y * =d 和(4),(5)可知,满足(3)中所有方程,即必要性得证。

另一方面,假设存在 λ * R p μ * R q ,使得(3)成立,则有

{ x f( x * , y * )= A T λ * , y f( x * , y * )= C T μ * . (6)

由假设1可知f在可行域E上是连续可微的,且在 X( y * ) 上是关于x的凸函数,在 Y( x * ) 是关于y的凹函数,根据凸函数和凹函数的性质,可得

{ f( x, y * )f( x * , y * ) x f ( x * , y * ) T ( x x * ),xX( y * ), f( x * ,y )f( x * , y * ) x f ( x * , y * ) T ( y y * ),yY( x * ). (7)

结合(6),(7),可得

{ f( x, y * )f( x * , y * ) ( λ * ) T A( x x * )=0,xX( y * ), f( x * ,y )f( x * , y * ) ( μ * ) T C( x x * )=0,yY( x * ),

f( x * ,y )f( x * , y * )f( x, y * ), ( x T , y T ) T E.

f ( x * , y * )E 处取得最优解,即充分性得证。

基于定理3.1,本文在文献[25]中提出的神经网络模型的基础上,将其神经网络框架拓展至等式约束下的鞍点问题(2),构建了一种用于求解鞍点问题(2)的新型递归神经网络模型,并在定理4.2中证明了该神经网络的平衡点和问题(2)的等价性。本文构造的神经网络动力学方程如下:

{ dx dt =( I m P x ) x f( x,y ) A T ( Axb ), dy dt =( I n P y ) y f( x,y ) C T ( Cyd ), (8)

其中, P y = C T ( C C T ) 1 C ( I m P x ) 表示将向量投影到矩阵A的零空间上, ( I n P y ) 表示将向量投影到矩阵C的零空间上。

由于x的可行域 { x|Ax=b } y的可行域 { y|Cy=d } 是仿射集,故当xy在可行域内移动时,只有零空间中的方向移动才不会违反约束 Ax=b Cy=d x f( x,y ) y f( x,y ) 分别沿着函数值 f( ,y ) 下降最快的方向和函数值 f( x, ) 上升最快的方向进行移动, ( I m P x ) ( I n P y ) 分别对梯度进行投影,使得网络沿着负(或正)梯度方向在可行域的切空间上移动以优化目标函数。而 Axb 2 Cyd 2 分别衡量了当前点xy违反约束的程度,当xy不在可行域内时, A T ( Axb ) C T ( Cyd ) 为负梯度方向,分别推动状态xy朝着满足约束 Ax=b Cy=d 的可行域E快速收敛。

为方便阅读,本文将采用下列记号来简化神经网络模型(8),记:

z= ( x T , y T ) T , I=( I m 0 0 I n ), P=( P x 0 0 P y ), F( z )=( x f( x,y ) y f( x,y ) ), G=( A T A 0 0 C T C ), H=( A T b C T d ).

神经网络(8)中的两个方程简化为如下:

dz dt =( dx dt dy dt )=( IP )F( z )Gz+H. (9)

定义3.1 z * 被称为神经网络(9)的平衡点,如果 z * 满足以下方程:

0=( IP )F( z )Gz+H.

4. 收敛性分析

在本节中,本文将分析神经网络(9)在Lyapunov意义下的稳定性和全局收敛性。首先证明若初始点不在可行域E中,则神经网络(9)的状态 z( t ) 将指数收敛到E,其次证明神经网络(9)的平衡点与问题(2)的最优解是等价的,最后证明神经网络(9)在Lyapunov意义下是稳定的,并参考文献[26],给出了两个充分条件,使得神经网络(9)全局收敛到问题(2)的一个最优解。

定理4.1:若假设1成立,当初始点 z( 0 )= z 0 = ( x 0 T , y 0 T ) T E 时,神经网络(9)的状态 z( t )= ( x ( t ) T ,y ( t ) T ) T 将指数收敛到可行域E中。此外,如果初始点 z 0 E ,则对于 t0 ,有 z( t )E 成立。

证明:构造以下函数:

B( z )=B( x,y )= 1 2 Axb 2 + 1 2 Cyd 2 , (10)

易知 B( z ) 是一个可微的凸函数,且

x B( z )= A T ( Axb ), y B( z )= C T ( Cyd ).

根据复合函数的链式法则可得

dB( z( t ) ) dt = x B ( z( t ) ) T dx( t ) dt + y B ( z( t ) ) T dy( t ) dt = ( Axb ) T A[ ( I m P x ) x f( x,y ) A T ( Axb ) ] + ( Cyd ) T C[ ( I n P y ) y f( x,y ) C T ( Cyd ) ]. (11)

由假设1,A是行满秩矩阵,易得矩阵 A A T 为对称正定矩阵,则

{ A( I m P x )=A( I m A T ( A A T ) 1 A )=AA=0, C( I n P y )=C( I n C T ( C C T ) 1 C )=CC=0.

λ A 为矩阵 A A T 的最小特征值, λ C 为矩阵 C C T 的最小特征值,且 λ=min{ λ A , λ C } ,显然 λ>0 。于是根据(11),可得

dB( z( t ) ) dt = ( Axb ) T A A T ( Axb ) ( Cyd ) T C C T ( Cyd ) λ A Axb 2 λ C Cyd 2 2min{ λ A , λ C }( 1 2 Axb 2 + 1 2 Cyd 2 ) =2λB( z( t ) ), (12)

B( z( t ) ) e 2λt B( z 0 ).

所以,当初始点 z( 0 )= z 0 =E 时,神经网络(9)的状态向量 z( t )= ( x ( t ) T ,y ( t ) T ) T 将指数收敛到可行域E中。

另一方面,如果 z 0 E ,则恒有 B( z 0 )=0 成立,故

0B( z( t ) ) e 2λt B( z 0 )0,

即对于 t0

B( z( t ) )=0.

所以当初始点 z 0 E 时,对于 t0 ,有 z( t )E 成立。

定理4.2若假设1成立,则神经网络(9)的平衡点与问题(2)的最优解等价。

证明:假设 z * = ( ( x * ) T , ( y * ) T ) T 是神经网络(9)的平衡点,根据定义3.1可知

0=( IP )F( z * )G z * +H, (13)

{ 0=( I m P x ) x f( x * , y * ) A T ( A x * b ), 0=( I n P y ) y f( x * , y * ) C T ( C y * d ). (14)

根据定理4.1,若初始点 z( 0 )= z 0 E ,则神经网络(9)的状态 z( t ) 将指数收敛到可行域E中,若初始点 z 0 E ,则对于 t0 ,有 z( t )E 成立。因此,可知 z * E ,由(14)可得

{ 0=( I m P x ) x f( x * , y * ), 0=( I n P y ) y f( x * , y * ), A x * =b, C y * =d, (15)

根据(15),可知

{ 0=( I m P x ) x f( x * , y * )= x f( x * , y * ) A T ( A A T ) 1 A x f( x * , y * ), 0=( I n P y ) y f( x * , y * )= y f( x * , y * ) C T ( C C T ) 1 C y f( x * , y * ).

λ * = ( A A T ) 1 A x f( x * , y * ) μ * = ( C C T ) 1 C y f( x * , y * ) ,根据定理3.1可知, z * 是问题(2)的最优解。

另一方面,假设 z ¯ = ( x ¯ T , y ¯ T ) T 是问题(2)的最优解,则 z ¯ E (即 A x ¯ =b C y ¯ =d )。由定理3.1可知

{ ( I m P x ) x f( x ¯ , y ¯ ) A T ( A x ¯ b )=( I m P x ) A T λ ¯ A T ( A x ¯ b )=0, ( I n P y ) y f( x ¯ , y ¯ ) C T ( C y ¯ d )=( I n P y ) C T μ ¯ C T ( C y ¯ d )=0, (16)

( IP )F( z ¯ )G z ¯ +H=0.

根据定义3.1可知, z ¯ 是神经网络(9)的平衡点。

定理4.3:若假设1成立,神经网络(9)的状态 z( t ) 在Lyapunov意义下是稳定的。此外,若满足下列条件之一[26]

(A) 设 z * E * ={ ( x T , y T ) T E| ( x T , y T ) T f( x,y ) } zE ,存在一个函数 k( z, z * )0 ,使得

( z z * ) T F( z )=0F( z )=k( z, z * )F( z * );

(B) 设 z * E * zE ,使得

( z z * ) T F( z )=0z E * .

对于任意初始值 z 0 = ( x 0 T , y 0 T ) T E ,神经网络(9)的状态 z( t ) 全局收敛到它的一个平衡点。

证明:首先,证明神经网络(9)的状态 z( t ) 在Lyapunov意义下是稳定的。假设 z * = ( ( x * ) T , ( y * ) T ) T 是鞍点问题(2)的最优解,则有 z * E ,由定理4.2可知, z * 是神经网络(9)的平衡点,于是有下列式子成立:

0=( IP )F( z * )G z * +H=( IP )F( z * ). (17)

构造下列Lyapunov函数:

V( z )= 1 2 z z * 2 , (18)

显然,对于 zE V( z )0 。此外,对于 ( x T , y T ) T E ,有

{ ( x x * ) T P x = ( x x * ) T A T ( A A T ) 1 A= ( AxA x * ) T ( A A T ) 1 A=0, ( y y * ) T P y = ( y y * ) T C T ( C C T ) 1 C= ( CyC y * ) T ( C C T ) 1 C=0,

即对于 zE

( z z * ) T P= ( x x * y y * ) T ( P x 0 0 P y ) =( ( x x * ) T P x ( y y * ) T P y ) =0. (19)

根据(17),(19),可知

( z z * ) T F( z * )=[ ( z z * ) T P+ ( z z * ) T ( IP ) ]F( z * ) = ( z z * ) T ( IP )F( z * ) =0, (20)

由于 F( z ) 是单调算子[30],满足下列方程:

( z z * ) T F( z ) ( z z * ) T F( z * )0, (21)

则根据(20),(21),可知,对于 zE ,有

( z z * ) T F( z )0.

于是,对Lyapunov函数 V( z ) 求导,可得

dV dt = ( x x * ) T dx dt + ( y y * ) T dy dt = ( x x * ) T ( I m P x ) x f( x,y )+ ( y y * ) T ( I n P y ) y f( x,y ) = ( z z * ) T ( IP )F( z ) = ( z z * ) T F( z ) 0, (22)

即神经网络在Lyapunov意义下是稳定的。

其次证明,对于任意初始值 z 0 = ( x 0 T , y 0 T ) T E ,神经网络(9)的状态 z( t ) 全局收敛到它的一个平衡点。令 H( z )= ( z z * ) T F( z ) ,由条件假设可知:

(a) 若 H( z )=0 zE ,根据条件(A)可得 F( z )=k( z, z * )F( z * ) ,则

dz dt =( IP )F( z )=k( z, z * )( IP )F( z * )=0;

(b) 若 H( z )=0 zE ,根据条件(B)可得 z E * ,即z是问题(2)的一个最优解,根据定理4.2可知,z是神经网络(9)的一个平衡点。

因此,由给出的两个条件之一即可得,当 H( z )=0 时,z为神经网络(9)的平衡点。此外,根据(22),对于任意初始点 z( t 0 )E ,有 V( z( t ) ) 随着 t+ 非递增,且当 z+ 时,根据(18),易得 V( z )+ ,即 V( z ) 是正定无界的。上述表明:

0V( z( t ) )V( z( 0 ) )<+. (23)

由(23)可知, z( t ) 是有界的,根据(9)可知, z ˙ ( t ) 也是有界的( M0 z ˙ ( t ) M ),此外,存在一个极限点 z ¯ 和一个收敛序列

{ t k |0< t 1 < t 2 << t k < t k+1 < }, (24)

k+ 时, t k + ,使得 z( t k ) z ¯ ,显然, z ¯ E

接下来将证明 H( z ¯ )=0 ,则 z ¯ 是神经网络(9)的一个平衡点。假设 H( z ¯ )>0 ,由 H( z ) 的连续性可知,存在一个 ε>0 δ>0 ,当 z z ¯ <δ 时,有

H( z )>ε. (25)

由(24),存在一个正整数N,使得 z( t k ) z ¯ < δ 2 对于所有的 k>N 成立,所以当 t[ t k δ 4M , t k + δ 4M ] k>N 时,有

z( t ) z ¯ z( t )z( t k ) + z( t k ) z ¯ M| t t k |+ δ 2 δ. (26)

根据(25)可知,当 t[ t k δ 4M , t k + δ 4M ] k>N 时,有 H( z( t ) )>ε 。一方面,由于 k>N [ t k δ 4M , t k + δ 4M ] 的测度是无限的,可得

0 + H ( z( t ) )dt> 0 + εdt =+. (27)

另一方面,由(22),(23)可知, V( z( t ) ) 单调递减且有界,即存在一个常数 V 0 ,使得 lim t+ V( z( t ) )= V 0 。根据(22),有

0 + H ( z( t ) )dt= lim t+ 0 t H ( z( s ) )ds = lim t+ 0 t V ˙ ( z( s ) )ds = lim t+ [ V( z( t ) )V( z( 0 ) ) ] =V( z( 0 ) ) V 0 <+, (28)

与(27)矛盾,所以 H( z ¯ )=0 ,即 z ¯ 是神经网络(9)的一个平衡点。

最后,证明 lim t z( t )= z ¯ ,类似 V( z ) 的定义,定义另一个Lyapunov函数:

W( z )= 1 2 z z ¯ 2 . (29)

参考前面的证明,可以证明得到 dW dt 0 W( z ¯ )=0 W( z ) 是径向无界的。根据函数 W( z ) 的连续性,对于任意 ε>0 ,存在 δ>0 ,使得 z z ¯ δ W( z )< ε 2 。同时,由(24)可知, z( t k ) z ¯ ,并且存在一个正整数 t N ,使得 z( t N ) z ¯ <δ ,有

W( z( t N ) )=| W( z( t N ) )W( z ¯ ) |< ε 2 , (30)

根据 W( z( t ) ) 的单调非递增性和(29),(30),可知,对于 t> t N ,

z( t ) z ¯ 2 =2W( z( t ) )2W( z( t N ) )<ε,

lim t z( t )= z ¯ .

因此对于任意初始点 z 0 = ( x 0 T , y 0 T ) T E ,神经网络(9)的状态向量 z( t ) 将全局收敛到它的一个平衡点。

5. 数值模拟

本节对前面的理论分析提供两个数值算例来进行验证,展示本文所提出的神经网络的有效性和可行性。与文献[25]相比,本文不仅在单目标优化问题的研究基础上拓展成了min-max的鞍点问题,而且还继承了文献[25]中神经网络的指数收敛性和有效时间内收敛的特性。本节的所有数值实验均在 MATLAB 编程环境下进行。

5.1:考虑如下等式约束的鞍点优化问题:

min x max y f( x,y )= x 1 2 +2 x 2 2 +3 x 3 2 + x 1 y 1 x 2 y 1 + x 3 y 2 ( y 1 2 +2 y 2 2 ), s.t. Ax=b, Cy=d, (31)

其中 x 3 y 2 AC均为行满秩矩阵,令:

A=( 1 1 1 ),b=1,C=( 1 1 ),d=0.

显然,问题(31)的目标函数f关于x是凸函数(由于Hessian矩阵 xx 2 f=diag( 2,4,6 ) 正定),关于y是凹函数(Hessian矩阵 yy 2 f=diag( 2,4 ) 负定),满足本文假设条件。通过求解KKT条件方程组,可得问题(31)的理论鞍点为 x * = [ 0.569,0.241,0.190 ] T y * = [ 0.086,0.086 ] T ,目标函数的最优解为 f( x * , y * )=0.481

接下来本文将采用文中所描述的神经网络来进行求解,则与问题(31)所对应的神经网络方程(8)可改写为如下方程:

{ dx dt =( I 3 P x ) x f( x,y ) A T Ax+ A T b, dy dt =( I 2 P y ) y f( x,y ) C T Cy+ C T d, (32)

其中

P x = A T ( A A T ) 1 A= 1 3 ( 1 1 1 1 1 1 1 1 1 ), P y = C T ( C C T ) 1 C= 1 2 ( 1 1 1 1 ), x f( x,y )=( 2 x 1 + y 1 4 x 2 y 1 6 x 3 + y 2 ), y f( x,y )=( x 1 x 2 2 y 1 x 3 4 y 2 ).

根据神经网络模型(32),在MATLAB环境下进行仿真实验,随机生成10组初始点 z 0 = ( x 0 T , y 0 T ) T ,其中 x 0 3 y 0 2 ,仿真时间 t[ 0,2 ] 。数值结果如图1图2所示。

Figure 1. The convergence behavior plot of the objective function in Example 5.1

1. 例5.1中的目标函数收敛过程图

图1展示了例5.1中的目标函数值 f( x( t ),y( t ) ) 从不同初始值均收敛到最优值 f * 的过程。

Figure 2. Convergence trajectories plot of each component of the state variables in Example 5.1

2. 例5.1中状态变量的每个分量收敛轨迹图

图2中的左右两图分别展示了xy分量的收敛轨迹,10条不同颜色的轨迹线从随机初始点出发,均收敛到点 x * 和点 y * 。可以看出,尽管初始点分布在较广的范围内,所有轨迹均能快速收敛到理论最优值,验证了神经网络的全局收敛特性。

5.2:为了进一步验证神经网络(9)在处理复杂问题时的性能,本文考虑如下较高维度的鞍点问题:

min x max y f( x,y )=2 x 1 2 +3 x 2 2 + x 3 2 + x 1 x 2 2 x 2 x 3 +2 x 1 y 1 x 2 y 2 +3 x 3 y 3 ( y 1 2 +2 y 2 2 + y 3 2 )+ y 1 y 2 y 2 y 3 , s.tAx=b, Cy=d, (33)

其中 x 3 y 3 AC均为行满秩矩阵,令:

A=( 1 2 1 3 1 2 ),b=( 4 1 ),C=( 2 1 1 1 3 2 ),d=( 3 2 ).

与例5.1中的问题(31)相比,问题(33)中目标函数的自变量相对维数更高一些,包含交叉项以及更复杂的非线性结构,更具有研究性,且关于x是凸函数,关于y是凹函数,满足本文的假设条件。通过求解KKT系统,得到该问题的理论鞍点为 x * = [ 1.293,0.845,1.017 ] T y * = [ 0.976,0.878,0.171 ] T ,目标函数f的最优解为 f( x * , y * )=8.8457

将文中所提的神经网络(9)应用到问题(33)上,令 z= ( x T , y T ) T 可得:

dz dt =( IP )F( z )Gz+H, (34)

其中

IP=( 1 83 ( 9 15 21 15 25 35 21 35 49 ) 0 0 1 75 ( 1 5 7 5 25 35 7 35 49 ) ), F( z )=( 4 x 1 + x 2 +2 y 1 6 x 2 + x 1 2 x 3 y 2 2 x 3 2 x 2 +3 y 3 2 x 1 +2 y 1 y 2 x 2 +4 y 2 y 1 + y 3 3 x 3 +2 y 3 + y 2 ),G=( 10 1 5 0 0 0 1 5 4 0 0 0 5 4 5 0 0 0 0 0 0 5 1 0 0 0 0 1 10 7 0 0 0 0 7 5 ),H=( 7 7 2 4 9 7 ).

同样,本文用改写后的神经网络(34)在MATLAB环境下采取随机生成10组初始点来进行数值模拟,数值仿真结果如图3图4所示。与例5.1相比,该问题具有更高的维度和更复杂的动力学特性,但本文提出的神经网络仍能有效收敛。

Figure 3. The convergence behavior plot of the objective function in Example 5.2

3. 例5.2中的目标函数收敛过程图

图3展示了例5.2中的目标函数值 f( x( t ),y( t ) ) 从不同初始值 z 0 = ( x 0 T , y 0 T ) T 均收敛到最优值 f * 的过程。

Figure 4. Convergence trajectories plot of each component of the state variables in Example 5.2

4. 例5.2中状态变量的每个分量收敛轨迹图

图4的左右两图分别展示了xy分量的收敛轨迹,所有轨迹线从鞍点附近的扰动初始点出发,快速收敛到理论鞍点,验证了神经网络的快速收敛特性。

综上,本文对比了上面两个例子,表1总结了两个算例的收敛性能指标,包括平均迭代步数、约束精度和计算时间等。

Table 1. Comparison of neural network convergence performance

1. 神经网络收敛性能比较

算例

变量为度

平均收敛步数

约束精度

计算时间(s)

收敛速率

5.1

3 × 2

124

1.2 × 106

0.45

指数收敛

5.22

3 × 2

89

8.7 × 107

0.38

指数收敛

数值实验表明,本文提出的递归神经网络为等式约束鞍点问题提供了一种有效的求解方法,具有收敛快、精度高、易于实现等优点。

6. 总结

基于非线性规划在工程与经济等领域的重要应用背景,本文聚焦于等式约束下的鞍点问题这一核心课题。相较于Qin等人[25]针对单目标伪凸优化提出的递归神经网络,本文将其框架拓展至更具挑战性的min-max鞍点问题场景,实现了从单一优化到鞍点问题的理论跨越。本文构建了一种新的神经网络模型,在适当的假设下,证明了神经网络平衡点与鞍点问题最优解的等价性。进一步地,证明了神经网络在Lyapunov意义下是稳定的,在一些附加条件下,神经网络全局收敛到鞍点问题的最优解,为之后鞍点问题的研究提供了一种新的理论支持。

本文的理论分析基于若干关键假设,这些假设在保证理论严密性的同时,也带来了一定的应用局限性,例如本文对目标函数的凸–凹结构和光滑性有较强的依赖。在此基础上,如何将此RNN框架扩展到非凸–非凹问题(可能需要引入更复杂的动态或正则化项),以及如何处理非光滑的目标函数成为了未来的研究方向之一。

参考文献

[1] Ben-Tal, A., Ghaoui, L.E. and Nemirovski A. (2009) Robust Optimization. Princeton University Press.
[2] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y. (2014) Generative Adversarial Nets. Neural Information Processing Systems, 27, 2672-2680.
[3] Boyd, S. (2011) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends® in Machine Learning, 3, 1-122. [Google Scholar] [CrossRef
[4] Zafar, M.B., Valera, I., Gomez Rodriguez, M. and Gummadi, K.P. (2017) Fairness Beyond Disparate Treatment & Disparate Impact: Learning Classification without Disparate Mistreatment. Proceedings of the 26th International Conference on World Wide Web, Perth, 3-7 April 2017, 1171-1180. [Google Scholar] [CrossRef
[5] Madry, A., Makelov, A., Schmidt, L., Tsipras, D. and Vladu, A. (2018) Towards Deep Learning Models Resistant to Adversarial Attacks. International Conference on Learning Representations, Vancouver.
[6] Arrow, K.J. and Debreu, G. (1954) Existence of an Equilibrium for a Competitive Economy. Econometrica, 22, 265-290. [Google Scholar] [CrossRef
[7] Arrow, K.J., Hurwicz, L. and Uzawa, H. (1958) Studies in Linear and Non-Linear Programming. Stanford University Press.
[8] Daskalakis, C., Ilyas, A., Syrgkanis, V. and Zeng, H.Y. (2018) Training GANs with Optimism. International Conference on Learning Representations, Vancouver.
[9] Cheng, Z., Ma, J., Wang, W., Zhu, Z., de Silva, C.W. and Lee, T.H. (2024) Alternating Direction Method of Multipliers-Based Parallel Optimization for Multi-Agent Collision-Free Model Predictive Control. IEEE Transactions on Artificial Intelligence, 5, 4176-4191. [Google Scholar] [CrossRef
[10] Gao, X.-B., Liao, L.-Z. and Xue, W. (2004) A Neural Network for a Class of Convex Quadratic Minimax Problems with Constraints. IEEE Transactions on Neural Networks, 15, 622-628. [Google Scholar] [CrossRef] [PubMed]
[11] Gao, X. and Liao, L. (2006) A Novel Neural Network for a Class of Convex Quadratic Minimax Problems. Neural Computation, 18, 1818-1846. [Google Scholar] [CrossRef
[12] Ghasabi-Oskoei, H., Malek, A. and Ahmadi, A. (2007) Novel Artificial Neural Network with Simulation Aspects for Solving Linear and Quadratic Programming Problems. Computers & Mathematics with Applications, 53, 1439-1454. [Google Scholar] [CrossRef
[13] Gao, X.B. and Li, C.P. (2017) A New Neural Network for Convex Quadratic Minimax Problems with Box and Equality Constraints. Computers & Chemical Engineering, 104, 1-10. [Google Scholar] [CrossRef
[14] Wang, Z.D., Liu, Y.R., Li, M.Z. and Liu, X.H. (2006) Stability Analysis for Stochastic Cohen-Grossberg Neural Networks with Mixed Time Delays. IEEE Transactions on Neural Networks, 17, 814-820. [Google Scholar] [CrossRef] [PubMed]
[15] 喻昕, 陈昭蓉. 一类非光滑非凸优化问题的神经网络方法[J]. 计算机应用研究, 2019, 36(9): 2575-2578.
[16] 喻昕, 林植良. 解决一类非光滑伪凸优化问题的新型神经网络[J]. 计算机科学, 2022, 49(5): 227-234.
[17] Hopfield, J.J. (1982) Neural Networks and Physical Systems with Emergent Collective Computational Abilities. Proceedings of the National Academy of Sciences, 79, 2554-2558. [Google Scholar] [CrossRef] [PubMed]
[18] 王雨嫣, 廖柏林, 彭晨, 等. 递归神经网络研究综述[J]. 吉首大学学报(自然科学版), 2021, 42(1): 41-48.
[19] Xia, Y. and Wang, J. (2005) A Recurrent Neural Network for Solving Nonlinear Convex Programs Subject to Linear Constraints. IEEE Transactions on Neural Networks, 16, 379-386. [Google Scholar] [CrossRef] [PubMed]
[20] Liu, Q.S. and Wang, J. (2011) A One-Layer Recurrent Neural Network for Constrained Nonsmooth Optimization. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 41, 1323-1333. [Google Scholar] [CrossRef] [PubMed]
[21] Tank, D. and Hopfield, J. (1986) Simple ‘Neural’ Optimization Networks: An A/D Converter, Signal Decision Circuit, and a Linear Programming Circuit. IEEE Transactions on Circuits and Systems, 33, 533-541. [Google Scholar] [CrossRef
[22] Kennedy, M.P. and Chua, L.O. (1988) Neural Networks for Nonlinear Programming. IEEE Transactions on Circuits and Systems, 35, 554-562. [Google Scholar] [CrossRef
[23] Zhang, S. and Constantinides, A.G. (1992) Lagrange Programming Neural Networks. IEEE Transactions on Circuits and Systems II: Analog and Digital Signal Processing, 39, 441-452. [Google Scholar] [CrossRef
[24] Xia, Y. and Wang, J. (2004) A General Projection Neural Network for Solving Monotone Variational Inequalities and Related Optimization Problems. IEEE Transactions on Neural Networks, 15, 318-328. [Google Scholar] [CrossRef] [PubMed]
[25] Qin, S., Bian, W. and Xue, X. (2013) A New One-Layer Recurrent Neural Network for Nonsmooth Pseudoconvex Optimization. Neurocomputing, 120, 655-662. [Google Scholar] [CrossRef
[26] Gao, X.B. (2003) Exponential Stability of Globally Projected Dynamic Systems. IEEE Transactions on Neural Networks, 14, 426-431. [Google Scholar] [CrossRef] [PubMed]
[27] Murray, R.M., Li, Z. and Sastry, S.S. (2017) A Mathematical Introduction to Robotic Manipulation. 1st Edition, CRC Press. [Google Scholar] [CrossRef
[28] 袁亚湘, 孙文瑜. 最优化理论与方法[M]. 北京: 科学出版社, 1997.
[29] 张从军. 集值分析与经济应用[M]. 北京: 科学出版社, 2004.
[30] 唐昊. 不等式约束鞍点问题的罚函数方法[D]: [硕士学位论文]. 重庆: 重庆交通大学, 2024.