1. 引言
多智能体系统在无人机编队、自动驾驶车队及仓储机器人等领域的应用日益广泛。作为解决多智能体序贯决策问题的核心方法,强化学习通过智能体与环境的交互来优化策略,已在众多领域展现出显著的性能[1] [2]。然而,将强化学习应用于具有竞争性质的随机博弈环境时,仍面临着非平稳性收敛难题。
多智能体博弈动力学的非平稳性与发散问题:随机博弈描述了多个局中人在动态环境中的交互过程,其状态转移概率与奖励函数显式依赖于所有参与者的联合动作[3]。在标准的多智能体Actor-Critic算法框架下,各智能体并发更新策略参数导致环境呈现高度非平稳特性[4]。对于单一智能体而言,对手策略的时变性使得目标函数不再满足马尔可夫决策过程的静态假设,导致价值网络的估计误差在贝尔曼迭代中累积放大[5]。特别是在零和博弈中,各方利益的严格对立导致梯度场包含显著的旋转分量。标准的梯度上升算法使得策略参数在单纯形顶点之间产生极限环震荡,系统缺乏耗散梯度场旋转能量的机制,从而无法收敛至纳什均衡点。
针对收敛性的问题,本文提出了一种基于策略惯性正则化的Actor-Critic改进算法,通过在原始目标函数中引入基于欧氏距离的策略锚点约束项,重构了多智能体博弈的优化景观。从微分动力系统的角度分析,该正则化项相当于在参数更新的动力学方程中显式引入了一个与参数变化率成正比的耗散力。通过对连续时间动力系统的雅可比矩阵进行谱分析证明,引入惯性系数后,系统特征值的实部发生了负向平移,确保了所有特征值的实部严格小于零。这一数学变换成功地将原本处于临界稳定或不稳定状态的纳什均衡点转化为局部渐近稳定的吸引子,利用Lyapunov第一法严格证明了改进算法在博弈均衡点邻域内的收敛稳定性,为解决多智能体学习中的震荡问题提供了坚实的控制理论依据。
多智能体强化学习的核心挑战在于多个决策主体在共享环境中的交互导致了马尔可夫决策过程平稳性的丧失。早期的研究试图将单智能体算法直接应用于多智能体环境,即独立学习范式。然而Tan等人的研究表明,由于其他智能体策略参数的时变特性,环境状态转移概率分布呈现出非平稳漂移,导致独立Q学习算法中的经验回放机制失效,无法保证算法收敛至纳什均衡[6]。针对这一问题,集中式训练去中心化执行框架应运而生。Lowe等人提出的多智能体深度确定性策略梯度算法通过引入集中式价值网络来逼近联合状态动作价值函数,利用全局信息降低了策略梯度估计的方差,在一定程度上缓解了环境非平稳性带来的震荡。Rashid等人提出的QMIX算法则通过引入单调性约束,将联合价值函数分解为个体价值函数[7],解决了协作环境下的信用分配难题。
尽管集中式价值评估提升了算法的稳定性,但在零和博弈或一般和博弈的微分动力学系统中,单纯的梯度上升更新仍面临严峻的理论瓶颈。在博弈论视角下,各智能体收益函数的对立性使得系统的梯度向量场包含显著的旋转分量。Singh等人指出,在纳什均衡点附近,标准的梯度动力学可能导致策略参数在单纯形顶点之间形成极限环震荡[8],系统雅可比矩阵的特征值实部为零或正值,缺乏收敛所需的耗散阻尼。为了解决这一动力学不稳定性,二阶优化方法逐渐受到关注。Foerster等人提出的LOLA算法通过在策略更新中引入对对手学习过程的预测[9],利用二阶泰勒展开重塑梯度流场,使得智能体能够通过预判对手行为来调整自身策略。Letcher等人进一步提出了辛梯度调节方法[10],通过分解哈密顿向量场来分离保守分量与耗散分量,从而设计出能够保证局部渐近稳定的更新规则。
然而,高阶优化方法通常涉及Hessian矩阵的计算,在高维神经网络参数空间中计算复杂度过高。因此,基于正则化的其一阶近似方法成为当前研究的热点。Schulman等人提出的信任域策略优化算法通过限制新旧策略之间的KL散度[11],确保了策略更新的单调改进,但其在多智能体博弈中的直接应用常因联合策略空间的拓扑复杂性而失效。为了增强策略的鲁棒性与探索能力,Haarnoja等人提出的软Actor-Critic算法引入了最大熵正则化项[12],将优化目标转化为最大化累积回报与策略熵的加权和,在一定程度上平滑了优化景观。近期的研究开始聚焦于策略惯性与锚点机制。Czarnecki等人探讨了在博弈动力学中引入策略正则化项对纳什均衡收敛性的影响[13],证明了适当的正则化能够将原本发散的梯度流转化为收敛流。Littman正式提出了将马尔可夫博弈作为多智能体强化学习的理论框架[14],为后续随机博弈的研究奠定了基础。
2. 零和博弈下的策略惯性正则化多智能体Actor-Critic算法
在多智能体系统中,标准的Actor-Critic算法虽然提供了一种基于梯度优化的求解范式,但由于环境的非平稳性以及目标函数的非凸性,该类算法在实际应用中往往面临探索能力不足与易陷入局部最优的严峻挑战。仅仅依赖确定性策略或简单的随机噪声,难以在复杂的策略空间中寻找到全局最优的纳什均衡点。针对上述问题,本章提出了一种基于最大熵正则化的多智能体Actor-Critic改进算法。该方法通过在优化目标中引入策略熵项,将寻找纳什均衡的问题转化为寻找软纳什均衡的问题[15],从而在最大化累积期望回报的同时,显式地鼓励智能体保持策略的随机性与探索性。
2.1. 标准多智能体Actor-Critic算法
本文所基于的基准算法采用了集中式训练去中心化执行的架构。在该框架下,每个智能体
的状态值函数都由两个神经网络来近似:策略网络(Actor)与价值网络(Critic)。其中,主要通过TD Learning算法来更新价值网络(Critic)中的参数以使得其对智能体的动作预测越来越准确;通过策略梯度算法更新价值网络(Critic)使得每个智能体获得越来越高的累计折扣奖励。
策略网络(Actor):记为
,其中
为神经网络参数。该网络仅接收智能体i的局部观测
,并输出动作空间上的概率分布。这一设计保证了算法在执行阶段仅需局部信息即可完成决策,满足分布式控制的要求。
价值网络(Critic):记为
,其中
为神经网络参数,
为联合状态,
为联合动作。Critic网络利用全局信息来评估当前联合策略在特定状态下的价值。
Critic更新:
Critic的目标是准确估计联合策略
下的动作值函数
。根据算法设定,在时刻t,对于智能体i,其Critic网络的更新基于时序差分误差。
首先,计算目标Q值。根据下一时刻的联合状态
,各智能体依据当前策略采样出下一时刻的动作
,构成联合动作
。目标值
定义为:
(1)
其中,
是环境反馈的即时奖励,r是折扣因子。
接着,定义Critic的损失函数
为TD误差的均方误差:
(2)
Critic参数
通过梯度下降法进行更新:
其中
为TD误差,
为Critic的学习率。
Actor更新:
Actor的目标是最大化智能体的期望累积折扣回报
。基于策略梯度定理,参数
的更新方向由Critic提供的价值评估指导。在Q-based Actor-Critic算法中,梯度方向近似为策略对数概率的梯度与当前Q值的乘积。具体的更新规则为
其中
是Actor的学习率。该式直观地表明:若某个动作
在当前全局状态下产生了较高的Q值(即
较大),则Actor会沿着增加该动作概率的方向更新参数
;反之则减小该动作的概率。通过上述Actor与Critic的交替迭代更新,算法旨在寻找纳什均衡策略
,使得没有任何智能体能通过单方面改变策略获得更高的收益。
2.2. 现有方法的局限性分析
标准多智能体Actor-Critic算法的理论缺陷源于缺乏对策略更新幅度的有效约束。首先,多智能体并发学习使得环境的状态转移与奖励反馈不再满足平稳性前提,导致价值网络拟合的目标始终处于动态漂移中,破坏了学习过程的连贯性。其次,在博弈动力学层面,各参与者仅依据局部梯度进行的贪婪更新极易进入非收敛的循环轨道,使策略在离散状态之间剧烈震荡而无法稳定在最优混合均衡点。最后,由于网络参数与输出概率分布之间存在高度非线性的映射关系,无约束的参数更新会导致策略分布发生不可控的突变,一旦新策略进入低价值区域,将引发采样质量恶化与价值评估失效的恶性循环,最终导致系统性能崩塌。
2.3. 针对传统算法的改进机制分析
标准多智能体Actor-Critic算法的理论缺陷源于缺乏对策略更新幅度的有效约束。首先,多智能体并发学习使得环境的状态转移与奖励反馈不再满足平稳性前提,导致价值网络拟合的目标始终处于动态漂移中,破坏了学习过程的连贯性。其次,在博弈动力学层面,各参与者仅依据局部梯度进行的贪婪更新极易进入非收敛的循环轨道,使策略在离散状态之间剧烈震荡而无法稳定在最优混合均衡点。最后,由于网络参数与输出概率分布之间存在高度非线性的映射关系,无约束的参数更新会导致策略分布发生不可控的突变,一旦新策略进入低价值区域,将引发采样质量恶化与价值评估失效的恶性循环,最终导致系统性能崩塌。
2.4. 目标函数构建及参数更新规则
本文提出在原始目标函数中引入基于策略惯性的正则化项。其核心思想是:在追求高回报的同时,强加一个针对策略空间的惯性约束,使得新策略
不会过度偏离上一阶段的稳定策略,因此,我们将优化问题转化为一个正则化最大化问题。定义智能i的惯性正则化目标函数
如下:
(3)
其中:
表示当前更新的策略参数。
表示上一阶段的策略参数锚点。
为惯性系数,用于调节探索收益与策略稳定性之间的权衡。
为衡量新旧策略差异的正则化项。
智能体i的正则项如下所示:
(4)
为了利用基于梯度的优化算法对网络参数
进行更新,我们需要推导总目标函数
关于参数
的梯度
。根据公式(3),总梯度由两部分组成:
(5)
1) 原始策略梯度项推导:第一项
为标准的确定性或随机性策略梯度。在本研究采用的随机高斯策略设定下,利用对数导数技,其梯度推导过程如下:
对等式两边关于参数
求梯度,即得到最终的策略梯度公式:
(6)
应用蒙特卡洛采样,最终梯度可以表示为以下形式:
(7)
其中:
表示我们在训练的一个批次中采样了B条数据,用这B条数据的平均值来近似真实的梯度。k表示第k个样本数据。
2) 惯性正则项梯度推导:第二项为惯性约束的梯度,将公式(4)对
求导,根据链式法:
(8)
3) 最终更新公式:(7)综合(8)与,智能体i的Actor网络参数更新规则如下:
(9)
公式(9)括号内的部分是总梯度,它指示了参数应该朝着什么方向移动才能优化目标函数。
2.5. 算法执行流程
本研究提出的改进算法延续了集中式训练去中心化执行的总体架构,但在策略更新阶段引入了惯性锚点机制。整个算法的执行流程可被形式化地描述为初始化、交互采样、价值评估、策略修正与锚点更新五个核心阶段。
1) 初始化阶段:对于系统中的每一个智能体i,首先初始化其策略网络(Actor)参数
与价值网络(Critic)参数
。同时,为了在训练初期建立惯性参考系,将初始时刻的策略参数直接赋值给惯性锚点
。此外,需设定Critic学习率
、Actor学习率
、折扣因子
以及关键的惯性正则化系数
。
2) 分布式交互与采样:在每一个时间步
,智能体与环境进行交互,生成训练数据:
局部观测:每个智能体i获取局部观测状态
。
动作采样:智能体依据当前策略网络采样动作
:
联合执行:形成联合动作向量
并执行。
环境反馈:环境反馈所有智能体的即时奖励
及下一时刻的联合状态
。
3) 集中式价值评估:Critic网络负责评估当前联合策略的质量,并计算时序差分(TD)误差以驱动价值函数的收敛。
下一步动作采样:为了计算TD目标值,需采样下一时刻的联合动作
。对于每个智能体i:
Q值计算:当前时刻Q值估计:
;下一时刻Q值估计:
;
TD误差计算(
):计算当前Q值与目标Q值(即时奖励 + 折扣后的未来价值)之间的偏差:
Critic梯度计算(
):
Critic参数更新:沿着最小化TD误差平方的方向更新参数:
4) 正则化策略提升:这是算法的核心步骤。Actor的更新不仅取决于Critic提供的价值梯度,还受到惯性锚点的约束,以抑制策略参数的剧烈震荡。
标准策略梯度计算(
):计算最大化动作对数概率的梯度方向:
惯性正则化梯度计算(
):计算当前参数与旧参数(锚点)之间欧氏距离的梯度,该梯度充当参数层面的阻尼力:
Actor参数更新:合成总梯度方向进行更新。其中,
推动策略向高回报方向移动,而
将策略拉向旧参数锚点:
5) 惯性锚点更新(Anchor Update)在完成单步参数更新后,更新惯性锚点,使其跟随策略的演化,形成滑动窗口式的约束:
上述流程在每一个训练回合中循环执行,直至算法收敛或达到预设的最大迭代次数。
2.6. 基于惯性正则化的局部渐近稳定性分析
在多智能体强化学习中,纳什均衡点的收敛稳定性是衡量算法性能的关键指标。特别是在零和博弈场景下,由于博弈动力学的固有旋转特性,传统的基于梯度的优化方法往往难以收敛,而是表现为围绕均衡点的持续震荡。本节将从连续时间动力系的视角,建立博弈动力学的微分方程模型,并严格证明引入策略惯性正则化后,系统雅可比矩阵的谱分布将发生平移,从而保证了算法在纳什均衡点附近的局部渐近稳定性。
综合公式(3)和公式(4)可知,在二人零和博弈中,对于第i个智能体,有:
其中,
为改进后的第i个智能体的惯性正则化联合目标函数,又因为原始目标函数同时依赖于智能体i以及对手的策略,所以其原始目标函数中含有两个智能体的策略参数,其中,
表联合策略参数,即所有智能体参数的集合,
。为方便表示,我们将两个智能体的目标函数用联合目标函数形式
表示,即
。又因为现在主要研究零和博弈,则有
。下面将进行联合动力方程的推导。
1) 原始部分的梯度:
(10)
2) 正则化项部分的梯度:
合并后的总梯度方向:
(11)
按照梯度上升规则,参数更新公式为(
为学习率/步长):
进行以下步骤的变换,则有:
(12)
(13)
综合公式(12)和公式(13),则有:
(14)
因为我们的目的是证明算法在纳什均衡点
附近的局部行为。我们假设系统已经运行到了
的很小的邻域内。所以在公式(14)中我们使用
代替
。则最终的联合动力方程如下所示:
(15)
大量研究表明,深度神经网络的损失曲面在解附近呈现出显著的平坦性特征。Hochreiter & Schmidhuber (1997)最早提出了“平坦极小值”(Flat Minima)概念[16],指出泛化能力强的解往往位于海森矩阵特征值极小的平坦区域。随后,Goodfellow et al. (2014)通过线性插值实验进一步证实[17],尽管深层网络具有高度非线性,其优化路径和局部景观却表现出惊人的平滑性。所以我们做出以下假设。
假设2.1设
为原始博弈系统的微分纳什均衡点,
是其邻域内的任意一点,在此区域内,有智能体1与智能体2的原始目标函数的二阶导近似为0,即
,
。
定理2.1惯性正则化系统的渐近稳定性:对于修正后的连续时间动力系统:
,若假设2.1成立,且惯性系数
,则该系统在均衡点
处是局部渐近稳定的。
证明:首先在
的邻域内对公式(10)再一次求导,我们可以得到原始目标函数的雅可比矩阵如下所示:
由于假设2.1,则有
显然,上述矩阵为一个反对称矩阵(
)
设
是矩阵
的特征值,
是对应的非零特征向量
(16)
对上式两边取共轭转置:
其中,
是
的复共轭;
为非零特征向量
的共轭转置。
利用反对称性质
:
(17)
将公式(17)两边乘以
:
将公式(16)代入左边的括号:
提取标量后则有:
又因为
是一个正实数,约掉后得到:
设
,(
,
为实数)则有:
,
由此证得原始目标函数的雅可比矩阵的特征值
的实部为0。
在
的邻域内对公式(15)再一次求导,我们可以得到改进后的目标函数的雅可比矩阵如下所示:
由公式(16)则有;
即修正后的特征值
满足
。
考察修正后特征值
的实部:
又因为原始目标函数的雅可比矩阵的特征值
的实部为0,则:
由于惯性系数
被设定为严格正实数(
),故对于所有特征值
,均有:
。
根据yapunov第一方法,引入惯性正则化后的动力系统在纳什均衡点
处是局部渐近稳定的。
证毕。
2.7. 算法收敛性数值验证
为了验证基于惯性正则化的Actor-Critic算法在高随机性环境和离散动作空间下的鲁棒性与收敛能力,本节构建了一个名为“湿滑网格世界”的零和博弈场景。该场景模拟了现实世界中执行器误差或环境扰动带来的不确定性,旨在测试算法是否能在高方差梯度下坚持学习最优策略,而非陷入局部极小值。
1) 场景描述:在一个
的离散网格中,存在两个智能体:追捕者与逃逸者。
追捕者:目标是在最短的时间内捕获逃逸者(即坐标重合)。
逃逸者:目标是尽可能延长被捕获的时间,或保持与追捕者的距离。
环境特性:地面具有“湿滑”特性,智能体的移动指令无法被100%精确执行,存在随机滑动的风险。例如,当智能体选择“向上”时,有80%的概率向上移动,但有10%的概率向左滑,10%的概率向右滑。若目标位置超出边界,则智能体保持原地不动(撞墙)。
2) 马尔可夫博弈五元组
定义
状态空间
:联合状态由两个智能体的二维坐标组成:
,其中
,
分别代表追捕者和逃逸者两个智能体的状态,即二者在离散网格中的坐标,
。在本实验中,网格大小设为
。
动作空间
:双方均为离散动作空间,包含四个基本方向:
。
状态转移概率
:对于追捕者和逃逸者中某个智能体,当其选择动作
时,实际状态
服从以下分布:
奖励函数
设计:已知
,
分别代表追捕者和逃逸者两个智能体的状态,即
时刻两个智能体在网格中的坐标,我们采用曼哈顿距离作为距离度量,以适应离散网格环境的移动特性。对于追捕者,每一时刻
的即时奖励
定义如下:
为了构建严格的对抗环境,逃逸者的奖励函数
被定义为追捕者的相反数:
,这意味着追捕者的收益严格等于逃逸者的损失。
3) 实验设置
学习率设置为0.002;折扣因子
设置为0.95;惯性正则化系数
设置为5.0;训练回合数设置为1000;回合最大步数设置为60。
2.8. 实验结果与分析
图1展示了训练过程中每回合总奖励的变化曲线,该指标综合反映了算法的收敛效能。原始算法的奖励曲线在训练初期迅速下降,并长期停滞在−250左右的理论下界。这种现象表明智能体陷入了严重的策略退化。由于环境存在20%的随机转移概率,早期的探索行为常因环境噪声而遭受距离惩罚。在缺乏参数更新约束的情况下,原始梯度算法表现出过度的风险规避倾向,智能体倾向于采取原地不动或撞墙等保守策略以避免即时惩罚,最终因超时而获得最低累积奖励;相比之下,基于惯性正则化的Actor-Critic算法的奖励曲线在经历约100个回合的探索后显著回升,并稳定收敛于−25左右。这一数值显著优于基准算法,且接近理论上的平均捕获成本。实验结果证明,惯性正则项成功抑制了由单次随机滑动引起的高频梯度抖动,使得智能体能够基于长期的期望收益坚持执行最优策略,而非受限于短期的随机负反馈。
Figure 1. Comparison of convergence performance of average cumulative reward per round during the training phase
图1. 训练阶段平均回合累积奖励的收敛性能对比
如图2所示,原始算法的成功率长期维持在0%,证实了其低奖励并非源于路径规划的次优,而是彻底的任务失败,智能体完全丧失了在规定时间内捕获目标的能力。相反,基于惯性正则化的Actor-Critic算法的成功率呈现显著上升趋势,最终稳定在95%至98%之间。尽管环境具有强随机性,该算法依然实现了极高的任务可靠性,证明其习得的策略具有极强的闭环纠错能力。
Figure 2. Evolution curve of task capture success rate during training
图2. 训练过程中的任务捕获成功率演变曲线
如图3所示,原始算法的平均步数始终重合于60步的最大限制线,进一步印证了其因无法完成任务而耗尽时间窗口。基于惯性正则化的Actor-Critic算法的捕获步数则从初始值迅速下降,最终收敛至15至18步区间。考虑到网格环境的曼哈顿距离为10且存在滑倒干扰,该数值已经逼近随机最短路径的理论下界,表明该算法实现了时间维度上的最优性。
Figure 3. Analysis of average time steps and execution efficiency of successful capture rounds
图3. 成功捕获回合的平均时间步数与执行效率分析
图4表明在原始算法生成的轨迹中,追捕者智能体的策略表现出显著的局部最优收敛特征。追捕者的状态转移序列主要约束在二维网格的下边界区域,即纵坐标
的子空间内。追捕者从初始状态(0, 0)出发后,其策略网络
输出的动作概率分布高度偏向于水平位移,导致轨迹仅在x轴方向上产生微小的增量,随后陷入停滞。这种现象表明原始算法在处理稀疏奖励或延迟奖励时,价值函数
的更新未能有效传播至全局状态空间。智能体仅通过减小x轴方向的曼哈顿距离分量来获取局部奖励信号,而未能探索到能够显著降低总势能的纵向移动策略。逃逸者智能体位于状态空间边缘(5, 5)附近,由于追捕者未能构建有效的逼近策略,逃逸者仅需维持在局部区域即可保持较大的状态间距,双方未能形成高水平的对抗博弈,系统陷入次优的稳定平衡态。(横坐标(X轴):代表智能体在离散网格中的水平位置坐标,取值范围为[0, 5]。纵坐标(Y轴):代表智能体在离散网格中的垂直位置坐标,取值范围为[0, 5]。)
Figure 4. Pursuit and escape adversarial trajectory based on the original Actor-Critic algorithm
图4. 基于原始Actor-Critic算法的追捕与逃逸对抗轨迹
图5显著体现了惯性正则化机制对策略空间探索能力的提升。追捕者智能体的状态转移序列展示出一种分层递进的全局规划策略,其并未受限于初始状态附近的局部梯度,而是优先执行了沿纵轴正方向的高阶位移操作。这种行为模式表明智能体的策略网络已经成功构建了对整个二维状态网格的价值评估映射,能够识别出通过占据网格中心或边界关键点来压缩逃逸者机动空间的战术优势。在追捕者逼近的压力下,逃逸者智能体表现出基于当前状态观测的随机规避行为,试图沿上边界区域进行反向机动以最大化曼哈顿距离。然而,由于追捕者采用了具备前瞻性的拦截路径,逃逸者的可行状态空间被迅速收敛。最终,双方的状态向量在坐标(3, 5)处发生重合,系统的状态距离范数归零。这一收敛过程证明了该方法在解决稀疏奖励下的长视距规划问题上具有显著的数学优越性。(横坐标(X轴):代表智能体在离散网格中的水平位置坐标,取值范围为[0, 5]。纵坐标(Y轴):代表智能体在离散网格中的垂直位置坐标,取值范围为[0, 5]。)
Figure 5. Pursuit and escape adversarial trajectories based on the inertial regularization Actor-Critic algorithm
图5. 基于惯性正则化的Actor-Critic算法的追捕与逃逸对抗轨迹
2.9. 总结
针对原始Actor-Critic架构在处理高阶动力学系统与强随机环境时存在的策略震荡与收敛困难问题,本章提出了一种基于惯性的策略正则化改进方案。算法在Actor网络的损失函数中引入了惯性惩罚项
,这限制了参数在单次迭代中的剧烈突变。它确保了策略的演化必须遵循连续性原则,防止了智能体因单次采样偏差或瞬时环境反馈而产生过激的策略调整。
在具有20%滑动概率的离散网格博弈中,原始算法因无法抵抗单次负反馈样本的干扰,发生了严重的策略退化(如原地停滞),导致任务成功率为0%。基于惯性正则化的Actor-Critic算法则展现了极强的抗噪能力,保持了策略在宏观方向上的一致性。实验结果表明,改进算法不仅将捕获成功率提升至98%,且习得了抵抗环境扰动的阶梯状最优路径,证明了其在非确定性环境下的鲁棒性。
NOTES
*通讯作者。