基于多智能体强化学习的追逃微分博弈算法设计

doi:10.12677/pm.2025.152058

期刊菜单

基于多智能体强化学习的追逃微分博弈算法设计
Design of Pursuit-Evasion Differential Game Algorithm Based on Multi-Agent Reinforcement Learning

DOI: 10.12677/pm.2025.152058, PDF, HTML, XML, 国家自然科学基金支持
作者: 沈星, 高诗萱, 高红伟：青岛大学数学与统计学院，山东青岛
关键词: 无人机；追逃微分博弈；多智能体强化学习；MASAC；UAV； PEDG； MARL； MASAC

摘要: 本文针对传统追逃微分博弈模型在现实复杂环境下，特别是面对不完全信息和计算复杂度时求解困难的问题，创新性提出了一种基于柔性执行者–评论家(Soft Actor-Critic, SAC)算法的改进多智能体强化学习方法，应用于无人机追捕单一智能目标的微分博弈问题。SAC算法在追逃微分博弈中的优势体现在其自然实现了混合策略的概念，能够通过随机性来应对对手的动态变化，且具有较强的探索能力、稳定性和鲁棒性。与其他强化学习算法相比，SAC更适合处理不确定性强、对手行为复杂、动作空间连续的博弈问题。本文假设在部分可观测的环境下，追逐者和逃避者均无法知晓全部信息，仅能通过环境中的部分信息进行决策。为了解决这一连续优化问题，本文采用多智能体柔性执行者–评论家(multi-agent Soft Actor-Critic, MASAC)算法，使追逃双方智能体通过与环境的交互学习各自的最优策略。最终，本文通过测试展示了在部分可观测环境下，改进的多智能体强化学习方法在无人机追捕–逃避场景中的适用性与应用潜力。

Abstract: This paper addresses the difficulty in solving traditional pursuit-evasion differential game models in complex real-world environments, especially when dealing with incomplete information and computational complexity. An innovative solution is proposed in the form of an improved multi-agent reinforcement learning method based on the Soft Actor-Critic (SAC) algorithm, applied to the differential game problem of unmanned aerial vehicles (UAVs) pursuing a single intelligent target. The advantage of the SAC algorithm in pursuit-evasion differential games lies in its natural implementation of the mixed strategy concept, allowing it to handle dynamic changes in the opponent’s behavior through randomness, while exhibiting strong exploration capabilities, stability, and robustness. Compared to other reinforcement learning algorithms, SAC is better suited for handling games with strong uncertainty, complex opponent behaviors, and continuous action spaces. In this paper, we assume a partially observable environment where both the pursuer and evader are unaware of the full information and can only make decisions based on partial environmental observations. To address this continuous optimization problem, we adopt the multi-agent Soft Actor-Critic (MASAC) algorithm, enabling both agents in the pursuit-evasion scenario to learn their optimal strategies through interactions with the environment. Ultimately, through testing, this paper demonstrates the applicability and potential of the improved multi-agent reinforcement learning method in UAV pursuit-evasion scenarios within partially observable environments.

文章引用：沈星, 高诗萱, 高红伟. 基于多智能体强化学习的追逃微分博弈算法设计[J]. 理论数学, 2025, 15(2): 160-174. https://doi.org/10.12677/pm.2025.152058

1. 引言

随着航空技术与自动化技术的不断发展，无人驾驶飞行器(Unmanned Aerial Vehicle, UAV)简称无人机，凭借其安全性、低成本和高机动性等优势，已在侦察、打击、救援、预警等军事和民用领域得到了广泛应用。

微分博弈的发展始于Isaacs [1]，他在其中运用了博弈论、变分演算和控制论的原理来解决涉及多个参与者之间动态冲突的问题。追捕–逃避场景作为经典的微分博弈问题之一，已在无人机和无人空战领域得到了广泛研究。该问题涉及追逐者和逃避者两种不同角色的控制策略，其中追逐者的主要目标是在动力学方程的约束下，在最短时间内捕获逃避者。自Isaacs以来，已有大量研究以各种方法求解追逃微分博弈[2]。Garcia E等[3]利用HJI方程和博弈的几何性质求解了两追逐者与一逃避者的微分博弈问题。杨傅云翔等[4]采用基于可达性分析的方法，处理三维空间中的航天器轨道追逃微分博弈问题。然而，这些模型通常基于完全信息假设，忽略了实际应用中环境信息的部分可观测性，同时在求解复杂动态场景中的计算开销上表现出明显局限性。具体而言，传统模型在面对高维状态空间和连续动作空间时，往往需要求解复杂的偏微分方程，这大幅增加了计算复杂性。此外，在信息不完全的场景下，传统方法由于缺乏对环境动态变化的实时适应能力，可能导致策略失效。这些问题在无人机实际追捕–逃避任务中尤其显著，例如敌方目标的动态规避或复杂地形的干扰。

近年来，强化学习(Reinforcement Learning, RL)迅速发展，推动了决策领域的研究。强化学习能够通过数值解逼近和优化的方式解决传统解析解难以处理复杂动态系统的问题。作为一种目标导向的学习和决策计算方法，强化学习是一种无模型的机器学习方法，更适用于没有专家知识的情境。与监督学习不同，强化学习通过交互过程进行学习，不依赖外部提供样本。已有研究将强化学习应用于追逃微分博弈问题，例如，WANG Q等[5]利用广义阿波罗尼斯圆将瞬时状态空间划分为追逐者的优势区和逃避者的优势区，结合Q-learning算法，提出了一种追逃博弈策略，证明了纳什均衡的存在并通过仿真实验验证了其有效性。刘菁等[6]通过结合博弈论与阿波罗尼斯圆模型，提出了一种基于改进Q-Learning算法的无人机集群协同围捕方法。然而，传统强化学习受限于手工特征输入到线性模型进行估值和拟合，在复杂场景中的表现不佳。在过去的十年中，得益于深度学习的发展，深度强化学习(Deep Reinforcement Learning, DRL)使得在高维状态空间和不确定环境中求解最优策略变得更加可行和高效。谭浪等[7]以深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法为原型，提出了一种模拟导弹攻防对抗过程的追逃博弈算法。WANG M等[8]展示了深度确定性策略梯度(DDPG)算法如何使追逐者通过自学习在追逃微分博弈中学习最优控制策略，从而显著提高追击效率。郭万春等[9]考虑一追一非对称性的追逃博弈问题，基于改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法，研究逃避者无人机的反追击策略。

同时，现实中的许多问题通常具有大规模、复杂、实时和不确定性的特点。将这些问题建模为单智能体系统效率低下且与实际情况不符，而多智能体系统(Multi-Agent System, MAS)则更为适用[10]。多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)为这些问题的建模和解决提供了有力的支持。相比传统算法，多智能体强化学习能够更好地应对环境的不确定性。近年来，深度学习与多智能体强化学习相结合取得了显著成果，提出了许多用于解决复杂任务的算法[11]。许旭升等[12]利用分布式多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法，针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的复杂模型，得到了一种基于MARL的集群卫星空间轨道追逃博弈算法。Shihui Li等[13]介绍了一种Minimax扩展的多智能体深度确定性策略梯度(MiniMax Multi-agent Deep Deterministic Policy Gradient, M3DDPG)算法，用于在连续动作空间中训练深度强化学习智能体，解决了对手策略发生变化时泛化的挑战，并证明了其在混合合作和竞争环境中的有效性。

针对传统模型的局限性，本文假设在追逃微分博弈中，追逐者和逃避者均无法知晓场上的全部信息，只能通过环境中的部分信息进行决策。本研究提出了一种基于柔性执行者–评论家(Soft Actor-Critic, SAC)算法[14]的改进多智能体强化学习方法，该算法的输出是随机性策略，即策略的输出动作不是一个确定的值，而是一个概率分布。在每一步决策中，SAC会从这个概率分布中采样一个动作。这种随机性与混合策略的概念高度吻合，因为它能够为智能体在面对对手时提供更多的行动选择，进而避免陷入单一、可预见的策略，同时该方法通过引入最大熵的概念使得在连续策略空间中具有探索和利用之间的自适应平衡。目标是在部分可观测的环境下，通过对双方智能体的不断训练，完成最优博弈策略的求解，最终学习到各自的最优策略。为了解决这一连续优化问题，采用了MASAC算法，使追逃双方智能体通过与环境的交互来学习各自的最优策略，为无人机追捕–逃避任务提供可行性更高的解决方案。

本文的结构如下：第二节建立了系统运动学。第三节构建追逃微分博弈模型。第四节先简要介绍了强化学习的一些基本知识，并在此基础上进行追逃博弈算法研究，应用MASAC (Multi-Agent Soft Actor-Critic)算法对追逐者与逃避者同时进行训练。第五节是仿真结果与参数设置，给出了训练中的参数设置，以及最终训练完成后的仿真结果。第六节是结论和拟开展的工作。

2. 系统运动学

追逃博弈是微分博弈的经典应用，如图1所示。追逐者UAV的目标是在尽可能短的时间内抓住逃避者。逃避者UAV的目标是在整个半无限的时间间隔内避免与追逐者相遇，或者如果可能的话，最大限度地推迟相遇的时刻。

Figure 1. Schematic diagram of chase escape differential game

图1. 追逃微分博弈示意图

在构造系统运动学之前，需要定义如下两个假设条件。

追逐者UAV和逃避者UAV都在固定高度移动，故只需要考虑同一平面上的距离。
在追逐过程中，追逐者UAV和逃避者UAV都仅能检测到对方的坐标，而无法检测到对方的速度方向角。

根据上述假设条件，追逐者和逃避者的运动学方程为：

${\begin{cases} {\dot{x}}_{i} (t) = v_{i} (t) \cos θ_{i} (t) \underset{_{}}{} \\ {\dot{y}}_{i} (t) = v_{i} (t) \sin θ_{i} (t) \\ {\dot{θ}}_{i} (t) = \frac{v_{i} (t)}{r a d_{i}} u_{i} (t) \end{cases}$ (1)

式中 $i \in {p, e}$ 分别指追逐者与逃避者， $(x_{i}, y_{i})$ 是无人机的位置坐标， $v_{i}$ 是无人机的线速度， $θ_{i}$ 是速度方向角， $r a d_{i}$ 为最小转弯半径， $u_{i}$ 为角速度的控制。

追逐者和逃避者的行动受到如下控制边界的约束：

$0 \leq v_{i} (t) \leq v_{i \max}$ (2)

$- 1 \leq u_{i} (t) \leq 1$ (3)

设定追逐者的线速度大于逃避者的线速度，即 $v_{p \max} > v_{e \max}$ ，追逐者的机动性弱于逃避者，即 $r a d_{e} < r a d_{p}$ 。

追逐者与逃避者基于极坐标的相对位置可由下式给出：

$σ_{i} = {[d, δ_{i}]}^{T}$ (4)

其中 $d = \sqrt{{(x_{e} - x_{p})}^{2} + {(y_{e} - y_{p})}^{2}}$ ，表示追逐者和逃避者之间的距离， $δ_{i} = φ - θ_{i}$ 为相对航向角， $φ = \arctan (\frac{y_{e} - y_{p}}{x_{e} - x_{p}})$ 指逃避者与追逐者之间的视线角， $i \in {p, e}$ 。

在此基础上，系统的相对运动学可表示为：

${\dot{σ}}_{i} = [\begin{matrix} v_{e} \cos δ_{e} - v_{p} \cos δ_{p} \\ \dot{φ} - \frac{v_{i} (t)}{r a d_{i}} u_{i} \end{matrix}]$ (5)

3. 追逃微分博弈模型

追逃微分博弈模型中涉及追逐者和逃避者这两个不同角色。追逐者的目标是抓住逃避者，而逃避者的目标则是试图摆脱追逐者。本文将目标跟踪问题视为一个1追1的追逃微分博弈问题。根据博弈论中的纳什均衡定义，当且仅当已下不等式满足时，双方的行动策略是最优的：

$J (π_{p}, π_{e}^{*}) \leq J (π_{p}^{*}, π_{e}^{*}) \leq J (π_{p}^{*}, π_{e})$ (6)

其中 $J$ 表示追逐者的支付函数， $π_{p}$ 表示追逐者的行动策略， $π_{e}$ 表示逃避者的行动策略，在式(6)中，当一方的无人机采用了纳什均衡策略，而另一方为非理性策略，即采用纳什均衡策略以外的策略，都将使采用非理性策略一方的支付函数无法取得最优。

在本文研究的追逃微分博弈问题中，追逐者无人机需优化策略去追击和捕获逃避者，而逃避者无人机也需要不断优化策略去避开和远离追逐者，双方的博弈构成了零和微分博弈问题，所以对方的支付函数是 $- J$ 。构建的支付函数如下：

$J (π_{p}, π_{e}) = \int_{0}^{t_{f}} R_{p} (σ_{p}, {\dot{σ}}_{p}) d t$ (7)

其中 $t_{f} = \min {t | d (t) \leq l_{c a p t u r e}}$ 表示追逐者捕获逃避者的时间， $l_{c a p t u r e}$ 为常数， $R_{p} (σ_{p}, {\dot{σ}}_{p})$ 是下一节中详细描述的基于该系统运动学的可设计奖励。在追逃微分博弈过程中，追逐者被设计为最大化式(7)，而逃避者则试图最小化它。

4. 基于强化学习的追逃博弈算法设计

4.1. 马尔可夫决策过程与强化学习

马尔科夫决策过程(Markov Decision Process, MDP)由一个五元组 $〈 S, A, P, R, γ 〉$ 描述，其中 $S$ 为有限的状态空间， $A$ 为有限的行为空间， $R (s, a)$ 为奖励函数，它同时取决于状态 $s$ 和动作 $a$ ， $γ$ 为折扣因子， $P (s^{'} | s, a)$ 为状态转移函数，表示在状态 $s$ 执行动作 $a$ 之后到达状态 $s^{'}$ 的概率，故有

$\begin{matrix} \sum_{s^{'} \in S} P (s^{'} | s, a) = 1 & \forall s \in S, & \forall a \in A \end{matrix}$ (8)

马尔科夫决策过程具有如下马尔可夫性质(Markov property)，即下一个状态只取决于当前状态，而不会受到过去状态的影响。需要明确的是，虽然下一时刻的状态只与当前时刻的状态有关，但是当前时刻的状态其实包含了过去时刻的状态的信息，通过这种链式的关系，历史的信息被传递到了现在。马尔可夫性可以大大简化运算，因为只要当前状态可知，所有的历史信息都不再需要了，利用当前状态信息就可以决定未来。

强化学习是指智能体通过自主探索环境状态，采取相应行为并从环境中获得回报的过程。一般而言，强化学习问题是建立在马尔科夫决策过程模型的基础上。

Figure 2. Agent-environment interaction diagram

图2. 智能体–环境交互图

强化学习的智能体–环境交互过程如图2所示。智能体在当前状态 $s_{t}$ 下，给出当前状态下所要采取的动作 $a_{t}$ ，环境根据状态转移函数P转移到下一个状态 $s_{t + 1}$ ，并反馈给智能体一个奖励信号 $r$ 。智能体在下一状态按照上述过程依次进行。智能体的目标是通过不断地训练，最终获得一个使得总回报R最大化的策略 $π$ 。假设每个时间步的折扣率为 $γ$ ，定义t时刻的回报 $R_{t}$ 为：

$R_{t} = \sum_{t^{'} = t}^{T} γ^{t^{'} - t} r_{t^{'}}$ (9)

其中T是结束时刻的时间步长， $0 < γ \leq 1$ ，状态值函数 $V^{π} (s)$ 表示从状态开始，根据策略 $π$ 采取动作所获得的期望回报，定义状态值函数如下：

$V^{π} (s) = E_{π} (R_{t} | s_{t} = s)$ (10)

由图2可知环境反馈给智能体的状态 $s_{t + 1}$ 的奖励 $r_{t + 1}$ 不仅与当前状态 $s_{t}$ 有关，还与当前采取的动作相关，故定义动作值函数 $Q^{π} (s, a)$ 为：智能体在状态s选择动作a，随后根据策略 $π$ 选取动作所获得的期望回报，具体表示如下：

$Q^{π} (s, a) = E_{π} (R_{t} | s_{t} = s, a_{t} = a)$ (11)

定义最优动作值函数 $Q^{*} (s, a)$ 为最大期望值：

$Q^{*} (s, a) = \max_{π} Q^{π} (s, a)$ (12)

而使动作值函数取得最大值的策略 $π^{*}$ 被称作最优策略，最优策略 $π^{*}$ 能够让智能体在所有状态下获得最大化的未来折扣回报。由式(11)和式(12)可得下面的贝尔曼最优方程：

$Q^{*} (s, a) = E_{s^{'}} (r + γ \max_{a^{'}} Q^{*} (s^{'}, a^{'}) | s, a)$ (13)

4.2. 追逃微分博弈算法设计

为了估计第三节中提到的纳什均衡，本文提出了一种基于SAC算法的多智能体强化学习方法。它采用了在最先进的多智能体强化学习算法中广泛使用的中心化训练和去中心化决策(centralized training with decentralized execution, CTDE)策略，定义MDP状态空间与动作空间，设计回报函数，从而实现智能无人机的控制算法，用以对无人机进行导航。

MASAC (Multi-Agent Soft Actor-Critic)算法结合了自动化最大熵框架和多智能体深度确定性策略梯度(MADDPG)框架，具有强大的探索能力。多智能体柔性执行者–评论家(MASAC)算法是在单智能体SAC (Soft Actor-Critic)算法的基础上，为适应多智能体场景而设计的一种强化学习算法。MASAC结合了中心化训练与去中心化执行(Centralized Training with Decentralized Execution, CTDE)的策略，能够有效处理多智能体协作与竞争问题。

MASAC算法采用中心化训练的策略，通过共享全局信息来增强智能体间的交互效率。每个智能体的Critic网络在训练过程中可以访问所有智能体的全局状态和动作，从而更准确地评估动作的价值函数。同时，采用去中心化的策略优化方式。在执行阶段，每个智能体只能基于自身的观测值 $o_{i}$ 来决策动作，这与现实场景中的信息不完全特性相符。

4.2.1. 状态空间和动作空间

根据第二节的系统运动学，给出追逐者和逃避者的二维动作空间 $A_{i}$ ：

$A_{i} = {[\begin{matrix} v_{i} & u_{i} \end{matrix}]}^{T}$ (14)

为了更接近实际的无人机导航系统，本文同时考虑线速度与角速度，并根据第二节中式(5)构建的相对坐标定义状态空间 $S$ 如下：

$S = {[\begin{matrix} σ_{p} & σ_{e} \end{matrix}]}^{T} = {[\begin{matrix} d & δ_{p} & δ_{e} \end{matrix}]}^{T}$ (15)

CTDE算法的应用场景通常可以被建模为一个部分可观测马尔可夫博弈(partially observable Markov games)，用 $S$ 代表多个智能体所有可能的状态空间，这是全局的信息。对于不同的智能体拥有不同的观测空间 $O_{i}$ ：

$O_{i} = {[σ_{i}]}^{T} = {[\begin{matrix} d & δ_{i} \end{matrix}]}^{T}$ (16)

其中 $d = \sqrt{{(x_{e} - x_{p})}^{2} + {(y_{e} - y_{p})}^{2}}$ ，表示追逐者和逃避者之间的距离， $δ_{i} = φ - θ_{i}$ 为相对航向角，

$φ = \arctan (\frac{y_{e} - y_{p}}{x_{e} - x_{p}})$ 指逃避者与追逐者之间的视线角， $θ_{i}$ 是速度方向角， $i \in {p, e}$ 。追逐者和逃避者的可

观测信息主要来源于其传感器和通信设备的局限性，对追逃双方而言仅可观测自身的速度和航向角以及与对方的相对位置，而无法直接观测到对方的速度和航向角，不完全信息使得追逐者和逃避者的策略更具有随机性和动态适应性，能够更真实地模拟无人机的对抗场景。

4.2.2. 奖励函数

强化学习利用奖励来估计期望收益，得到最优策略。奖励函数的设置与训练结果的质量密切相关。一种简单的方法是基于结果设置稀疏奖励，也就是说，每个回合只根据任务是否完成给出正负奖励。该方法的优点是适用性强，可用于各种环境模型，缺点是只在每回合结束时更新网络，收敛速度较慢，算法容易陷入局部最优值进行随机探索。

为了提高效率和实用性，设计了一种非稀疏奖励来指导无人机在特殊应用环境下的跟踪和躲避，该奖励包括目标奖励和终端奖励。本文使用的是基于距离变化率的目标奖励，该奖励在目标跟踪问题上具有较好的性能，具体表示如下：

$r_{t a r g e t} = - \frac{\dot{d}}{v_{p \max} + v_{e \max}}$ (17)

该奖励的物理意义在于，无论无人机在哪里，只要在接近目标，就可以获得更高的奖励。 $r_{t a r g e t}$ 是引导无人机飞向目标的最重要奖励。

终端奖励与任务的成功与否有关，其设计为：

$r_{t e r m i n a l} = {\begin{matrix} \begin{matrix} 500, & if & d \leq l_{c a p t u r e} \end{matrix} \\ \begin{matrix} 0, & else \end{matrix} \end{matrix}$ (18)

$r_{t e r m i n a l}$ 是一种稀疏奖励，其物理意义在于，无论无人机在往哪个方向飞行，只要完成任务，就能获得较高的奖励。

根据上述定义，追逐者与逃避者的奖励函数可表示为：

$R_{p} = r_{t a r g e t} + r_{t e r m i n a l}$ (19)

$R_{e} = - r_{t a r g e t} - r_{t e r m i n a l}$ (20)

由此构建的奖励函数保证了多智能体强化学习方法在追逃微分博弈问题中搜索纳什均衡策略。

4.2.3. 算法流程

传统的强化学习方法由于对超参数的敏感性明显等缺陷，在无人机导航中应用存在实际困难。SAC (Soft Actor-Critic)算法结合了Actor-Critic方法、随机策略和最大熵学习框架，旨在开发智能且可部署的自学习控制方法，在连续动作空间的多种任务中表现出先进的性能。不同于其他强化学习算法，SAC的目标函数不仅追求累计奖励的最大化，还通过引入熵正则项以平衡策略的探索与利用。目标函数定义为：

$J (π) = \sum_{t} Ε_{s_{t}, a_{t} ~ π} [r (s_{t}, a_{t}) + α Η (π (\cdot | s_{t}))]$ (21)

其中， $r (s_{t}, a_{t})$ 表示即时奖励， $Η (π (\cdot | s_{t}))$ 指策略的熵是用于衡量策略随机性的一个量化指标，熵值越高，表示策略的随机性越强，智能体在选择动作时分布更加均匀，熵值越低，表示策略更加确定，智能体倾向于选择特定的动作，SAC中通常假设策略分布为高斯分布，因此，熵可显式计算为：

$H (π (a | s)) = \frac{1}{2} \log (2 π e σ^{2})$ ， $α$ 是权衡奖励与熵的系数。熵正则项鼓励智能体选择具有更大随机性的策略，从而避免策略陷入局部最优。

MASAC通过中心化的Critic网络实现全局信息共享，使训练更加稳定，即所有智能体的Q函数均能获得全局状态信息，以满足强化学习中的一个关键假设：环境对所有智能体都是稳定的。然而，策略函数只能获得部分信息，这些信息由各自的策略函数通过自身观察获得。它们的输出为高斯分布，具有均值和方差，用于生成随机策略样本，从而适应复杂动态场景。通过这样的设计，MASAC在处理多智能体系统时能够有效地进行学习和决策，使其在实际应用中具备较高的鲁棒性和适应性。MASAC算法的网络结构如图3所示。

MASAC算法是基于SAC算法的多智能体算法，因此它同样采用了AC (Actor-Critic)的框架，即每个智能体有两种神经网络，分别是Actor网络与Critic网络，Actor网络用于得到策略，Critic网络用于评估策略。本文中采用经典的SAC算法中Critic网络的设置，对于每个智能体设置两个Q值网络与两个目标Q值网络，这种框架能显著提高训练速度并使迭代过程更加稳定。对于每个智能体，Q值网络损失函数的计算公式如下：

$C r i t i c L o s s_{j} = \frac{1}{| B |} {\sum_{(s, a, r, s^{'}) \in B} (Q_{ω_{j}} (s, a) - Q^{'} (r, s^{'}))}^{2}, for j = 1, 2$ (22)

其中 $Q_{ω_{j}} (s, a)$ 是第 $j$ 个Q值网络对状态 $s$ 和动作 $a$ 的Q值公式， $Q^{'} (r, s^{'})$ 是目标Q值，通过以下公式计算得到：

$Q^{'} (r, s^{'}) = r + (\min_{j = 1, 2} Q_{ω_{j}^{t a r g e t}} (s^{'}, {\tilde{a}}^{'}) - α \log π_{θ^{t a r g e t}} ({\tilde{a}}^{'} | s^{'})), {\tilde{a}}^{'} \sim π_{θ^{t a r g e t}} (\cdot | s^{'})$ (23)

其中 ${\tilde{a}}^{'} \sim π_{θ^{t a r g e t}} (\cdot | s^{'})$ 表示通过对目标策略网络 $π_{θ^{t a r g e t}}$ 在状态 $s^{'}$ 进行重采样得到动作 ${\tilde{a}}^{'}$ ， $Q_{ω_{i}^{t a r g e t}} (s^{'}, {\tilde{a}}^{'})$ 表示目标Q值网络。本文采用双网络结构，将较小的目标Q值网络用来估计Q值，以缓解深度强化学习中自举(bootstrapping)所造成的偏差的传播。

Figure 3. MASAC network structure diagram

图3. MASAC网络结构图

Actor网络中包含一个策略网络和一个目标策略网络，策略网络通过从环境获取的状态信息来确定动作策略，策略网络中损失函数的计算公式如下：

$A c t o r L o s s = \frac{1}{| B |} \sum_{s \in B} (α \log π_{θ} (\tilde{a} | s) - \min_{j = 1, 2} Q_{ω_{j}} (s, \tilde{a}))$ (24)

最后，采用延迟更新的方式更新目标Q值网络与目标策略网络：

$ω_{j}^{t a r g e t} \leftarrow τ ω_{j} + (1 - τ) ω_{j}^{t a r g e t} ， j = 1, 2$ (25)

$θ^{t a r g e t} \leftarrow τ θ + (1 - τ) θ^{t a r g e t}$ (26)

MASAC算法的训练流程如表1所示。

Table 1. MASAC algorithm training process

表1. MASAC算法训练流程

MASAC算法训练流程
1:	对于每个智能体初始化Critic网络 $Q_{ω_{1}} (s, a)$ ， $Q_{ω_{2}} (s, a)$ 和Actor网络 $π_{θ} (s)$
2:	对于每个智能体复制相同的参数 $ω_{1}^{t a r g e t} \leftarrow ω_{1}, ω_{2}^{t a r g e t} \leftarrow ω_{2}, θ^{t a r g e t} \leftarrow θ$ ，分别初始化目标网络 $Q_{ω_{1}^{t a r g e t}}, Q_{ω_{2}^{t a r g e t}}, π_{θ^{t a r g e t}}$
3:	初始化经验池D
4:	for $episode = 1 \to M$ do
5:	获取环境的初始状态 $s$
6:	for $t = 1 \to T$ do
7:	对于当前智能体i，用当前的策略选择一个动作 $a_{i} \sim π_{θ}^{i} (\cdot \| o_{i})$
8:	执行动作 $a = (a_{p}, a_{e})$ 并获得奖励r和新的状态 $s^{'}$
9:	将样本 $(s, a, r, s^{'})$ 储存到经验池 $D$ 中
10:	从经验池中随机抽取 $B$ 批量样本 $(s, a, r, s^{'})$
11:	对于每个智能体，计算目标Q值： $Q^{i} = r + (\min_{j = 1, 2} Q_{_{ω_{j}^{t a r g e t}}}^{i} ({o^{'}}_{i}, {\tilde{a}}^{'}_{i}) - α^{i} \log π_{_{θ_{j}^{t a r g e t}}}^{i} ({\tilde{a}}^{'}_{i} \| {o^{'}}_{i}))$ ，其中 ${\tilde{a}}_{i}^{'} \sim π_{_{θ_{j}^{t a r g e t}}}^{i} ({\tilde{a}}^{'}_{i} \| {o^{'}}_{i})$
12:	对于每个智能体i的两个Q值网络都根据以下损失函数进行更新： $C r i t i c L o s s_{j} = \frac{1}{\| B \|} {\sum_{(s, a, r, s^{'}) \in B} (Q_{_{ω_{j}}}^{i} (o_{i}, a) - Q^{i} (r, {o^{'}}_{i}))}^{2}, for j = 1, 2$
13:	对于每个智能体，用重参数化技巧采样动作，并用以下损失函数更新当前策略网络： $A c t o r L o s s = \frac{1}{\| B \|} \sum_{o_{i} \in B} (α^{i} \log π_{_{θ}}^{i} ({\tilde{a}}_{i} \| o_{i}) - \min_{j = 1, 2} Q_{ω_{j}} (o_{i}, {\tilde{a}}_{i}))$
14:	对于每个智能体更新目标网络： $θ^{t a r g e t} \leftarrow τ θ + (1 - τ) θ^{t a r g e t}$ , $ω_{j}^{t a r g e t} \leftarrow τ ω_{j} + (1 - τ) ω_{j}^{t a r g e t} ， j = 1, 2$
15:	end for
16:	end for

5. 仿真结果

5.1. 仿真平台及参数设置

本文算法程序基于Python语言进行编程，以深度学习框架Pytorch为基础，算法中的Critic网络与Actor网络均采用两个全连接层的架构，每个全连接层均含有128个节点，并由Relu函数进行激活。其他超参数设置如表2所示。

Table 2. Simulation hyper-parameters setting

表2. 仿真超参数设置

超参数	值
折扣因子γ	0.99
Critic网络学习率	0.001
Actor网络学习率	0.0001
延迟更新系数τ	0.01
批量大小	32
经验池大小	100,000
训练回合数	1000

当追逐者捕捉到逃避者或时间步长达到500步时，一个回合结束，当经验池数量达到2000时开始训练，训练的初始条件如表3所示。

Table 3. Initial conditions of simulation

表3. 仿真初始条件

参数	值
追逐者初始位置	(0, 0)
追逐者最大速度 $v_{p \max}$	2
追逐者最小转弯半径 $r a d_{p}$	1.5
追逐者初始速度方向 $θ_{p}$	随机
逃避者初始位置	(0, 5)
逃避者最大速度 $v_{e \max}$	1
逃避者最小转弯半径 $r a d_{e}$	1
逃避者初始速度方向 $θ_{e}$	随机
捕获半径 $l_{c a p t u r e}$	0.4

5.2. 仿真结果分析

在训练阶段，追逐者和逃避者用两个独立的网络同时进行训练。追逃微分博弈是一个零和博弈，因此追逐者和逃避者的回报是相反的。图4显示了在训练过程中追逐者和逃避者的总奖励。可以看到，在大约50回合之后，两个智能体的总报酬趋于稳定。图5显示了第20回合时追逐者和逃避者的路径。追逐者的初始坐标为(0, 0)，逃避者的初始坐标为(0, 5)。可以看出，追逐者虽未能捕获逃避者，但已学会如何接近逃避者，同时逃避者也已学会利用自身的机动优势摆脱追逐者的追击。图6显示了在1000回合之后，最优策略下的追逐者和逃避者的路径。追逐者比逃避者有优势，使得追逐者可以直接捕获逃避者。路径的变化表明，随着训练回合数的增加，跟踪者学会了控制策略。可以看出，随着训练的进行，追逐者的捕获成功率逐渐提高，逃避者的策略则更多利用不完全信息实现更灵活的逃脱，这些行为表明MASAC逐步收敛到具有实际意义的策略。

Figure 4. Return function in training

图4. 训练中的回报函数

Figure 5. The path of chaser and evader in the 20th round

图5. 第20回合追逐者和逃避者的路径

Figure 6. The path of chaser and evader under optimal strategy

图6. 最优策略下追逐者和逃避者的路径

为了验证本文算法的适应性，在测试时将逃避者的初始位置进行修改，使其在一定的范围内随机分布，并进行100次测试评估。图7显示了这100次测试时追逃双方的总奖励值，图8显示了最后一次追逃双方无人机的运行轨迹。由图7可以看出，这100次测试评估中，追逐者无人机均能成功捕获逃避者无人机，由此可表明本文算法具有较强的适应性。

Figure 7. Return function in texting

图7. 测试中的回报函数

Figure 8. The path of chaser and evader in the test

图8. 测试中追逐者和逃避者的路径

6. 结论

本文面向不完全信息下的平面1追1追逃博弈场景进行研究与分析，创新性地提出了一种基于SAC算法的改进多智能体强化学习算法，该算法通过对博弈场景进行建模，并基于距离的变化率设计奖励函数与支付函数，利用MASAC算法进行中心化训练，得到追逐者无人机和逃避者无人机各自的最优混合策略参数。仿真结果表明，该方法能完成无人机在不完全信息下的追逃博弈，且具有较强的泛化适应能力，有效的实现了博弈的目的，为求解不完全信息的微分博弈提供了一定的参考意义。尽管MASAC算法在多智能体任务中表现优异，但在实际应用中仍存在以下局限性：由于要训练多个网络，对计算资源要求较高；MASAC的收敛速度受超参数的影响较大，需根据具体任务调整；模型对观测值质量的依赖较高，当观测噪声较大或信息严重丢失时，算法性能可能显著下降。

基金项目

本文由国家自然科学基金项目(72171126)，青岛大学“系统科学+”联合攻关项目(XT2024301)支持。

参考文献

[1]	Isaacs, R. (1965) Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization. John Wiley and Sons.
[2]	Weintraub, I.E., Pachter, M. and Garcia, E. (2020) An Introduction to Pursuit-Evasion Differential Games. 2020 American Control Conference (ACC), Denver, 1-3 July 2020, 1049-1066. https://doi.org/10.23919/acc45564.2020.9147205
[3]	Garcia, E., Fuchs, Z.E., Milutinovic, D., Casbeer, D.W. and Pachter, M. (2017) A Geometric Approach for the Cooperative Two-Pursuer One-Evader Differential Game. IFAC-PapersOnLine, 50, 15209-15214. https://doi.org/10.1016/j.ifacol.2017.08.2366
[4]	杨傅云翔, 杨乐平, 朱彦伟, 等. 航天器轨道追逃态势分析的水平集方法[J]. 国防科技大学学报, 2024, 46(3): 30-38.
[5]	Wang, Q., Wu, K., Ye, J., Wu, Y. and Xue, L. (2022) Apollonius Partitions Based Pursuit-Evasion Game Strategies by Q-Learning Approach. 2022 41st Chinese Control Conference (CCC), Hefei, 25-27 July 2022, 4843-4848. https://doi.org/10.23919/ccc55666.2022.9902778
[6]	刘菁, 华翔, 张金金. 一种改进博弈学习的无人机集群协同围捕方法[J]. 西安工业大学学报, 2023, 43(3): 277-286.
[7]	谭浪, 巩庆海, 王会霞. 基于深度强化学习的追逃博弈算法[J]. 航天控制, 2018, 36(6): 3-8, 19.
[8]	Wang, M., Wang, L. and Yue, T. (2019) An Application of Continuous Deep Reinforcement Learning Approach to Pursuit-Evasion Differential Game. 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC), Chengdu, 15-17 March 2019, 1150-1156. https://doi.org/10.1109/itnec.2019.8729310
[9]	郭万春, 解武杰, 尹晖, 等. 基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策[J]. 空军工程大学学报(自然科学版), 2021, 22(4): 15-21.
[10]	Yuan, L., Zhang, Z., Li, L., et al. (2023) A Survey of Progress on Cooperative Multi-Agent Reinforcement Learning in Open Environment. arXiv: 2312.01058.
[11]	Gronauer, S. and Diepold, K. (2021) Multi-Agent Deep Reinforcement Learning: A Survey. Artificial Intelligence Review, 55, 895-943. https://doi.org/10.1007/s10462-021-09996-w
[12]	许旭升, 党朝辉, 宋斌, 等. 基于多智能体强化学习的轨道追逃博弈方法[J]. 上海航天(中英文), 2022, 39(2): 24-31.
[13]	Li, S., Wu, Y., Cui, X., Dong, H., Fang, F. and Russell, S. (2019) Robust Multi-Agent Reinforcement Learning via Minimax Deep Deterministic Policy Gradient. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 4213-4220. https://doi.org/10.1609/aaai.v33i01.33014213
[14]	Haarnoja, T., Zhou, A., Hartikainen, K., et al. (2018) Soft Actor-Critic Algorithms and Applications. arXiv: 1812.05905.

为你推荐

友情链接