保守策略梯度与策略改进

doi:10.12677/pm.2025.152062

期刊菜单

保守策略梯度与策略改进
Conservative Policy Gradient and Policy Improvement

DOI: 10.12677/pm.2025.152062, PDF, HTML, XML,
作者: 黄儒泽：青岛大学数学与统计学院，山东青岛
关键词: 双人非合作马尔可夫博弈；保守策略；策略梯度；策略改进；Two-Player Non-Cooperative Markov Game； Conservative Policy； Policy Gradient； Policy Improvement

摘要: 本文在双人非合作马尔科夫博弈模型下，引入了一种策略度量指标，将保守策略推广到了双智能体情形，给出了一种保守策略梯度和策略改进的条件。这为双人非合作博弈中寻找保守策略下的纳什均衡提供了一定基础和改进方向。

Abstract: In this paper, a policy metric is introduced under the two-player non-cooperative Markov game model, which generalizes the conservative policy to the two-agent case, and gives a conservative policy gradient and the conditions for policy improvement. This provides a certain foundation and improvement direction for finding Nash equilibrium under policy in two-player non-cooperative game.

文章引用：黄儒泽. 保守策略梯度与策略改进[J]. 理论数学, 2025, 15(2): 218-226. https://doi.org/10.12677/pm.2025.152062

1. 引言

强化学习(RL)已取得了有希望的实证进展，包括掌握围棋博弈[1]，扑克博弈[2]，实时策略博弈[3]，和机器人控制[4]，值得注意的是，其中许多成功都属于多智能体强化学习(MARL)领域。MARL是关于在共享环境中交互的多个智能体，每个智能体都旨在最大化自己的长期奖励。在学习过程中，每个智能体不仅需要识别环境动态，还需要与其他智能体竞争/合作。

MARL的一个重要子领域是非合作下的多智能体博弈。随机博弈(SG)已用于对多智能体系统进行建模。然而，大多数现有工作考虑了完全合作的情景[5]或代理之间可以进行特定通信的设置。考虑到自动驾驶汽车等系统及其与行人的交互，很明显，一些多智能体系统是部分合作的，甚至是竞争性的，在许多情况下，智能体之间无法建立通信连接。更重要的是，在这些系统中，智能体选择他们的策略时知道其他智能体也以相同的意识水平选择他们的策略。

另外，大多数工作考虑了非合作的一种特例–零和博弈[6]-[8]，然而在很多场景也存在一些非合作的情况，因此本文考虑了双人非合作马尔科夫博弈模型，在该模型下，给出了价值函数定义，策略度量指标，并给出保守策略梯度和梯度改进条件，为进一步寻找保守策略下的纳什均衡提供了一定的方向。

在双人非合作马尔科夫博弈中，两个智能体通过各自的策略在动态系统中相互作用，其目标是最大化各自的长期累积收益。该模型广泛应用于复杂系统中的决策优化问题，例如市场竞争中的资源分配、智能交通中的车辆协同控制，以及网络对抗中的安全策略制定。

2. 模型描述与预备知识

博弈论可以分为合作博弈和非合作博弈。合作博弈从决策者策略互动可能的结果出发，并规定一个合适的“解”所应满足的性质——特别是对决策者联盟(coalition)具有如“稳定”或“公平”的性质，从而预测博弈结果，决策者之间交流协商，寻求合作。非合作博弈注重从单个决策者的策略选择出发，详细规定各决策者策略互动的过程和影响，一般通过均衡概念把个体最优化决策加总，从而预测博弈结果，决策者之间互不交流单独决策，但对均衡有一致预期。

2.1. 双人非合作马尔可夫博弈

双人非合作马尔科夫博弈是一种在不完全信息和动态环境中进行决策的模型。在这一模型中，两个参与者在每个时间点根据当前状态选择策略，旨在最大化各自的收益。与传统博弈论不同，马尔科夫博弈考虑了状态的转移概率，这使得博弈的结果不仅依赖于当前的策略选择，还受到历史状态的影响。

双人非合作马尔可夫博弈(TNCMG)将单智能体马尔可夫决策过程(MDP)推广到双智能体情况。在本文中，我们考虑了一个有限视野折扣的双人非合作马尔可夫博弈，并介绍了其正式定义，如下所示。

定义1. 一个有限视野的双人非合作马尔可夫博弈由以下元组定义：

$ℳ = {N, S, A, ℬ, T, P, {r^{i}}_{i \in N}, γ}$

$N$ ：玩家集合 ${1, 2}$ 。
$S$ ：两个玩家共享环境的状态集合。
$A$ ：第一个玩家的动作集合。
$ℬ$ ：第二个玩家的动作集合。
T：视野长度。
${0, 1, \dots, T - 1}$ ：决策时刻集合，表示必须做出决策的时间点集合。当上下文明确时，我们可以将其写作 $[T]$ 。
$P = (P_{0}, P_{1}, \dots, P_{T - 1})$ ：转移模型，其中 $P_{t} : S \times A \times ℬ \to Δ (S), \forall t \in [T]$ 表示时间步t的(未知的)转移概率矩阵。
$r^{i} = (r_{0}^{i}, r_{1}^{i}, \dots, r_{T - 1}^{i}), r_{t}^{i} : S \times A \times ℬ \to [0, 1], \forall t \in [T]$ 表示(未知的)确定性奖励函数，它会为第i个玩家返回一个标量值。
$γ \in [0, 1)$ ：表示折扣因子，它决定了未来奖励的现值。

本文关注的是状态空间 $| S |$ ，动作空间 $| A |, | ℬ |$ 和时间长度T都是有限的情况。在这个背景下，这个博弈可以按顺序描述如下：在每个时间步t，环境处于状态 $s_{t}$ ，两个玩家同时执行他们的动作，这些动作随后都被双方知晓。如果第一个玩家在时间步t选择动作 $a_{t}$ ，第二个玩家选择 $b_{t}$ ，那么两个玩家的联合动作会使环境转移到下一个状态 $s_{t + 1} ~ P_{t} (\cdot | s_{t}, a_{t}, b_{t})$ ，同时环境会为每个玩家确定一个即时奖励 $r_{t}^{i} (s_{t}, a_{t}, b_{t})$ 。

定义2. 在TNCMG中，一个策略由 $π = (μ, ν)$ 定义，其中

$μ : = (μ_{0}, μ_{1}, \dots, μ_{T - 1}), μ_{t} : S \to Δ (A), \forall t \in [T]$ 是第一个玩家的策略，其中 $Δ (A)$ 是动作集 $A$ 上的概率单纯形。
$ν : = (ν_{0}, ν_{1}, \dots, ν_{T - 1}), ν_{t} : S \to Δ (ℬ), \forall t \in [T]$ 是第二个玩家的策略，其中 $Δ (ℬ)$ 是动作集 $ℬ$ 上的概率单纯形。其中 $μ_{t} (\cdot)$ 和 $ν_{t} (\cdot)$ 通常被称为决策规则(decision rules)。

定义3 [9]. 策略 $π$ 在马尔可夫过程 $ℳ$ 及初始状态为 $s_{0}$ 的情况下，会生成一个关于序列

$τ = (s_{0}, a_{0}, b_{0}, r_{0}^{1}, r_{0}^{2}, \dots, s_{T - 1}, a_{T - 1}, b_{T - 1}, r_{T - 1}^{1}, r_{T - 1}^{2}, s_{T})$

的概率分布：

$\Pr (τ | π, s_{0}, ℳ) : = π_{0} (a_{0}, b_{0} | s_{0}) \prod_{t = 0}^{T - 2} P_{t} (s_{t + 1} | s_{t}, a_{t}, b_{t}) π_{t + 1} (a_{t + 1}, b_{t + 1} | s_{t + 1}) \times P_{T - 1} (s_{T} | s_{T - 1}, a_{T - 1}, b_{T - 1})$

其中 $π_{t} (a_{t}, b_{t} | s_{t}) = μ_{t} (a_{t} | s_{t}) ν_{t} (b_{t} | s_{t})$ 。

类似地，对于序列 $τ_{t} = (s_{t}, a_{t}, b_{t}, \dots, s_{T - 1}, a_{T - 1}, b_{T - 1}, s_{T})$ 的概率分布可定义为：

$\Pr (τ_{t} | π, s_{t}, ℳ) : = π_{t} (a_{t}, b_{t} | s_{t}) \prod_{ι = t}^{T - 2} P_{ι} (s_{ι + 1} | s_{ι}, a_{ι}, b_{ι}) π_{ι + 1} (a_{ι + 1}, b_{ι + 1} | s_{ι + 1}) \times P_{T - 1} (s_{T} | s_{T - 1}, a_{T - 1}, b_{T - 1})$

定义4. 设 $ℳ$ 是一个视野长度为T的TNCMG，t是 $ℳ$ 中的时间步，对于与 $ℳ$ 相关的策略 $π = (μ, ν)$ ，第i个玩家( $i \in N$ )的t时刻的状态价值函数 $V_{π, t, ℳ}^{i} (s)$ 和状态–动作价值函数 $Q_{π, t, ℳ}^{i} (s, a, b)$ 定义分别如下：

$V_{π, t, ℳ}^{i} (s) : = (1 - γ) E_{(s_{t}, a_{t}, b_{t}, \dots, s_{T}) ~ \Pr (\cdot | π, s_{t} = s, ℳ)} [\sum_{ι = t}^{T - 1} γ^{ι - t} r_{ι}^{i} (s_{ι}, a_{ι}, b_{ι})]$ (2.1)

$Q_{π, t, ℳ}^{i} (s, a, b) : = (1 - γ) r_{t}^{i} (s, a, b) + γ E_{s^{'} ~ P_{t} (\cdot | s, a, b)} [V_{π, t + 1, ℳ}^{i} (s^{'})]$ (2.2)

容易验证 $V_{π, t, ℳ}^{i} (s) = E_{(a, b) ~ π_{t} (\cdot | s)} [Q_{π, t, ℳ}^{i} (s, a, b)]$ 。当上下文明确 $ℳ$ 时，我们可以省略。有关价值函数和根据上述概率分布的事件的更多详细信息，请参阅文献[10]和[11]。

定义5. 设 $ℳ, t, π$ 的定义与上述相同。对于第i个玩家，策略 $π$ 关于状态–动作 $(s, a, b)$ 在时间步长t的优势函数 $A_{π, t}^{i} (s, a, b)$ 定义如下：

$A_{π, t}^{i} (s, a, b) : = Q_{π, t}^{i} (s, a, b) - V_{π, t}^{i} (s), i \in N .$ (2.3)

注：基于上述价值函数的定义可以知道，优势函数 $A_{π, t}^{i} (s, a, b) \in [0, 1]$ 。此外，它反映了一个动作对相对于其他动作对的相对优势。

2.2. 策略度量指标

对于任意状态分布 $ρ = (ρ_{0}, ρ_{1}, \dots, ρ_{T - 1})$ ，其中 $ρ_{t} \in Δ (S)$ ，我们引入以下定义：

定义6. 设 $ℳ, t, π$ 的定义与上述相同，对于每个玩家 $i \in N$ ，称

$V_{π, t}^{i} (ρ) : = E_{s ~ ρ_{t}} [V_{π, t}^{i} (s)]$ (2.4)

为状态分布 $ρ$ 下的平均价值函数。

如果一个策略被表示为一个函数，则通常使用 $V_{π, 0}^{i} (ρ)$ 来衡量策略的优劣。该策略度量指标可用于量化和比较不同策略的有效性。通过计算不同策略下的平均价值函数，可以比较各策略的效果，从而选择最优策略。在智能体学习过程中，策略度量指标用于评估和改进学习策略，以最大化长期回报。通过计算平均价值函数，玩家能够更好地理解在特定状态分布下策略的表现，从而做出更明智的决策。总的来说，策略度量指标有助于量化和比较策略效果，为玩家提供决策依据，在博弈论和强化学习中都有广泛应用。因此，本文采用该指标来衡量保守策略的效果。当上下文清楚时，将其简写为 $V_{π}^{i} (ρ)$ 。

3. 保守策略下的策略梯度与策略改进

本节将在[11]的基础上，将单人的保守策略推广到TNCMG中，并给出保守策略梯度和这种策略下的策略改进的条件。

3.1. 保守策略

我们的目标是基于分布 $ρ$ 优化策略，并使用性能指标 $V_{π} (ρ)$ 。考虑到我们是在双人非合作博弈，我们希望避免对新策略 $π^{'}$ 进行贪婪更新，因为这可能会导致价值的严重高估。因此，我们通过采用更保守的更新规则来抑制该指标。

$\begin{array}{l} μ_{new} (a | s, α) = (1 - α) μ (a | s) + α μ^{'} (a | s), \\ ν_{new} (b | s, β) = (1 - β) ν (b | s) + β ν^{'} (b | s), \end{array}$ (3.1)

其中 $π^{'} = (μ^{'}, ν^{'})$ ， $α, β \in [0, 1]$ 。

注：类似于[3]中的方法，TNCMG在每次迭代中也将策略更新为先前策略和贪婪策略之间的混合分布。

3.2. 策略梯度

下面考虑关于参数 $α, β$ 的策略梯度。

引理1. 在定义4的前提下，对于 $i \in N$ ，有

$V_{π, t, ℳ}^{i} (s) = E_{(a, b) ~ π_{t} (\cdot | s)} [Q_{π, t, ℳ}^{i} (s, a, b)]$ (3.2)

证明：对于 $(s, a, b) \in S \times A \times ℬ$ ，有

$\begin{array}{l} E_{(a, b) ~ π_{t} (\cdot | s)} [Q_{π, t, ℳ}^{i} (s, a, b)] \\ = E_{(a, b) ~ π_{t} (\cdot | s)} [(1 - γ) r_{t}^{i} (s, a, b) + γ E_{s^{'} ~ P_{t} (\cdot | s, a, b)} [V_{π, t + 1, ℳ}^{i} (s^{'})]] \\ = (1 - γ) E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] + γ E_{(a, b) ~ π_{t} (\cdot | s)} E_{s^{'} ~ P_{t} (\cdot | s, a, b)} [V_{π, t + 1, ℳ}^{i} (s^{'})] \\ = E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] + γ E_{(a, b) ~ π_{t} (\cdot | s)} E_{s^{'} ~ P_{t} (\cdot | s, a, b)} [V_{π, t + 1, ℳ}^{i} (s^{'})] - γ E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] \\ = γ E_{(a, b) ~ π_{t} (\cdot | s)} E_{s^{'} ~ P_{t} (\cdot | s, a, b)} [(1 - γ) E_{(s_{t + 1}, a_{t + 1}, b_{t + 1}, \dots, s_{T}) ~ \Pr (\cdot | π, s_{t + 1} = s^{'})} (\sum_{ι = t + 1}^{T - 1} γ^{ι - (t + 1)} r_{ι}^{i})] \\ + E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] - γ E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] \\ = E_{(s_{t}, a_{t}, b_{t}, \dots, s_{T}) ~ \Pr (\cdot | π, s_{t} = s)} (\sum_{ι = t + 1}^{T - 1} γ^{ι - t} r_{ι}^{i}) - E_{(s_{t}, a_{t}, b_{t}, \dots, s_{T}) ~ \Pr (\cdot | π, s_{t} = s)} (\sum_{ι = t + 1}^{T - 1} γ^{ι - t + 1} r_{ι}^{i}) \\ + E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] - γ E_{(a, b) ~ π_{t} (\cdot | s)} [r_{t}^{i} (s, a, b)] \\ = E_{(s_{t}, a_{t}, b_{t}, \dots, s_{T}) ~ \Pr (\cdot | π, s_{t} = s)} (\sum_{ι = t}^{T - 1} γ^{ι - t} r_{ι}^{i}) - γ E_{(s_{t}, a_{t}, b_{t}, \dots, s_{T}) ~ \Pr (\cdot | π, s_{t} = s)} (\sum_{ι = t}^{T - 1} γ^{ι - t} r_{ι}^{i}) \\ = V_{π, t, ℳ}^{i} (s) \end{array}$

定理1. 设 $ℳ$ 是一个视野长度为T的TNCMG，t是 $ℳ$ 中的时间步，对于与 $ℳ$ 相关的策略 $π = (μ, ν)$ 和 $π^{'} = (μ^{'}, ν^{'})$ 是与 $ℳ$ 有关的策略。对于 $α, β \in [0, 1]$ ，在更新策略下，有

${\nabla_{α} V_{π_{new}}^{1} (ρ) |}_{α = 0} = A_{(μ, ν_{new})}^{1} (ρ, (μ^{'}, ν_{new}))$ (3.3)

${\nabla_{β} V_{π_{new}}^{2} (ρ) |}_{β = 0} = A_{(μ_{new}, ν)}^{2} (ρ, (μ_{new}, ν^{'}))$ (3.4)

其中

$A_{(μ, ν_{new})}^{1} (ρ, (μ^{'}, ν_{new})) = E_{s_{0} ~ ρ_{0}} {\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | (μ, ν_{new}), s_{0})} E_{(a, b) ~ ({μ^{'}}_{t}, ν_{new, t})} [A_{(μ, ν_{new}), t}^{1} (s, a, b)]}$ (3.5)

$A_{(μ_{new}, ν)}^{2} (ρ, (μ_{new}, ν^{'})) = E_{s_{0} ~ ρ_{0}} {\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | (μ_{new}, ν), s_{0})} E_{(a, b) ~ (μ_{new, t}, {ν^{'}}_{t})} [A_{(μ_{new}, ν), t}^{2} (s, a, b)]}$ (3.6)

证明：首先，根据引理1，对于任意的 $s \in S, t < T$

$\begin{array}{l} E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\nabla_{α} V_{π_{new}, t}^{1} (s)] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\nabla_{α} E_{(a, b) ~ π_{new, t} (\cdot | s, α, β)} [Q_{π_{new}, t}^{1} (s, a, b)]] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} (\nabla_{α} π_{new, t} (a, b | s, α, β)) Q_{π_{new}, t}^{1} (s, a, b) + \sum_{a, b} π_{new, t} (a, b | s, α, β) \nabla_{α} Q_{π_{new}, t}^{1} (s, a, b)] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} (\nabla_{α} μ_{new, t} (a | s, α)) ν_{new, t} (b | s, β) Q_{π_{new}, t}^{1} (s, a, b)] \\ + E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} μ_{new, t} (a | s, α) ν_{new, t} (a | s, α) \nabla_{α} Q_{π_{new}, t}^{1} (s, a, b)] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} (\nabla_{α} μ_{new, t} (a | s, α)) ν_{new, t} (b | s, β) Q_{π_{new}, t}^{1} (s, a, b)] \\ + E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} E_{(a, b) ~ π_{new, t} (\cdot | s, α, β)} [\nabla_{α} ((1 - γ) r_{t}^{1} (s, a, b) + γ E_{s^{'} ~ P_{t} (\cdot | s, a, b)} V_{π_{new}, t + 1}^{1} (s^{'}))] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} (\nabla_{α} μ_{new, t} (a | s, α)) ν_{new, t} (b | s, β) Q_{π_{new}, t}^{1} (s, a, b)] \\ + γ E_{s ~ \Pr (s_{t + 1} = s | π_{new}, s_{0})} [\nabla_{α} V_{π_{new}, t + 1}^{1} (s)] \end{array}$

其次，由于 $\nabla_{α} V_{π_{new}}^{1} (s_{0}) = E_{s ~ \Pr (s_{0} = s | π_{new}, s_{0})} [\nabla_{α} V_{π_{new}}^{1} (s)]$ ，对前面的等式进行递归，并利用 $V_{π, T} = 0$ 对于所有 $π$ ，可以得到

$\nabla_{α} V_{π_{new}}^{1} (s_{0}) = \sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} (\nabla_{α} μ_{new, t} (a | s, α)) ν_{new, t} (b | s, β) Q_{π_{new, t}}^{1} (s, a, b)]$

根据(2.4)，有

$\begin{matrix} \nabla_{α} V_{π_{new}}^{1} (ρ) = E_{s_{0} ~ ρ_{0}} [\nabla_{α} V_{new}^{1} (s_{0})] \\ = E_{s_{o} ~ ρ_{0}} [\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} \sum_{a, b} (\nabla_{α} μ_{new, t} (a | s, α)) ν_{new, t} (b | s, β) Q_{π_{new, t}}^{1} (s, a, b)] \end{matrix}$ (3.7)

根据更新规则(3.1)，有

$\begin{array}{l} {\sum_{a, b} [(\nabla_{α} μ_{new, t} (a | s, α)) ν_{new, t} (b | s, β) Q_{π_{new, t}}^{1} (s, a, b)] |}_{α = 0} \\ = \sum_{a, b} ({μ^{'}}_{t} (a | s) - μ_{t} (a | s)) ν_{new, t} (b | s, β) Q_{(μ, ν_{new}), t}^{1} (s, a, b) \\ = \sum_{a, b} ({μ^{'}}_{t} (a | s) - μ_{t} (a | s)) ν_{new, t} (b | s, β) A_{(μ, ν_{new}), t}^{1} (s, a, b) \\ = E_{(a, b) ~ ({μ^{'}}_{t}, ν_{new, t})} [A_{(μ, ν_{new}), t}^{1} (s, a, b)] \end{array}$ (3.8)

最后，将(3.8)式代入到(3.7)式有

$\begin{array}{l} {\nabla_{α} V_{π_{new}}^{1} (ρ) |}_{α = 0} = E_{s_{0} ~ ρ_{0}} {\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | (μ, ν_{new}), s_{0})} E_{(a, b) ~ ({μ^{'}}_{t}, ν_{new, t})} [A_{(μ, ν_{new}), t}^{1} (s, a, b)]} \\ = E_{s_{0} ~ ρ_{0}} {\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | (μ, ν_{new}), s_{0})} E_{(a, b) ~ ({μ^{'}}_{t}, ν_{new, t})} [A_{(μ, ν_{new}), t}^{1} (s, a, b)]} \\ = A_{(μ, ν_{new})}^{1} (ρ, (μ^{'}, ν_{new})) \end{array}$ (3.9)

类似地，可以证明 ${\nabla_{β} V_{π_{new}}^{2} (ρ) |}_{β = 0} = A_{(μ_{new}, ν)}^{2} (ρ, (μ_{new}, ν^{'}))$ ，为了篇幅限制，证明放在附录。

注：该定理说明，对于玩家1的策略梯度，状态空间上的期望是关于 $(μ, ν_{new})$ 诱导的，而动作空间上的期望是关于策略 $(μ^{'}, ν_{new})$ ，对于玩家2的策略梯度，状态空间上的期望是关于 $(μ_{new}, ν)$ 诱导的，而动作空间上的期望是关于策略 $(μ_{new}, ν^{'})$ 。

3.3. 策略改进

定理2. 在定理1的设定和保守更新策略(3.1)下，如果满足条件：

$A_{(μ, ν_{new})}^{1} (ρ, (μ^{'}, ν_{new})) > 0 and A_{(μ_{new}, ν)}^{2} (ρ, (μ_{new}, ν^{'})) > 0$ (3.10)

则策略 $π_{new}$ 可以在足够小的 $α$ 和 $β$ 下得到改进。

证明：该定理可以由定理1直接得出。

注：该定理说明智能体在足够小的 $α$ 和 $β$ 下可以使得自身的价值函数得到提升，在实际应用中我们一般设置一个比较小的平滑值 $ε$ ，使得

$A_{(μ, ν_{new})}^{1} (ρ, (μ^{'}, ν_{new})), A_{(μ_{new}, ν)}^{2} (ρ, (μ_{new}, ν^{'})) \leq ε$

时停止更新策略。

4. 结论与展望

本文将单智能体下的保守策略方式推广到双智能体，在双人非合作马尔科夫博弈的模型下，引入了策略度量指标，给出了一种保守策略梯度和策略改进条件，给出了双人非合作马尔科夫博弈的一种策略改进方式和方向，为之后寻找纳什均衡奠定了一定的基础和方向，其中关键定理指出，玩家1的策略更新在状态空间上取决于策略 $(μ, ν_{new})$ ，在动作空间上取决于 $(μ^{'}, ν_{new})$ ；玩家2的策略更新在状态空间上取决于策略 $(μ_{new}, ν)$ ，在动作空间上取决于 $(μ_{new}, ν^{'})$ 。另外，由于保守策略不易导致价值函数高估，因此未来的工作将考虑在离线强化学习中的应用，探索在离线强化学习中是否保守策略能有效降低价值函数高估问题，并尝试找出达到纳什均衡所需的样本复杂度。

附录

下面证明 ${\nabla_{β} V_{π_{new}}^{2} (ρ) |}_{β = 0} = A_{(μ_{new, ν})}^{2} (ρ, (μ_{new}, ν^{'}))$

首先，对于任意的 $s \in S, t < T$

$\begin{array}{l} E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\nabla_{β} V_{π_{new}, t}^{2} (s)] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\nabla_{β} E_{(a, b) ~ π_{new, t} (\cdot | s, α, β)} [Q_{π_{new}, t}^{2} (s, a, b)]] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} (\nabla_{β} π_{new, t} (a, b | s, α, β)) Q_{π_{new}, t}^{2} (s, a, b) + \sum_{a, b} π_{new, t} (a, b | s, α, β) \nabla_{β} Q_{π_{new}, t}^{2} (s, a, b)] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} μ_{new, t} (a | s, α) (\nabla_{β} ν_{new, t} (b | s, β)) Q_{π_{new}, t}^{2} (s, a, b)] \\ + E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} μ_{new, t} (a | s, α) ν_{new, t} (a | s, α) \nabla_{β} Q_{π_{new}, t}^{2} (s, a, b)] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} μ_{new, t} (a | s, α) (\nabla_{β} ν_{new, t} (b | s, β)) Q_{π_{new}, t}^{2} (s, a, b)] \\ + E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} E_{(a, b) ~ π_{new, t} (\cdot | s, α, β)} [\nabla_{β} ((1 - γ) r_{t}^{2} (s, a, b) + γ E_{s^{'} ~ P_{t} (\cdot | s, a, b)} V_{π_{new}, t + 1}^{2} (s^{'}))] \\ = E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} μ_{new, t} (a | s, α) (\nabla_{β} ν_{new, t} (b | s, β)) Q_{π_{new}, t}^{2} (s, a, b)] \\ + γ E_{s ~ \Pr (s_{t + 1} = s | π_{new}, s_{0})} [\nabla_{β} V_{π_{new}, t + 1}^{2} (s)] \end{array}$

其次，由于 $\nabla_{β} V_{π_{new}}^{2} (s_{0}) = E_{s ~ \Pr (s_{0} = s | π_{new}, s_{0})} [\nabla_{β} V_{π_{new}}^{2} (s)]$ ，对前面的等式进行递归，并利用 $V_{π, T} = 0$ 对于所有 $π$ ，可以得到

$\nabla_{β} V_{π_{new}}^{2} (s_{0}) = \sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} [\sum_{a, b} μ_{new, t} (a | s, α) (\nabla_{β} ν_{new, t} (b | s, β)) Q_{π_{new, t}}^{2} (s, a, b)]$

根据(2.4)，有

$\begin{matrix} \nabla_{β} V_{π_{new}}^{2} (ρ) = E_{s_{0} ~ ρ_{0}} [\nabla_{β} V_{new}^{2} (s_{0})] \\ = E_{s_{0} ~ ρ_{0}} [\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | π_{new}, s_{0})} \sum_{a, b} μ_{new, t} (a | s, α) \nabla_{β} ν_{new, t} (b | s, β) Q_{π_{new, t}}^{2} (s, a, b)] \end{matrix}$

根据更新规则(3.1)，有

$\begin{array}{l} {\sum_{a, b} [μ_{new, t} (a | s, α) \nabla_{β} ν_{new, t} (b | s, β) Q_{π_{new, t}}^{2} (s, a, b)] |}_{β = 0} \\ = \sum_{a, b} μ_{new, t} (a | s, α) ({ν^{'}}_{t} (b | s) - ν_{t} (b | s)) Q_{(μ_{new}, ν), t}^{2} (s, a, b) \\ = \sum_{a, b} μ_{new, t} (a | s, α) ({ν^{'}}_{t} (b | s) - ν_{t} (b | s)) A_{(μ_{new}, ν), t}^{2} (s, a, b) \\ = E_{(a, b) ~ (μ_{new, t}, {ν^{'}}_{t})} [A_{(μ_{new}, ν), t}^{2} (s, a, b)] \end{array}$

最后，结合上面两个式子可以得到：

$\begin{array}{l} {\nabla_{β} V_{π_{new}}^{2} (ρ) |}_{β = 0} = E_{s_{o} ~ ρ_{0}} {\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | (μ_{new}, ν), s_{0})} E_{(a, b) ~ (μ_{new, t}, {ν^{'}}_{t})} [A_{(μ_{new}, ν), t}^{2} (s, a, b)]} \\ = E_{s_{o} ~ ρ_{0}} {\sum_{t = 0}^{T - 1} γ^{t} E_{s ~ \Pr (s_{t} = s | (μ_{new}, ν), s_{0})} E_{(a, b) ~ (μ_{new, t}, {ν^{'}}_{t})} [A_{(μ_{new}, ν), t}^{2} (s, a, b)]} \\ = A_{(μ_{new}, ν)}^{2} (ρ, (μ_{new}, ν^{'})) \end{array}$

参考文献

[1]	Silver, D., Huang, A., Maddison, C.J., Guez, A., Sifre, L., van den Driessche, G., et al. (2016) Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 529, 484-489. https://doi.org/10.1038/nature16961
[2]	Brown, N. and Sandholm, T. (2017) Libratus: The Superhuman AI for No-Limit Poker. Proceedings of the 26th International Joint Conference on Artificial Intelligence, Melbourne, 19-25 August 2017, 5226-5228. https://doi.org/10.24963/ijcai.2017/772
[3]	Vinyals, O., Babuschkin, I., Chung, J., et al. (2019) Alphastar: Mastering the Real-Time Strategy Game Starcraft II. DeepMind Blog, 2.
[4]	Kober, J., Bagnell, J.A. and Peters, J. (2013) Reinforcement Learning in Robotics: A Survey. The International Journal of Robotics Research, 32, 1238-1274. https://doi.org/10.1177/0278364913495721
[5]	Wei, E. and Luke, S. (2016) Lenient Learning in Independent-Learner Stochastic Cooperative Games. Journal of Machine Learning Research, 17, 1-42.
[6]	Cui, Q.W. and Du, S.S. (2022) When Are Offline Two-Player Zero-Sum Markov Games Solvable? 36th Conference on Neural Information Processing Systems (NeurIPS 2022), New Orleans, 28 November-9 December 2022, 25779-25791.
[7]	Yan, Y., Li, G., Chen, Y. and Fan, J. (2024) Model-Based Reinforcement Learning for Offline Zero-Sum Markov Games. Operations Research, 72, 2430-2445. https://doi.org/10.1287/opre.2022.0342
[8]	Sayin, M., et al. (2021) Decentralized Q-Learning in Zero-Sum Markov Games. 35th Conference on Neural Information Processing Systems (NeurIPS 2021), 6-14 December 2021, 18320-18334.
[9]	Yang, Y.D. and Wang, J. (2020) An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective.
[10]	Puterman, M.L. (2014) Markov Decision Processes: Discrete Stochastic Dynamic Programming. John Wiley & Sons.
[11]	Kakade, S.M. (2003) On the Sample Complexity of Reinforcement Learning. University of London, University College London.

为你推荐

友情链接