1. 引言
二人零和微分博弈研究涉及微分方程驱动的系统中的冲突问题 [1] 。这种类型的博弈经常涉及到追捕–逃避博弈,其中一方(通常是追捕者)试图在尽可能短的时间内将另一方(逃避者)引导到一个特定的目标位置,这类问题在航空航天等领域中经常出现 [2] 。另一个例子是带有干扰的最优控制问题,其中第二个参与者被视为干扰源,控制器必须努力优化系统的性能,同时考虑到干扰的存在。这种情况下,通常需要研究最坏情况设计,以确保系统在最不利的情况下仍然能够正常运行 [3] ,在经济学文献中,这种情况有时也被称为奈特氏不确定性 [4] 。
对于连续时间线性系统,解决线性二次零和微分博弈问题通常需要求解广义博弈代数里卡提方程 [1] 。通过将克莱曼算法扩展到连续时间线性双人零和博弈中 [5] ,可以近似地离线求解博弈问题。在过去的研究中,一些学者采用了不同的方法来解决这个问题。Lewis和Feng等人在处理第一个控制器(即第一个玩家的动作)时使用了带有迭代的内部循环 [6] [7] 。而Van der Schaft以及Abu-Khalaf等人则设计了一种在处理第二个控制器(即第二个玩家的动作)时进行迭代的内部循环 [8] [9] 。尽管这些迭代算法可以近似求解博弈代数里卡提方程,但通常情况下,每个迭代步骤的代价函数仍然难以精确求解。以上研究均考虑定常系统,在过去的十年里,时变(动态)系统的控制和分析得到了广泛的研究。火箭着陆 [10] ,电子电路中的能量节约 [11] 等应用可归类为有限时域的时变系统。求解这类问题需要求解线性时变系统的时变里卡提方程或非线性系统的时变哈密顿–雅可比方程。与定常方程相比,求解时变方程则更加复杂和困难。此外,以上的算法都需要了解系统的全部或部分动力学知识。
强化学习最近在几个突出的决策问题上取得了令人瞩目的进展 [12] ,例如下围棋 [13] [14] 和玩实时策略游戏 [15] 。有趣的是,所有这些问题都可以表述为涉及两个对手或团队的零和马尔可夫博弈。强化学习被广泛应用于解决最优控制问题,如 [16] [17] [18] [19] ,它已被证明是处理具有未知动力学的线性或非线性系统的零和博弈问题的有效方法。文献 [20] 针对离散系统提出了对应的强化学习算法。文献 [21] 则针对连续系统提出了一种不使用任何系统动力学先验知识的线性二次零和博弈的强化学习算法。在 [20] 和 [21] 中提出的解决方案适用于在假设状态的全部知识可供反馈的情况下。文献 [22] [23] 提出基于输出反馈的强化学习算法用于处理线性二次零和博弈。值得注意的是,以上提到的强化学习算法都针对时不变系统,在处理时变系统是则不适用。在文献 [24] 中,作者提出了一种针对离散时变系统的策略迭代法来寻找控制器。而文献 [25] 则关注了连续时间周期系统,文献 [26] 则是专注于无限时域情况下设计基于值迭代的学习控制器。此外,文献 [27] 针对时变的连续系统提出了强化学习方法。然而,对于有限时域内时变系统的博弈问题,目前尚未进行充分的相关研究。
为了解决上述问题,本文借鉴了开创性工作 [28] 中解决具有给定边界条件的有限视界时变问题的思想。其核心理念是:当成本函数需要在较长时间段内进行优化时,时变系统呈现出双时间尺度的特性。文献 [28] 的研究表明,这种时变系统可以被简化成两个定常系统。最终,原始系统的结果可以通过叠加解决初始边界问题和终端边界问题的结果来逼近。进一步地,我们应用了离线学习的思想 [29] 来估计这两个边界问题的纳什均衡。通过将原系统的复杂性简化成两个相对简单的问题,最终成功地无模型地学习了这两个独立的纳什均衡。该方法使得处理有限视界时变系统的博弈问题变得更加可行和高效。
综上所述,我们提出的模型的主要贡献如下
针对时变系统的线性二次动态博弈问题,基于奇异摄动的强化学习方法近似地学习到了纳什均衡的次优解。
为后续研究时变系统的
控制问题,时变的信息物理系统的弹性控制问题提供了强化学习求解的新思路。
本文的剩余部分结构安排如下:第二节描述时变系统线性二次动态博弈的问题。在这一节中,将详细讨论时变系统的性质以及线性二次动态博弈的背景和关键问题。第三节利用奇异摄动方法将原问题描述为两个双时间尺度的子问题。本节将介绍奇异摄动方法的应用,将复杂的问题分解为两个不同时间尺度下的子问题,以便更好地理解和解决。第四节概述了估计系统纳什均衡的强化学习算法。在这一节中,将介绍用于估计系统纳什均衡的强化学习算法的关键原理和方法。第五节给出本文的结论和未来进一步研究方向。
这一结构安排清晰地指导了读者在文章中的导向,使他们能够逐步理解问题、方法和结论,并为未来的研究提供了一个有益的参考点。
2. 问题描述
考虑由线性动力系统表示的时变系统如下
(1)
其中,
为系统状态,
和
分别表示玩家一和玩家二的控制输入,矩阵
,
和
分别表示关于时间
的光滑的函数且矩阵信息未知。玩家一(玩家二)的目标为最小化(最大化)如下所示有限时域的问题
(2)
其中,权值矩阵
半正定,
和
正定,且均为关于时间
的光滑的函数。
和
分别表示初始状态和终端状态。动态零和博弈的问题为寻找鞍点
满足如下所示的纳什均衡不等式
(3)
假设
可控,
可观 [30] ,T相对较大,即相对于控制目标,系统变化较慢。
为求解该问题,定义如下的哈密尔顿函数
(4)
其中,
为协态变量,且满足如下方程
(5)
最小化目标函数(2)的动态系统(1)的纳什均衡解
由
和
决定
(6)
本文的目标为不需要知道系统矩阵
和
学习由(6)给出的时变系统(1)的纳什均衡解
。
3. 奇异摄动的设计
本节将根据文献 [27] [28] 的结果,利用奇异摄动的方法将时变系统的求解问题转化为初始边界和终端边界的博弈问题,当T足够长且系统矩阵
和
已知时,控制问题可实现次优解。这为下一节推导无模型的强化学习算法做铺垫。
通过引入缩放变量
,将时间段0到T归一化为区间
(7)
定义
(8)
结合公式(1) (5)可得如下系统
(9)
对应的代价函数为
(10)
对应的鞍点表达式为
(11)
定义哈密尔顿矩阵
(12)
假设
对任意时间
均偏离虚轴。
参考文献 [31] ,对系统(9)进行解耦,结果如下所示
(13)
[引理2.3, [31] ]中表明,在本文的假设下,对于足够小的
,矩阵(12)是非奇异的。因此,结合(12),系统(9)可以转换为奇异摄动系统如下
(14)
(15)
其中,
(16)
(17)
(18)
(19)
此处的
为以下微分里卡提方程的两个根
(20)
接下来,考虑时间尺度的变化,将奇异摄动系统(14)~(15)转化为边界系统,定义变量如下
(21)
结合(21),令奇异摄动系统中的(14)~(20)中参数
趋于零,可得初始边界系统如下
(22)
对应的反馈形式解为
(23)
(24)
对应的代价函数为
(25)
同理可得终端边界系统如下
(26)
对应的反馈形式解为
(27)
(28)
对应的代价函数为
(29)
文献 [31] 中的定理2.1表明,如果解决了初始和终端这两个线性定常系统的博弈问题,当
足够小时,两个边值问题解将近似于原始博弈问题(1)~(5)的解如下
(30)
(31)
(32)
(33)
其中
为高阶项,在下一节中,我们将依赖于以上的结果,开发强化学习算法在无需系统矩阵
和
信息的情况下来求解初始和终端的博弈问题(22)~(29),进而逼近时变系统的纳什均衡解。
4. 强化学习算法
在本节中,我们将提出强化学习算法以无模型的方式分别求解两个初始边界系统和终端边界系统对应的纳什策略,并结合文献 [31] 中的定理2.1,逼近时变系统的纳什均衡解。
4.1. 初始边界的博弈问题
本节目标是在不了解系统动力学的情况下,学习(22)~(25)中所述系统的纳什均衡,从而纳什均衡优化了(25)中描述的成本函数。注意到
是代数Riccati方程的解:
(34)
首先回顾状态反馈积分强化学习方程如下 [21] [29]
(35)
其中
和
为具有边界的探测噪声。
将上式表示为克罗内克积形式(
)如下
(36)
其中,
由于方程(36)为一维方程,所以无法保证解的唯一性。本文将使用最小二乘法来解决系统参数未知的问题,对任意正整数N,
,
,可得如下N维方程
(37)
当样本数量
时,
列满秩,则可以得到参数如下所示
(38)
在学习过程结束时(即收敛结束时),反馈增益为
和
,则初始边界系统(22)的纳什均衡为
。
4.2. 终端边界的博弈问题
遵循与初始边界的博弈问题相同的步骤,反馈增益矩阵的初始化值应该满足
。则终端边界系统(26)~(29)对应的反馈纳什均衡为
。
综合以上阐述,提出强化学习算法如下所示
本节中描述的学习过程,结合文献 [31] 中的定理2.1中的结果,只要
足够小或T足够大,强化学习学习得到的最优策略
和
,该结果可近似原始时变系统的纳什均衡。
5. 结论与展望
本研究针对有限时间内的时变线性二次动态博弈问题,提出了一种无模型的强化学习算法。首先,利用奇异摄动理论,将有限时间内的时变系统转化为两个时间尺度的无限时间内的定常系统。随后,我们引入策略迭代的强化学习算法,分别求解这两个动态系统的对应纳什均衡解。最终,通过奇异摄动理论的应用,逼近原始系统的纳什均衡解。未来的研究方向包括将本文所提出的算法框架用于解决时变系统的
控制问题或信息物理系统的弹性控制问题。
参考文献