1. 引言
控制理论的一个重要问题是,当系统动力学发生变化时,保证控制系统仍然满足某些预期中的性能要求。这些变化可能由外部环境干扰导致,也可能由系统内部的故障或子系统间连接故障引起。当干扰因素对系统的影响较小时,通过在系统状态方程中引入随机噪声项描述此类不确定性。然而,情况更加复杂时,这种方式无法有效刻画干扰对系统的影响,导致控制反馈的有效性降低,计算成本也会大幅增加,随机跳变系统 [1] [2] 能够更好地描述这类问题。
马尔科夫跳变线性系统(Markov Jump Linear System, MJLS) [2] 是一类重要的随机系统,在通信、控制、金融等领域有广泛的应用。MJLS具有多个模态,在理想条件下,系统在各个模态之间的跳变转移通过马尔科夫链建模。在复杂的场景中,假设系统在有限的多个模型之间随机转移有确定的概率分布,即从一种模型状态跳转到另一种模型状态的概率是确定的。
在MJLS的最优控制问题研究中,常用的方法通过求解一组耦合黎卡提方程组获取最优控制。然而,当系统参数部分已知或未知时,无法取得良好的效果。Tzortzis [3] 等研究了模态转移概率不确定情况下,为转移概率矩阵设置模糊集研究MJLS的最优控制问题。文献 [4] 基于矩阵不等式方法研究了系统模态无法有效观测的情况,文献 [6] [7] [8] 基于黎卡提方程研究了MJLS的最优控制问题。随着研究深入,关于转移概率部分未知的离散时间和连续时间马尔科夫跳变线性系统的稳定性问题的理论更加成熟 [5] [10] 。强化学习(RL)方法 [9] 和数据驱动方法在解决不确定动力系统的问题中有较大突破,基于采样数据的方法成为解决此类随机系统的最优控制问题的有效手段 [11] [12] 。RL方法是交互式的学习方法,系统通过与环境交互积累经验,以最大化数值收益信号为导向,不断从经验中学习,最终得到最优策略(控制)。当系统动力学参数未知时,RL中的无模型方法直接利用经验数据学习最优控制而不估计系统参数。参数未知时,常用滤波方法估计系统状态参数,代替真实参数求解问题。最著名的是卡尔曼滤波方法 [13] 。Kim & Smagin [14] ,Marcos [15] ,Martins [16] 将卡尔曼滤波应用在马尔科夫跳变线性系统中,取得了不错的效果。虽然目前理论理解仍然不够完善,但无模型方法在MJLS最优控制问题中效果突出 [18] 。
本文对MJLS的策略优化学习方法进行研究,将强化学习和控制理论相结合,提出参数已知和参数未知两种情况下的策略优化学习方法。在实际应用中,许多动态系统都具有随机性,如通信网络、电力系统、飞行器控制系统 [17] 等。本文在理论上证明了RL方法中的资格迹方法的收敛性,数值分析验证了资格迹方法在MJLS最优控制问题中具有较快的收敛性。为解决参数未知的复杂系统的控制问题提供了有效的解决方案和思路。
数值分析部分通过数值模拟验证了不同维度的状态空间下,资格迹方法拥有更快的收敛速度。并研究了资格迹方法中不同衰减参数以及不同模态的系统参数的设置对最终收敛效果的影响。结果显示,衰减参数在合适的范围内,资格迹方法能够获取的最优控制逼近真实最优控制,且收敛速度优于传统方法。
2. 资格迹方法
本文基于RL方法中的actor-critic框架,基于梯度下降算法提出策略参数优化的资格迹方法 [9] ,在策略参数优化的过程中用资格迹代替梯度项。时变策略参数
,考虑如下有限时域的随机MJLS-LQR问题:
(1)
其中,
和
分别表示系统的状态和控制变量,
,初始状态
从分布
中随机抽样。
,
是正定矩阵参数。
和
是具有合适维数的系统矩阵参数,系统模态参数
,某一时刻的系统模态
由
给出。假设初始状态协方差矩阵为
正定,独立同分布噪声序列
满足:
(2)
假设马尔科夫链上的模态具有时不变转移概率,概率矩阵为
:
(3)
问题的目标是确定最优策略参数,保证累积代价函数达到最小值。
定义
为式(4)的解:
(4)
不至引起歧义时,本文用
代替
,
代替
进行论述。
命题2.1:遵循策略参数的累积代价函数可表示为:
(5)
定义
,系统状态协方差矩阵:
(6)
累积损失函数的梯度为:
(7)
证明:从t时刻到幕结束的累积代价函数为:
(8)
其中,
所以,
。
累积代价函数对策略参数
的偏导为:
其中,
证毕。
2.1. 参数已知的资格迹方法
本节讨论有限时域情况下,系统模态参数
和系统参数
已知时的资格迹方法 [9] 。资格迹方法在蒙特卡洛方法和时序差分方法的基础上,定义一个与策略参数相同维度的短时记忆向量
,作为衡量策略参数
不同分量的指标。随着迭代次数的增加,参与更新的控制参数的分量对应的资格迹逐渐衰减,直到这一分量再次参与更新。
考虑如下优化策略参数的资格迹方法:
(9)
其中,
是迭代次数,
是步长参数,
是折扣系数,
是第n次迭代时的控制序列,
是与之对应的资格迹序列。
(10)
衰减参数
的取值不同,决定了历史信息对下一步决策的重要程度。
时,决策时不考虑历史信息,
时,在决策过程中历史信息与当前信息同样重要。梯度下降算法只考虑梯度更新的平滑度,而资格迹方法考虑了当前的损失函数和历史策略梯度的关系,能够减少参数更新过程中的错误决策次数。
引理2.2 假设任意可行控制
与
产生的代价函数均有界,
,
,
,
分别是由
,
生成的序列,令
,则代价差可表示为:
(11)
证明见附录。
引理2.3 令
,
,
与
是任意策略,系统状态向量的协方差满足下面的关系:
(12)
其中,
,
。
证明详见附录。
上面的分析为收敛保证奠定了基础,证明算法的收敛性之前,引理2.4的论证了控制序列经过一次迭代后对代价函数值的影响。
引理2.4 设
是最优至序列,
由
经一次迭代得到,当

其中,
则
(13)
证明详见附录。
经过以上分析,下面给出参数已知时,资格迹算法在DLQR问题中的全局收敛性保证。
定理2.5 假设
有界,步长
满足引理2.4的约束,对
,当迭代次数N满足下述条件:
代价函数值收敛至最优值,即:
(14)
证明:令
,根据引理2.4的结论,
假设经
次迭代后,
,此时
,根据Cauchy-Schwarz不等式,
结合引理2.3的分析,引理2.3中的结论仍然成立,即:
(15)
将
次的结果进行累积,
对
,当
时,
。证毕。
2.2. 系统参数未知的资格迹方法
本节讨论系统模态
和系统参数
未知时的资格迹方法。不同模态下的系统参数间差异间需要满足一定的界限。模态未知,系统使用零阶优化方法近似资格迹,零阶优化方法 [19] [20] [21] 对目标函数的凸性没有要求,直接以函数值估计函数梯度。在MJLS的最优二次控制问题中,参数未知时,在每一步的控制上加入随机噪声进行采样来估计代价函数值。目标函数可表示为
(16)
这里利用带噪声的代价函数值构造梯度的近似无偏估计。令
,设
是
上的均匀分布。任意度量
,以及
与
独立,则
的梯度估计 [22] 为:
随着r越来越小,近似值越来越精确,但r过小容易导致方差过大。
定义2.5 对给定的
以及从
中随机抽取的随机向量
,I为采样幕数,
是折扣系数,资格迹的经验近似为:
(18)
其中,
引理2.6 假设任意不同控制
与
的分量满足:
(19)
则存在
使得,
,
定理2.7 假设
有界,步长
满足引理2.3的约束,对
,当迭代次数N满足
代价函数值收敛至最优值,即:
(20)
证明与定理2.4类似。
表1提出了MJLS-LQ问题的资格迹算法。

Table 1. Eligibility trace algorithm
表1. 资格迹算法
3. 数值模拟
当系统状态空间维数
时,系统参数为
系统模态转移概率矩阵为:
比较资格迹方法与梯度下降算法的收敛情况。在折扣系数
的条件下,设定指数衰减的步长参数,时域
,迭代次数
和迭代次数
,代价函数的收敛情况结果如图1和图2所示。
图1和图2的结果说明,资格迹算法比梯度下降算法具有更快的收敛速度。资格迹方法中折扣系数的取值对最终结果有显著影响,图3展示了
,
时不同的折扣系数对算法性能的影响。
图4展示了某次系统模态序列,在本节设定的系统参数下,折扣系数
时,资格迹算法表现优于策略梯度算法,当
后,结果出现不收敛的情况,随
的增大,收敛更快,但结果不收敛。
是过去梯度信息的权重,说明在这一数值范例中,过去梯度信息对问题求解只能提供少量信息。

Figure 1. The convergence of C(K) when d = 2, T = 40
图1. d = 2,T = 40代价函数的收敛情况

Figure 2. The convergence of C(K) when d = 2, T = 70
图2. d = 2,T = 70代价函数的收敛情况

Figure 3. Cost function error variation with N = 100
图3. N = 100代价函数误差变化
4. 结论
本文研究了无模型强化学习方法在有限时域MJLS-LQ问题中的应用,不同于通过解代数黎卡提方程方程得到最优控制的方法,本文直接优化控制增益,在梯度下降算法的基础上引入资格迹方法,并给出在参数已知和参数未知两种情况下算法的收敛保证。在初始代价函数有界的条件下,算法可以扩展至无限时域。数值模拟验证了算法的收敛性,展示了不同参数设置对结果的影响。另一个方向是基于有模型的强化学习方法,在更少样本量的基础上,进一步达到更好的收敛结果。
致谢
感谢张老师在论文写作过程中给出的指导和建议。
附录
引理2.2证明:
令
,
令
引理2.3证明:
定义线性算子:
,
系统状态协方差矩阵为:
令
同理可得:
综上所述:
引理2.4证明: