1. 引言
最优控制理论自20世纪50年代发展以来,成为了现代控制理论中的一个重要分支。最优控制问题通常涉及在给定的动态系统和性能指标下,寻找一个控制策略,以实现系统性能的最优化。最优控制在航空航天、机器人、自动化、能源管理等领域[1] [2]具有广泛的应用价值。因此,如何设计有效的控制算法,尤其是线性二次最优控制(LQR)问题,一直是学术界和工程界研究的重点。
Kharitonov V [3]对各种时滞系统做出了详细的研究,线性二次最优控制问题[4] [5] (LQR)是一类经典的最优控制问题,目标是使得系统的状态和控制代价最小化。其优点在于通过求解相应的代数里卡蒂方程(Algebraic Riccati Equation, ARE)和最优控制律,可以得到明确且易于实现的控制策略。近年来,随着计算机技术和数学优化算法的发展,LQR的应用已扩展到多个复杂的工程系统中,如无人驾驶、智能电网、航空航天等领域。此外,分布式时滞系统的应用广泛,涵盖了从生物学、工程到经济学等多个领域。其核心特征是当前系统状态受到过去历史状态的影响,目前尤其在火箭发动机室燃料燃烧的稳定和控制方面[6]有着很重要的应用。
最近,基于自适应动态规划(ADP)技术[7],已经为各种重要类别的线性、非线性或周期性动力系统以及最优稳定化、跟踪和输出调节问题提供了策略迭代(PI)和价值迭代(VI)方法[8] [9]。
受到Kleinman提出的无时滞线性系统基于模型的PI算法[10]的启发,本文为分布式时滞系统提出了一种新的基于模型的PI算法。在给定一个可容许的初始控制器的情况下,证明了每次迭代中更新的次优控制器的稳定性以及学习得到控制器序列收敛于(未知的)最优控制器。
2. 问题描述和预备工作
2.1. 问题模型介绍
考虑线性分布式时滞系统的形式
(1)
初值函数
,
,
,
,
,
,
,
,
,并且这里
是一个连续的矩阵函数当
时,设二次型性能指标如下:
(2)
这里
,
,
,
,我们的目标是在给定任意一个初始函数
的情况下,寻找一个最优控制
使得(2)式的值最小。
定义1 如果一个控制
使得系统(1)是全局渐近稳定(GAS)的,并且使得二次型性能指标(2)的值是有限的,对于所有的
,
,则称该控制
是可容许的。
评论1:(2)式的性能指标是一种非常有效的形式,能够综合考虑系统状态的偏差(如误差)和控制输入的能量(如力度、功率)。这种设计理念非常符合许多实际工程问题的要求,即系统不仅需要保持稳定,还需要在满足性能要求的同时,减少过度的能量消耗。通过这个目标函数,LQR方法使得系统状态趋于理想值的同时,控制输入不会过大,避免了不必要的能量消耗。例如:我们希望系统能够较早地到达0的
平衡状态并且能量损耗不能过高,就可以采取(2)的形式作为性能指标,因为
可以理解为对系统状态的惩罚,由于Q的正定性,如果系统到达平衡态的时间越长,这个积分的值往往会越大,
可以理解为能量损耗的计算,因为R的正定性,只要能量在某一时间段内有损耗,这个积
分的值便会记录下这一时间段的损耗,使得(2)的值偏高。所以寻找一个方法来减小(2)的值有很重要的实际意义。
2.2. 主要定理
定理1 (Ross [11]) 如果存在一个可容许的控制
和一个非负连续标量函数
(当
时
)。
满足以下两个条件:
(3)
(4)
这里g为(2)中被积函数,则
是使得二次型性能指标(2)的值最小的最优控制,此外
。
证:对(3)式两端从0到
进行积分,并且考虑到可容许控制
使得系统(1)渐近稳定,这意味着
,从而得到
。
将(3)代入(4)我们可以得到
,然后对该等式两边从0到
积分,我们可以得到
,即
,因此
是可容许控制中的最优控制。
定理2 线性控制
是最优控制。并且相应的最小二次性能指标为
。
如果
(5)
证:我们取
这里
是正定矩阵,
。
由(4)得,
即
,
所以
(6)
此外,所以我们可以得到
是的局部最小解。
对于(3)令
,则
可得。
将(6)代入上式得:
对于任意的
均成立,所以:
(7)
证毕。
3. 基于模型的策略迭代
根据定理2,如果我们能求解偏微分方程组(7),我们就能得到最优控制器。但是由于(7)是非线性偏微分方程组,直接求解往往比较困难。因此我们提出了基于模型的PI算法来简化(7)的求解。首先我们给定一个初始的可容许的控制器
,基于模型的PI算法过程如下:
1. 策略评估
,解以下PDEs:
(8)
在这里
,
。
2. 策略改进
(9)
用该公式更新控制器,并且里面也隐含了K和P之间的关系。二次性能指标
,
评论2:我们对里卡蒂方程的中
等非线性部分进行了修改,在第一次迭代中,由于我们给定了一个初始的可容许控制器
,这就意味着
是已知的,代入到策略评估的过程中,我们可以求解得到
,根据K和P的关系(也就是策略改进过程),我们立刻能得到一组新的
,然后继续代入策略评估过程,求解可得一组新的下标 + 1的P,依此一直进行下去,每次策略评估过程中的K都是由上一次迭代得到的计算结果,所以这样就能把难于求解的里卡蒂方程,转变为求解一系列非线性偏微方程组。
定理3给定一个初始的可容许控制器
,对于
,通过(8)(9)求解的
,
,
和
,有以下性质成立。
1)
;
2)
是可容许的控制;
3)
分别收敛于
和
。
证明见附录。
4. 结论和思考
本文对分布式时滞系统的线性二次最优控制问题中最优控制器的求解进行了详细的推导,并得到了最优控制器中参数所满足的里卡蒂方程的表达式,而且这类里卡蒂方程的求解往往相当复杂,一般在只有一些特殊情况才能得到解析解。所以本文为了避免此类方程的求解,构造了一个与此方程相关的策略迭代,这极大地简化了求解的过程,并且多次迭代后得到的控制器是收敛于我们理论上的最优控制器。此类策略迭代能为各种时滞系统LQR最优控制器的求解简化提供一个参考。
基金项目
山东省自然科学基金(面上基金) ZR2024MA097。
附 录
,
表示从X映射到X的有界线性算子,
。
定理3的证明
首先我们计算
的展开式
记
,
则
,并且注意到
,所以我们可以在适当的地方添加
。
则可得到:
将以上得到的4处结果合并可得
(10)
当
时,系统(1)被可容许控制
驱动时,根据(10),我们有,
对上式从0到
积分得:
。
接下来我们使用
驱动系统(1),根据(10)式,可得:
对上式两端从0到
积分得:
(11)
所以
是全局渐近稳定的控制器,所以
是可容许的控制器。
令(10)中的
并把
替换为
可得:
对该式从0到
积分得:
。根据(11)我们有
。
当
时,假设1)和2)成立。当系统(1)被
驱动时,
,对该式从0到
积分得:
当系统(1)被
驱动时,并把
替换为
可得:
对两端从0到
积分得:
。
所以
是全局渐近稳定的控制器,
是可容许的控制。2)得证。
当系统(1)被
驱动时,通过(10)可得。
同理可得
,因为
是最小值,所以
。
因此1) 2)得证。
所以我们有
。
定义
,
。
易知
是对称并且是正定的,并且
,此外
,
,通过[12]定理6.3.2存在
,
,有
。因此
逐点收敛于
。根据收敛的性质,我们有
由(8)可得:
(12)
(13)
将(13)代入(12),我们可以发现方程组的形式与(7)一致,所以可得
是(7)的解,由于(7)解的唯一性,并且(7)的解为
,所以
逐点收敛于
,所以3)得证。在算法收敛速度方面,如[13]所示,PI算法的收敛率在希尔伯特空间中是二次的,因此,对分布式时滞系统提出的基于模型的PI具有相同的二次收敛率。
NOTES
*通讯作者。