椭球运动的状态约束问题
State Constrain Problem of Ellipsoidal Motions
DOI: 10.12677/PM.2022.121021, PDF, HTML, XML, 下载: 294  浏览: 497  国家自然科学基金支持
作者: 敬鲁晶, 高红伟, 侯 敏:青岛大学数学与统计学院,山东 青岛
关键词: 编队控制椭球运动状态约束目标集Hamilton-Jacobi-Bellman方程Formation Control Virtual Ellipsoid Motion State Constrains Target Set HJB Equation
摘要: 本文研究了椭球运动的状态约束问题,其中椭球可以在状态约束作用下向给定目标集运动。利用Hamilton-Jacobi-Bellman (HJB)方程,给出了状态约束问题的闭环解。最后,给出求解方法以及数值算例。仿真结果表明,状态约束能够保证椭球在合理的状态范围内,最终运动到达目标集。
Abstract: The paper deals with the problem of state constrain of ellipsoidal motion, where the virtual ellipsoid can move to the target set under state constrain. We present solutions of this problem in the class of closed-loop (feedback) controls based on Hamilton-Jacobi-Bellman (HJB) equation. Finally, we give a solution method and numerical examples. Simulation results verify that the state constraint can ensure that the ellipsoidal motions within a reasonable range of states and finally reaches the target set.
文章引用:敬鲁晶, 高红伟, 侯敏. 椭球运动的状态约束问题[J]. 理论数学, 2022, 12(1): 165-173. https://doi.org/10.12677/PM.2022.121021

1. 引言

编队控制是当前多智能体系统研究的热点问题之一。其所考察的智能体对象包括无人机 [1]、舰艇 [2]、卫星 [3]、机器人 [4] 等,其应用涉及军事、航天、工业等诸多领域。该类控制问题是研究多智能体系统根据分布式任务要求,在向特定目标或方向的运动过程中,保持预定的几何形态,同时又能满足环境约束的控制问题。编队控制的研究内容主要包括如下五个方面:队形生成、队形保持、队形切换、编队避障和编队自适应问题。

近年来,针对不同的应用环境和约束条件,学者们提出了多种用于多智能体系统的控制算法。常见编队控制方法主要有长僚机法 [5] [6] [7] [8]、基于行为的方法 [9] [10]、虚拟结构法 [11] [12] 和人工势场法 [13] [14]。长僚机法在多智能体领域也叫跟随领航者法(Leader-follower方法),即指定队形中的某架无人机作为Leader,其他的无人机作为Follower跟随Leader运动。这种方法将队形控制问题转化为Follower跟踪Leader的朝向和位置的问题。基于行为的编队控制方法是指,基于行为的控制器由一系列简单的基本动作组成,每个无人机都有自己的目标或任务,根据每个无人机的输入、输出构成交互的行为网络。虚拟结构法是将多智能体系统的编队看作虚拟的刚性结构,每个智能体跟踪刚性结构上一个位置固定的虚拟点运动。人工势场法的基本思想是借鉴物理学方面的概念,飞行环境中的障碍物对无人机产生排斥力,目标点对无人机产生吸引力,最后通过求合力来控制移动多智能体的运动。

Kurzhansk提出了一种基于虚拟椭球运动的多智能体系统的编队控制方法的理论框架 [15]。文中假设了一个运动的虚拟椭球容器为 E c [ t ] ,并将每个智能体视为体积较小的球体。设多智能体系统从特定的初始位置出发,集结于虚拟的椭球 E c [ t ] 内部以形成集群,并跟随椭球运动到达指定的目标集。在向目标集运动的过程中,需确保在 E c [ t ] 内部的球体无碰撞发生,且 E c [ t ] 需要设法规避已知的障碍物。需要指出的是,虚拟椭球的运动可由其中心的坐标和配置矩阵所满足的线性微分方程所完全刻画。同时,智能体的运动需与椭球的运动以及其它智能体的运动保持一致。Kurzhanski指出,可以通过定义合适的值函数,利用动态规划的方法来获得虚拟椭球以及多智能体系统的运动轨迹,从而给出了多智能体系统的合成控制的一个求解理论框架。Kurzhanski的相关工作可参见文献 [16] [17]。

事实上,我们可将Kurzhanski提出的基于虚拟椭球的多智能体系统的编队控制方法视为编队控制中的虚拟结构法的一种改进。传统的虚拟结构法使得编队必须刚性运动,从而限制了该方法的应用范围。而基于虚拟椭球的编队控制方法,不仅继承了传统虚拟结构法容易整体描述系统行为、可取得较高编队控制精度等优点,还完全弥补了传统虚拟结构方法中刚性运动的缺陷。

2012年,Kurzhansk研究了虚拟椭球的目标控制问题,其中椭球可以在最优控制作用下向给定目标集运动,既能保证目标误差尽可能小,又能避免使用取值“过大”的控制 [18]。若没有状态约束,目标误差可能太大,这时可能需要“过大”的控制,因此使用状态约束是必然的。2013年,Kurzhansk研究了状态约束下的虚拟椭球的目标控制问题,但只考虑了椭球的形状,并未考虑椭球的中心 [19]。本文在Kurzhanski的工作基础上进一步研究并实现了对虚拟椭球的具有状态约束功能的最优目标控制。首先,我们需要同时获得对椭球中心和配置矩阵的两个最优控制。其次,针对编队的实际情形,我们对其目标函数进行优化,在考虑运动过程中需满足的状态约束的同时,还将对椭球的中心以及配置矩阵的控制约束统一纳入到值函数的定义中去,从而实现对椭球的最优控制。最后,我们对此进行了数值仿真,验证了该方法的有效性。

2. 问题描述

定义1定义 n 上的非退化椭球 [20]

ε ( q , Q ) = { p n : p q , Q 1 ( p q ) 1 } ,

其中 q n 为椭球 ε ( q , Q ) 的中心, Q n × n 为其配置矩阵且对称正定。 y , z 表示两个向量的内积, Q 1 表示Q的逆矩阵, x 表示x的转置向量。考察如下形式的虚拟椭球运动

E c [ t ] = ε ( q ( t ) , Q ( t ) ) ,

其中 t [ t 0 , θ ] q ( t ) n Q ( t ) n × n 分别是 E c [ t ] 在t时刻的中心和配置矩阵。通常 E c [ t ] ( t [ t 0 , θ ] ) 也被称为椭球值轨迹管(ellipsoid-valued trajectories tubes)。

在区间 [ t 0 , θ ] 上,椭球 E c [ t ] 的运动方程可以由如下系统定义:

q ˙ ( t ) = A q ( t ) q ( t ) + B q ( t ) u ( t , q ) , q ( t 0 ) = q 0 , (1)

Q ˙ ( t ) = T ( t ) Q ( t ) + Q ( t ) T ( t ) + B Q ( t ) U ( t , Q ) B Q ( t ) , Q ( t 0 ) = Q 0 , (2)

其中 q ( t ) Q ( t ) 是系统(1)和(2)的状态变量。 u ( t , q ) m 1 U ( t , Q ) m 2 × m 2 是控制变量,且 U ( t , Q ) 是对称矩阵。假设系统(1)和(2)的矩阵系数 A q ( t ) n × n B q ( t ) n × m 1 B Q ( t ) n × m 2 T ( t ) n × n 关于t连续可微,且 T ( t ) 是对称矩阵。

假设系统(1)和(2)的容许控制集合为 u ( t , q ) m 1 U ( t , Q ) m 2 × m 2 ,其中 u ( t , q ) U ( t , Q ) 是给定的凸紧集。对于任意 u ( t , q ) u ( t , q ) U ( t , Q ) U ( t , Q ) ,有

t 0 θ ( u ( t , q ) , u ( t , q ) + [ U ( t , Q ) , U ( t , Q ) ] ) d t μ 2 , (3)

其中常数 μ 1 , μ 2 0 ,而 [ U , U ] = tr U U 表示矩阵内积。称(3)式为系统的控制约束。

在系统(1)和(2)运动的过程中,可以通过约束 Q ( t ) 来限制 E c [ t ] 的大小,即

[ Q ( t ) , Q ( t ) ] δ 2 , (4)

σ 2 [ Q ( t ) , Q ( t ) ] , (5)

其中常数 σ , δ > 0 I n × n n × n 表示 n × n 维的单位矩阵。此时, E c [ t ] 被限制在半径为 σ n 的最大内接球和半径为 δ n 的最小外接球之间。称(4)和(5)式为系统的状态约束。

注1 在可能的约束条件中,考虑体积约束

0 < σ v o l ε ( 0 , Q ( t ) ) δ ,

也是有意义的,其中vol是椭球的体积。不过本文并不对这种情况进行细节叙述。

假设 E c [ t ] 的目标椭球 E M = ε ( m , M ) ,其中 m n 是目标椭球的中心, M n × n 是其配置矩阵且对称正定。定义目标椭球 E M = ε ( m , M ) 的邻域为如下目标集:

E ω = { ( q , Q ) n × n × n | q m , q m ω 1 2 , [ Q M , Q M ] ω 2 2 , ω 1 , ω 2 > 0 } . (6)

问题1对于系统(1)和(2),给定时间区间 [ t 0 , θ ] 。假设系统的初始状态为 { t 0 , q ( t 0 ) , Q ( t 0 ) } ,则初始椭球为 E c [ t 0 ] = ε ( q ( t 0 ) , Q ( t 0 ) ) 。在约束条件(3)、(4)和(5)下,寻找最优反馈控制 u ( t , q ) U ( t , Q ) 使得,在 t = θ 时, E c [ t ] 能够到达目标椭球的邻域 E ω

为了寻找问题1的最优反馈控制 u ( t , q ) U ( t , Q ) ,定义目标函数

Ψ ( u ( ) , U ( ) ) = t 0 θ ( u ( t , q ) , u ( t , q ) + [ U ( t , Q ) , U ( t , Q ) ] ) d t + ξ 1 q ( θ ) m , q ( θ ) m + ξ 2 [ Q ( θ ) M , Q ( θ ) M ] = min u , U , (7)

成立,其中 ξ 1 , ξ 2 > 0

注2在上述问题3.1中,方程(1)和(2)可以独立处理。

3. 问题求解

为方便解决上述问题1,将矩阵转化成向量。设 A = ( a i j ) n × n ,引入符号

A ¯ = [ a 11 , a 12 , , a 1 n , a 21 , a 22 , , a 2 n , , a n 1 , a n 2 , , a n n ] .

B = ( b i j ) n × n ,定义A和B的Kronecker积(又称张量积)

A B = [ a 11 B a 1 n B a n 1 B a n n B ] n 2 × n 2 .

使用 A X B ¯ = ( A B ) X ¯ 将(2)式改写为

Q ¯ ( t ) = ( T ( t ) I ) Q ¯ ( t ) + ( I T ( t ) ) Q ¯ ( t ) + ( B Q ( t ) B Q ( t ) ) U ¯ ( t , Q ) .

A ( t ) = T ( t ) I + I T ( t ) B ( t ) = B Q ( t ) B Q ( t ) ,则有

Q ¯ ˙ ( t ) = A ( t ) Q ¯ ( t ) + B ( t ) U ¯ ( t , Q ) .

引入值函数

V E ( t , q , Q ¯ ) = min u , U ¯ t θ ( u ( τ , q ) , u ( τ , q ) + [ U ( τ , Q ) , U ( τ , Q ) ] ) d t + ξ 1 q ( θ ) m , q ( θ ) m + ξ 2 [ Q ( θ ) M , Q ( θ ) M ] (8)

得到HJB方程 [21]

V E t + min u , U ¯ { V E q , A q ( t ) q + B q ( t ) u ( t , q ) + V E Q ¯ , A ( t ) Q ¯ + B ( t ) U ¯ ( t , Q ) + u ( t , q ) , u ( t , q ) + U ¯ ( t , Q ) , U ¯ ( t , Q ) } = 0. (9)

边界条件为

V E ( θ , q ( θ ) , Q ¯ ( θ ) ) = ξ 1 q ( θ ) m , q ( θ ) m + ξ 2 [ Q ( θ ) M , Q ( θ ) M ] . (10)

则(8)式定义的值函数为(9)式所示的HJB方程的解。记

H ( t , u ( t ) , U ¯ ( t ) ) = V E q , A q ( t ) q + B q ( t ) u ( t , q ) + V E Q ¯ , A ( t ) Q ¯ + B ( t ) U ¯ ( t , Q ) + u ( t , q ) , u ( t , q ) + U ¯ ( t , Q ) , U ¯ ( t , Q ) .

则(9)式等价于

{ V E t + H ( t , u , U ¯ ) = 0 , H ( t , u , U ¯ ) u = 0 , H ( t , u , U ¯ ) U ¯ = 0.

首先对 H ( t , u , U ¯ ) 分别关于u和U求偏导,得到

u ( t , q ) = 1 2 B q ( t ) V E q , (11)

U ( t , Q ¯ ) = 1 2 B ( t ) V E Q ¯ . (12)

将(11)、(12)式带入 V E t + H ( t , u ( t ) , U ¯ ( t ) ) = 0 ,得到

V E t + V E q , A q ( t ) q 1 4 V E q , B q ( t ) B q ( t ) V E q + V E Q ¯ , A ( t ) Q ¯ 1 4 V E Q ¯ , B ( t ) B ( t ) V E Q ¯ = 0. (13)

上述表达式是状态变量和值函数的空间导数的二次形式,我们可假设值函数为二次形式

V E ( t , q , Q ) = q , p ( t ) q + q , k ( t ) + Q ¯ , P ( t ) Q ¯ + Q ¯ , K ( t ) + s ( t ) , (14)

其中 P ( t ) p ( t ) 对称且正定, P ( t ) = P ( t ) I n × n K ( t ) = K ¯ ( t ) 。函数 V E ( t , q , Q ¯ ) 分别对t、q和 Q ¯ 求偏导,有

V E t = q ˙ , p ˙ ( t ) q + q , k ˙ ( t ) + Q ¯ , P ˙ ( t ) Q ¯ + Q ¯ , K ˙ ( t ) + s ˙ ( t ) , V E q = 2 p ( t ) q + k ( t ) , V E Q ¯ = 2 P ( t ) Q ¯ + K ( t ) .

于是(11)、(12)式可改写为

u ( t , q ) = 1 2 B q ( t ) ( 2 p ( t ) q + k ( t ) ) , (15)

U ¯ ( t , Q ) = 1 2 B ( t ) ( 2 P ( t ) Q ¯ + K ( t ) ) . (16)

将(14)式带入(10)和(13)式,得到一组关于(14)式中未知参数 P ( t ) K ( t ) p ( t ) k ( t ) s ( t ) 的方程组

p ˙ ( t ) + 2 p ( t ) A q ( t ) p ( t ) B q ( t ) B q ( t ) p ( t ) = 0 , p ( θ ) = ξ 1 I n × n , k ˙ ( t ) + A q ( t ) k ( t ) p ( t ) B q ( t ) B q ( t ) k ( t ) = 0 , k ( θ ) = 2 ξ 1 m , P ˙ ( t ) + 2 P ( t ) A ( t ) P ( t ) B ( t ) B ( t ) P ( t ) = 0 , P ( θ ) = ξ 2 I n 2 × n 2 , K ˙ ( t ) + A ( t ) K ( t ) P ( t ) B ( t ) B ( t ) K ( t ) = 0 , K ( θ ) = 2 ξ 2 M ¯ , s ˙ ( t ) k ( t ) , k ( t ) K ( t ) , K ( t ) = 0 , s ( θ ) = ξ 1 m , m + ξ 2 M ¯ , M ¯ . (17)

因为系统(1)和(2)的矩阵系数连续可微,所以方程(9)和(10)存在唯一的解,下面的定理成立。

定理1通过求解(14)式所示的值函数,可以得到系统(1)和(2)的解,其中(14)式的未知参数由方程组(17)确定。此时,最小化值函数的最优控制 u ( t , q ) U ( t , Q ¯ ) 由(15)和(16)给出。

因为方程组(17)涉及非线性项,所以即使对于这种比较简单的模型,我们也难以获得解析式,本文着重考虑数值解。运用显示欧拉法进行数值离散化,最后通过仿真软件Matlab得到椭球值轨迹管。

4. 数值仿真

为验证状态约束对椭球运动的控制问题的影响,本节考察数值仿真结果。仿真包括2个情景,分别是不考虑状态约束和考虑状态约束下的椭球运动。在所有仿真中,采用公式(7)所示的目标函数求解系统(1)和(2),系统的各项参数取值为

q 0 = [ 0 , 0 ] , Q 0 = [ 1 0 0 1 ] , t 0 = 0 , θ = 1 , A q = [ 4 t 0 0 4 t ] , B q = [ 2 t t t 2 t ] , T = [ 3 t 0 0 3 t ] , B Q = [ cos ( π t ) sin ( π t ) sin ( π t ) cos ( π t ) ] .

目标椭球中心和配置矩阵分别为

m = [ 1 , 1 ] , M = [ 1 0 0 1 ] .

(7)中的未知系数分别为

ξ 1 = 2 , ξ 2 = 6.8.

当存在状态约束时,取系数 δ 2 = 2.5 , σ 2 = 1.5 图1给出无状态约束下的椭球 E c [ t ] 的轨迹管,图2给出有状态约束下的椭球 E c [ t ] 的轨迹管。从图1图2的仿真结果可以看出,当不考虑状态约束时,椭球轨迹管变化较大,此时,要想使得目标误差尽可能小,必须取更大的控制,很可能导致“过大”的控制;当考虑状态约束时,椭球轨迹管变化较小,此时椭球在控制作用下到达目标集。

当存在状态约束时,验证 E c [ t ] 的终端椭球 E c [ 1 ] 是否到达目标集。给出终端椭球和目标椭球比较图,仿真结果如图3图4所示。如图3 E c [ t ] 的中心到达目标集。如图4 E c [ t ] 的配置矩阵与目标椭球的配置矩阵几乎重合,显然到达目标集。因此说明,椭球可以在状态约束作用下到达目标集。

5. 结论

本文提出一种通过状态约束限制目标函数来实现椭球运动的方法,该方法使得值函数中的未知参数可以用非线性方程来表示,进而可以求解值函数。

针对虚拟椭球的三维情形,运用本文的方法可以得到类似的结果,只不过运算时间较长。

Figure 1. Ellipsoidal tubes of trajectories for the Ec [t] with no regard of the state constraint

图1. 无状态约束下的椭球Ec [t]的轨迹管

Figure 2. Ellipsoidal tubes of trajectories for the Ec [t] with regard of the state constraint

图2. 有状态约束下的椭球Ec [t]的轨迹管

Figure 3. The comparison diagram of the center of the terminal ellipsoid and the target ellipsoid with state constraint

图3. 终端椭球和目标椭球中心比较

Figure 4. The comparison diagram of the configuration matrix of the terminal ellipsoid and the target ellipsoid with state constraint

图4. 终端椭球和目标椭球形状比较

致谢

首先要感谢我的导师,本文从选题、资料收集到撰写都是在他的亲切关怀和悉心指导下完成的。其次要感谢一直陪伴在我身边的同门以及研究生期间的其他舍友,每当我遇到问题或者烦闷的时候,是她们一直在帮助我。

基金项目

本文由国家自然科学基金面上项目(No. 72171126)支持。

参考文献

[1] Wang, X., Zhu, H., Zhang, D., et al. (2014) Vision-Based Detection and Tracking of a Mobile Ground Target Using a Fixed-Wing UAV. International Journal of Advanced Robotic Systems, 11, 156.
https://doi.org/10.5772/58989
[2] Millan, P., Orihuela, L., Jurado, I., et al. (2014) Formation Control of Autono-mous Underwater Vehicles Subject to Communication Delays. IEEE Transactions on Control Systems Technology, 22, 770-777.
https://doi.org/10.1109/TCST.2013.2262768
[3] Ahn, H.-S. (2012) Leader-Follower Type Relative Position Keeping in Satellite Formation Flying via Robust Exponential Stabilization. International Journal of Robust and Non-linear Control, 22, 2084-2099.
https://doi.org/10.1002/rnc.1817
[4] 冯刘中, 肖世德, 司徒渝, 孟祥印, 张卫华. 基于双移动信标的多机器人编队控制算法[J]. 信息与控制, 2011, 40(2): 145-149.
[5] Gustavi, T. and Hu, X.M. (2008) Observer-Based Leader-Following Formation Control Using Onboard Sensor Information. IEEE Transactions on Robotics, 24, 1457-1462.
https://doi.org/10.1109/TRO.2008.2006244
[6] Mariottini, G.L., Morbidi, F., Prattichizzo, D., et al. (2009) Vision-Based Localization for Leader-Follower Formation Control. IEEE Transactions on Robotics, 25, 1431-1438.
https://doi.org/10.1109/TRO.2009.2032975
[7] Chen, X., Yan, P. and Serrani, A. (2013) On In-put-to-State Stability-Based Design for Leader-Follower Formation Control with Measurement Delays. International Journal of Robust and Nonlinear Control, 23, 1433-1455.
https://doi.org/10.1002/rnc.2830
[8] Panagou, D. and Kumar, V. (2014) Cooperative Visibility Maintenance for Leader-Follower Formations in Obstacle Environments. IEEE Transactions on Robotics, 30, 831-844.
https://doi.org/10.1109/TRO.2014.2304774
[9] Kownacki, C. (2016) Multi-UAV Flight Using Virtual Structure Combined with Behavioral Approach. Acta Mechanica et Automatica, 10, 92-99.
https://doi.org/10.1515/ama-2016-0015
[10] Lawton, J.R.T., Beard, R.W. and Young, B.J. (2003) A Decentralized Approach to Formation Maneuvers. IEEE Transactions on Robotics and Automation, 19, 933-941.
https://doi.org/10.1109/TRA.2003.819598
[11] Ren, W. and Beard, R.W. (2004) Decentralized Scheme for Spacecraft Formation Flying via the Virtual Structure Approach. Journal of Guidance Control and Dynamics, 27, 73-82.
https://doi.org/10.2514/1.9287
[12] Sadowskaa, A., van den Broek, T., Huijberts, H., et al. (2011) A Virtual Structure Approach to Formation Control of Unicycle Mobile Robots Using Mutual Coupling. International Journal of Control, 84, 1886-1902.
https://doi.org/10.1080/00207179.2011.627686
[13] Gazi, V. (2005) Swarm Aggregations Using Artificial Po-tentials and Sliding-Mode Control. IEEE Transactions on Robotics, 21, 1208-1214.
https://doi.org/10.1109/TRO.2005.853487
[14] Mabrouk, M.H. andMclnnes, C.R. (2008) Solving the Potential Field Local Minimum Problem Using Internal Agent States. Robotics and Autonomous Systems, 56, 1050-1060.
https://doi.org/10.1016/j.robot.2008.09.006
[15] Kurzhanski, A.B. (2015) On a Team Control Problem under Ob-stacles. Proceedings of the Steklov Institute of Mathematics, 291, 128-142.
https://doi.org/10.1134/S0081543815090096
[16] Kurzhanski, A.B. (2014) Dynamics and Control of Trajectory Tubes. Theory and Computation. Proceeding of the 20th International Workshop on Beam Dynamics and Optimization (BDO), Saint-Petersburg, 30 June-4 July 2014, 107.
https://doi.org/10.1109/BDO.2014.6890048
[17] Komarov, Y. and Kurzhanskii, A.B. (2020) Minimax-Maximin Relations for the Problem of Vector-Valued Criteria Optimization. Docklady Mathematics, 101, 259-261.
https://doi.org/10.1134/S1064562420030114
[18] Kurzhanskii, A.B. (2012) On the Problem of Control for El-lipsoidal Motions. Proceedings of the Steklov Institute of Mathematics, 277, 160-169.
https://doi.org/10.1134/S0081543812040116
[19] Kurzhanskii, A.B. and Mesyats, A.I. (2013) Control of Ellip-soidal Trajectories: Theory and Numerical Results. Computational Mathematics and Mathematical Physics, 54, 418-428.
https://doi.org/10.1134/S0965542514030117
[20] Kurzhanskii, A.B. and Vályi, I. (1997) Ellipsoidal Calculus for Estimation and Control. Birkhäuser, Boston and International Institute for Applied Systems Analysis, Laxenburg, 97-98.
https://doi.org/10.1007/978-1-4612-0277-6
[21] Dockner, E.J., Jorgensen, S., Long, N.V. and Sorger, G. (2000) Differential Games in Economics and Management Science. Cambridge University Press, Cambridge, 41-46.
https://doi.org/10.1017/CBO9780511805127