1. 引言
信息几何旨在利用黎曼几何的方法来解决信息领域里的问题。经过多年的研究,信息几何的理论体系不断完善,所涉及的范围愈加广泛。特别是,随着信息几何的理论在统计推断、神经网络、纠错码、雷达信号处理、图像处理、控制理论等领域的成功应用 [1] - [9] ,信息几何受到越来越多的关注。一方面,许多学者试图把各种数学工具引入到信息几何的框架,另一方面越来越多的学者在尝试信息几何能不能用来解决自己研究领域的问题。当然,信息几何的理论不是万能的,它的适用范围也是有条件的。究竟什么研究领域能够利用信息几何来解决,需要不断的尝试。经过多年的研究人们发现信息几何主要分为两种体系:随机的信息几何与非随机的信息几何。通过引入Fisher信息矩阵作为黎曼度量把要研究的对象看成黎曼流形,再引入对偶联络和Kullback-Leibler散度,由此建立起随机的信息几何理论框架。对于非随机的情形,主要利用一般线性群的李子群和子流形的理论来构建信息几何的理论,其中所涉及到的几何与拓扑等理论,使得信息几何的面貌焕然一新,随之而来的利好是应用范围迅速扩大,特别是在核磁共振等领域的应用令人振奋。
本文我们首先介绍信息几何的基本内容,然后介绍信息几何在控制领域中的应用。
2. 黎曼几何
微分流形是一个带有拓扑结构和微分结构的集合,在其上面可以进行求导和积分等运算。例如维欧几里得空间、维球面以及一般线性群都是微分流形。是平坦的空间,其上面连接任意两点的最短线是直线。对于一般的微分流形,其上面连接任意两点的最短线就不一定是直线了,例如球面上连接其上面任意两点的最短线是大圆的一部分。设是一个维流形,其上面每一点处的切空间是一个线性空间。在上可以定义黎曼度量
这是一个双线性的对称映射。于是,成为黎曼流形。例如、球面以及一般线性群在适当的黎曼度量下都是黎曼流形。在黎曼流形上要定义一个联络(求导方式)
满足线性和莱布尼兹法则。特别地,我们关心特殊的联络——黎曼联络,满足对称性
和相容性
其中
称为Lie括号。有了黎曼我们就可以定义黎曼曲率张量
流形的曲率定义为
其中为曲率张量的分量。例如的曲率为零,维球面的曲率为1。测地线是流形上连接相邻两点距离的最短线,满足,其中,用分量表示为,其中是联络系数。另外,通过变分方法通过求能量泛函的极值同样可以获得测地线方程。对于一般的黎曼流形,其上面的测地线不容易求解,但是对于矩阵流形,我们就可以获得显式的解。通过对能量泛函的二阶变分,我们可以获得沿测地线的Jacobi方程
其中表示曲率张量。利用Jacobi方程我们可以研究Jacobi场的稳定性 [10] [11] [12] 。此外,指数映射和对数映射是联系光滑流形与其切空间的重要数学概念。通过指数映射,我们可以获得流形上过一点和一个切方向的测地线的表达式。
3. 随机信息几何
信息几何不研究单个随机现象,而是把要研究的随机现象全体(概率密度函数)看成一个集合,加上一些条件使之成为一个微分流形,研究该流形的性质以及应用 [1] [2] 。设
是一个 维统计流形,其中是概率密度函数,表示参数。作为特例,一元正态分布全体构成的流形
是一个2维流形,其中
通过引入Fisher信息矩阵
流形成为一个黎曼流形,其中上式中的表示数学期望。
Amari, S.提出了对偶联络的概念,是对经典联络中关于相容性的推广
其中与为对偶联络。当联络满足对称性以及相容性时,称为黎曼联络。经计算,我们可以计算得到:上述的一元正态分布全体所构成的黎曼流形是一个具有负常曲率的双曲空间。进一步地,Amari, S.定义了特殊的对偶联络与
上述定义的好处在于,是对称联络而且与是对偶联络。另外,如所周知,指数分布族
包含了许多重要的分布,其中表示势函数。通过计算可知,指数分布族流形的几何量由完全确定。不同于标准的距离函数,在随机信息几何中可以利用Kullback-Leibler散度
来衡量两个分布的差异,其中是密度函数。另外,可以引入散度(Divergence)
其中是势函数。该散度只满足非负性,不满足对称性和三角不等式。此外还可以引入Bregman散度等来推广Kullback-Leibler散度。
自然梯度广泛用于求定义在黎曼流形上的目标函数的最优值,其中的迭代公式与黎曼度量有关。设
是黎曼流形,,通过迭代公式
来求的最小值,其中表示迭代步长。
4. 矩阵信息几何的基本内容
李群是以一个流形同时又是一个群 [13] [14] 。抽象的李群是很难去使用的,矩阵李群具有广泛的应用。通过在李群上引入适当的度量,使得李群具有很好的几何性质,以便使用。或是实数域或复数域上的一般线性群,可以证明,它们是光滑的流形而且在通常矩阵的乘法意义下构成群,从而它们是李群。
对于非随机的情形,上面的理论已经不再适用,一般线性群的李子群以及子流形发挥重要的作用。我们关心它们的李子群,例如正交群
酉群
以及特殊辛群,它们都是紧致的李群。同时,的一些子流形,例如正定矩阵全体构成的流形,特殊欧几里得群
Steifel流形
以及Grassmann流形等在信息几何的应用中发挥重要作用。既然对于同一个流形,赋予其不同的度量将具有不同的几何结构,我们需要根据解决问题的需要定义适当的度量。
测地线的理论在信息几何的研究中有重要的作用,局部上它是连接流形上两点的最短线。但是对于抽象的流形,测地线的方程往往满足一个非线性的方程,无法给出解析解。然而,对于矩阵流形,我们可以给出测地线的显式表达。另外,在求解一个定义在一般的黎曼流形上的函数的最小值时,我们需要利用自然梯度给出相应的迭代公式。但是,其中的求逆运算在求解过程中增加了复杂性。在矩阵流形上,根据具体的情形我们可以给出黎曼梯度的简洁表达式,使得运算过程变得相对简单 [12] [13] [14] 。
5. 矩阵流形上的几何度量
在统计流形上我们可以定义Fisher信息矩阵,使之成为黎曼流形,而对于矩阵流形,我们可以定义不同的黎曼度量,使之成为黎曼流形 [13] [14] [15] [16] [17] 。例如在一般线性群上定义欧氏度量
则成为一个欧氏空间,其中与为上任意一点处的切空间的元素,该定义与上点的选取无关。另一方面,如果我们定义
则成为一个弯曲的黎曼流形。但是,由于不连通,具有两个连通分支,我们只能在每一个连通分支上给出相应的测地线,以及进行最优化的计算等。
正定矩阵流形在信息几何的研究中发挥重要的作用,例如多元正态分布的协方差矩阵就是正定矩阵,在核磁共振、雷达信号处理等领域具有广泛的应用。如果我们在上定义欧氏度量
此时成为一个欧氏空间,其上面连接任意两点的测地线是一条直线,从该式子我们发现:该直线不能总是在上,这是我们不希望的结果,因为我们经常要在一个流形上衡量连接任意两点的最短距离(测地线的最短距离)。现在我们定义另一个黎曼度量
其中,属于的切空间。于是成为一个Hadamad空间(完备的,带有非正曲率的空间)。此时,在上,任意两点都可以用测地线连接,测地线的方程为
此时连接两点的距离(测地距离)定义为
Pennec,Xavier [5] 在等上定义了另一个黎曼度量,通过指数映射给出的切空间与其本身的线性等距,使得成为一个特殊的欧氏空间,因此在上获得更加简洁的衡量两点间距离的函数。
在一般线性群的紧李群上,我们可以定义双不变的黎曼度量
其中和分别是相应的李群以及切空间上的元素。在该黎曼度量意义下,紧李群成为带有非负曲率的黎曼流形,而连通的紧李群是测地完备的,换句话说,连通的紧李群上任意两点都可由测地线来连接。另外,还有一些重要的李群或流形属于一般线性群的李子群或子流形。例如特殊欧几里得群在机器人控制与图像处理等领域具有重要的应用。不是紧李群,其上面不存在双不变度量,但是存在左不变度量或右不变度量,由此在定义上述度量后它成为一个黎曼流形。同时,上的测地线可以显式地给出。Steifel流形是紧致的,正交群和单位球面属于Steifel流形的特例。Steifel流形的几何结构在流形的优化等领域具有重要应用 [18] [19] [20] 。
6. 信息几何与控制理论
本章介绍信息几何理论在控制理论中的应用。首先,研究随机系统的控制 [21] [22] [23] [24] [25] ,然后通过几何算法来求解Lyapunov方程与Riccati方程,研究线性系统的稳定性与最优控制 [26] [27] [28] [29] 。
既然几乎所有的控制系统都受制于随机信号,随机控制系统是常用的系统,如传感器的噪声,系统参数的随机微小变化等都会对控制系统产生随机影响。在造纸工艺中,要求得到的成品纸张的重量及密度都近似地服从正态分布。但当生产线发生异常时,就不再严格服从正态分布。于是就要设计控制, 使得这些质量参数重新服从正态分布。Dodson,Christopher T. J.和Wang,Hong [21] 设计了随机分布控制系统的输出服从Gamma概率密度函数时控制器的两种方法。具体来说就是利用测地线得到对控制器的方法以及利用B-spline函数得到的控制方法。
随机控制问题的核心思想是:要设计一个控制系统,使得系统的输出所满足的概率与事先指定目标越接近越好。随机分布控制也被认为是对概率密度函数形状的控制,其成功地克服了目前最小方差控制仅能研究高斯型随机控制系统的局限。
对于这个问题,我们的主要思想是把输出概率分布全体看成一个统计流形,通过把函目标函数参数化,使之具有概率分布的形式,而且把这样的参数化的目标函数看成流形,把要研究的问题归结成为求两个流形之间的最小距离问题。再引入Kullback-Leibler散度作为距离函数,来求解该问题。进一步,可以考虑带有噪音的情形以及带有反馈的情形。
对于系统的结构未知、系统输出可测的随机分布控制系统, 通过引入B-spline流形, 借助于自然梯度-投影算法和测地-投影算法可给出随机分布控制系统的控制策略。
关于线性系统的稳定性问题,通常可以寻找一个Lyapunov函数,它满足非负性而且其导数是非正的。问题最后归结为对于给定的一个正定矩阵,求解一个Lyapunov方程。例如,对于线性系统,设,其中是正定矩阵,可以验证是非负的而且其导数是非正的。要研究该线性系统的稳定性问题归结为对于给定的正定矩阵,方程
关于正定矩阵是否有解。我们把和都看成正定矩阵流形的点,它们由测地线连接。
我们利用测地距离衡量和的差异,我们希望连接这两点的测地距离越小越好。可以使用上的自然梯度的迭代方法来求数值解,从而给出稳定性问题的求解。对于Lyapunov方程的求解问题,已经有许多数值解法。我们利用信息几何的方法来求解,获得的算法具有迭代步骤少的特点。
另外,人们经常要面临这样的需求:对于一个线性系统,给定的一个目标函数,寻找系统输入使得目标函数取得最优值。问题最终归结为求解Riccati方程。我们给出了Riccati方程几何求解方法,给出了最优控制的几何算法。具体地,对于线性系统
要设计输入使得指定的目标函数
达到最小值,其中是正定矩阵。该问题可以归结为求解关于正定矩阵的Riccati方程
利用上述类似的方法我们可以给出Riccati方程的数值解,从而获得最小值。与其它的方法相比较我们的方法具有迭代次数少的优点。
基金项目
本课题获得国家自然科学基金项目(No. 61179031)的资助。
参考文献