高维正态分布族Fisher度量的曲率
Curvature Properties of Fisher Metrics for High-Dimensional Normal Distribution Families
DOI: 10.12677/pm.2025.155160, PDF, HTML, XML,   
作者: 熊明月:重庆理工大学理学院,重庆
关键词: 正态分布Fisher度量爱因斯坦空间Normal Distribution Fisher Metric Einstein Space
摘要: 本文针对高维情形得到了高维正态分布在Fisher度量下的数量曲率,并且证明了当协方差矩阵Σ为对角矩阵时,正态分布族的参数空间是爱因斯坦空间,其Ricci曲率与度量张量成严格比例关系。
Abstract: In this paper, the scalar curvature of high-dimensional normal distribution under Fisher metric is obtained for the high-dimensional case, and it is proved that when the covariance matrix Σ is a diagonal matrix, the parameter space of the normal distribution family is Einstein space, and its Ricci curvature is strictly proportional to the metric tensor.
文章引用:熊明月. 高维正态分布族Fisher度量的曲率[J]. 理论数学, 2025, 15(5): 117-129. https://doi.org/10.12677/pm.2025.155160

1. 引言

在统计学中,为了对含参数的分布族中的某些参数进行估计,我们需要构造适当的统计量。Fisher矩阵可以用来刻画统计量的充分性。假设有一个分布族 p( x,θ ) ,那么Fisher矩阵定义为

g ij =E[ i logp( x,θ ) j logp( x,θ ) ]

由于正态分布作为典型指数族分布,其参数空间的几何特性始终是核心研究议题。正态分布族的Fisher矩阵定义了该分布族上的Riemann度量。关于这类度量前人已有很多研究工作。早期突破见于Yoshiharu等学者(1979) [1]对二维正态分布的探索:他们首次证明当协方差矩阵Σ为对角阵时,参数空间具有爱因斯坦流形结构,但其结论限于二维情形,且未揭示高维推广的可能性。Skovgaard (1984) [2]通过将多元正态分布族建模为Fisher-Rao度量下的黎曼流形,系统推导了仿射联络与曲率张量的表达式,但其研究止步于黎曼曲率的定性分析,未深入计算数量曲率等全局几何不变量。

本文突破二维情形限制,一方面在Skovgaard (1984)关于高维正态分布族曲率研究尚不完整的基础上,系统研究了正态分布族的几何结构。得到正态分布族的Fisher度量的曲率张量,Ricci曲率以及数量曲率的完整公式

R= n ( n+1 ) 2 4

另一方面得到了当Σ为对角矩阵时,正态分布的参数空间是爱因斯坦空间,该结论推广了Yoshiharu (1979)的二维结果。

2. 预备知识

2.1. 经典信息几何

定义2.1 [3] p( x,θ ) 是集合 X 上的概率密度函数,其中 θ 是密度函数的参数,称 S={ p( x;θ )|θΘ } 是统计流形,其中 Θ R n

定义2.2 [4] n 维统计流形 S 可以表示为:

p( x,θ )=exp{ θ i h i ( x )+k( x )ψ( θ ) }

则称 S 是一个指数分布族。其中, x n 维随机变量, θ 是该分布族的 n 维自然坐标, k( x ) 是关于 x 的函数, h i ( x ) n 个关于 x 线性无关的函数, ψ( θ ) 称为关于参数 θ 的势函数。

若我们规定特定的测量 dμ( x )=exp{ k( x ) }dx ,即 p( x,θ )dμ( x ) =1 ,那么指数族的密度函数就可以写为:

p( x,θ )=exp{ θxψ( θ ) }

根据指数分布族的定义,可以将正态分布族写为指数分布族的形式。

首先给出 n 维正态分布的概率密度函数:

p( x;μ,σ )= 1 ( 2π ) n | Σ | exp{ 1 2 ( xμ ) T Σ 1 ( xμ ) }

其中, μ T =( μ 1 , μ 2 ,, μ n ) R n 为正态分布的均值, Σ P n ( R ) n维协方差矩阵( P n ( R ) n维正定对称矩阵), x T =( x 1 , x 2 ,, x n ) R n n维随机变量。

现在定义出新的随机变量 x=( x 1 , x 2 )

{ x 1 = h 1 ( x )=x x 2 = h 2 ( x )= x 2

同时引入新的参数 ( θ,Θ )

{ θ= Σ 1 μ Θ= 1 2 Σ 1

那么正态分布族的势函数就可以得到:

ψ( θ )= 1 4 θ T Θ 1 θ+ n 2 logπ+ 1 2 log| Θ |

并将正态分布族的Fisher信息度量定义为:

g ij =E[ i logp( x;μ,σ ) j logp( x;μ,σ ) ]

正态分布族的Fisher信息度量是由期望来定义,为了方便计算,在计算过程中一般由 g ij =E( i j logp( x;μ,σ ) ) 进行计算,下面给出它的证明。

定理2.3 [4] g ij 是光滑的,则

E( i logp( x;μ,σ ) j logp( x;μ,σ ) )=E( i j logp( x;μ,σ ) ).

2.2. 矩阵的迹

下面介绍关于矩阵以及矩阵迹的相关性质,通过矩阵迹转化为元素的形式,进而得到更为简单的计算。

引理2.4 A,B n 阶矩阵,则

(1)

tr( A E ij * )= 1 2 ( a ij + a ji ) (1)

(2) 当 A 或者 B n 阶对称矩阵,有

ij tr( A E ij * )tr( B E ij * )= 1 2 tr( A B T )+ 1 2 i a ii b ii (2)

(3) 当 A 或者 B n 阶对称矩阵,有

ij tr( A E ij )tr( B E ij * )=tr( A B T ) (3)

(4)

ij tr( A E ij B E ij * )= 1 2 tr( A B T )+ 1 2 tr( A )tr( B ) (4)

(5) 若 a= ( a 1 , a 2 ,, a n ) T ,b= ( b 1 , b 2 ,, b n ) T ,则

p a T E pp b= a T b (5)

(6) 若 a= ( a 1 , a 2 ,, a n ) T ,b= ( b 1 , b 2 ,, b n ) T

p a e T b= i b i a T (6)

(7)

kl tr( A E kl * ) E kl =A (7)

(8)

p tr( A E pp )=tr( A ) (8)

(9) 当 A n 阶对称矩阵,有

tr( A B T )=tr( AB ) (9)

其中 E ij ={ 1 i,i i=j 1 i,j + 1 j,i ij E ij * ={ 1 i,i i=j 1 2 ( 1 i,j + 1 j,i ) ij

证明:

(1),(8)可以通过简单计算得到,(6)可以将其展开得到,着重证明以下式子。

对于(2)根据公式(2.1),将迹的形式转换为元素的形式

ij tr( A E ij * )= ij 1 2 a ij + 1 2 a ji

ij tr( A E ij * )tr( B E ij * )= ij ( 1 4 a ij b ij + 1 4 a ij b ji + 1 4 a ji b ij + 1 4 a ji b ji )

因为 A= A T ,有

ij tr( A E ij * )tr( B E ij * )= ij ( 1 2 a ij b ji + 1 2 a ji b ij )= i a ii b ii + 1 2 i>j ( a ij b ji + a ji b ij )

又因为 tr( AB ) 可以写成

tr( AB )= ij a ij b ji = i a ii b ii + i>j ( a ij b ji + a ji b ij )

所以

ij tr( A E ij * )tr( B E ij * )= 1 2 tr( AB )+ 1 2 i a ii b ii

对于(3), A 或者 B n 阶对称矩阵

ij tr( A E ij )tr( B E ij * )= i=j a ii b jj + i>j ( a ij + a ji ) 1 2 ( b ij + b ji )

A 为对称矩阵就有

ij tr( A E ij )tr( B E ij * )= i=j a ii b jj + i>j ( a ij + a ji ) 1 2 ( b ij + b ji )= i=j a ii b ii + i>j a ij ( b ij + b ji )

tr( A B T )= i=j a ii b ii + i>j ( a ij b ij + a ji b ji )= i=j a ii b ii + i>j a ij ( b ij + b ji )

ij tr( A E ij   )tr( B E ij *   ) 展开,就有

tr( A B T )= ij tr( A E ij )tr( B E ij * )

B 是对称矩阵就有

ij tr( A E ij )tr( B E ij * )= i=j a ii b jj + i>j ( a ij + a ji ) 1 2 ( b ij + b ji )= i=j a ii b ii + i>j b ij ( a ij + a ji )

综上,若 A 或者 B n 阶对称矩阵,就有

tr( A B T )= ij tr( A E ij   )tr( B E ij *   )

对于(4)将 A E ij B E ij * 展开,再计算其迹,有

ij tr( A E ij B E ij * )= i a ii b ii + 1 2 i>j ( a ij b ij + a ji b ji + a ii b jj + a jj b ii ) = 1 2 i>j ( a ii b ii + a ji b ji + a ij b ij )+ 1 2 i>j ( a ii b ii + a ii b jj + a jj b ii ) = 1 2 tr( A B T )+ 1 2 tr( A )tr( B )

对于(5)对 a T E ii b 进行展开,有

a T E ii b= a i b i

对其求和,所以有

p a T E pp b= p a p b p = a T b

对于(7)因为

tr( A E kl * )= 1 2 ( a kl + a lk )

所以有

tr( A E kl * ) E kl = 1 2 ( a kl + a lk ) E kl

对所有的 k,l 求和即为

kl tr( A E kl * ) E kl = kl 1 2 ( a kl + a lk ) E kl =A

对于(9)若 A n 阶对称矩阵

tr( A B T )=tr( ( A B T ) T ) =tr( B A T ) =tr( BA ) =tr( AB )

3. 正态分布的Fisher信息度量的曲率

在这一部分我们将研究高维正态分布族参数空间的曲率,通常用曲率张量来描述空间的曲率,但要直观地把握空间的形状,曲率张量尚不充分。因此,我们在这里也要考虑一些二维曲面中由高斯曲率定义的截面曲率。有了前面的计算基础,这章将对高维正态分布族的曲率进行详细的计算。下面介绍后面计算高维正态分布的曲率所要用到的公式

引理3.1 σ ij Σ 中的元素, μ i μ 中的元素,那么就有下面等式成立:

(1)

Σ σ kl = Σ 1 E kl Σ 1 (4.1)

(2)

| Σ | σ kl =| Σ |tr( Σ 1 E kl ) (4.2)

(3)

σ kl σ ij =tr( Σ 1 E ij Σ 1 E kl * ) (4.3)

(4)

E[ ( xμ ) T A( xμ ) ]=tr( AΣ ) (4.4)

(5)

tr( A 1 E kl ) a ij =tr( A 1 E ij A 1 E kl ) (4.5)

证明:对于(1),因为

Σ Σ 1 =E

对两边求 σ kl 偏导有

( Σ Σ 1 ) σ kl =0 = Σ σ kl Σ 1 + Σ 1 σ kl Σ = E kl Σ 1 + Σ 1 σ kl Σ

化简过后得

Σ σ kl = Σ 1 E kl Σ 1

对于(2),设 A * =B

| A |I= A * A=BA ,对其矩阵展开并取出 | A |I k k 列的元素,就有

| A |= p b kp a pk

对其两边求 a kl 的偏导

| A | a kl ={ b kl + b lk kl b kk k=l

| A | a kl   =tr( B E kl )=| A |tr( A 1 E kl )

对于(3),因为 Σ 1 是对称矩阵,与 σ kl =tr( Σ 1 E kl ) ,对 σ kl 求偏导有

σ kl σ ij = σ ij tr( Σ 1 E kl )= σ ij ( Σ 1 ) kl = ( Σ 1 σ ij ) kl = ( Σ 1 E ij Σ 1 ) kl

因为 Σ 1 E ij Σ 1 是对称矩阵,所以有

σ kl σ ij =tr( Σ 1 E ij Σ 1 E kl * )

对于(4),将 ( xμ ) T A( xμ ) 展开,得到

( xμ ) T A( xμ )= i,j a ij ( x i μ i )( x j μ j )

对其求期望,所以有

E[ ( xμ ) T A( xμ ) ]= i,j a ij ( E( x i x j )E( x i ) μ j E( x j ) μ i μ i μ j ) = i,j a ij σ ij =tr( AΣ )

对于(5),

tr( A 1 E kl ) a ij =2 ( A 1 a ij ) kl =2 ( A 1 E ij A 1 ) kl =2tr( A 1 E ij A 1 E kl * )=tr( A 1 E ij A 1 E kl )

定理3.2 [2]是高维正态分布的信息度量,则其度量的张量为

{ g i,kl =0 g ij,kl = 1 2 tr( Σ 1 E ij Σ 1 E kl ) g i,j = σ ij

度量的逆矩阵就可以表示为

{ g i,kl =0 g ij,kl =2tr( Σ E ij * Σ E kl * ) g i,j = σ ij

定理3.3 [2]正态分布的联络系数可表示为

{ Γ i,j k = Γ ij,k rs = Γ ij,kl r =0 Γ i,j kl =tr( E kl * E ij * ) Γ ij,k l = 1 2 e k T Σ 1 E ij e l Γ ij,kl rs = 1 2 tr( E rs * E kl Σ 1 E ij ) 1 2 tr( E rs * E ij Σ 1 E kl )

定理3.4 [2] e i R n 表示 μ -方向的基向量场, E ij R n*n 表示 σ -方向的基向量场,那么正态分布族的仿射联络 可以表示为

{ e i e j = e j e i = 1 2 ( e i e j T + e j e i T ) e i E kl = E kl e i = 1 2 E kl Σ 1 e i E ij E kl = E kl E ij = 1 2 ( E kl Σ 1 E ij + E ij Σ 1 E kl )

定理3.5 [2]黎曼曲率张量可以表示为

{ R i,j,k,l = 1 4 σ ki σ jl + 1 4 σ kj σ il R ij,kl,rs,pq = 1 4 tr( Σ 1 E kl Σ 1 E ij Σ 1 E pq Σ 1 E rs ) 1 4 tr( Σ 1 E ij Σ 1 E kl Σ 1 E pq Σ 1 E rs ) R i,j,kl,rs = 1 4 ( e i T Σ 1 E kl Σ 1 E rs Σ 1 e j e i T Σ 1 E rs Σ 1 E kl Σ 1 e j ) R i,kl,j,rs = 1 4 e i T Σ 1 E kl Σ 1 E rs Σ 1 e j

下面我们介绍如何利用黎曼曲率张量计算n维正态分布的数量曲率。

定理3.6n维正态分布的数量曲率为

R= n ( n+1 ) 2 4

证明:

首先计算Ricci张量的分量:

k,l R k,i,j,l g k,l = 1 4 k,l ( σ kl σ ij σ kj σ il ) σ kl = n1 4 σ ij

kl pq R kl,i,j,pq g kl,pq = 1 2 kl pq e i T Σ 1 E kl Σ 1 E pq Σ 1 e j tr( Σ E kl * Σ E pq * ) = 1 2 kl pq tr( e i T Σ 1 E kl Σ 1 E pq Σ 1 e j )tr( Σ E kl * Σ E pq * ) = 1 2 kl pq tr( Σ 1 e j e i T Σ 1 E kl Σ 1 E pq )tr( Σ E kl * Σ E pq * )

由公式(3)

kl pq R kl,i,j,pq g kl,pq = 1 2 kl pq tr( Σ 1 e j e i T Σ 1 E kl Σ 1 Σ E kl * Σ ) = 1 2 kl pq tr( e j e i T Σ 1 E kl E kl * )

由公式(4)

kl pq R kl,i,j,pq g kl,pq = 1 4 ( tr( e j e i T Σ 1 I )+tr( e j e i T Σ 1 )tr( I ) )= n+1 4 σ ij

计算 p,q R p,ij,kl,q g p,q

p,q R p,ij,kl,q g p,q = 1 4 e p T Σ 1 E ij Σ 1 E kl Σ 1 e q σ pq = 1 4 e p T Σ 1 E ij Σ 1 E kl Σ 1 e q e q T Σ e p = 1 4 e p T Σ 1 E ij Σ 1 E kl Σ 1 E qq Σ e p

由公式(8),可得

p,q R p,ij,kl,q g p,q = 1 4 e p T Σ 1 E ij Σ 1 E kl e p = 1 4 tr( e p T Σ 1 E ij Σ 1 E kl e p ) = 1 4 tr( Σ 1 E ij Σ 1 E kl E pp )

由公式(3),可得

p,q R p,ij,kl,q g p,q = 1 4 tr( Σ 1 E ij Σ 1 E kl )

下面计算

pq kl R pq,ij,kl,rs g pq,rs = 1 4 tr( Σ 1 E rs Σ 1 E kl Σ 1 E pq Σ 1 E ij )2tr( Σ E rs * Σ E pq * ) 1 4 tr( Σ 1 E rs Σ 1 E kl Σ 1 E ij Σ 1 E pq )2tr( Σ E rs * Σ E pq * )

由公式(3),可得

pq kl R pq,ij,kl,rs g pq,rs = 1 2 tr( E ij Σ 1 E rs Σ 1 E kl   E rs *   ) 1 2 tr( E rs Σ 1 E kl Σ 1 E ij E rs *   )

由公式(4),可得

pq kl R pq,ij,kl,rs g pq,rs = 1 4 tr( E ij Σ 1 E kl Σ 1 )+ 1 4 tr( E ij Σ 1 )tr( E kl Σ 1 ) 1 4 tr( E ij Σ 1 E kl Σ 1 ) 1 4 tr( E ij Σ 1 E kl Σ 1 )tr( I ) = 1 4 tr( E ij Σ 1 )tr( E kl Σ 1 ) n 4 tr( E ij Σ 1 E kl Σ 1 )

对于二维正态分布的参数空间,Ricci张量的分量由下面的公式给出:

R ij = k,l R i,j,k,l g k,l + kl pq R kl,i,j,pq g kl,pq = n1 4 σ ij n+1 4 σ ij = 1 2 σ ij

R ij,kl = p,q R p,ij,kl,q g p,q + kl pq R pq,ij,kl,rs g pq,rs = 1 4 tr( Σ 1 E ij Σ 1 E kl )+ 1 4 tr( E ij Σ 1 )tr( E kl Σ 1 ) n 4 tr( E ij Σ 1 E kl Σ 1 ) = n+1 4 tr( Σ 1 E ij Σ 1 E kl )+ 1 4 tr( E ij Σ 1 )tr( E kl Σ 1 )

那么数量曲率可以表示为

R= i,j R i,j g i,j + ij kl R ij,kl g ij,kl = 1 2 σ ij σ ij n+1 4 tr( Σ 1 E ij Σ 1 E kl )2tr( Σ E ij * Σ E kl * ) + 1 4 tr( E ij Σ 1 )tr( E kl Σ 1 )2tr( Σ E ij * Σ E kl * )

由公式(3),可得

R= n 2 n+1 2 ij tr( E ij E ij * )+ 1 2 tr( E ij   Σ 1 )tr( Σ E ij * ) = n 2 n+1 2 n( n+1 ) 2 + n 2 = n ( n+1 ) 2 4

上述定理可知n维正态分布的数量曲率是跟维数有关的常数,但是通过Ricci张量和黎曼张量的比较,我们发现一般情况下我们的参数空间不是爱因斯坦空间,但是我们发现在某个特定的子流形下,高维正态分布的参数空间是爱因斯坦空间。下面给出高维正态分布的参数空间是爱因斯坦空间的充分条件。

推论3.7 Σ 是对角矩阵,则n-维正态分布的参数空间是爱因斯坦空间。

证明: Σ 是对角矩阵时,根据度量公式

g ij =E[ i j p( x;μ,Σ ) ]

可得到正态分布的黎曼度量为

g={ g i,jj =0; g ii,jj ={ 0, iijj 1 2 ( σ ii   ) 2 , ii=jj ; g i,j = σ ij

因为 g ii,jj g i,j 是对称矩阵,所以有正态分布的Fisher度量的逆矩阵

g 1 ={ g i,jj =0; g ii,jj ={ 0, iijj 2 σ ii 2 , ii=jj ; g i,j = σ ij

现在计算联络系数

Γ i,j kk = 1 2 g kk,kk g i,i σ kk =tr( E kk E ii )

当且仅当 k=i 时, tr( E kk E ii )=1 ,其余为零,即

Γ k,k kk =1

Γ ii,k l = 1 2 e k T Σ 1 E ii e l

由于矩阵 Σ 1 E ii 是对称矩阵所以有

Γ ii,k l = 1 2 tr( Σ 1 E ii E kl )

这个式子只有当 k=i=l 时不为零,即

Γ ii,i i = 1 2 tr( Σ 1 E ii E ii )= 1 2 σ ii

Γ ii,kk rr = 1 2 tr( E rr E kk Σ 1 E ii ) 1 2 tr( E rr E ii Σ 1 E kk )

这个式子只有当 k=i=r 时不为零,即

Γ ii,ii ii = 1 2 σ ii 1 2 σ ii = σ ii

{ Γ k,k kk =1 Γ ii,i i = 1 2 σ ii Γ ii,ii ii = σ ii

其余的联络系数为0。

正态分布族的仿射联络

e i e i = Γ i,i ii E ii = E ii

e i E ii = Γ i,ii i e i = 1 2 σ ii e i

E ii E ii = Γ ii,ii ii E ii = σ ii E ii

{ e i e i = E ii e i E ii = 1 2 σ ii e i E ii E ii = σ ii E ii

其余为0。

接下来求二阶偏导:

e i e i e i = e i ( e i e i ) = e i E ii = 1 2 σ ii e i

E ii E ii E ii = E ii ( E ii E ii ) = σ ii e i E ii = ( σ ii ) 2 E ii

e i e i E ii = e i ( e i E ii ) = 1 2 σ ii e i e i = 1 2 σ ii E ii

E ii e i e i = E ii E ii = σ ii E ii

{ e i e i e i = 1 2 σ ii e i E ii E ii E ii = ( σ ii ) 2 E ii e i e i E ii = 1 2 σ ii E ii E ii e i e i = σ ii E ii

其余为0。

黎曼曲率张量就可以表示为

R i,ii,i,ii =g( e i E ii e i E ii e i e i , E ii ) =g( 1 2 σ ii E ii + σ ii E ii , E ii ) = 1 2 σ ii g( E ii , E ii ) = 1 4 ( σ ii ) 3

其余为0。

Ricci曲率表示为

R i,i = R ii,i,i,ii g ii,ii = R i,ii,i,ii g ii,ii = 1 4 ( σ ii ) 3 2 σ ii 2 = 1 2 σ ii

R ii,ii = R i,ii,ii,i g i,i = R i,ii,i,ii g i,i = 1 4 ( σ ii ) 3 σ ii = 1 4 ( σ ii ) 2

{ R i,i = 1 2 σ ii R ii,ii = 1 4 ( σ ii ) 2

这个空间的数量曲率为

R= i R i,i g i,i + R ii,ii g ii,ii = i ( 1 2 σ ii σ ii 1 4 ( σ ii ) 2 2 σ ii 2 ) =n

比较度量张量与Ricci张量,有如下的关系:

{ R i,i = R 2n g ii = 1 2 g ii R ii,ii = R 2n g ii,ii = 1 2 g ii,ii

综上可以看到,n-维正态分布的参数空间是爱因斯坦空间。

参考文献

[1] Sato, Y., Sugawa, K. and Kawaguchi, M. (1979) The Geometrical Structure of the Parameter Space of the Two-Dimensional Normal Distribution. Reports on Mathematical Physics, 16, 111-119.
https://doi.org/10.1016/0034-4877(79)90043-0
[2] Skovgaard, L.T. (1984) A Riemannian Geometry of the Multivariate Normal Model. Scandinavian Journal of Statistics, 11, 211-223.
[3] 孙华飞, 张真宁, 彭林玉, 段晓敏. 信息几何导引[M]. 北京: 科学出版社, 2016.
[4] Amari, S. (2016) Information Geometry and Its Applications. Springer.