狄利克雷分布族的信息几何结构研究

doi:10.12677/pm.2025.155149

期刊菜单

狄利克雷分布族的信息几何结构研究
Information Geometry of the Dirichlet Distribution Family

DOI: 10.12677/pm.2025.155149, PDF, HTML, XML,
作者: 汪义：重庆理工大学理学院，重庆
关键词: 信息几何；狄利克雷分布族；Fisher信息度量；α-联络；Information Geometry； Dirichlet Distribution Family； Fisher Information Metrics； α-Connection

摘要: 本文基于经典信息几何理论对狄利克雷分布族的信息几何结构进行了深入研究，首先，本文对经典信息几何的理论进行了梳理，特别是对指数分布族的信息几何结构进行了整理，给出了指数分布族统计流形在Fisher信息度量和α-联络下的几何量并给出了证明过程。其次，本文对狄利克雷分布族进行了研究，我们证明了其是一种特殊的指数分布族，构建了狄利克雷分布流形，推导出了n维狄利克雷分布流形的几何量的通项表达式。最后，计算了当狄利克雷分布为三维时，其在自然坐标系下的几何量。

Abstract: This paper conducts an in-depth study on the information geometric structure of the Dirichlet distribution family based on classical information geometry theory. First, the paper systematically reviews the theoretical framework of classical information geometry, with particular focus on the geometric structure of exponential families. It provides detailed derivations and proofs of the geometric quantities for statistical manifolds of exponential families under the Fisher information metric and α-connections. Next, the research specifically addresses the Dirichlet distribution family. We prove that it constitutes a special type of exponential family, then construct the Dirichlet distribution manifold and derive general closed-form expressions for geometric quantities of n-dimensional Dirichlet manifolds. Finally, explicit computations are performed for the geometric quantities under natural coordinates in the three-dimensional case of Dirichlet distributions.

文章引用：汪义. 狄利克雷分布族的信息几何结构研究[J]. 理论数学, 2025, 15(5): 14-26. https://doi.org/10.12677/pm.2025.155149

1. 引言

信息几何旨在解开概率分布族的几何结构，并研究它们在信息科学中的应用。信息几何是计量经济学家H. Hotelling (1930)和统计学家C.R. Rao (1945)出于数学上的好奇心而独立诞生的，他们考虑了概率分布的参数族，称为统计模型，是一种带有Fisher度量张量的黎曼流形。信息几何通过使用张量微积分和微分几何的概念(如曲率)来解决问题。信息几何是一个相对较新的统计学领域，主要研究概率分布之间的几何性质和相关信息度量[1]。

在经典信息几何理论中，Rao把概率密度函数全体看成统计流形，并用Fisher信息阵来定义流形上的黎曼度量，从而构建了黎曼流形[2]。Amari计算了正态分布流形在黎曼联络下的黎曼曲率，惊奇地发现它是带有负常曲率的双曲空间，既然概率分布全体是弯曲的流形，人们就想研究各种概率分布的几何性质，并希望利用这些几何性质来研究各种随机问题。流形的几何性质取决于所选取的几何度量及其联络。保持无挠性和相容性的黎曼联络在微分几何理论中是最理想的联络，但是在经典信息几何中却不太容易派上用场，于是人们设法定义新的联络来代替黎曼联络，Chentsov引入了一族仿射联络，Efron给出了统计流形上的曲率[3]。在上述基础上，Amari对统计流形进行了大量研究，为信息几何理论的形成做出了巨大贡献(详见文献[4]-[10])。特别是引入了对偶联络的概念，这个概念是经典微分几何中所不具有的新内容。利用这个对偶联络，学者们己经获得了很多新成果。这种对偶联络本身既没有无挠性，与黎曼度量之间也没有相容性，对信息几何的研究没有直接的贡献，而Amari由此提出的α-联络，因为α-联络与−α-联络是对偶联络，它们保证了α-联络的无挠性，这对问题的研究带来了极大的方便。

在国内，信息几何的研究也受到了许多学者的重视，许多学者也开始对一类分布族的信息几何结构进行了研究，张士诚，孙华飞，李春晖等人利用信息几何的观点，考虑了指数族流形的α几何结构，并利用这些几何性质研究了热力学统计流形[11]。张真宁，曹丽梅，柯炳清等人从信息几何的角度将二元Weibull分布的全体所构成的集合作为二元Weibull统计流形，得到二元Weibull统计流形的对偶几何结构，进而得到当 $α = 1$ 和 $- 1$ 时，二元Weibull统计流形是对偶平坦的，并且是常截面曲率空间[12]。仲锋惟，孙华飞，张真宁等人用几何方法研究Fisher Z分布，建立了Fisher Z分布流形的几何结构，从几何的角度计算了Fisher Z分布的一些相关几何量，给出了对应的量化结果[13]。

仲锋惟等三人也研究了由狄利克雷分布组成的狄利克雷流形的几何结构，考虑其对偶结构并给出了其几何度量，获得了狄利克雷流形低维情况下的几何结构。他们构建了狄利克雷流形的仿射浸入，给出了狄利克雷流形的e-平坦层次结构和平交叶状结构[14]。但他们只研究了三维狄利克雷分布流形的几何结构，计算出的几何量的结果也比较复杂，本文在此基础上对高维的狄利克雷流形的几何结构进行研究。

首先，我们对经典信息几何的知识进行了梳理，定义了统计流形，利用Fisher信息矩阵定义了黎曼度量，引入了对偶联络和α-联络，主要对指数族分布流形的几何量进行了介绍，特别在自然坐标系下，对指数分布统计流形的度量 $g_{i j} (θ)$ ，α-联络系数 $Γ_{i j k} (θ)$ ，挠率系数 $T_{i j k} (θ)$ ，曲率张量 $R_{i j k l} (θ)$ 的表达式做了相应介绍和证明。

然后，我们证明狄利克雷分布是特殊的一种指数族分布，我们利用前文经典信息几何的知识，构建狄利克雷分布流形，计算得到狄利克雷分布流形的n维几何结构给出具体表达式。

最后，我们重新对三维狄利克雷分布流形的几何结构进行了研究，计算了相关几何量，并与文献[14]的结果进行对照比较。

2. 经典信息几何理论

经典信息几何就是指把服从某一分布的概率密度函数全体看成一个集合，然后在满足一定的正则条件下构成一个微分流形，利用Fisher信息矩阵作为黎曼度量，再引入对偶联络，α-联络，研究此类流形的几何性质与结构(详见文献[15])。

定义2.1：集合

$\begin{matrix} M = {p (x; θ) | θ \in Θ \subset ℝ^{n}} \end{matrix}$ (1)

满足以下的正则条件成为一个流形。

1) $p (x; θ) > 0$ ，而且当 $θ_{1} \neq θ_{2}$ 时， $p (x; θ_{1}) \neq p (x; θ_{2})$ ；

2) ${\frac{\partial}{\partial θ^{i}}}_{i = 1}^{n}, {\frac{\partial}{\partial θ^{i}} \log p (x; θ)}_{i = 1}^{n}$ 均线性无关；

3) $\frac{\partial}{\partial θ^{i}} \int = \int \frac{\partial}{\partial θ^{i}}$ ；

4) ${\frac{\partial}{\partial θ^{i}} \log p (x; θ)}$ 存在所需要的各节矩。

其中， $x$ 是样本空间 $X$ 中的随机变量， $p (x; θ)$ 是关于x的概率密度函数，参数θ是一个n维的向量，参数 $θ = (θ^{1}, θ^{2}, \dots, θ^{n}) \in Θ$ ，Θ为n维实向量空间 $ℝ^{n}$ 的开集，参数θ可以看作流形M上的局部坐标系，我们称这样的流形 $M$ 为统计流形。

定义2.2：Fisher信息矩阵的分量形式如下

$\begin{matrix} g_{i j} (θ) = E [\partial_{i} \log p (x; θ) \partial_{j} \log p (x; θ)] i, j = 1, 2, \dots, n ， \end{matrix}$ (2)

其中 $\partial_{i} = \frac{\partial}{\partial θ^{i}}$ ，E表示关于概率密度函数 $p (x; θ)$ 的数学期望，我们定义的Fisher信息矩阵是正定的。

定义2.3：假设 $\nabla, \nabla^{*}$ 是黎曼流形 $(M, g)$ 上的两个联络，如果对于任意的 $X, Y, Z \in X (M)$ ，都有

$\begin{matrix} X g (Y, Z) = g (\nabla_{X} Y, Z) + g (Y, \nabla_{X}^{*} Z) ， \end{matrix}$ (3)

则称 $\nabla, \nabla^{*}$ 互为对偶联络。显然， ${(\nabla^{*})}^{*} = \nabla$ ，而且当 $\nabla^{*} = \nabla$ 时，该联络关于度量 $g$ 满足相容性。

定义2.4：α-联络的表达式为

$\begin{matrix} \begin{matrix} g (\nabla_{X}^{(α)} Y, Z) = E [(X Y \log p (x; θ)) (Z \log p (x; θ))] \\ + \frac{1 - α}{2} E [(X \log p (x; θ)) (Y \log p (x; θ)) (Z \log p (x; θ))] ， \end{matrix} \end{matrix}$

其中 $X, Y, Z$ 为流形M上的向量场，α为实参数，该联络是满足无挠性的。

定义2.5：α-联络 $\nabla^{(α)}$ 的挠率张量 $T^{(α)}$ 和曲率张量 $R^{(α)}$ 分别定义为

$\begin{matrix} T^{(α)} (X, Y) : = \nabla_{X}^{(α)} Y - \nabla_{Y}^{(α)} X - [X, Y] ， \end{matrix}$ (4)

$\begin{matrix} R^{(α)} (X, Y) Z : = \nabla_{X}^{(α)} \nabla_{Y}^{(α)} Z - \nabla_{Y}^{(α)} \nabla_{X}^{(α)} Z - \nabla_{[X, Y]}^{(α)} Z ， \end{matrix}$ (5)

定义2.6：指数分布族为

$\begin{matrix} M = {p (x; θ) | θ \in Θ \subset ℝ^{n}} 。 \end{matrix}$ (6)

如果其概率密度函数可以表示为

(7)

其中 $x = k_{i} (x), i = 1, 2, \dots, n$ ， $θ = (θ_{1}, θ_{2}, \dots, θ_{n})$ 为自然坐标系， $M (x)$ 是x的函数， $φ (θ)$ 是关于θ的势函数，势函数是凸函数， $φ (θ)$ 的黑塞矩阵是正定矩阵，则指数分布族M在正则条件下构成为一个流形。

定理2.1：在自然坐标系θ下，指数分布族流形M的几何量由下面的式子给出

$\begin{matrix} g_{i j} (θ) = \partial_{i} \partial_{j} φ (θ) ， \end{matrix}$ (8)

$\begin{matrix} T_{i j k} (θ) = \partial_{k} (g_{i j}) = \partial_{i} \partial_{j} \partial_{k} φ (θ) ， \end{matrix}$ (9)

$\begin{matrix} Γ_{i j k}^{(α)} (θ) = \frac{1 - α}{2} T_{i j k} (θ) ， \end{matrix}$ (10)

$\begin{matrix} R_{i j k l}^{(α)} = \frac{1 - α^{2}}{4} (T_{k m i} T_{j l n} - T_{k m j} T_{i l n}) g^{m n} ， \end{matrix}$ (11)

在文献[15]中缺少对该定理的证明，接下来将会对该定理进行简要的证明。

证明(8)式：

$\begin{matrix} \begin{matrix} g_{i j} = E [\partial_{i} \log p (x, θ) \partial_{j} \log p (x, θ)] \\ = \int \log p (x, θ) \partial_{i} \partial_{j} \log p (x, θ) d x ， \end{matrix} \end{matrix}$

其中

$\begin{matrix} \begin{matrix} \log p (x, θ) \partial_{i} \partial_{j} \log p (x, θ) = p (x, θ) \partial_{i} (\frac{\partial_{j} p (x, θ)}{p (x, θ)}) \\ = \partial_{i} \partial_{j} p (x, θ) - \frac{\partial_{j} p (x, θ) \partial_{i} p (x, θ)}{p (x, θ)} ， \end{matrix} \end{matrix}$

因为

$\int \partial_{i} \partial_{j} p (x; θ) d x = \partial_{i} \partial_{j} \int p (x; θ) d x = \partial_{i} \partial_{j} 1 = 0 ，$

所以

$\int \log p (x, θ) \partial_{i} \partial_{j} \log p (x, θ) d x = \int - \frac{\partial_{j} p (x, θ) \partial_{i} p (x, θ)}{p (x, θ)} d x ，$

即

$E [\partial_{i} \log p (x, θ) \partial_{j} \log p (x, θ)] = - E [\partial_{i} \partial_{j} \log p (x, θ)] ，$

所以

$g_{i j} = - E [\partial_{i} \partial_{j} \log p (x, θ)] = \partial_{i} \partial_{j} φ (θ) 。$

证明(9)式：

$\begin{matrix} \begin{matrix} \partial_{k} g_{i j} = \partial_{k} (E [x_{i} x_{j}] - E [x_{i}] E [x_{j}]) \\ = \partial_{k} \int x_{i} x_{j} p (x, θ) d x - \partial_{k} (\partial_{j} φ (θ) \int x_{i} p (x, θ) d x) ， \end{matrix} \end{matrix}$

其中

$\begin{matrix} \begin{matrix} \partial_{k} \int x_{i} x_{j} p (x, θ) d x = \int x_{i} x_{j} (x_{k} - ψ (θ) p (x, θ)) d x \\ = E (x_{i} x_{j} x_{k}) - E (x_{k}) E (x_{i} x_{j}) ， \end{matrix} \end{matrix}$

和

$\begin{matrix} \begin{matrix} \partial_{k} (\partial_{j} φ (θ) \int x_{i} p (x, θ) d x) = \partial_{k} \partial_{j} \int x_{i} p (x, θ) d x \\ = \partial_{j} φ (θ) \int x_{i} (x_{k} - \partial_{k} φ (θ)) p (x, θ) d x \\ = E (x_{i}) (E (x_{j} x_{k}) - E (x_{j} x_{k})) + E (x_{j}) (E (x_{i} x_{k}) - E (x_{i} x_{k})) ， \end{matrix} \end{matrix}$

因此

$\begin{matrix} \begin{matrix} \partial_{k} g_{i j} = E ((x_{i} - E (x_{i})) (x_{j} - E (x_{j})) (x_{k} - E (x_{k}))) \\ = E (\partial_{i} \log p (x, θ) \partial_{j} \log p (x, θ) \partial_{k} \log p (x, θ)) ， \end{matrix} \end{matrix}$

所以

$T_{i j k} = \partial_{i} \partial_{j} \partial_{k} φ (θ) = \partial_{k} g_{i j} 。$

证明(10)式：根据定义2.4可以直接得到(10)式

$Γ_{i j k}^{(α)} (θ) = \frac{1 - α}{2} T_{i j k} (θ) 。$

证明(11)式：根据定义2.5可以得到曲率张量 $R^{(α)}$ 在自然坐标系下的展开表达式

$R_{i j k l}^{(α)} = (\partial_{j} Γ_{i k}^{(α) n} - \partial_{i} Γ_{j k}^{(α) n}) g_{n l} + (Γ_{j m l}^{(α)} Γ_{i k}^{(α) m} - Γ_{i m l}^{(α)} Γ_{j k}^{(α) m}) ，$

再由 $Γ_{i j}^{(α) l} g_{l k} = Γ_{i j k}^{(α)}$ 和公式(10)可以得到

$R_{i j k l}^{(α)} = [\partial_{i} (Γ_{j k m}^{(α)} g^{m n}) - \partial_{j} (Γ_{i k m}^{(α)} g^{m n})] g_{n l} + \frac{1 - α}{2} (T_{i n l} Γ_{j m k}^{(α)} g^{m n} - T_{j n l} Γ_{i m k}^{(α)} g^{m n}) ，$

再进一步的展开

$\begin{matrix} \begin{matrix} R_{i j k l}^{(α)} = [\partial_{i} (Γ_{j k m}^{(α)}) g^{m n} + [\partial_{i} (g^{m n}) Γ_{j k m}^{(α)} - \partial_{j} (Γ_{i k m}^{(α)}) g^{m n} - \partial_{j} (g^{m n}) Γ_{i k m}^{(α)}]] g_{n l} \\ + \frac{{(1 - α)}^{2}}{4} (T_{i n l} T_{j k m} - T_{j n l} T_{i k m}) g^{m n} ， \end{matrix} \end{matrix}$

$R_{i j k l}^{(α)} = - T_{n l i} g^{m n} Γ_{j k m}^{(α)} + T_{n l j} g^{m n} Γ_{i k m}^{(α)} + \frac{{(1 - α)}^{2}}{4} (T_{i n l} T_{j k m} - T_{j n l} T_{i k m}) g^{m n} ，$

$R_{i j k l}^{(α)} = \frac{1 - α}{2} (T_{j n l} T_{i k m} - T_{i n l} T_{j k m}) g^{m n} + \frac{{(1 - α)}^{2}}{4} (T_{i n l} T_{j k m} - T_{j n l} T_{i k m}) g^{m n} ，$

最后结果化简为

$R_{i j k l}^{(α)} = \frac{1 - α^{2}}{4} (T_{k m i} T_{j l n} - T_{k m j} T_{i l n}) g^{m n} 。$

3. 狄利克雷分布流形

定义3.1： $X = (x_{1}, x_{2}, \dots, x_{n - 1})$ 是有 $n - 1$ 个变量且满足 $x_{1} + \dots + x_{n - 1} \leq 1$ 的正随机变量，具有参数向量 $v = (v_{0}, \dots, v_{n - 1})$ 的狄利克雷分布的概率密度函数表示为

$\begin{matrix} f (X; v) = \frac{Γ (v_{0} + \dots + v_{n - 1})}{Γ (v_{0}) \dots Γ (v_{n - 1})} x_{0}^{v_{0} - 1} \dots x_{n - 1}^{v_{n - 1} - 1} ， \end{matrix}$ (12)

其中 $x_{0} = 1 - x_{1} - \dots - x_{n - 1}, (v_{0}, \dots, v_{n - 1}) \in R^{+} \times \dots \times R^{+}$ ，狄利克雷分布是一个多元连续分布，它与伽马分布密切相关。

定义3.2：集合

$\begin{matrix} S = {f (X; v) | f (X; v) = \frac{Γ (v_{0} + \dots + v_{n - 1})}{Γ (v_{0}) \dots Γ (v_{n - 1})} x_{0}^{v_{0} - 1} \dots x_{n - 1}^{v_{n - 1} - 1} (v_{0}, \dots, v_{n - 1}) \in R^{+} \times \dots \times R^{+}} \end{matrix} ，$

被称为狄利克雷分布流形。

命题3.1：狄利克雷分布是一种指数族分布。

证明：狄利克雷分布的概率密度函数(12)可以改写为

$\begin{matrix} \begin{matrix} f (X) = \exp {v_{0} \log x_{0} + v_{1} \log x_{1} + \dots + v_{n - 1} \log x_{n - 1} \\ + (- \log x_{0} - \log x_{1} - \dots - \log x_{n - 1}) \\ - (\log Γ (v_{0}) + \log Γ (v_{1}) + \dots + \log Γ (v_{n - 1})) \\ - \log Γ (v_{0} + v_{1} + \dots + v_{n - 1})} ， \end{matrix} \end{matrix}$

$\begin{matrix} \begin{matrix} \begin{matrix} y_{i} \end{matrix} = \log x_{i - 1}, θ_{i} = v_{i - 1} ， \\ M (y) = - (y_{1} + y_{2} + \dots + y_{n}) ， \end{matrix} \end{matrix}$

势函数表示为

$φ (θ) = \log Γ (θ_{1}) + \log Γ (θ_{2}) + \dots + \log Γ (θ_{n}) - \log Γ (θ_{1} + θ_{2} + \dots + θ_{n}) 。$

所以狄利克雷的概率密度函数可以写为

$\begin{matrix} f (y) = \exp {\sum_{i = 1}^{n} θ_{i} y_{i} - φ (θ) + M (y)} ， \end{matrix}$ (13)

其中 $θ = (θ_{1}, \dots, θ_{n}) = (v_{0}, \dots, v_{n - 1})$ 被称为狄利克雷流形的自然坐标系， $M (y)$ 是仅依赖于y的函数，狄利克雷流形是±1平坦的，以上就证明了狄利克雷分布是一种指数族分布。

定义3.3：伽马函数的表达式如下，其中参数 $θ > 0$

$\begin{matrix} Γ (θ) = \int_{0}^{\infty} t^{θ - 1} e^{- t} d t 。 \end{matrix}$ (14)

定义3.4：高斯普赛函数 $ψ (θ)$ 定义为

$\begin{matrix} ψ (θ) = \frac{d}{d θ} \log (Γ (θ)) 。 \end{matrix}$ (15)

定理3.1：当 $θ = θ_{1} + θ_{2} + \dots + θ_{n}$ ，对于 $\log Γ (θ_{1} + \dots + θ_{n})$ 关于 $θ_{i}, i = 1, \dots, n$ ，无论i取任何值， $\log Γ (θ_{1} + \dots + θ_{n})$ 的一阶偏导数都相等，也就是说 $\frac{\partial \log Γ (θ_{1} + θ_{2} + \dots + θ_{n})}{\partial θ_{i}}$ 都为同一个固定的值，我们令

$\begin{matrix} Ψ = \frac{\partial \log Γ (θ_{1} + θ_{2} + \dots + θ_{n})}{\partial θ_{i}} i = 1, \dots, n 。 \end{matrix}$ (16)

证明：将 $\log Γ (θ_{1} + \dots + θ_{n})$ 的一阶偏导数展开为

$\begin{array}{l} \frac{\partial \log Γ (θ_{1} + θ_{2} + \dots + θ_{n})}{\partial θ_{i}} ， i = 1, \dots, n \\ = \frac{Γ^{'} (θ_{1} + θ_{2} + \dots + θ_{n})}{Γ (θ_{1} + θ_{2} + \dots + θ_{n})} \\ = \frac{\int_{0}^{\infty} t^{θ_{1} + \dots θ_{n} - 1} e^{- t} \ln t d t}{\int_{0}^{\infty} t^{θ_{1} + \dots θ_{n} - 1} e^{- t} d t} ， \end{array}$

由上式可以看出对于 $Γ (θ_{1} + \dots + θ_{n})$ ，它一阶偏导数与i的取值无关。同理，我们可以证明其二阶偏导数与三阶偏导数也分别相等，我们令

$\begin{matrix} Ψ^{'} = \frac{\partial \log Γ (θ_{1} + θ_{2} + \dots + θ_{n})}{\partial θ_{i} \partial θ_{j}} i, j = 1, \dots, n ， \end{matrix}$ (17)

$\begin{matrix} Ψ^{″} = \frac{\partial \log Γ (θ_{1} + θ_{2} + \dots + θ_{n})}{\partial θ_{i} \partial θ_{j} \partial θ_{k}} i, j, k = 1, \dots, n 。 \end{matrix}$ (18)

4. n维狄利克雷分布流形的几何结构

定理4.1：n维狄利克雷分布流形的Fisher信息矩阵为

$\begin{matrix} \begin{matrix} (g_{i j}) = (\begin{matrix} ψ^{'} (θ_{1}) - Ψ^{'} & - Ψ^{'} & \dots & - Ψ^{'} \\ - Ψ^{'} & ψ^{'} (θ_{2}) - Ψ_{1} & \dots & - Ψ^{'} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ - Ψ^{'} & - Ψ^{'} & \dots & ψ^{'} (θ_{n}) - Ψ^{'} \end{matrix}) \end{matrix} ， \end{matrix}$ (19)

该矩阵是一个n维的正定矩阵，其中 $Ψ^{'}$ 来自于公式(16)。

该矩阵的行列式为

(20)

狄利克雷分布流形的Fisher信息矩阵的逆矩阵的表达式为

$(g^{x y}) = (\begin{matrix} g^{11} & g^{12} & \dots & g^{1 n} \\ g^{21} & g^{22} & \dots & g^{2 n} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ g^{n 1} & g^{n 2} & \dots & g^{n n} \end{matrix}), x, y = 1, 2, \dots, n ，$

当 $x = y$ 时

(21)

当 $x \neq y$ 时

(22)

定理4.2：n维狄利克雷分布流形的挠率系数 $T_{i j k}$ 与α-联络系数 $Γ_{i j k}^{(α)}$ 为

当 $i = j = k$ 时

$\begin{array}{l} T_{i i i} = ψ^{″} (θ_{i}) - Ψ^{″} ， \\ Γ_{i i i}^{(α)} = \frac{1 - α}{2} [ψ^{″} (θ_{i}) - Ψ^{″}] ， \end{array}$

其它情况时

$\begin{array}{l} T_{i j k} = - Ψ^{″} ， \\ Γ_{i j k}^{(α)} = - \frac{1 - α}{2} Ψ^{″} 。 \end{array}$

定理4.3：n维狄利克雷分布流形的α-曲率张量为

(23)

(24)

其中 $a, b, c \in (1, 2, \dots, n)$ ，且互不相等。

证明：令 $a, b, c, d \in (1, 2, \dots, n)$ ，且互不相等，根据n维狄利克雷分布流形的挠率系数 $T_{i j k}$ 和公式(11)来计算n维狄利克雷分布流形的α-曲率张量。

当 $i, j, k, l$ 互不相等时，令 $i = a, j = b, k = c, l = d$ ，此时

$\begin{matrix} R_{a b c d}^{(α)} = \frac{1 - α^{2}}{4} (T_{a c m} T_{b d n} - T_{b c m} T_{a d n}) g^{m n} = \frac{1 - α^{2}}{4} (Ψ^{″} Ψ^{″} - Ψ^{″} Ψ^{″}) g^{m n} = 0 ， \end{matrix}$

当 $i, j, k, l$ 相等时，令 $i = j = k = l = a$ ，此时

$R_{a a a a}^{(α)} = \frac{1 - α^{2}}{4} (T_{a a m} T_{a a n} - T_{a a m} T_{a a n}) g^{m n} = 0 ，$

当 $i, j, k, l$ 中有三个相等时，令 $i = j = k = a, l = b$ ，此时

$R_{a a a b}^{(α)} = \frac{1 - α^{2}}{4} (T_{a a m} T_{a b n} - T_{a a m} T_{a b n}) g^{m n} = 0 ，$

所以狄利克雷分布流形的α-曲率张量只有当 $i, j, k, l$ 中只有一对相等或者有两对互相相等时， $R_{i j k l}^{(α)}$ 的值才不等于0。

当 $i, j, k, l$ 中只有一对相等时，令 $i = k = a, j = b, l = c$ ，此时

$R_{a b a c}^{(α)} = \frac{1 - α^{2}}{4} (T_{a a m} T_{b c n} - T_{a b m} T_{a c n}) g^{m n} ，$

当 $m \neq a$ 时

$R_{a b a c}^{(α)} = \frac{1 - α^{2}}{4} (Ψ^{″} Ψ^{″} - Ψ^{″} Ψ^{″}) g^{m n} = 0 ，$

所以m只能为a， $R_{a b a c}^{(α)}$ 才不等于0，即

当 $i, j, k, l$ 中有两对分别相等时，令 $i = k = a, j = l = b$ ，此时

$R_{a b a b}^{(α)} = \frac{1 - α^{2}}{4} (T_{a a m} T_{b b n} - T_{a b m} T_{b a n}) g^{m n} ，$

当 $m \neq a, n \neq b$ 时，

$R_{a b a b}^{(α)} = \frac{1 - α^{2}}{4} (Ψ^{″} Ψ^{″} - Ψ^{″} Ψ^{″}) g^{m n} = 0 ，$

所以只有 $m = a$ ，或者 $n = b$ 时， $R_{a b a b}^{(α)}$ 才不等于0。

当 $m = a, n \neq b$ 时

当 $n = b, m \neq a$ 时

所以

$\begin{matrix} \begin{matrix} R_{a b a b}^{(α)} = \frac{1 - α^{2}}{4} (T_{a a a} T_{b b n} - T_{b a a} T_{a b n}) g^{a n} \\ + \frac{1 - α^{2}}{4} (T_{a a m} T_{b b b} - T_{b a m} T_{a b b}) g^{m b} \\ + \frac{1 - α^{2}}{4} (T_{a a a} T_{b b b} - T_{b a a} T_{a b b}) g^{a b} ， \end{matrix} \end{matrix}$

其中 $n \neq b$ 和 $m \neq a$ ，再将上式进一步展开

定理4.3证明完毕。

定理4.4：狄利克雷分布流形的α-截面曲率的表达式为

(25)

接下来利用狄利克雷分布流形的α-曲率张量计算狄利克雷分布流形的α-里奇曲率，对于里奇张量矩阵中的项 $R_{i j}^{(α)}$ ，令 $a, b, p, q \in (1, 2, \dots, n)$ 且 $a \neq b, p \neq q$ ，当矩阵中的项行和列坐标相等时，令 $i, j = a$ 和 $p, q \neq a$ ，此时

$R_{a a}^{(α)} = R_{a k a l}^{(α)} g^{k l} ，$

如果 $k = a, l \neq a$ ，或者 $k = a, l \neq a$ ，或者 $k = a, l = a$ ，根据前面的计算 $R_{a k a l}^{(α)}$ 都等于0，从而 $R_{a a}^{(α)}$ 等于0，所以 $R_{a a}^{(α)}$ 的展开表达如下

(26)

当矩阵中的项行和列坐标不相等时，令 $i = a, j = b$ 和 $p, q \neq a, b$ ，此时

$R_{a b}^{(α)} = R_{a k b l}^{(α)} g^{k l} ，$

如果 $k = l = a$ 或 $k = l = b$ ，此时 $R_{a k b l}^{(α)}$ 等于0，从而 $R_{a b}^{(α)}$ 等于0，所以 $R_{a b}^{(α)}$ 展开为

(27)

根据上述狄利克雷分布流形的α-里奇曲率可以得到狄利克雷分布流形的α-数量曲率。

定理4.5：狄利克雷分布流形的α-数量曲率的表达式为

$\begin{matrix} R^{(α)} = R_{i j}^{(α)} g^{i j} = \sum_{a = 1}^{n} R_{a a}^{(α)} g^{a a} + \sum_{a, b = 1}^{n} R_{a b}^{(α)} g^{a b} ， \end{matrix}$ (28)

其中 $a \neq b$ ，由于带入具体值后，该表达式过长，这里就不具体展开。

5. 三维狄利克雷分布流形的几何结构

定义5.1：三维狄利克雷分布流形定义为

$\begin{matrix} S = {f (X; v) | f (X; v) = \frac{Γ (v_{0} + v_{1} + v_{2})}{Γ (v_{0}) Γ (v_{1}) Γ (v_{2})} {(1 - x_{1} - x_{2})}_{}^{v_{0} - 1} x_{1}^{v_{1} - 1} x_{2}^{v_{2} - 1} (v_{0}, v_{1}, v_{2}) \in R^{+} \times R^{+}} 。 \end{matrix}$

文献[14]中三维狄利克雷分布流形的几何量计算结果如下

$\begin{matrix} R_{1313}^{(α)} = \frac{1 - α^{2}}{4 A} [(- Ψ^{″} (θ_{1}) Ψ_{133} + Ψ_{111} Ψ_{133} - {(Ψ_{113})}^{2}) B (θ_{2}, θ_{3}) \\ + (- Ψ^{″} (θ_{1}) Ψ_{233} + Ψ_{111} Ψ_{233} + Ψ_{112} Ψ_{133} - 2 Ψ_{113} Ψ_{123}) C (θ_{3}, θ_{1}, θ_{2}) \\ + (Ψ^{″} (θ_{1}) Ψ^{″} (θ_{3}) - Ψ^{″} (θ_{1}) Ψ_{333} - Ψ^{″} (θ_{3}) Ψ_{111} \\ + Ψ_{111} Ψ_{333} - Ψ_{113} Ψ_{133}) C (θ_{2}, θ_{1}, θ_{3}) + (Ψ_{112} Ψ_{233} - {(Ψ_{123})}^{2}) B (θ_{1}, θ_{3}) \\ + (Ψ_{113} Ψ_{233} - Ψ^{″} (θ_{3}) Ψ_{112} + Ψ_{112} Ψ_{333} - 2 {(Ψ_{123})}^{2}) C (θ_{1}, θ_{2}, θ_{3}) \\ + (- Ψ^{″} (θ_{3}) Ψ_{113} + Ψ_{333} Ψ_{113} - {(Ψ_{133})}^{2}) B (θ_{1}, θ_{2})] ， \end{matrix}$

$\begin{matrix} R_{2113}^{(α)} = \frac{1 - α^{2}}{4 A} [(Ψ_{112} Ψ_{113} + Ψ^{″} (θ_{1}) Ψ_{123} - Ψ_{111} Ψ_{123}) B (θ_{2}, θ_{3}) \\ + (Ψ_{122} Ψ_{113} + Ψ^{″} (θ_{1}) Ψ_{223} - Ψ_{111} Ψ_{223}) C (θ_{3}, θ_{1}, θ_{2}) \\ + (Ψ_{112} Ψ_{133} + Ψ^{″} (θ_{1}) Ψ_{233} - Ψ_{111}, Ψ_{233}) C (θ_{2}, θ_{1}, θ_{3}) \\ + (Ψ_{122} Ψ_{123} - Ψ_{112} Ψ_{223}) B (θ_{1}, θ_{3}) \\ + (Ψ_{122} Ψ_{133} + {(Ψ_{123})}^{2} - Ψ_{112} Ψ_{233} - Ψ_{113} Ψ_{233}) C (θ_{1}, θ_{2}, θ_{3}) \\ + (Ψ_{133} Ψ_{123} - Ψ_{113} Ψ_{233}) B (θ_{1}, θ_{2}) ， \end{matrix}$

α-曲率张量还有 $R_{1332}^{(α)}$ ， $R_{1212}^{(α)}$ ， $R_{2323}^{(α)}$ ， $R_{1223}^{(α)}$ ，这里就不一一展示。

在上述结果中

$Ψ (θ_{i}) = \frac{Γ^{'} (θ_{i})}{Γ (θ_{i})} ，$

$Ψ_{i j} (θ_{1} + \dots + θ_{n}) = \frac{\partial^{2} \log Γ (θ_{1} + \dots + θ_{n})}{\partial θ_{i} \partial θ_{j}} ，$

$Ψ_{i j k} (θ_{1} + \dots + θ_{n}) = \frac{\partial^{3} \log Γ (θ_{1} + \dots + θ_{n})}{\partial θ_{i} \partial θ_{j} \partial θ_{k}} ，$

$\begin{matrix} \begin{array}{l} A = (Ψ^{'} (θ_{1}) - Ψ_{11}) (Ψ^{'} (θ_{2}) - Ψ_{22}) (Ψ^{'} (θ_{3}) - Ψ_{33}) - 2 Ψ_{12} Ψ_{13} Ψ_{23} \\ + {(Ψ_{13})}^{2} (Ψ^{'} (θ_{2}) - Ψ_{22}) + {(Ψ_{23})}^{2} (Ψ^{'} (θ_{1}) - Ψ_{11}) + {(Ψ_{12})}^{2} (Ψ^{'} (θ_{3}) - Ψ_{33}) ， \\ B (x, y) = Ψ^{'} (x) Ψ^{'} (y) - Ψ^{'} (x) Ψ_{y y} - Ψ^{'} (y) Ψ_{x x} + Ψ_{x x} Ψ_{y y} - {(Ψ_{x y})}^{2} ， \\ C (x, y, z) = Ψ^{'} (x) Ψ_{y z} - Ψ_{x x} Ψ_{y z} + Ψ_{x y} Ψ_{x z} ， \end{array} \end{matrix}$

不难看出该结果过于冗长，也不利于我们后续的研究，所以，利用我们前面的结果，计算三维狄利克雷分布流形的α-曲率张量 $R_{1313}^{(α)}, R_{2113}^{(α)}$ 。

三维狄利克雷分布流形的Fisher信息矩阵为

$(g_{i j}) = (\begin{matrix} ψ^{'} (θ_{1}) - Ψ^{'} & - Ψ^{'} & - Ψ^{'} \\ - Ψ^{'} & ψ^{'} (θ_{2}) - Ψ^{'} & - Ψ^{'} \\ - Ψ^{'} & - Ψ^{'} & ψ^{'} (θ_{3}) - Ψ^{'} \end{matrix}) ，$

$d e t (g_{i j}) = [- Ψ^{'} (ψ^{'} (θ_{1}) ψ^{'} (θ_{2}) + ψ^{'} (θ_{1}) ψ^{'} (θ_{3}) + ψ^{'} (θ_{2}) ψ^{'} (θ_{3})) + ψ^{'} (θ_{1}) ψ^{'} (θ_{2}) ψ^{'} (θ_{2})]$

三维狄利克雷分布流形的Fisher信息矩阵的逆矩阵的元素为

$g^{11} = \frac{- Ψ^{'} (ψ^{'} (θ_{2}) + ψ^{'} (θ_{3})) + ψ^{'} (θ_{2}) ψ^{'} (θ_{3})}{\det (g_{i j})}$

$g^{22} = \frac{- Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{3})) + ψ^{'} (θ_{1}) ψ^{'} (θ_{3})}{\det (g_{i j})}$

$g^{33} = \frac{- Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{2})) + ψ^{'} (θ_{1}) ψ^{'} (θ_{3})}{\det (g_{i j})}$

$g^{12} = g^{13} = g^{21} = g^{23} = g^{31} = g^{32} = \frac{Ψ^{'}}{\det (g_{i j})}$

三维狄利克雷分布流形的α-曲率张量为

$\begin{array}{l} R_{1212}^{(α)} = \frac{(1 - α^{2}) [Ψ^{'} ψ^{″} (θ_{1}) ψ^{″} (θ_{3}) - Ψ^{″} (ψ^{″} (θ_{3}) ψ^{'} (θ_{2}) + ψ^{″} (θ_{3}) ψ^{'} (θ_{1}))]}{4 {[ψ^{'} (θ_{1}) ψ^{'} (θ_{3}) - Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{3}) + \frac{ψ^{'} (θ_{1}) ψ^{'} (θ_{3})}{ψ^{'} (θ_{2})})]}^{}} ， \\ R_{2113}^{(α)} = \frac{1 - α^{2}}{4} \frac{Ψ^{″} ψ^{″} (θ_{1})}{(ψ^{'} (θ_{1}) - Ψ^{'} (1 + \frac{ψ^{'} (θ_{1})}{ψ^{'} (θ_{2})} + \frac{ψ^{'} (θ_{1})}{ψ^{'} (θ_{3})}))} ， \end{array}$

其中， $Ψ^{'}$ 表示公式(17)中有三个参数 $θ_{1}$ ， $θ_{2}$ 和 $θ_{3}$ 时的表达式， $Ψ^{″}$ 表示公式(18)中有三个参数 $θ_{1}, θ_{2}$ 和 $θ_{3}$ 时的表达式。可以看出该结果明显更加简洁，我们给出n维狄利克雷分布流形的α-曲率张量后续对于狄利克雷分布流形的几何研究是很有帮助的。接下来计算三维狄利克雷分布流形的α-截面曲率。

三维狄利克雷分布流形的α-截面曲率为

$K_{1212}^{(α)} = \frac{(1 - α^{2}) [Ψ^{'} ψ^{″} (θ_{1}) ψ^{″} (θ_{3}) - Ψ^{″} (ψ^{″} (θ_{3}) ψ^{'} (θ_{2}) + ψ^{″} (θ_{3}) ψ^{'} (θ_{1}))]}{4 [ψ^{'} (θ_{1}) ψ^{'} (θ_{3}) - Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{3}) + \frac{ψ^{'} (θ_{1}) ψ^{'} (θ_{3})}{ψ^{'} (θ_{2})})] {[ψ^{'} (θ_{1}) ψ^{'} (θ_{2}) - Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{2}))]}^{}} ，$

$K_{1313}^{(α)} = \frac{(1 - α^{2}) [Ψ^{'} ψ^{″} (θ_{1}) ψ^{″} (θ_{2}) - Ψ^{″} (ψ^{″} (θ_{2}) ψ^{'} (θ_{3}) + ψ^{″} (θ_{2}) ψ^{'} (θ_{1}))]}{4 [ψ^{'} (θ_{1}) ψ^{'} (θ_{2}) - Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{2}) + \frac{ψ^{'} (θ_{1}) ψ^{'} (θ_{2})}{ψ^{'} (θ_{3})})] {[ψ^{'} (θ_{1}) ψ^{'} (θ_{3}) - Ψ^{'} (ψ^{'} (θ_{1}) + ψ^{'} (θ_{3}))]}^{}} ，$

$K_{2323}^{(α)} = \frac{(1 - α^{2}) [Ψ^{'} ψ^{″} (θ_{2}) ψ^{″} (θ_{1}) - Ψ^{″} (ψ^{″} (θ_{1}) ψ^{'} (θ_{3}) + ψ^{″} (θ_{1}) ψ^{'} (θ_{2}))]}{4 [ψ^{'} (θ_{2}) ψ^{'} (θ_{1}) - Ψ^{'} (ψ^{'} (θ_{2}) + ψ^{'} (θ_{1}) + \frac{ψ^{'} (θ_{2}) ψ^{'} (θ_{1})}{ψ^{'} (θ_{3})})] {[ψ^{'} (θ_{2}) ψ^{'} (θ_{3}) - Ψ^{'} (ψ^{'} (θ_{2}) + ψ^{'} (θ_{3}))]}^{}} 。$

同样，三维狄利克雷分布流形的α-里奇曲率与α-数量曲率可以由公式(26)，(27)和(28)计算得到。

参考文献

[1]	Rao, C.R. (1945) Information and Accuracy Attainable in the Estimation of Statistical Parameters. Bulletin of the Calcutta Mathematical Society, 37, 81-91.
[2]	Amari, S. (2016) Information Geometry and Its Applications. Springer.
[3]	Efron, B. (1975) Defining the Curvature of a Statistical Problem (with Applications to Second Order Efficiency). The Annals of Statistics, 3, 1189-1242. [Google Scholar] [CrossRef]
[4]	Amari, S. (1995) Information Geometry of the EM and Em Algorithms for Neural Networks. Neural Networks, 8, 1379-1408. [Google Scholar] [CrossRef]
[5]	Amari, S. and Kawanabe, M. (1994) Information Geometry of the EM Algorithm for Neural Networks (Large Sample Theory of Statistical Estimation). Rims Kokyuroku, 879, 87-119.
[6]	Amari, S., Kurata, K. and Nagaoka, H. (1992) Information Geometry of Boltzmann Machines. IEEE Transactions on Neural Networks, 3, 260-271. [Google Scholar] [CrossRef] [PubMed]
[7]	Amari, S. and Kumon, M. (1983) Differential Geometry of Edgeworth Expansions in Curved Exponential Family. Annals of the Institute of Statistical Mathematics, 35, 1-24. [Google Scholar] [CrossRef]
[8]	Amari, S. (1982) Differential Geometry of Curved Exponential Families-Curvatures and Information Loss. The Annals of Statistics, 10, 357-385. [Google Scholar] [CrossRef]
[9]	Amari, S. (1977) Dynamics of Pattern Formation in Lateral-Inhibition Type Neural Fields. Biological Cybernetics, 27, 77-87. [Google Scholar] [CrossRef] [PubMed]
[10]	Amari, S. (2004) Information Geometry of Statistical Inference. Systems Control & Information, 48, 428-436.
[11]	张士诚, 孙华飞, 李春晖. 指数统计流形性质和应用[J]. 徐州师范大学学报(自然科学版), 2009, 27(4): 34-37.
[12]	张真宁, 曹丽梅, 柯炳清. 二元Weibull统计流形的对偶几何结构及其不稳定性[J]. 北京工业大学学报, 2014, 40(3): 388-392.
[13]	仲锋惟, 孙华飞, 张真宁. Fisher Z分布流形的几何结构[J]. 科技导报, 2007(9): 33-36.
[14]	Zhong, F., Sun, H. and Zhang, Z. (2008) The Geometry of the Dirichlet Manifold. Journal of the Korean Mathematical Society, 45, 859-870. [Google Scholar] [CrossRef]
[15]	孙华飞, 张真宁, 彭林玉, 段晓敏. 信息几何导引[M]. 北京: 科学出版社, 2016.

为你推荐

友情链接