矩估计方法用于高斯混合模型的理论分析与遥感实证
Theoretical Analysis and Remote Sensing Empirical Study of the Method of Moments for Gaussian Mixture Models
摘要: 本文系统介绍并实现了基于矩估计(Method of Moments, MoM)用于一维三成分高斯混合模型(Gaussian Mixture Model, GMM)参数估计的方法,推导单分量原点矩的闭式表达,利用1阶到8阶的原点矩和中心距关系,构造了8个关于模型参数的非线性方程,用矩阵最小二乘法得到混合模型的权重的初值,采用Newton-Raphson迭代法求出非线性方程组的解。最后使用中国西部高原纳木错部分区域冰、水、雪、陆地多种物质的光谱进行了验证,针对估计出的每种物质的混合模型概率密度函数,结合距离函数进行了初步分类,分类结果显示了该方法的有效性。
Abstract: This paper systematically introduces and implements the method of moments (MoM) for parameter estimation of a one-dimensional three-component Gaussian mixture model (GMM). We derive the closed-form expressions of raw moments for single Gaussian components, and by leveraging the relationship between the first to eighth raw moments and central moments, we construct eight nonlinear equations with respect to the model parameters. The initial values of the mixture weights are obtained using a matrix least squares method, and the solutions to the nonlinear system are then found via the Newton-Raphson iterative method. Finally, we validate the approach using spectral data of ice, water, snow, and land from the Nam Co region on the Qinghai-Xizang Plateau in western China. For each estimated material’s mixture probability density function, preliminary classification is performed in combination with a distance function. The classification results demonstrate the effectiveness of the proposed method.
文章引用:王乐成. 矩估计方法用于高斯混合模型的理论分析与遥感实证[J]. 应用数学进展, 2025, 14(10): 281-289. https://doi.org/10.12677/aam.2025.1410440

1. 引言

对于某一纯净地物类别,在单波段下像素值的直方图分布是单峰的正态分布。因此,如果针对某一类别物质以单一光谱取波段值,则该类别的概率密度函数为单峰的正态分布——只有一个成分[1]。但若针对某一类别物质在至少三个不同光谱上取波段值,则该类别的概率密度函数应为由三个正态分布构成的混合分布,也就是三个正态分布之和,并带有若干比例系数。一个三正态分布混合的概率密度函数可以是单峰、双峰或三峰的。混合中的三个成分分别对应三个光谱波段。混合中每个比例(权重)表示对应成分对混合模型的贡献。在许多遥感地物应用中,单波段的正态分布无法很好地表示一种地物。相比之下,三个光谱波段混合的正态分布一定程度改善了这一缺陷[2]

目前学术界对高斯混合模型广泛采用的是无监督算法中的EM (Expectation-Maximum)算法用来估计GMM的参数,EM算法通过先猜想缺失数据的分布(E步),再基于此猜想更新模型参数(M步),如此反复迭代,逐步逼近最优参数估计。但是因为EM算法严重依赖于初始参数的选择,不同的初始值会导致算法收敛到不同的局部极大值点。在本文中,我们给出一种根据观测数据构造该三成分高斯混合模型的办法,通过多元矩估计的方法建立方程组,最后通过求解方程组来确定混合模型参数的方法。该混合模型在多光谱分类等遥感应用中,可能比现有的多光谱分类方法或其它用途更有用。特别是当缺失数据较多或者“缺失”部分所占的信息量很大时,算法收敛速度可能非常缓慢。

矩估计法是统计学中的一种参数估计技术。Pearson等人[3]引入该法以估计两个一维正态总体混合的均值、方差与比例。基于该技术,Rao等[4]在假设两个一维正态混合分量具有相等方差的前提下给出了估计。Day则将该思路扩展到具有共同协方差矩阵的两个多元正态混合的情形[5]。Cohen用数值方法估计了两个一维正态混合的矩估计[6]。Tan和Chang通过重新参数化得到了矩估计[7]。我们提出将三个正态分布的混合物作为遥感中由三个不同波段(像素)的光谱反射率定义的区域一类的模型。参数估计问题是在所有参数都不受约束的情况下,通过迭代分组数据矩法对三种正态分布的混合物进行参数估计。

2. 高斯混合模型

三种正态分布混合的概率密度函数的形式为:

f( x; μ 1 , μ 2 , μ 3 , σ 1 , σ 2 , σ 3 , p 1 , p 2 , p 3 )= i=1 3 p i f i ( x; μ i , σ i ) (1)

x , μ i , σ i ( 0,+ ) , p i ( 0,1 )

其中的 p i 代表混合成分的比例,满足 i=1 3 p i =1 ;混合模型的成分函数 f i ( x; μ i , σ i ) 的函数形式为:

f i ( x; μ i , σ i )= 1 2π σ i e ( x μ i ) 2 2 σ i 2 (2)

在上式中,x是随机变量,代表某类物质像素维度的三个波谱的数值反射率结果, f( x ) 是特定物质的不同波谱的概率密度函数, μ 代表不同波谱的均值, σ 代表不同波谱的标准差。

3. 参数估计方法

参数估计的过程分为三个步骤。第一步,构建方程组以估计中的参数。第二步,计算合适的初始值,用于求解第一步中的方程组。第三步,采用牛顿迭代法,利用第二步求得的初始值,找到第一步构建的方程组的解。

3.1. 线性方程组的构建

矩母函数也被成矩生成函数,当X是离散变量时,他的形式为:

M x ( t )= e tx f( x ) (3)

x是连续变量时,他的形式为:

M x ( t )= e tx f( x )dx (4)

f( x ) 为上式(2)的正态分布的形式时,可推导出

M x ( t )= 1 2π σ e ( xμ ) 2 2 σ 2 e tx dx = 1 2π σ e ( xμ ) 2 2 σ 2 +tx dx (5)

ω= xμ σ ,于是 dx=σdω

M x ( t )= 1 2π e ω 2 2 +tσω+tμ dω = 1 2π e tμ e ω 2 2 +tσω+tμ dω = 1 2π e tμ e ω 2 2tσω+ t 2 σ 2 2 e t 2 σ 2 2 dω = 1 2π e tμ+ t 2 σ 2 2 e ( ωtσ ) 2 2 dω = e tμ+ t 2 σ 2 2 (6)

t=0 时,对应的是随机变量x的原点距,于是样本r阶原点矩为 M r = M X ( r ) ( t )| t=0 ,便得到了8个对应的原点距公式 M r =E( X r ) ,( r=1,2,,8 )。

设样本总体均值 μ ¯ = M 1 ,则样本r阶中心距 A r =E( ( X μ ¯ ) r ) ,再把模型的原点矩估计和样本的中心矩估计对应起来[8],得到8个方程 g r ( Θ )= M r ( Θ ) A r =0 r=1,,8 。详细的形式为

g 1 = i=1 3 p i μ i A 1 =0; g 2 = i=1 3 p i ( μ i 2 + σ i 2 ) A 2 =0; g 3 = i=1 3 p i ( μ i 3 +3 σ i 2 μ i ) A 3 =0; g 4 = i=1 3 p i ( μ i 4 +6 σ i 2 μ i 2 +3 σ i 4 ) A 4 =0; g 5 = i=1 3 p i ( μ i 5 +10 σ i 2 μ i 3 +15 σ i 4 μ i ) A 5 =0; g 6 = i=1 3 p i ( μ i 6 +15 σ i 2 μ i 4 +45 σ i 4 μ i 2 +15 σ i 6 ) A 6 =0; g 7 = i=1 3 p i ( μ i 7 +21 σ i 2 μ i 5 +105 σ i 4 μ i 3 +105 σ i 6 μ i ) A 7 =0; g 8 = i=1 3 p i ( μ i 8 +28 σ i 2 μ i 6 +210 σ i 4 μ i 4 +420 σ i 6 μ i 2 +105 σ i 8 ) A 8 =0; (7)

其中

A 1 = m 1 ; A 2 = m 1 2 + m 2 ; A 3 = m 1 3 +3 m 1 m 2 + m 3 ; A 4 = m 1 4 +6 m 1 2 m 2 +4 m 1 m 3 + m 4 ; A 5 = m 1 5 +10 m 1 2 m 3 +10 m 1 3 m 2 +5 m 1 m 4 + m 5 ; A 6 = m 1 6 +15 m 1 4 m 2 +20 m 1 3 m 3 +15 m 1 2 m 4 +6 m 1 m 5 + m 6 ; A 7 = m 1 7 +21 m 1 5 m 2 +35 m 1 4 m 4 +35 m 1 3 m 4 +21 m 1 2 m 5 +7 m 1 m 6 + m 7 ; A 6 = m 1 8 +28 m 1 6 m 2 +56 m 1 5 m 3 +70 m 1 4 m 4 +56 m 1 3 m 5 +28 m 1 2 m 6 +8 m 1 m 7 + m 8 ; (8)

在上式(8)中, m r = 1 n i=1 n ( x i x ¯ ) r r=2,3,,8 . m 1 = x ¯ = 1 n i=1 n x i

在(7)式中构建非线性方程组中,其中 p 3 =1 p 1 p 2 ,方程组中的未知数个数包括 μ 1 μ 2 μ 3 σ 1 σ 2 σ 3 p 1 p 2 共8个,结合8个方程式,在合理设置初始值的情况下,利用牛顿迭代法便可以求出唯一解,下面分析如何确定初始值。

3.2. 确定牛顿迭代法的合理初始值

在选择迭代起始值时,混合模型的均值和标准差参数应分别使用样本波谱维度的均值和标准差。对于混合比例,则使用通过最小二乘法得出的样本分组的均值和标准差。

3.2.1. 为 μ 1 μ 2 μ 3 σ 1 σ 2 σ 3 寻找合适的初始值

样本的均值和标准差可作为(7)式中参数 μ 1 μ 2 μ 3 σ 1 σ 2 σ 3 的合适初始值(估计值),根据样本的三个不同波段的光谱数据 x i ,( i=1,2,3 ) ,计算每个光谱的均值和方差结果 μ i0 , σ i0 ( i=1,2,3 ) ,令 μ 10 μ 20 μ 30 σ 10 σ 20 σ 30 分别表示 μ 1 μ 2 μ 3 σ 1 σ 2 σ 3 的初始值[9]

3.2.2. 为 p 1 p 2 寻找合适初始值

p 1 p 2 合适的初始值分别为 p 10 p 20 ,但我们并不知道 p 10 p 20 的值。我们希望找到这些值。为此,首先将值 μ 10 μ 20 μ 30 σ 10 σ 20 σ 30 分别代入 μ 1 μ 2 μ 3 σ 1 σ 2 σ 3 。接着,也将 p 10 p 20 p 30 ( p 30 =1 p 10 p 20 ) 分别代入(7)式中的 p 1 p 2 p 3 。如此,我们得到:

(9)

将3.2.1中已知的 μ 10 μ 20 μ 30 σ 10 σ 20 σ 30 带入(9)式后得到的方程组转化为矩阵形式,

( a 11 a 12 a 81 a 82 )( p 10 p 20 )=( A 1 A 8 ) (10)

结合最小二乘法,可以得到 p 10 p 20 的值为 P 0 = ( X T X ) 1 X T A

3.3. 牛顿迭代法求解非线性方程组

牛顿–拉弗森迭代法被用于求解(9)中构建的方程组,其中使用的合适初始值是通过3.2节中的方法找到的。

我们使用python程序用于参数估计和混合模型构建过程。该程序通过牛顿-拉弗森迭代过程求解包含八个未知数的八个联立非线性方程。详细的算法流程如下,

Step1:初值初始化。设当前解向量 x k = x 0

Step2:迭代循环。

while (k < MAXITER) do:

计算函数值和雅可比矩阵

计算当前点 x k 处的函数值向量 F k =F( x k ) 和雅可比矩阵 J k =J( x k )

求解线性方程组,构建线性系统以求解释向量 Δ x k

J k Δ x k = F k

更新未知数向量: x k+ 1 = x k +Δ x k

Step3:检查收敛性

如果 norm( Δ x k )<ε ,则退出循环。这表示解的变化已经非常微小,趋于稳定。

Step4:递增计数器

k=k+1

Step5:输出结果

4. 方法对比

为了验证本文所提出的方法相比于EM方法在估计混合模型参数上的优势,在相同的高斯混合分布离散数据下,我们分别使用本文提出的矩估计方法和经典EM方法进行了参数对比,并量化对比了不同混合分布的参数偏离程度,

具体的量化函数为平均绝对误差(MAE)和均方根误差(RMSE),详细的计算公式为

MAE( X,h )= 1 m i=1 m | h( x i ) y i | . (11)

RMSE( X,h )= 1 m i=1 m ( h( x i ) y i ) 2 . (12)

其中 h( x i ) y i 分别代表预测值和真实值,我们用上述两个评价指标来衡量预测的混合模型参数与真实之间的偏移差距。

具体的对比结果如下:

参数

EM估计结果

矩估计结果

真实参数值

p 1

0.33082458

0.3416441

0.333333333

p 2

0.33590012

0.32502256

0.333333333

p 3

0.3332753

0.33333333

0.333333333

m 1

32.16006551

32.21282772

32

m 2

39.81166837

39.94827327

40

m 3

62.10483519

62.07487003

62

s 1

1.65688031

1.68577679

1.6

s 2

2.09770345

1.89546207

2

s 3

0.78789696

0.80384005

0.8

MAE (EM)

0.625052703

MAE (Ours)

0.550200793

RMSE (EM)

0.08502089

RMSE (Ours)

0.072015535

通过上述结果,可以发现,在MAE和RMSE的指标度量下,本方法在预测值和真实结果的差距都更为接近,证明基于本文矩估计方法的优势。

5. 实验验证

为了验证使用该方法估计出的物质的高斯混合模型的结果,我们选取了中国西部青藏高原纳木错区域的卫星影像,选取的冰、水、雪、陆地四种物质的波谱,分别使用上述方法对每种物质的多光谱影像的第2、3、4索引位置的波段(Blue、Green、Red)进行高斯混合模型的参数估计,最后使用估计的参数进行影像分类[10]-[12],分类的规则是:对于待分类物质的 μ 1 μ 2 μ 3 σ 1 σ 2 σ 3 参数,与参考物质的混合模型参数 μ 1 i μ 2 i μ 3 i σ 1 i σ 2 i σ 3 i 进行距离计算,距离计算的方法使用的是曼哈顿距离计算,根据待分类像素的波谱混合模型与参考物质的波谱混合模型的距离相似度进行分类[13] [14],把每个像素位置分类到与参考波谱的混合模型参数最接近的类别中。距离计算方法为:

D j = i=1 3 | μ i j μ i | +| σ i j σ i | . ( j=1,2,3,4 ) (13)

经过实验计算,四种物质的波谱混合模型参数分别为:

冰: μ=[ 1763.12,2043.05,2172.60 ] σ=[ 322.17,302.81,321.88 ] p=[ 0.72,0.03,0.25 ]

雪: μ=[ 6893.41,7099.73,7266.87 ] σ=[ 404.18,424.25,415.19 ] p=[ 0.51,0.01,0.49 ]

水: μ=[ 361.96,678.21,741.25 ] σ=[ 7.18,13.86,15.15 ] p=[ 0.33,0.34,0.33 ]

陆: μ=[ 1020.85,1110.67,1742.20 ] σ=[ 60.55,46.38,95.13 ] p=[ 0.28,0.39,0.33 ]

对应的四种物质的高斯混合模型分布图如下图1所示。

Figure 1. Mixture model distributions of four reference land-cover types

1. 四种参考地物的混合模型分布图

基于(11)式的距离相似度分类结果如下图2所示。

Figure 2. Multispectral remote sensing land-cover separation results (Nam Co)

2. 多光谱遥感图像地物分离结果(纳木错)

6. 结论

本文重现并实现了基于矩估计(method of moments)的一维三成分高斯混合模型参数估计方法,并将其应用于纳木错区域的遥感多光谱数据中以对冰、水、雪、陆地进行建模与初步分类。方法要点包括:利用单个高斯成分的原点矩闭式表达构建混合分布的1至8阶原点矩,再通过原点矩与总体均值间的转换得到关于样本中心矩的8个非线性方程;采用矩阵最小二乘法获得混合权重的初值,并以牛顿–拉弗森迭代求解方程组。实证结果表明,该方法能较好拟合各类物质的边缘亮度分布并提供具有解释性的模型参数(均值、方差与成分权重),在参数估计充足且成分分离较好的条件下,其拟合结果与EM方法具有可比性。基于估计的混合模型进行的像素分类(采用模型对像素对数似然比较或模型间距离度量)在实验中实现了对冰、水、雪与陆地的区分,验证了方法在遥感分类任务中的实用性。

参考文献

[1] Erol, H. and Akdenlz, F. (1995) A Statistical Approach for Ground Cover Modelling According to the Spectral Brightness. International Journal of Remote Sensing, 16, 1599-1616. [Google Scholar] [CrossRef
[2] Richards, J.A. and Jia, X. (2006) Remote Sensing Digital Image Analysis: An Introduction. Springer. [Google Scholar] [CrossRef
[3] Pearson, K. (1894) Contributions to the Mathematical Theory of Evolution. Philosophical Transactions of the Royal Society of London. A, 185, 71-110. [Google Scholar] [CrossRef
[4] Rao, C.R. (1952) Advanced Statistical Methods in Biometric Research. John Wiley & Sons.
[5] Day, N.E. (1969) Estimating the Components of a Mixture of Normal Distributions. Biometrika, 56, 463-474. [Google Scholar] [CrossRef
[6] Cohen, A.C. (1967) Estimation in Mixtures of Two Normal Distributions. Technometrics, 9, 15-28. [Google Scholar] [CrossRef
[7] Tan, W.Y. and Chang, W.C. (1972) Some Comparisons of the Method of Moments and the Method of Maximum Likelihood in Estimating Parameters of a Mixture of Two Normal Densities. Journal of the American Statistical Association, 67, 702-708. [Google Scholar] [CrossRef
[8] Settle, J.J. and Drake, N.A. (1993) Linear Mixing and the Estimation of Ground Cover Proportions. International Journal of Remote Sensing, 14, 1159-1177. [Google Scholar] [CrossRef
[9] Pereira, M.C. and Setzer, A.W. (1993) Spectral Characteristics of Deforestation Fires in NOAA/AVHRR Images. International Journal of Remote Sensing, 14, 583-597. [Google Scholar] [CrossRef
[10] Bishop, C.M. and Nasrabadi, N.M. (2006) Pattern Recognition and Machine Learning. Springer.
[11] Anandkumar, A., Ge, R., Hsu, D., Kakade, S.M. and Telgarsky, M. (2014) Tensor Methods for Learning Latent Variable Models. Journal of Machine Learning Research, 15, 2773-2832.
[12] Odell, P.L. and Basu, J.P. (1976) Concerning Several Methods for Estimating Crop Acreages Using Remote Sensing Data. Communications in Statistics-Theory and Methods, 5, 1091-1114. [Google Scholar] [CrossRef
[13] Rosenfield, G.H., Fitzpatrick-Lins, K. and Ling, H.S. (1982) Sampling for Thematic Map Accuracy Testing. Photogrammetric Engineering and Remote Sensing, 48, 131-137.
[14] Van Genderen, J.L., Lock, B.F. and Vass, P.A. (1978) Remote Sensing: Statistical Testing of Thematic Map Accuracy. Remote Sensing of Environment, 7, 3-14. [Google Scholar] [CrossRef