混合幂级数分布及其应用
Mixture Power Series Distribution and Its Application
DOI: 10.12677/AAM.2023.124162, PDF, HTML, XML, 下载: 141  浏览: 248  科研立项经费支持
作者: 赵雯雪, 屈志扬, 侯 文*:辽宁师范大学数学学院,辽宁 大连
关键词: 计数数据混合幂级数分布EM算法Count Data Mixture Power Series Distribution EM Algorithm
摘要: 幂级数分布是一类广泛的概率分布,包括了常用的二项分布、Poisson分布等多种离散型概率分布。由若干个幂级数分布构成的混合幂级数分布,能够灵活地拟合如零膨胀、0~k膨胀以及其他多种膨胀类型的计数数据。本文基于EM算法给出了混合幂级数分布的参数估计,并对混合幂级数分布的特例0~1膨胀Poisson分布进行了说明,通过实例分析,说明混合幂级数分布及估计方法是适用的。
Abstract: Power series distribution is a kind of extensive probability distribution, including the commonly used binomial distribution, Poisson distribution and other many discrete distributions. The mixed power series distribution, which is composed of multiple power series distributions, can flexibly fit the counting data of zero inflated, 0~k inflated and other many of inflated types. In this paper, the parameter estimation of mixed power series distribution is given based on EM algorithm, and the special case of mixed power series distribution 0~1 inflated Poisson distribution is explained. Through case analysis, the mixed power series distribution and estimation method are proved to be applicable.
文章引用:赵雯雪, 屈志扬, 侯文. 混合幂级数分布及其应用[J]. 应用数学进展, 2023, 12(4): 1574-1580. https://doi.org/10.12677/AAM.2023.124162

1. 引言

幂级数分布最初是由Noak [1] 在研究了一类具有共同特性的离散型随机变量分布的基础上,给出了幂级数分布的定义,同时也研究了关于幂级数分布矩的性质,并对幂级数分布中的一些重要特例,如二项分布、Poisson分布、负二项分布等分别进行了说明。幂级数分布属于离散型概率分布族,目前已推广到了广义幂级数分布 [2] ,如广义Poisson分布和广义负二项分布等都属于这一类型的分布。幂级数分布适用于对计数数据的统计分析,而计数数据是一类重要的数据类型,广泛存在于医学、保险精算、人口学等多个研究领域中。

在实际对计数数据的统计过程中,经常会出现观测值在某些特定数值上频数过高的现象,例如在某段时间内汽车保险索赔次数、人工流产的次数等等,就是数据中0出现的频数明显过高,高于预期分布中0的期望值,即所谓的零膨胀数据。对于该类型的数据统计方法的研究,解锋昌、韦博成和林金官 [3] 有比较系统的论述。

除了零膨胀现象外,还会遇到某个特定的正整数值k大量出现的情况,如某个地区居民一年内看牙医的次数,观测数据中大量出现了0和1,这可能是因为许多人没有养成定期看牙医的良好习惯,或是牙齿有问题去看牙医之后,短期之内就不再去看牙医。为了更好地拟合此类数据,Lin和Tsai [4] 提出了0~k膨胀的模型。

在目前已有的研究中,对零膨胀数据或0~k膨胀数据进行分析时,模型大多选用的是Poisson分布或负二项分布,是否存在其他分布更适合这种数据,是一个值得探讨的问题。

2. 混合幂级数分布

2.1. 幂级数分布

由幂级数展开式 g ( θ ) = l = 0 a ( l ) θ l ,其中, a ( l ) 为常数序列,从而有

l = 0 a ( l ) θ l g ( θ ) = 1

故定义离散型随机变量X的概率分布律为

P ( X = l ) = a ( l ) θ l g ( θ ) l = 0 , 1 , 2 θ > 0 a l > 0

称X为幂级数分布。

如在幂级数分布定义中, a l = 1 l ! g ( θ ) = e θ ,显然X为Possion分布,记为 X ~ Possion ( θ ) 。又如取 a l = C n l g ( θ ) = ( 1 + θ ) n = l = 0 C n l θ l 时,X的概率分布律为

P ( X = l ) = C n l θ l ( 1 + θ ) n = C n l ( θ 1 + θ ) l ( 1 1 + θ ) n l l = 0 , 1 , 2 , n

是二项分布,记为 X ~ b ( n , θ 1 + θ )

2.2. 混合幂级数分布

设离散型随机变量Y,概率分布律为

f ( y | θ ) = k = 1 m α k f k ( y | θ k ) = α 1 f 1 ( y | θ 1 ) + α 2 f 2 ( y | θ 2 ) + + α m f m ( y | θ m ) (1)

其中, f k ( y | θ k ) = a k ( y ) θ k y g k ( θ k ) θ = ( θ 1 , , θ m ) y = 0 , 1 , α k 为系数且 α k > 0 k = 1 m α k = 1 ,称为混合幂级数分布。

混合幂级数分布的概率母函数为

G Y ( s ) = E ( s Y ) = k = 1 m α k y = 0 f k ( y | θ k ) s y = k = 1 m α k l = 0 a k ( l ) ( θ k s ) l g k ( θ k )

通过概率母函数可以求得混合幂级数分布的各阶矩。

3. 混合幂级数分布的参数估计

若构成混合分布的幂级数分布较多,则需要估计的参数也多,用矩估计法是比较困难的。因此,对混合幂级数分布参数估计主要讨论EM算法 [5] 。

设观测 Y 1 , Y 2 , , Y n 是来自总体分布如式(1)的混合幂级数分布的样本,引入隐变量 Z k i ,当 Y i 来自分布 f k ( y | θ k ) 时,有 f ( Z k i = 1 ) = α k k = 1 , 2 , , m ,记

y = ( y 1 , , y n ) Z k = ( Z k 1 , , Z k n ) ϑ = ( θ 1 , , θ m , α 1 , , α m )

完全数据的似然函数为

L ( ϑ | y , z k ) = k = 1 m i = 1 n [ α k f k ( y i | θ k ) ] z k i

对数似然函数为

l ( ϑ | y , z k ) = log L ( ϑ | y , z k ) = k = 1 m i = 1 n z k i [ log α k f k ( θ k | y i ) ]

E步:

z ^ k i = E ( z k i | y i , θ k ) = f k ( z k i | y i , θ k ) = f k ( z k i , y i | θ k ) k = 1 m f k ( z k i , y i | θ k ) = α k f k ( y i | θ k ) k = 1 m α k f k ( y i | θ k ) = α k a k ( y i ) θ k y i g k ( θ k ) k = 1 m α k a k ( y i ) θ k y i g k ( θ k )

Q ( ϑ , ϑ ( s ) ) = E { k = 1 m i = 1 n z k i [ log α k f k ( θ k | y i ) ] }

其中, ϑ ( s ) 表示第s次迭代的各参数,则

Q ( ϑ , ϑ ( s ) ) = k = 1 m i = 1 n z ^ k i [ log α k + log f k ( y i | θ k ) ] = k = 1 m i = 1 n z ^ k i [ log α k + log a k ( y i ) + y i log θ k log g k ( θ k ) ]

M步:求函数 Q ( ϑ , ϑ ( s ) ) 的极大值点,计算的迭代公式为

{ α ^ k ( s + 1 ) = j = 1 n z ^ ( s ) j k k = 1 m j = 1 n z ^ ( s ) j k θ ^ k ( s + 1 ) = j = 1 n z ^ ( s ) j k y j f k ( θ k ( s ) ) j = 1 n z ^ ( s ) j k f k ( θ k ( s ) ) (2)

重复上述步骤,直到两次迭代值之差小于给定值为止。通过幂级数分布的一些特例,如二项分布、Poisson分布、几何分布、负二项分布等可以构造出各种形式灵活的混合幂级数分布。

4. 混合幂级数分布的特例及应用

本节主要通过0~1分布和Poisson分布构造出混合幂级数分布的特例0~1膨胀Poisson分布。

4.1. 0~1膨胀Poisson分布

设随机变量 X 1 ~ b ( 1 , θ 1 1 + θ 1 ) X 2 ~ Possion ( θ 2 ) Z = { 1 Y = X 1 0 Y = X 2

f ( Z = 1 ) = α f ( Z = 0 ) = 1 α ,即 Y = Z X 1 + ( 1 Z ) X 2 ,Y的概率分布律为

P ( Y = k ) = { α 1 1 + θ 1 + ( 1 α ) e θ 2 k = 0 α θ 1 1 + θ 1 + ( 1 α ) θ 2 e θ 2 k = 1 ( 1 α ) θ 2 k k ! e θ 2 k = 2 , 3 , (3)

称Y服从0~1膨胀Poisson分布。

4.2. 0~1膨胀Poisson分布的参数估计

4.2.1. 矩估计

0~1膨胀Poisson分布的概率母函数为

G Y ( t ) = E ( t Y ) = k = 0 t k p ( Y = k ) = α ( 1 1 + θ 1 + t θ 1 1 + θ 1 ) + ( 1 α ) e θ 2 ( t 1 )

求它的1阶、2阶、3阶导数分别为

G Y ( 1 ) = α θ 1 1 + θ 1 + ( 1 α ) θ 2 G Y ( 1 ) = ( 1 α ) θ 2 2 G Y ( 1 ) = ( 1 α ) θ 2 3

因此

E ( Y ) = G ( 1 ) = α θ 1 1 + θ 1 + ( 1 α ) θ 2

E ( Y 2 ) = G ( 1 ) + G ( 1 ) = ( 1 α ) θ 2 2 + ( 1 α ) θ 2 + α θ 1 1 + θ 1

E ( Y 3 ) = G ( 1 ) + 3 G ( 1 ) + G ( 1 ) = ( 1 α ) θ 2 3 + 3 ( 1 α ) θ 2 2 + ( 1 α ) θ 2 + α θ 1 1 + θ 1

Y 1 , Y 2 , , Y n 是从式(3)的总体Y中抽取的样本,样本的1阶、2阶和3阶原点矩分别记为

m 1 = 1 n i = 1 n Y i m 2 = 1 n i = 1 n Y i 2 m 3 = 1 n i = 1 n Y i 3

由矩估计的原理,可得

θ ^ 2 = m 3 3 m 2 + 2 m 1 m 2 m 1 α ^ = 1 ( m 2 m 1 ) 3 ( m 3 3 m 2 + 2 m 1 ) 2 (4)

进而得

θ ^ 1 = m 1 ( 1 α ^ ) θ ^ 2 α ^ m 1 + ( 1 α ^ ) θ ^ 2 (5)

4.2.2. EM估计

总体Y为0~1膨胀Poisson分布,在混合幂级数分布式(1)的定义,取 m = 2 ,只需引入隐变量为 Z i ,当 Y i 来自分布 Y i ~ b ( 1 , θ 1 1 + θ 1 ) 时,有 f ( Z i = 1 ) = α ,当 Y i 来自分布 Possion ( θ 2 ) 时,有 f ( Z i = 0 ) = 1 α i = 1 , 2 , , n

z = ( z 1 , , z n ) y = ( y 1 , , y n ) ,完全数据的似然函数为

L ( θ | y , z ) = i = 1 n [ α θ 1 y i 1 + θ 1 ] z i [ ( 1 α ) θ 2 y i x i ! e θ 2 ] 1 z i

对数似然函数为

l ( θ | y , z ) = i = 1 n { z i [ ln α + y i ln θ 1 ln ( 1 + θ 1 ) ] + ( 1 z i ) [ ln ( 1 α ) + y i ln θ 2 θ 2 ln y i ! ] }

然后根据本文第2部分EM算法中的迭代公式(2)可以得到参数估计结果。

事实上,对于0~1膨胀Poisson分布,在E步中得到的 z ^ i 更简单,只有三种情形。具体地

y i = 0 时, z ^ i = α 1 + θ 1 α 1 + θ 1 + ( 1 α ) e θ 2 = 1 1 + ( 1 + θ 1 ) ( 1 / α 1 ) e θ 2 ,记为 p ˜ 0

y i = 1 时, z ^ i = α θ 1 1 + θ 1 α θ 1 1 + θ 1 + ( 1 α ) θ 2 e θ 2 = 1 1 + ( 1 + 1 / θ 1 ) ( 1 / α 1 ) θ 2 e θ 2 ,记为 p ˜ 1

y i = 2 , 3 时, z ^ i = 0

n 0 为样本中 y i = 0 的个数, n 1 为样本中 y i = 1 的个数, θ ( 0 ) 为初始参数值,故在M步中,

Q ( θ | y , θ ( 0 ) ) = { p ˜ 0 [ ln α ln ( 1 + θ 1 ) ] + ( 1 p ˜ 0 ) [ ln ( 1 α ) θ 2 ] } n 0 + { p ˜ 1 ( ln α + ln θ 1 1 + θ 1 ) + ( 1 p ˜ 1 ) [ ln ( 1 α ) + ln θ 2 θ 2 ] } n 1 + y i > 2 [ ln ( 1 α ) + y i ln θ 2 ln y i θ 2 ]

从而,得

{ α ^ ( s + 1 ) = n 0 p ˜ 0 ( s ) + n 1 p ˜ 1 ( s ) n θ ^ 1 ( s + 1 ) = n 1 p ˜ 1 ( s ) n 0 p ˜ 0 ( s ) θ ^ 2 ( s + 1 ) = y i n 1 p ˜ 1 ( s ) n n 0 p ˜ 0 ( s ) n 1 p ˜ 1 ( s ) (6)

其中, p ˜ 0 ( s ) p ˜ 1 ( s ) 为第s步迭代值, α ^ ( s + 1 ) θ ^ 1 ( s + 1 ) θ ^ 2 ( s + 1 ) 为第 s + 1 步的迭代值。通过上述迭代,得到参数的最大似然估计值。

4.3. 实例分析

本小节分析的数据集是新西兰白兔出产死亡的数据,最初是由Morgan等 [6] 研究得分检验时使用过。表1的第1列和第2列列出了新西兰白兔每窝死产数量和观测频数。数据分别用零膨胀Poisson分布(ZIP)和0~1膨胀Poisson (ZIOP)分布进行拟合的,参数估计的方法采用矩估计(ME)和基于EM算法的最大似然估计(MLE)。

Table 1. Fitting results of stillbirth numbers in New Zealand white rabbits

表1. 新西兰白兔死产数量数据的拟合结果

ZOIP模型的参数的矩估计通过式(4)和式(5),计算结果分别列于表1的第4列中的第12行至第14行,最大似然估计通过式(6)得到,计算结果分别列于表1的第6列中的第12行至第14行。作为对照,将ZIP模型的参数的矩估计和极大似然估计结果分别列于表1的第3列和第5列中的第12行和第14行。

根据模型参数估计值拟合的新西兰白兔死产的频数列于表1上半部分,ZIP模型和ZOIP模型的拟合优度检验统计量列于表1的下半部分。由于ZIP模型包括2个参数,ZOIP模型3个参数,拟合优度检验中ZIP模型自由度为 7 2 1 = 4 ,ZOIP模型自由度为 7 3 1 = 3 。拟合优度检验结果表明,只有基于EM算法得到的ZOIP模型的拟合优度检验P值大于0.05,故可以认为基于EM算法的ZOIP模型拟合该数据集是适合的。

5. 讨论

事实上,为了适应更多类型的数据,需要尝试选择多种分布来拟合数据。因此,对幂级数分布及相关内容的研究具有重要意义。如在幂级数分布基础上可以选择加入一个比例参数,构成零膨胀幂级数分布,也可以选择若干个幂级数分布的构成混合幂级数分布。混合幂级数分布可以构造出很多灵活的模型,包括零膨胀或0~k膨胀以及多种膨胀类型的计数数据,拓宽了幂级数分布的应用范围,也为多点膨胀计数模型提供了一个新思路。

基金项目

本研究由2022年度辽宁省教育厅高校基本科研项目(LJKMZ20221412)和2022年度辽宁省研究生教育教学改革研究项目(2022-180-39510165)资助。

NOTES

*通讯作者。

参考文献

[1] Noak, A. (1950) A Class of Random Variable with Discrete Distribution. Annals of the Institute of Statistical Mathemat-ics, 21, 127-132.
https://doi.org/10.1214/aoms/1177729894
[2] Patil, G.P. (1962) On Certain Properties of the Generalized Power Series Distribution. Annals of the Institute of Statistical Mathematics, 14, 179-182.
https://doi.org/10.1007/BF02868639
[3] 解锋昌, 韦博成, 林金官. 零过多数据的统计分析及其应用[M]. 北京: 科学出版社, 2013.
[4] Lin, T.H. and Tsai, M.H. (2013) Modeling Health Survey Data with Excessive Zero and K Responses. Statistics in Medicine, 32, 1572-1583.
https://doi.org/10.1002/sim.5650
[5] Dempster, A., Laird, N. and Rubin, D. (1977) Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society B, 39, 1-22.
https://doi.org/10.1111/j.2517-6161.1977.tb01600.x
[6] Morgan, B.J.T., Palmer, K.J. and Ridout, M.S. (2007) Negative Score Test Statistics. The American Statistician, 61, 285-288.
https://doi.org/10.1198/000313007X242972