1. 引言
幂级数分布最初是由Noak [1] 在研究了一类具有共同特性的离散型随机变量分布的基础上,给出了幂级数分布的定义,同时也研究了关于幂级数分布矩的性质,并对幂级数分布中的一些重要特例,如二项分布、Poisson分布、负二项分布等分别进行了说明。幂级数分布属于离散型概率分布族,目前已推广到了广义幂级数分布 [2] ,如广义Poisson分布和广义负二项分布等都属于这一类型的分布。幂级数分布适用于对计数数据的统计分析,而计数数据是一类重要的数据类型,广泛存在于医学、保险精算、人口学等多个研究领域中。
在实际对计数数据的统计过程中,经常会出现观测值在某些特定数值上频数过高的现象,例如在某段时间内汽车保险索赔次数、人工流产的次数等等,就是数据中0出现的频数明显过高,高于预期分布中0的期望值,即所谓的零膨胀数据。对于该类型的数据统计方法的研究,解锋昌、韦博成和林金官 [3] 有比较系统的论述。
除了零膨胀现象外,还会遇到某个特定的正整数值k大量出现的情况,如某个地区居民一年内看牙医的次数,观测数据中大量出现了0和1,这可能是因为许多人没有养成定期看牙医的良好习惯,或是牙齿有问题去看牙医之后,短期之内就不再去看牙医。为了更好地拟合此类数据,Lin和Tsai [4] 提出了0~k膨胀的模型。
在目前已有的研究中,对零膨胀数据或0~k膨胀数据进行分析时,模型大多选用的是Poisson分布或负二项分布,是否存在其他分布更适合这种数据,是一个值得探讨的问题。
2. 混合幂级数分布
2.1. 幂级数分布
由幂级数展开式
,其中,
为常数序列,从而有
故定义离散型随机变量X的概率分布律为
,
且
,
,
称X为幂级数分布。
如在幂级数分布定义中,
,
,显然X为Possion分布,记为
。又如取
,
时,X的概率分布律为
,
,
是二项分布,记为
。
2.2. 混合幂级数分布
设离散型随机变量Y,概率分布律为
(1)
其中,
,
,
,
为系数且
,
,称为混合幂级数分布。
混合幂级数分布的概率母函数为
通过概率母函数可以求得混合幂级数分布的各阶矩。
3. 混合幂级数分布的参数估计
若构成混合分布的幂级数分布较多,则需要估计的参数也多,用矩估计法是比较困难的。因此,对混合幂级数分布参数估计主要讨论EM算法 [5] 。
设观测
是来自总体分布如式(1)的混合幂级数分布的样本,引入隐变量
,当
来自分布
时,有
,
,记
,
,
,
完全数据的似然函数为
,
对数似然函数为
E步:
令
其中,
表示第s次迭代的各参数,则
M步:求函数
的极大值点,计算的迭代公式为
(2)
重复上述步骤,直到两次迭代值之差小于给定值为止。通过幂级数分布的一些特例,如二项分布、Poisson分布、几何分布、负二项分布等可以构造出各种形式灵活的混合幂级数分布。
4. 混合幂级数分布的特例及应用
本节主要通过0~1分布和Poisson分布构造出混合幂级数分布的特例0~1膨胀Poisson分布。
4.1. 0~1膨胀Poisson分布
设随机变量
,
,
,
且
,
,即
,Y的概率分布律为
(3)
称Y服从0~1膨胀Poisson分布。
4.2. 0~1膨胀Poisson分布的参数估计
4.2.1. 矩估计
0~1膨胀Poisson分布的概率母函数为
,
求它的1阶、2阶、3阶导数分别为
,
,
,
因此
,
,
。
设
是从式(3)的总体Y中抽取的样本,样本的1阶、2阶和3阶原点矩分别记为
,
,
,
由矩估计的原理,可得
,
(4)
进而得
(5)
4.2.2. EM估计
总体Y为0~1膨胀Poisson分布,在混合幂级数分布式(1)的定义,取
,只需引入隐变量为
,当
来自分布
时,有
,当
来自分布
时,有
,
。
记
,
,完全数据的似然函数为
,
对数似然函数为
,
然后根据本文第2部分EM算法中的迭代公式(2)可以得到参数估计结果。
事实上,对于0~1膨胀Poisson分布,在E步中得到的
更简单,只有三种情形。具体地
当
时,
,记为
;
当
时,
,记为
;
当
时,
。
记
为样本中
的个数,
为样本中
的个数,
为初始参数值,故在M步中,
从而,得
(6)
其中,
、
为第s步迭代值,
、
、
为第
步的迭代值。通过上述迭代,得到参数的最大似然估计值。
4.3. 实例分析
本小节分析的数据集是新西兰白兔出产死亡的数据,最初是由Morgan等 [6] 研究得分检验时使用过。表1的第1列和第2列列出了新西兰白兔每窝死产数量和观测频数。数据分别用零膨胀Poisson分布(ZIP)和0~1膨胀Poisson (ZIOP)分布进行拟合的,参数估计的方法采用矩估计(ME)和基于EM算法的最大似然估计(MLE)。

Table 1. Fitting results of stillbirth numbers in New Zealand white rabbits
表1. 新西兰白兔死产数量数据的拟合结果
ZOIP模型的参数的矩估计通过式(4)和式(5),计算结果分别列于表1的第4列中的第12行至第14行,最大似然估计通过式(6)得到,计算结果分别列于表1的第6列中的第12行至第14行。作为对照,将ZIP模型的参数的矩估计和极大似然估计结果分别列于表1的第3列和第5列中的第12行和第14行。
根据模型参数估计值拟合的新西兰白兔死产的频数列于表1上半部分,ZIP模型和ZOIP模型的拟合优度检验统计量列于表1的下半部分。由于ZIP模型包括2个参数,ZOIP模型3个参数,拟合优度检验中ZIP模型自由度为
,ZOIP模型自由度为
。拟合优度检验结果表明,只有基于EM算法得到的ZOIP模型的拟合优度检验P值大于0.05,故可以认为基于EM算法的ZOIP模型拟合该数据集是适合的。
5. 讨论
事实上,为了适应更多类型的数据,需要尝试选择多种分布来拟合数据。因此,对幂级数分布及相关内容的研究具有重要意义。如在幂级数分布基础上可以选择加入一个比例参数,构成零膨胀幂级数分布,也可以选择若干个幂级数分布的构成混合幂级数分布。混合幂级数分布可以构造出很多灵活的模型,包括零膨胀或0~k膨胀以及多种膨胀类型的计数数据,拓宽了幂级数分布的应用范围,也为多点膨胀计数模型提供了一个新思路。
基金项目
本研究由2022年度辽宁省教育厅高校基本科研项目(LJKMZ20221412)和2022年度辽宁省研究生教育教学改革研究项目(2022-180-39510165)资助。
NOTES
*通讯作者。