零膨胀泊松模型的变量选择及应用
Variable Selection and Application of Zero Inflated Poisson Model
DOI: 10.12677/SA.2023.122034, PDF, 下载: 93  浏览: 231 
作者: 马元凯:云南师范大学数学学院,云南 昆明
关键词: 零膨胀泊松模型变量选择EM算法Zero Inflated Poisson Model Variable Selection EM Algorithm
摘要: 零膨胀泊松模型是研究零过多的计数数据的方法。在实际应用中,为避免遗漏,常选择过多变量进行分析,因此需要对模型进行变量选择,本文在零膨胀泊松模型的基础上构造模型进行变量选择,本文通过研究影响德国卫生保健需求的因素,对比岭回归、Lasso、自适应Lasso和加权弹性网方法的效果。
Abstract: The zero inflated Poisson model is a method to study zero and excessive counting data. In practical application, in order to avoid omission, many variables are often selected for statistical analysis, so it is necessary to select variables for the model. This paper compares the effects of ridge regression, Lasso, adaptive Lasso and weighted elastic network by studying the factors affecting the demand for health care in Germany.
文章引用:马元凯. 零膨胀泊松模型的变量选择及应用[J]. 统计学与应用, 2023, 12(2): 327-331. https://doi.org/10.12677/SA.2023.122034

1. 引言

泊松分布是研究计数数据中最常用的模型,计数但是面对散度过大的数据时,拟合效果往往不够理想,而这类数据的特点是存在大量的零值,我们把这类数据称为零膨胀数据。对这类数据的研究最早可见于20世纪60年代中关于零膨胀现象的探索,1992年Lamber [1] 提出了零膨胀泊松分布模型,并用于电子制造业的质量控制当中;近些年零膨胀模型得到充分的扩展,Ghosh [2] 等研究了零膨胀模型的贝叶斯方法,Fahrmeir [3] 等提出了一类零膨胀可加模型。当数据变量较多时就需要进行变量选择,本文基于惩罚似然的EM算法 [4] [5] ,用岭回归、Lasso、自适应Lasso和加权弹性网对德国卫生保健数据进行分析。

2. 模型假定和方法分析

2.1. 零膨胀泊松模型

零膨胀泊松分布模型的思想是取值为0的部分和取值为泊松分布的部分按一定比例构成的混合分布,由此我们可以得到零膨胀泊松模型的具体表达:

y i ~ { 0 , φ i Poisson ( λ ) , 1 φ i (2.1)

其中 φ i 表示0占的比例,g(y)来自泊松分布,且每一部分的概率都在(0, 1)之间。由(2.1)式可知观测值0由两部分构成,这里把来自额外的零的部分叫做结构零,来自离散分布的零的部分记为分布零,则 Y = y i 的概率密度为:

P ( Y = y i | φ i ) = { φ i + ( 1 φ i ) e λ i , y i = 0 ( 1 φ i ) λ i y i y i ! e λ i , y i 1 (2.2)

φ i 为结构零的比例,当 φ i = 0 时模型(2.2)退化为泊松分布。为了考虑零膨胀计数数据中响应变量与协变量之间的关系,Lambert对零膨胀参数 φ i 和泊松分布参数 λ i 引入协变量,二者分别用logistic回归和对数线性回归模型建模,由此得到零膨胀泊松回归模型,连接函数如下所示:

{ log ( λ i ) = x i T β logit ( φ i ) = log ( φ i 1 φ i ) = z i T γ (2.3)

其中 β = ( β 1 , β 2 , , β p ) T 是协变量 x i T 的回归系数, γ = ( γ 1 , γ 2 , , γ q ) T 是协变量 z i T 的回归系数,且 x i , z i 分别是p维和q维向量。

2.2. ZIP模型似然函数

引入潜在数据 ω i ,如果 y i 来自额外零,记 ω i = 1 ,否则 ω i = 0 ,故 ω i 有如下分布:

ω i = { 1 , φ i 0 , 1 φ i (2.4)

Y = ( Y 0 , ω i ) ,其中 Y 0 = ( y i , x i , z i ) 为观测数据,则Y为完全数据集,取 ϕ = ( β T , γ T ) T ,则基于完全数据得到的ZIP模型的似然函数为:

L ( ϕ | Y ) = φ i i = 1 n ω i ( ( 1 φ i ) e λ i ) i = 1 n I ( y i = 0 ) k = 1 n ω i [ ( 1 φ i ) λ i y i e λ i y i ! ] i = 1 n I ( y i > 0 ) (2.5)

则对数似然函数为:

l ( ϕ | Y , ω i ) = ( i = 1 n ω i ) log ( φ i ) + ( i = 1 n I ( y i = 0 ) i = 1 n ω i ) log ( ( 1 φ i ) e λ i ) + ( i = 1 n I ( y i > 0 ) ) log ( ( 1 φ i ) λ i y i e λ i y i ! ) = i = 1 n [ ω i z T γ log ( 1 + e z T γ ) ] + i = 1 n ( 1 ω i ) ( y i x T β e x i T β ) i = 1 n log ( y i ! ) = l c , 1 ( γ | Y , ω i ) + l c , 2 ( β | Y , ω i ) (2.6)

3. 惩罚似然方法

假设线性回归模型为 y = X β + ε ,其中 y = ( y 1 , , y n ) T , X = ( x 1 , , x n ) T , A = { j , β ^ j 0 } ,参数 β ^ 有如下表达:

β ^ = arg min β { y X β 2 2 + λ P ( β ) } (3.1)

其中上式 P ( β ) 控制了模型的复杂性,在变量选择时 P ( β ) 可以是岭惩罚、Lasso惩罚、或弹性网惩罚, λ

为非负的调整参数。其中岭惩罚可以定义为 P ( β ) = j = 1 p β j 2 ;Lasso惩罚 [6] 作为选择变量的正则化方法,可以定义为 P ( β ) = β 1 = j = 1 p | β j | 估计,即:

β ^ = arg min β Y X β 2 2 + λ n j = 1 p ω ^ j | β j | (3.2)

其中 ω ^ j 表示惩罚项中参数系数的权重。本节从弹性网 [7] 的思想出发,将惩罚项中的权重用于 L 1 惩罚和 L 2 惩罚中,利用EM算法对加权弹性网的对数似然函数获得最优解,记 l ( ϕ ; x i , z i ) 作为对数似然函数,且 ϕ = ( β , γ ) ,则相应的零膨胀计数模型的惩罚似然函数为:

ϕ ^ = arg min θ { l ( θ ; x i , z i ) + λ 1 j = 1 p ( α 1 ω ^ 1 j | β j | + 1 2 ( 1 α 1 ) ω ^ 1 j β j 2 ) + λ 2 j = 1 p ( α 2 ω ^ 2 j | γ j | + 1 2 ( 1 α 2 ) ω ^ 2 j γ j 2 ) } (3.3)

其中 ω ^ 1 j = S E ( β ^ j ) / β ^ r i d g e , j , ω ^ 2 j = S E ( γ ^ j ) / γ ^ r i d g e , j ,参数 β ^ r i d g e , j , γ ^ r i d g e 都由岭回归估计得到,调整参数 λ 1 , λ 2 0 S E ( β ^ ) , S E ( γ ^ ) 是相关系数的标准误。

3.1. EM算法

W i = I ( y i = 0 ) ,根据零膨胀泊松分布模型的条件期望有:

P ( Y i = y i , W i = ω i | x i , z i , β , γ ) = φ i ω i ( 1 φ i ) 1 ω i ( λ y i e λ i y i ! ) 1 ω i = ( e z i T γ ) ω I 1 + e z i T γ ( e y i x i T β e z i T γ y i ! ) 1 ω i (3.4)

基于EM算法,首先用无惩罚最大似然估计所得 ( β , γ ) 作为初始化参数 ϕ ^ 0 = ( β 0 , γ 0 ) ,首先进行E步,根据完全数据和更新得到参数估计值的条件期望更新 ω i t ,假设参数值为 β ^ ( t ) , γ ^ ( t ) ,那么:

ω ^ i t = E ( ω i | Y 0 , ϕ ^ ( t ) ) = P ( ω i | Y 0 = y i , ϕ ^ ( t ) ) = { [ 1 + exp { z i T γ ( t ) } f ( y i ; ϕ ^ ( t ) ) ] 1 , y i = 0 0 , y i = 1 , 2 , (3.5)

其中 f ( y i ; ϕ ^ ( t ) ) 为零膨胀泊松分布,即 f ( y i ; ϕ ^ ( t ) ) = e λ i = e e x i T β ( t )

Q ( ϕ | ϕ ^ ( t ) ) = i = 1 n [ 1 E ( ω i | Y 0 , ϕ ^ ( t ) ) ] ( log ( f ( y i ; β ^ ( t ) , γ ^ ( t ) ) ) ) + E ( ω i | Y 0 , ϕ ^ ( t ) ) z i T γ ( t ) log ( 1 + e z i T γ ( t ) ) + λ 1 j = 1 p ( α 1 ω ^ 1 j | β j ( t ) | + 1 2 ( 1 α 1 ) ω ^ 1 j ( β j ( t ) ) 2 ) + λ 2 j = 1 p ( α 2 ω ^ 2 j | γ j ( t ) | + 1 2 ( 1 α 2 ) ω ^ 2 j ( γ j ( t ) ) 2 ) = Q 1 ( β | ϕ ^ ( t ) ) + Q 2 ( γ | ϕ ^ ( t ) ) (3.6)

M步:对于给定的 ω ^ i t 将Q函数最小化,即分别最小化 Q 1 ( β | ϕ ^ ( t ) ) Q 2 ( γ | ϕ ^ ( t ) ) ,则:

β ( t + 1 ) = arg min β Q 1 ( β | ϕ ^ ( t ) ) , γ ( t + 1 ) = arg min γ Q 2 ( γ | ϕ ^ ( t ) ) , (3.7)

其中 β ^ ( t ) , γ ^ ( t ) 分别表示t步迭代时参数 β , γ 的估计值;按照上述E步和M步进行迭代最后收敛得到 β ^ ( n ) , γ ^ ( n )

3.2. 调整参数选择

本文根据最小BIC原则确定调整参数 λ 1 , λ 2 ,BIC准则定义如下:

BIC = 2 l ( θ ^ , λ 1 , λ 2 ) + log ( n ) k (3.8)

其中 l ( θ ^ , λ 1 , λ 2 ) 为对数似然函数,n为样本个数, k = j = 1 p I { β j 0 } + j = 1 p I { γ j 0 } 为零膨胀泊松分布有效参数个数。

4. 实例分析

患者的医疗需求一直是医疗研究中的重要问题之一,本文选择德国卫生需求数据,该用于研究就诊次数与患者状况之间的关系,数据包括响应变量就诊次数数据和13个与患者状况相关数据,共有1812个观测值。本文用岭回归、Lasso、自适应Lasso、和加权弹性网分别对影响就诊次数的相关因素进行变量选择,其中自适应Lasso的权重参数为 1 / θ ^ ,加权弹性网的权重参数为 s e ( θ ^ ) / θ ^ θ ^ 是由岭回归估计得到的参数。

Table 1. Coefficient estimation of data model fitting

表1. 数据模型拟合的系数估计

根据表1的结果可以看出加权弹性网相比于其他方法的BIC值更小,说明该方法比岭回归、Lasso和自适应Lasso拟合效果更好;分析加权弹性网的参数估计可知,残疾程度、结婚与否、受教育年限、收入、是否蓝领与就诊次数无关;健康满意度、是否有孩子与就诊次数为零时呈正相关,残疾程度与就诊次数为零时呈负相从泊松部分拟合参数可知,增加就诊次数的影响因素有年龄、是否残疾、是否有公共健康保险和是否有附加保险,其中是否残疾和是否有保险对增加就诊次数的起主要影响,说明身体情况和参保对就诊次数有较强的影响;对就诊次数呈负相关的影响因素为健康满意度、是否结婚、是否自营和是否公务员,其中主要因素为健康满意度、是否自营、是否公务员和是否被雇佣,说明生活和工作越繁忙,就诊次数越少。

5. 结论

本文基于就诊次数数据特征,构建了零膨胀泊松模型,并分别用岭回归、Lasso、自适应Lasso和加权弹性网进行变量选择,得到影响就诊次数的主要变量。但是,目前本文中关注的仅是截面数据,在纵向数据等方面仍有较大的发展空间。

参考文献

[1] Lambert, D. (1992) Zero-Inflated Poisson Regression with an Application to Defects in Manufacturing. Teachnometrics, 34, 1-14.
https://doi.org/10.2307/1269547
[2] Ghosh, S.K., Mukhopadhyay, P. and Lu, J.C. (2006) Bayesian Analysis of Zero Inflated Regression Models. Journal of Statistical Planning and Inference, 134, 1360-1375.
https://doi.org/10.1016/j.jspi.2004.10.008
[3] Fahrmeir, L. and Echavarria, L.O. (2006) Structured Additive Regression for over Dispersed and Zero-Inflated Count Data. Applied Stochastic Models in Business and Industry, 22, 351-369.
https://doi.org/10.1002/asmb.631
[4] Tang, Y.L., Xiang, L.Y. and Zhu, Z.Y. (2014) Risk Factor Selection in Rate Making: EM Adaptive LASSO for Zero-Infated Poisson Regression Models. Risk Analysis, 34, 1112-1127.
https://doi.org/10.1111/risa.12162
[5] Mallick, H., Tiwari, H.K. (2016) EM Adaptive LASSO—A Multilocus Modeling Strategy for Detecting SNPs Associated with Zero-Inflated Count Phenotypes. Frontiers in Genetics, 7, Article No. 32.
https://doi.org/10.3389/fgene.2016.00032
[6] Tibshirani, R. (1996) Regression Shrinkage and Selection via the LASSO. Journal of the Royal Statistical Society: Series B, 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[7] Hong, D. and Zhang, F. (2010) Weighted Elastic Net Model for Mass Spectrometry Imaging Processing. Mathematical Modelling of Natural Phenomena, 5, 115-133.
https://doi.org/10.1051/mmnp/20105308