1. 引言
逻辑回归模型是生物统计学和健康科学中常用的二元数据建模方法。这种模型有时也称为概率模型,因为给定一组协变量,事件发生的概率可以估计。二元逻辑回归模型的基本假设有:模型的响应变量y的分量
是相互独立且服从Bernoulli (
)分布,其中:
,
(1)
是n × p样本资料矩阵X的第i行元素组成的向量。
为p × 1的系数向量。
是在
的条件下
的概率。
在逻辑回归模型中,一般使用极大似然(ML)方法来估计回归参数
,模型(1)的对数似然函数为:
(2)
对等式(2)进行求导并令其等于0求
的极大值:
(3)
由于等式(3)不是线性的,因此ML估计是通过Newton-Raphson方法求解方程组(3)而得。用Newton-Raphson方法给出了
一个数值解:
(4)
在上述迭代运算中,
是
的第
次迭代估计的向量,
是
的第i个元素,
是权重矩阵。当
时收敛,运算终止,其中
为事先给定的计算精度,求得
为极大似然估计
的近似解
:
(5)
其中,
,
是一个对角矩阵且第i个对角元素为
,
为收敛后的取值。
在逻辑回归模型中,当
的一些特征值很小时,极大似然估计(MLE)的方差会膨胀,可能导致符号与现实情况不符,统计推断可能出现错误。为了克服这个问题,学者们提出了很多有偏估计来改进MLE。例如,Schaefer等 [1] 提出了岭估计(RE):
,
(6)
k为岭参数。
Månsson等 [2] 提出的Liu估计(LE),表达式如下:
,
(7)
为了减小复共线性的影响,基于Newton-Raphson方法,LeCessie和Van Houwelingen [3] 提出了与Schaefer等人 [1] 提出的岭估计渐近等价的一阶近似岭估计(FAR),表达式如下:
,
(8)
其中
是真实参数值
估计的权重矩阵。
是由等式(4)所得的一阶近似极大似然估计(FAE),表达式为:
Özkale [4] 提出了一阶近似Liu估计(FAL),表达式如下:
,
(9)
为了减小估计的偏差,Quenouille [5] 和Tukey [6] 提出了刀切法。它的基本思想是利用一种特殊的方法来处理实验数据,从而得到一个未知参数的统计估计量。即系统地从数据中去除每个观测值后重新计算估计量,再将这些估计量取平均值。在二元逻辑回归模型中,结合一阶近似岭估计和刀切法,Özkale和Arıcan [7] 提出了一阶近似刀切岭估计(FAJR)。表达式如下:
,
(10)
2. 提出的估计
在本文中,我们结合一阶近似Liu估计和刀切法,提出了一个新的估计即一阶近似刀切Liu估计。接下来我们应用刀切法来定义一阶近似刀切Liu估计。
当X和y的第i个观测值删除时一阶近似Liu估计的表达式为:
(11)
其中,
,
。化简可得:
(12)
其中
,
。
根据Hinkley [8] 我们可以得出加权伪值:
(13)
和加权伪值相对应的加权刀切估计:
(14)
根据等式(12),(13),(14),
和
我们在逻辑回归模型中定义了一个新的估计即一阶近似刀切Liu估计(FAJL),表达式为:
(15)
3. 一阶近似刀切Liu估计的性质
为了方便讨论一阶近似刀切Liu估计的性质,我们对矩阵
进行特征分解,可以表示为
,这里
是由矩阵
的特征值组成的对角矩阵,且
。
是由矩阵
的特征值所对应的标准化特征向量组成的
阶正交矩阵。
,
。为了方便对所提出的新估计与其他估计进行比较,我们首先定义参数
的估计
的偏差和偏差的平方和分别为:
(16)
(17)
均方误差矩阵:
(18)
均方误差:
(19)
为了在均方误差矩阵准则下对一阶近似极大似然估计、一阶近似刀切岭估计、一阶近似Liu估计和一阶近似刀切Liu估计进行比较,我们使用到了如下引理:
引理1 (Farebrother [9] )设A是一个
阶的正定矩阵,c是一个
阶非零列向量,u是正的标量。如果
,则
是正定的。
定理1.
。
证明:
(20)
(21)
则
其中
,
是对角元素为
的对角矩阵,
是矩阵
的第i个特征值,所以
,即
是正定的。定理得证。
定理2. 若
则
。
证明:由等式(16)得,一阶近似刀切岭估计的偏差为:
(22)
则
其中
,
是对角元素为
的对角矩阵,所以当
时
,即
是正定的。定理得证。
定理3. 当
时,一阶近似刀切Liu估计在MSEM准则下优于一阶近似极大似然估计当且仅当
。
证明:令
,由公式(18)可得:
其中
因此
是正定的当且仅当
正定。由引理1可得,当
,
时,
是正定的。定理得证。
定理4. 一阶近似刀切Liu估计在MSEM准则下优于一阶近似Liu估计当且仅当
。
证明:令
,由公式(18)可得:
其中
因为
是正定的,因此
是正定的当且仅当
正定。由引理1可得,当
,
时,
是正定的。定理得证。
定理5. 对于任意的i,如果
,则
。
证明:根据等式(19)可得出:
(23)
(24)
它们的差:
其中
。
当
,
时
。因为
故
。定理得证。
由定理5,我们可以得出如下两个推论:
推论1. 假设
则
。
推论2. 假设
则
。
4. 蒙特卡罗模拟
为了进一步对理论成果进行说明,针对不同的复共线性程度及不同的自相关程度,本节我们用Monte Carlo模拟方法探讨上述各类估计在偏差和均方误差准则下的优良性。解释变量的数据产生采用与McDonald和Galarneau [10] 和Kibria [11] 相同的方法,即由以下方程生成:
,
(25)
其中,
是标准正态随机变量产生的随机数;
是给定的常数;
表示两个不同解释变量之间的相关性,因而
某种程度上体现了模型复共线性的程度。在模拟实验中,我们取协变量的数目
和
,样本数n考虑100、150和200三种情况,
考虑0.85、0.9、0.95和0.99四种不同的情况。偏参数d我们考虑取0.1、0.3、0.5、0.7和0.9五种不同的取值。
响应变量对应的随机数来自伯努利分布
,其中
。对于系数向量
,采用与Kibria [11] 相同的方法,对其做一定的限制,使其满足
。本次模拟重复2000次。估计的MSE可以通过以下式子得到:
(26)
其中
是估计
的第m次所得的估计值。模拟结果见表1~表4。
观察表1和表2可以看到,在不同复共线性程度、样本量、协变量的数目和偏参数d的情况下,一阶近似刀切Liu估计的均方误差值小于极大似然估计和一阶近似极大似然估计的均方误差值,即一阶近似刀切Liu估计在均方误差准则下优于极大似然估计和一阶近似极大似然估计。同时由表1和表2可以看出,当偏参数d取0.1时一阶近似刀切Liu估计的均方误差值小于d取0.3、0.5、0.7和0.9时一阶近似刀切Liu估计的均方误差值。当固定给定的d、n和p值时,各估计的均方误差值随着复共线性程度
的增大而增大。当固定给定的d、n和
值时,各估计的均方误差值随着协变量的数目p的增大而增大。当固定给定的d、p和
值时,各估计的均方误差值随着样本量n的增大而减小。

Table 1. Estimated MSE values of the MLE, FAE and FAJL when p = 4
表1. 当p = 4时,估计MLE、FAE和FAJL的MSE

Table 2. Estimated MSE values of the MLE, FAE and FAJL when p = 6
表2. 当p = 6时,估计MLE、FAE和FAJL的MSE

Table 3. The sum of squares of the bias values of the MLE, FAE and FAJL when p = 4
表3. 当p = 4时,估计FAL和 FAJL的偏差的平方和

Table 4. The sum of squares of the bias values of the MLE, FAE and FAJL when p = 6
表4. 当p = 6时,估计FAL和 FAJL的偏差的平方和
根据表3和表4可知,在不同复共线性程度、样本量、协变量的数目和偏参数的情况下,一阶近似刀切Liu估计的偏差的平方和始终小于一阶近似Liu估计的偏差的平方和。且当偏参数d取0.9时一阶近似Liu估计和一阶近似刀切Liu估计的偏差的平方和小于d取0.1、0.3、0.5和0.7时一阶近似Liu估计和一阶近似刀切Liu估计的偏差的平方和。当固定给定的d、n和p值时,各估计的偏差的平方和随着复共线性程度
的增大而增大。当固定给定的d、n和
值时,各估计的偏差的平方和随着协变量的数目p的增大而增大。当固定给定的d、p和
值时,各估计的偏差的平方和随着样本量n的增大而减小。
5. 实证分析
为了验证我们的理论结果,这部分我们考虑实例来分析所提出估计的优良性。我们所使用的数据来自Agresti Alan [12]。数据涉及Heinze和Schemper [13] 所描述的一种关于子宫内膜癌的研究。分析了79个案例,因变量y为组织学分级(低分级y取0,高分级时
),其中低分级的病人有30个,高分级患者有49个。涉及的三个风险因素:
为新血管生成 (有:
,无:
),
为子宫动脉搏动指数(取值范围在0到49之间),
为子宫内膜高度(取值范围在0.27到3.61之间)。
迭代的计算精度δ我们取10−6,得到矩阵
的特征值
,
,
,
。条件数
,因此可以判断数据集存在严重的复共线性问题。
为了对我们所提的新估计一阶近似刀切Liu估计的优良性进行研究。我们得到极大似然估计、一阶近似极大似然估计和一阶近似刀切Liu估计的均方误差值,一阶近似Liu估计和一阶近似刀切Liu估计偏差的平方值和,如表5和表6:

Table 5. Estimated MSE values of the MLE, FAE and FAJL
表5. 估计MLE、FAE和FAJL的MSE

Table 6. The sum of squares of the bias values of the FAL and FAJL when p = 6
表6. 估计FAL和FAJL的偏差的平方和
通过表5我们可以看出,对于给定的d值,新估计一阶近似刀切Liu估计的均方误差值小于极大似然估计和一阶近似极大似然估计的均方误差值,且当
时一阶近似刀切Liu估计的均方误差值
最小。再由表6我们可以看到一阶近似刀切Liu估计偏差的平方和小于一阶近似Liu估计偏差的平方和,且当
时一阶近似刀切Liu估计偏差的平方和取值最小
,同时对我们所得理论结果定理2进行了验证。
6. 结论
本文中,针对二元逻辑回归模型中的复共线性问题,我们在一阶近似Liu估计的基础上使用刀切法的思想提出了一个新估计,即一阶近似刀切Liu估计。研究了一阶近似刀切Liu估计的偏差以及在均方误差矩阵和均方误差准则下的优良性。证明并得出了新估计的偏差平方和总是优于一阶近似Liu估计以及新估计优于一阶近似刀切岭估计的充分条件,得出了一阶近似刀切Liu估计在均方误差矩阵、均方误差准则下优于一阶近似极大似然估计、一阶近似Liu估计和一阶近似刀切岭估计的充要或者充分条件。此外,我们使用蒙特卡罗模拟,得到了一阶近似刀切Liu估计在均方误差准则下优于极大似然估计和一阶近似极大似然估计,各估计的均方误差值随着复共线性程度
的增大而增大,各估计的均方误差值随着协变量的数目p的增大而增大,各估计的均方误差值随着样本量n的增大而减小。然后利用实证分析探讨了一阶近似刀切Liu估计在实际应用中的实现问题,证明一阶近似刀切Liu估计能够有效地解决复共线性问题。