1. 引言
缺失数据是数据分析中遇到的常见问题之一,关于缺失数据的详细介绍可参考著作Little和Ruin (2002) [1]。线性回归模型是最为常用的统计方法之一,缺失数据下回归模型的研究得到了关注,Cheng (1994) [2]、Chu & Cheng (1995) [3]、Wang & Rao (2002) [4] 和Qin等(2009) [5] 基于不同的方法研究了因变量缺失下的回归模型。另一方面,多种共线性是线性回归模型实际使用中经常遇到的问题,这一问题是由于自变量之间存在线性关系导致,严重影响统计推断结果。解决多重共线性的途径有多重,其中构造回归系数的有偏估计是一种常见的方法,有偏估计以牺牲无偏性使估计量的均方误差变小,从而解决了多重共线性下最小二乘估计量方差过大的问题。目前讨论较多的有偏估计是岭估计和主成份估计。
线性回归模型可记为如下形式
(1)
其中
是因变量观测值,
是相应的自变量观测值,
为
需要估计的未知回归系数,模型误差
为独立同分布的随机变量,有
和
。为了克服因变量的缺失,用变量
作为缺失的标志,
表示
的值没有缺失,可以被观测到,
则表示
值缺失。假定
满足随机缺失的机制,即
(2)
该缺失机制是缺失数据分析中常用的假设条件。
针对缺失数据的处理,最简单的处理方法就是完整数据方法,即只利用因变量和自变量都完整的观测值,也就是只考虑因变量不存在缺失的那些观测值,即
的那些观测数据。显然,这种方法虽然简便,但舍弃了存在缺失的数据,造成了信息的浪费。为了充分利用观测数据的信息,还可以利用插补的方法对模型(1)进行估计。对于模型(1)~(2),基于完整数据方法和单点插补方法,杨徐佳等(2011) [6] 构造了回归系数的估计,并给出了所提估计量的渐近性质,此外还讨论了回归系数的线性关系检验问题。安佰玲等(2013) [7] 则基于这两种方法讨论了模型的约束估计问题。
针对因变量缺失和自变量存在多重共线性这两个问题,目前的研究大都是单独讨论,将两个问题同时考虑的研究成果很少。为了解决这一问题,本文集中讨论因变量缺失下线性回归模型的岭估计问题。
论文第2节和第3节将分别基于完整数据方法和单点插补方法构造模型系数的岭估计,并给出估计量的渐近性质。第4节将通过数值模拟验证所提方法的有效性。总结将在第5节给出,定理的证明将放在第6节。
2. 基于完整数据方法的岭估计
本节基于完整数据方法构造模型系数的岭估计。设
为来自模型(1)的观测数据,则有如下的线性回归模型
(4)
模型(4)的矩阵形式为
(5)
其中
,
,
。
从而对模型(4)使用最小二乘估计,可得回归系数
基于完整数据的估计
(6)
下面在模型(4)或(5)的基础上考虑岭估计的构造。类似于普通线性回归模型的估计,构造的如下的辅助函数:
(7)
函数
关于
求偏导数,并另导数等于0,可得
(8)
从而可得回归系数基于完整数据方法的岭估计为
(9)
下面给出
的渐近性质。
定理1. 如果第6节的假设条件成立,
是渐近正态的,有
其中
。
3. 基于单点插补方法的约束估计及其性质
上一节所用的完整数据方法只是用了因变量和自变量有完整观测的数据,将因变量存在缺失的观测数据舍弃,显然造成了信息的损失。为了弥补这一问题,下面将基于单点插补方法构造模型系数的岭估计。基于上一节得到的最小二乘估计
,针对因变量缺失这一问题,构造如下新的因变量
(10)
显然,当
不存在缺失时,
,另一方面当
存在缺失时,相当于用插补值
代替其缺失的真实值。
基于上面的构造,得到了完整数据集
,因此有如下的自变量和因变量都存在的线性模型
(11)
其中
。
对于上述模型,利用最小二乘方法可以得到
的单点插补估计
(12)
基于模型(11),考虑其岭估计,构造如下的辅助函数
同样,函数
关于
求偏导数,并另导数等于0,可得
(13)
,从而可得回归系数基于单点插补数据方法的岭估计为
(14)
下面给出
的渐近性质。
定理2. 如果第6节的假设条件成立,
是渐近正态的,满足
从定理1和定理2不难看出,首先基于两种方法的估计量的渐近性质相同,且与不考虑岭估计的最小二乘估计的渐近性质一样。这些结论与杨徐佳等(2011)以及其他文献的结论一致。
4. 数值模拟
本节将通过数值模拟考察前面所提出估计方法的有效性。假设数据服从于如下线性回归模型
(15)
为了构造多重共线性,运用McDonald和Galerneau (1975) [8] 中生成具有多重共线性自变量的方法生成解释变量
,具体为:
其中
是独立的标准正态随机数,
是一个具体的数值以确保任何四个解释变量在理论上是相关的,分别取
刻画不同程度的复共线性问题。
因变量的缺失的机制
,当
时;
否则等于0.9。模型误差
服从如下的正态分布(N)和均匀分布(U)
(1)
,(2)
。
针对模型(15),取
的真实值为
,基于上面的缺失机制和误差分布,样本量n分别设置为50、100和150,重复500次,在每一种情况下分别计算
基于完整数据分析方法的估计(C)和岭估计(C-R),基于单点插补方法的估计(I)和岭估计(I-R)。其中岭估计是基于R软件MASS package里的lm.ridge函数,其中k的选取使用GCV方法。以这些估计量的均方误差(EMSE)来衡量其表现,
其中
是参数
的第k次重复时的估计值,模拟结果见表1。

Table 1. EMSEs of the estimators
表1. 不同估计量的EMSEs
从模拟结果可以看出:1) 随着样本量的增大,这四类估计的均方误差值都在变小,与理论性质相一致。2) 误差分布对这四类估计的影响很小。3) 随着共线性程度的增加,岭估计优于其对应的最小二乘估计。4) 完整数据估计和单点插补估计相比,单点插补估计由于充分利用了数据的信息从而表现优于损失了信息的完整数据估计。
5. 总结
因变量缺失问题是使用线性回归模型进行实际问题分析时经常遇到的,目前的研究大都是基于最小二乘法或极大似然估计方法进行模型估计,很少有论文同时讨论自变量的多重共线性问题。本文就是针对这一问题,构造了因变量缺失下的线性回归模型的岭估计,并研究了所提估计量的渐近性质,通过数值模拟验证了所提估计的有效性。本文主要讨论了线性回归模型,论文的方法可以推广到半参数模型等其他类型的回归模型上。
6. 定理的证明
在给出定理的证明之前,我们先给出下面条件。
条件1:
为正定矩阵。
条件2:
,
。
引理1. 如果前面的假设条件成立,
和
都是渐进正态的,二者都满足
其中
为
或
。
证明:该引理即为杨徐佳等(2011) [6] 中的定理1。
定理1证明:由
的定义可得
基于条件1和2,可得到
由上述结论,根据Slutsky定理可得
定理2的证明和定理1类似,在此省略。
基金项目
中国劳动关系学院教育教学改革立项项目(JG1406);2020年度安徽高等学校自然科学项目(KJ2020A1200)。