1. 引言
在当前大数据时代背景下,搜集数据的技术水平相较以前大幅提高,各领域数据的获取也变得越来越容易。但是现实中真正完整的数据集并不常见,更多时候我们获取得到的数据集是不完全的,含有或多或少的缺失数据值。不完全数据的处理问题一直都是统计学领域的研究热点。
处理不完全数据的方法有很多,大致可分为删除法和插补法。删除法是将含有缺失值的数据删除掉,该方法操作简单、易于理解,但是仅仅适用于样本数量大并且数据缺失率较小时的场景,并且或多或少会损失掉样本的完整信息。插补法是将缺失值进行估计并插补到数据集中。插补法主要分为单一插补和多重插补。单一插补就是对每个缺失值进行一次估计;多重插补在单一插补的基础上,对缺失值进行多次估计,然后将多个估计值插补进数据集中形成多个“完整”数据集,最后利用评分函数确定最终的估计值。相较于单一插补,多重插补的插补方式是随机抽取的,所以估计效率更高,但多重插补的操作要求较高,需要更多的精力。
关于缺失值插补的研究最早可以追溯到Yates [1] 提出的一种缺失值的估计方法,该方法在方差分析中表现出很好的效果。Cheng和Wei [2] 提出了一种叫做核加权回归的非参数插补方法,他们还证明了该插补在估计总体均值时的渐近性质。Cheng [3] 提出了一种与核加权回归方法类似的基于最近邻回归加权的插补方法。Horvitz和Thompson [4] 针对抽样调查的缺失数据,认为可以赋予完全观测值适当的倾向函数,提出了一种基于倾向函数的逆概率加权估计法,目的是重现完整的数据集。后期提出的新加权方法基本上是承袭早期的这些思想改进而来。Robins等 [5] 将逆概率加权估计用于数据缺失条件下的半参数回归函数估计,发现该估计方法当参数回归模型或者倾向函数任意一种被正确指定时,估计结果都是渐近有效的,这种性质被称为双稳健性质。Ning等 [6] 依据HT估计的原理,改进了核密度插补估计,构造了逆概率加权插补估计量。Ning等 [7] 又结合了核密度估计和最近邻估计,提出了一种新的非参数的双稳健插补方法,并比较了各类非参数回归插补方法在正则条件下的渐近性质。祝恒坤 [8] 提出了一种基于逆概率加权插补和完全插补的Mallows模型平均方法用于非随机缺失情形,并证明了相关估计量在实现最小平方误差的意义下能渐近地达到最优。丁先文等 [9] 研究了响应变量随机缺失下,基于分位数回归半参数模型的稳健估计问题,提出了一种新的插补方法对缺失的响应变量进行多重插补。刘沙等 [10] 提出了一个基于统计度量的缺失值填补算法,利用数据点的类中心和标准差来填补缺失值。
本文在现有理论基础和前人相关工作的基础上,针对缺失值估计问题,将非参数插补法里的两种经典方法核密度插补法(KR)和最近邻插补法(KNN)得到的回归函数估计量进行加权组合,得到新的混合回归函数估计量,记为WM (Weighted Mixture),权重系数由基于完全数据的最小二乘法确定。再在WM估计量基础上加入一个基于完全数据的纠偏项,构造一个基于偏差逆概率加权(Deviance Inverse Probability weighting)的混合函数估计量,记为DIPW。
2. 方法
2.1. 数据缺失机制
在进行不完全数据处理之前,了解数据发生缺失的原因是很有必要的。统计学者在早期研究不完全数据的时候,并未在意部分数据发生缺失的原因,直到1976年Rubin [11] 首次提出缺失机制的概念,用缺失机制代表数据发生缺失的原因,广大学者才逐渐围绕缺失机制展开研究。我们用三元组
表示不完全数据集,其中X表示完全观测的特征变量;Y表示存在缺失值的响应变量;
为指示变量,
时
的值可以观测到,
时
的值缺失。
随机缺失(MAR)指的是响应变量Y是否发生缺失依赖于特征变量X,而不依赖于Y本身。Rosenbaum and Rubin [12] 将利用基线协变量进行治疗分配的概率定义为倾向函数。倾向函数与缺失机制在本质上描述的都是变量被某一固定值观测到的条件概率。那么可以用倾向函数表示MAR:
(1)
其中,
为响应变量Y被固定观测到的概率,
为已知的倾向函数。
2.2. 经典非参数插补法
在MAR的假设下,我们重点研究不同的非参数插补法对响应变量Y的均值
的估计效果。以一元协变量为例,以下插补方法共同假设回归函数
。
第一种非参数插补法为核密度插补法(KR),它的原理是通过某个已知的核函数对数据点进行加权求和,选取的数据点需要满足跟含有缺失值的点的距离小于给定的带宽h。利用KR得到的
的估计量为:
(2)
其中,
(3)
。由公式(4)可以看出只有与
距离小于带宽h,并且对应响应变量未发生缺失的
才会进行局部加权步骤,这种局部加权通过核函数
实现。核函数
提前给定,那么该插补方法唯一的未知参数是带宽h。
是光滑的,h控制的是
的复杂程度,并且h越小
越不光滑。综上可知h的取值会直接影响KR效果的好坏。
当样本量较少或者数据较稀疏时,如果选择h的值比较小,在对
插补的过程中可能会找不到观测值未缺失的
来进行局部加权,那么
的值就没办法估计出来。同时当面临高维数据,KR会遇到“维数祸根”的问题。
最近邻插补法(KNN)沿用了KR的局部加权思想,它的原理是通过距离筛选出用于估计缺失值的数据点,优先选取距离最近的点。利用KNN得到
的估计量为:
(4)
其中,
(5)
给定的近邻数k为KNN中的数据个数。通过距离远近筛选出合适的近邻,再对这些近邻观测值求均值来得到
。
表示观测值缺失的响应变量
的第j个近邻。
不连续,并且k越大,KNN模型的复杂程度越高。显然k直接决定了KNN效果的好坏。
由于KNN中对于近邻的选取是依据距离,所以KNN可以很好地解决数据稀疏以及维度较高的问题。但也有可能会存在某个近邻
存在缺失值的问题,那么KNN的估计效果就会弱于KR。
最早的一种逆概率加权估计法HT估计是一种对总体均值的估计方法,在分层抽样中有着广泛应用。某种意义上来说,含有缺失值的不完全数据类似于分层抽样中的总体,其中未含有缺失值的数据为一层,含有缺失值的数据为另外一层。针对不完全数据,HT估计原理为响应变量
以一固定概率
被观测到,对
取倒数视为
的权重,这样就可以通过未含有缺失值的数据来对总体均值进行估计。利用HT估计得到的
的估计量为:
(6)
其中,
(7)
为基于核平滑(KS)得到的倾向函数
的估计值。将(7)中的样本量n用有效样本量替代,得到估计效果更好的HTR估计:
(8)
Ning基于KR和HT估计,构造了逆概率加权插补法(IPW),它的原理是对核密度估计出的回归函数进行一个纠偏操作,具体方法是将回归函数加上一个基于完全数据的纠偏项。利用IPW得到的
的估计量为:
(9)
其中,
(10)
详见公式(4),
详见公式(8)。同样的,将(10)中的n用有效样本量替代,可以得到一个新的关于总体均值
的双稳健估计量:
(11)
2.3. 改进的非参数插补法
结合以上KR以及KNN的各自特点,对这两种经典的非参数插补方法加权组合有望构造出一个包含两者优点的新回归函数估计量
。在后续的模拟中证实了当数据全部来自同一分布的情况下,新估计量的估计效果优于任何一个单一的插补估计量。
新回归函数定义为:
(12)
这样变量的缺失值可以估计为
。
对于非参数插补新回归函数的未知参数
的求解可以借助最小二乘法思想,令误差项的平方最小,用所有完全数据进行估计,假设完全数据个数为m:
(13)
进而可以得到估计方程为:
(14)
数据缺失率、样本量n、带宽h以及近邻数k都可以直接影响未知参数
的求解。
参考公式(11)的逆概率加权思想,我们同样为新回归函数加入一个基于完全数据的纠偏项,得到另一个新的回归函数估计量。该估计量定义为:
(15)
详见公式(13),
详见公式(8)。
3. 模拟研究
3.1. 模拟设定
为了比较本文提出的两种基于新回归函数的非参数插补与其他经典的非参数插补的插补效果,我们假定三个例子进行数值模拟验证。考虑模型
,其中偏差项
。样本量
,模拟次数
。
为了比较本文所提出方法的有限样本性质,选择核密度插补法(KR)、最近邻插补法(KNN)、逆概率加权插补法(IPW)、双稳健插补法(DR)、HT估计和HTR估计进行对比。并通过MAD、MSE、CCI和ZS四个定性指标进行结果评估,定性指标见(16)~(19)所示。MAD为插补值均值与观测值均值的绝对差值。MSE为插补值均值与总体均值离差的平方,由于实际MSE数值非常小,在这里我们将其乘以n作为评价结果。CCI为总体均值的收敛比例,若总体均值落入插补值均值置信度为95%的置信区间内,则CCI为1;否则为0。ZS为平均偏差与偏差标准误的比值。
(16)
(17)
(18)
(19)
其中,
为第j次模拟的插补值均值,
为第j次模拟的观测值均值,
为总体的理论均值,
。
模拟过程注意以下几点要求:
1) 核函数选用Epanechnikov多项式核函数
2) 当h取值较小时,缺失值附近可能没有观测值未缺失的点,那么该缺失值不能用KR进行插补估计,于是我们直接舍弃该点,这也就意味着KR的有效样本量可能小于n;相应地,该缺失值的WM插补值直接用KNN插补值替换。
3) 由于HT估计和HTR估计未对缺失值进行插补,于是这两种方法下的CCI是用观测值均值代替插补值均值进行计算的,所以这两个方法下的CCI会普遍高于其他方法,数值非常接近1。
三种模拟假设如下:
模拟1假设
为线性的简单函数,倾向函数光滑,数据缺失率较小。模拟2将
替换为多项式函数,该函数有一条垂直于x轴的对称轴,且对称轴位于X服从的均匀分布范围内,这样数据分布整体远远比模拟1的数据复杂得多,且距离对于数据关系的解释能力会变弱;同时倾向函数为分段函数,数据缺失率较大,分布较稀疏。模拟3在模拟1的基础上假设X服从混合分布,并且将误差项的方差替换为分段函数,这样数据整体更为复杂,数据缺失率也比模拟1略大。
3.2. 数值模拟
数值模拟结果如表1~3所示。
表1的模拟结果显示:当n较小时,HT估计的MAD略大于其他插补法,ZS远高于其他插补法,该方法效果最差;当n较大时,选取恰当的k或者h,六种经典方法的插补效果接近;当n固定时,在相同的h下,HTR估计相对于HT估计,MAD略微减小,ZS显著减小,这种加权估计法对总体均值的估计效果与其他经典非参数插补法相当;在相同的h下,IPW和DR相对于KR,MAD整体略微减小,CCI显著增大,插补效果更好;当n较小时,如果k取值较大(k = 16, 32) KNN的插补效果堪称“灾难”,如果h取值较小(h = 0.1)HT估计的插补效果也远远差于其他取值下的插补效果。而不论n的大小,相对于单一插补的KNN以及KR,WM的MAD都要更小,尤其是当n较小时MAD显著小于所有单一插补方法;DIPW在WM的基础上加入了一个纠偏项,由于数据缺失率较小,数据分布较简单,WM的CCI在0.95附近,DIPW的CCI在0.96附近,所以整体来说插补均值置信区间收敛概率比较稳定,DIPW的插补效果略好于WM。

Table 1. Comparison of the results of all imputation methods in Simulation 1 at different sample sizes
表1. 模拟1中所有插补方法在不同样本量下的结果对比

Table 2. Comparison of the results of all imputation methods in Simulation 2 at different sample sizes
表2. 模拟2中所有插补方法在不同样本量下的结果对比
表2的模拟结果显示:当n较小时,选取不同的k或者h对六种经典方法的插补效果都有显著影响,这是因为数据缺失率较大,数据分布较复杂,距离并不能很好地体现数据间的关系,更多更远的其他观测值与缺失值的实际值误差较大,而由于KNN是根据绝对距离选择观测值,KR是根据距离给予观测值适当的权重,所以综合来看KNN插补效果比KR差,并且KNN的MAD是随着k的增大而增大的,KR的MAD在特定情况(
)下随着h的增大而减小;当n较大时,选取恰当的k或者h,六种经典方法的插补效果接近;不论n的大小,HT估计的MAD随着h的增大而减小,这是由于h的变大使得
的估计更加准确,所以HT估计效果变好;当n固定时,由于数据缺失率较大,HT估计效果相比HT估计有非常显著的提升;在相同的h下,相对于KR,IPW和DR的CCI更大,插补效果更好。不论n的大小,相对于单一插补的KNN以及KR,WM的MAD都要更小,并且当n较小时n × MSE更小,CCI更大;由于数据缺失率较大,数据分布较复杂,如果插补值与实际值有较大偏差,那么纠偏项就会使插补效果降低;当n较小时,相对于WM,DIPW的MAD和n × MSE都要更大,ZS更小;当n较大时,相对于WM,DIPW的MAD更小,CCI更大,并且ZS也会更小。

Table 3. Comparison of the results of all imputation methods in Simulation 3 at different sample sizes
表3. 模拟3中所有插补方法在不同样本量下的结果对比
表3的模拟结果显示:当n较小时,k的取值对KNN的插补效果影响较大,选取较大的k会使得KNN的MAD显著增大;当n较大时,选取恰当的k或者h,六种经典方法的插补效果接近;不论n的大小,HT估计效果都是最差的;当n固定时,HT估计效果相比HT估计有提升,但其MAD依旧比其他非参数插补法大,这是由于数据分布较分散,数据缺失率较小,所以加权估计法的对于总体均值的估计效果不如非参数插补法;在相同的h下,相对于KR,IPW和DR的CCI显著变大,插补效果更好。不论n的大小,相对于单一插补的KNN以及KR,WM的插补效果都要更好一点;由于数据分布较分散,插补值与缺失值的真实值可能存在较大的偏差,当n较小时,DIPW整体插补效果都要略差于WM;当n较大时,DIPW的CCI在0.95左右,WM的CCI在0.945左右,表明DIPW的插补均值置信区间收敛概率更大,但是在其余指标上DIPW都要略差于WM。
对所有方法的MAD数值进行可视化,如图1所示。

Figure 1. Comparison of MAD for all methods under different sample sizes under three simulation settings
图1. 三种模拟设置下所有方法在不同的样本量下MAD的对比
4. 结论
当不完全数据的响应变量随机缺失时,我们考虑用非参数插补法对缺失值进行估计插补。两种经典非参数插补法核密度插补法(KR)和最近邻插补法(KNN)都有各自的优点以及局限性,针对不同数据分布以及数据缺失率情况,我们想到将两种经典方法进行加权组合,这样构造的新的回归函数估计量就具有更好的插补效果。针对不同假设下的数据,我们对缺失值进行多种插补估计,得出以下结论:
1) 不论数据分布情况以及数据缺失率大小,在相同的n下WM的MAD都要比单一插补的KNN以及KR的更小,整体插补效果更好;
2) 当数据分布情况复杂或者样本缺失率较大时,DIPW的纠偏项可能具有较大偏差,此时的DIPW的MAD虽然要大于WM的,但是整体的CCI更大一点,也就是插补均值置信区间收敛概率更高;
3) 如果n较小,那么选取不恰当的k或者h会导致KNN或KR的插补效果很差;但是k或者h的取值对WM以及DIPW的插补效果并没有很显著的影响,所以WM以及DIPW的插补稳定性更好。