1. 引言
双侧截断是一种常出现在生存分析和工业检测上的现象,双侧截断数据指的是数据的两侧存在由于随机出现的截断点导致响应变量无法被观测,从而导致样本点缺失的数据集。即当且仅当响应变量Y落在截断区间
内时,该样本才可以被观测记录。由于响应变量缺失导致的对应协变量的缺失并无规律可循,而忽视这些有一定占比的缺失数据可能导致估计回归模型时参数有偏,且拟合效果会随着截断概率的增加而下降,故而如何在数据存在双侧截断的条件下更好地估计回归模型是一个有实际意义的课题。双侧截断数据的研究最早在天体观测和生存分析领域展开,从参数法与非参数法出发,得出了一些有效的估计方法。Efron和Petrosian (1999) [1] 针对双侧截断数据的生存分布函数提出了非参数最大似然估计(NPMLE),Shen (2010) [2] 进而研究了NPMLE的渐近特性,并引入了截断分布函数的非参数估计量。Moreira和de Uña-Álvarez (2010) [3] 证明了bootstrap重采样可用于近似NPMLE的抽样分布。当假设的参数模型正确时,参数法的估计效果要显著强于非参数方法。故而近年来对双侧截断条件下的半参数模型的讨论居多,Shen (2013) [4] 针对半参数变换模型利用EM算法给出回归参数估计。进一步的,Shen (2017) [5],Mandel et al. (2018) [6] 提出逆概率加权估计法拟合Cox回归模型。Rennert和Xie (2018) [7] 提出了双截断数据的Cox回归模型,并使用加权估计方程方法来估计回归参数。Ying et al. (2019) [8] 提出扩展的Mann-Whitney型损失函数,在响应变量双侧截断时估计线性回归模型中的回归参数。目前已有的研究多集中在生存分析领域常用模型在双侧截断数据情况下的扩展,但对于一般的常见模型的讨论较少。
部分线性模型是最初由Engle (1986) [9] 提出的半参数模型,综合了线性回归的可解释性和非参数回归的稳健性,有着极广的应用范围。对部分线性回归的估计方法大致有两类:一是回归样条,即使用样条函数逼近模型中的非参数部分,再利用最小二乘法同时估计线性部分参数及非参数部分的样条函数;二是Backfitting估计,在给定线性部分参数初值条件下估计非参数部分,再通过极小化估计标准误求得线性部分参数。然而对于双侧截断数据而言,已有的估计方法都会因为响应变量的截断导致估计结果有偏。由于双侧截断数据常出现在适用于部分线性模型常见的生存分析,工业观测等领域,故而引入适用该类数据的部分线性模型回归方法是有实际价值的。
2. 基于双侧截断的部分线性回归模型的参数估计与拟合
本文针对响应变量双侧截断的部分线性回归模型提出一种参数估计方法。
在不考虑数据截断情况下假设全部样本为:
,针对部分线性模型:
. (1)
对(1)式两侧求期望后直接计算可得:
. (2)
记
,
,并且分别将其估计值记为
,
。
由于响应变量Y存在双侧截断,当且仅当满足
时协变量及响应变量可被观测,记被观测到的样本为
,其中
为观测到的样本的双侧截断点,满足
。截断后的数据满足:
. (3)
考虑截断后
和
的非参数估计。记
,
。
记
为给定
时
的条件分布函数,
为给定
时
的条件分布函数,则有
,
。给定
时
落在未被截断区间的概率记为
,则有
,代表无截断情况下响应变量可以被观测到的条件概率,其中响应变量可被观测到的概率记为
,有
。参照Moreira C.等(2014) [10] 推得
截断后响应变量的条件分布函数
。再记
,则有
。
记
,故而
可以表示为:
。由于
与
均为观测变量的条件均值,故二者可以通过NW核估计给出估计值。
在双侧截断条件下二者的核估计值分别为:
,
(4)
,
(5)
其中
为核函数,h为窗宽,
为响应变量被观测到的概率H的非参数估计。
对于响应变量被观测到概率H的非参数估计
,Shen (2010) [2] 提出
,其中
为双侧截断点的联合分布函数的NPMLE,并给出了
的迭代估计步骤:
Step 1. 设初始估计为
,其中
;
Step 2. 重新对S给出估计:令
并记其累加和为
;
Step 3. 更新对F的估计值:令
并记其累加和为
;
Step 4. 规定收敛条件为
,重复以上两个迭代步骤直至达到收敛条件。
设在第k次迭代结束够满足收敛条件,则
的估计值为:
. (6)
由此可知
。
至此可计算出
,
分别为:
,
(7)
进一步地,记
,
,则有:
. (8)
由于双侧截断的缺失机制,直接对回归系数给出估计存在较大偏差,故通过逆概率加权对其纠偏,利用最小二乘法对线性参数
作出估计。
记
,可求得参数
的估计量为:
. (9)
得到线性回归参数的估计量
之后,代入(3)式可以得到非线性部分的拟合值。
为简化表述,将下述
与
统称为
,给出
的偏差和方差的渐近表达式。定义协变量 的密度函数为
,
,
为无条件下的观测概率,同时给定
,
。为简化表述令
表示实数列
在
时满足
。引入:
. (10)
给定如下假设:
(C1).
的二阶导
连续且在t的领域内有界;
(C2). 核函数
为一关于零对称的密度函数且存在其紧支集;
(C3).
的同时
,且
;
(C4). 条件期望
有界。
基于假设(C1)-(C4),类似Moreira C.等(2014) [10] 证明过程可以给出
的渐进偏差和方差:
, (11)
. (12)
3. 数值模拟
本节模拟研究文中所提估计方法在有限样本下的实际表现,比较在响应变量双侧截断的条件下本文提出的估计方法与原始的部分线性模型回归方法的回归效果。对模拟给定的两个模型分别取截断概率为0.2,0.4,可被观测到的样本量分别取
。Bootstrap重抽样数B = 1000。记忽略截断条件的参数估计量为
,本文提出的非参数估计法得到的估计量为
。对于响应变量双侧截断点的选取分别令其服从均匀分布,正态分布进行模拟。具体参数设置如下:
模型一:考虑协变量均为一维变量,通过模型
产生观测数据,其中
,
,
,随机生成双侧截断点:
,
。
模型二:考虑多元协变量,通过模型
产生观测数据,其中
,
,
,
,
,
,随机生成双侧截断点:
,
。
由表1与表2可知,在相同样本量以及相同截断概率的条件下,本文提出的估计方法相较于传统的估计方法有更小的偏差和较小的估计标准误差,且95%置信区间在真实值附近更加精确。由模型一的参数部分估计结果可以看出,在双侧截断数据条件下,已有的部分线性模型估计方法给出的线性部分参数估计结果并没有随着样本数的增加而逼近真实值,可见数据截断对于该方法的准确性造成一定影响。反观本文提出的非参数方法给出的估计值均为样本数越大,估计越准确。图1与图2分别展示了两个模型的非参数部分回归曲线与原始数据曲线(实线)的相近程度。横轴上的线段分布表示了变量的截断情况,线段越稀疏代表该处被截断从而无法观测到的数据越多。可以看出随着截断后样本数量n的增加以及样本被观测概率的增长,传统回归方法(虚线)对原始数据拟合效果提升。而本文提出的对非参数部分的加权核回归(点虚线)几乎与原始数据(实线)重合,效果明显优于传统方法。
Table 1. Parameter estimation of model 1
表1. 模型一的参数估计
Figure 1. The fitting of two methods to non-parametric part of model 1 under different (n, p)
图1. 不同
取值下两种方法对模型一非参数部分的拟合
Table 2. Parameter estimation of model 2
表2. 模型二的参数估计
4. 实例分析
现将本文提出的方法应用于Kalbfeisch (1989)报告的AIDS孵化数据共295条。数据信息包含患者年龄(AGE),感染AIDS病毒的时长(INF)以及潜伏期(ICUB)。研究目的为判断患者年龄是否会对其病毒潜伏期构成影响。该数据为双侧截断数据,左侧截断是由于1982年之前HIV疾病未知,右侧截断则是实验终止导致。响应变量ICUB的截断区间为
。
Figure 2. The fitting of two methods to non-parametric part of model 2 under different (n, p)
图2. 不同
取值下两种方法对模型二非参数部分的拟合
根据患者年龄将数据划分为三类分别求其年龄与潜伏期的关系,分别划分为0~18为儿童,19~59为
成人,60及以上为老年人,考虑模型:
。类似Liu (2019)构造变量:
。利用本文提出的双侧截断数据模型参数估计方法,给出不同年龄段的病毒潜伏期与年龄的线性回归参数分别为:
,
,
。可得结论:不同年龄段患者的潜伏期时长受其年龄影响,且随患者感染年龄的增长该影响逐渐减小。
5. 结论
本文基于双侧截断数据,使用逆概率加权核估计对部分线性模型给出线性部分参数估计,并给出估计量的偏差与方差的渐进表达式。从数值模拟部分的结果可以看出,该方法给出的估计值具有更小的偏差与更强的准确性,且后续对非线性部分的拟合效果有显著的提升,实例分析进一步证明了该方法的可行性。故而本文提出的针对双侧截断数据下部分线性模型的估计方法在生存分析等领域的适用数据具有实际价值。
基金项目
国家自然科学基金面上项目:超高维复杂数据统计降维研究(11771215),2018.1~2021.12。
NOTES
*通讯作者。