纵向数据部分线性模型的一种稳健估计方法

doi:10.12677/SA.2018.74043

期刊菜单

纵向数据部分线性模型的一种稳健估计方法
A Robust Estimation Method for the Partial Linear Models with Longitudinal Data

DOI: 10.12677/SA.2018.74043, PDF, HTML, XML, 被引量科研立项经费支持
作者: 孙晓霏, 王康宁：山东工商学院统计学院，山东烟台；李劭珉：山东大学经济学院，山东济南
关键词: 纵向数据；部分线性模型；稳健估计；经验似然；Longitudinal Data； Partial Linear Models； Robust Estimation； Empirical Likelihood

摘要: 本文利用指数平方损失函数，针对纵向数据部分线性模型的参数部分提出了一种稳健的估计方法。首先通过核估计以及变换将非参部分消去，然后利用指数平方损失函数降低异常值的影响，构造出稳健的广义估计方程，最终推导出稳健的经验似然比函数，由此进行估计和统计推断。在一定正则条件下该估计具有相合性以及渐近正态性，蒙特卡洛模拟显示本文的方法具有稳健性以及较高的效率。

Abstract: Based on the exponential squared loss function, we propose a robust estimation method for the parametric parts in the partial linear models. By using the kernel approximation and transfor-mation, we first absorb the nonparametric part. Then by using the exponential squared loss func-tion to deduce the influence of outliers, we propose robust generalized estimation equations and empirical likelihood ratio function for estimation and inference. Under some regularity conditions, we show that the resulting estimators are consistent and asymptotic normality. Simulation results also illustrate the robustness and efficiency advantages of our method.

文章引用：孙晓霏, 李劭珉, 王康宁. 纵向数据部分线性模型的一种稳健估计方法[J]. 统计学与应用, 2018, 7(4): 367-375. https://doi.org/10.12677/SA.2018.74043

1. 引言

部分线性模型是一类非常重要的半参数模型，比单纯的线性回归模型或非参数模型有更大的适应性以及更强的解释能力，在医学和计量经济学等领域有着广泛的应用。而在这些领域中常常用到的一种数据类型为纵向数据，即每个个体经过多次测量得到的数据集。考虑来自n个个体的数据，其中第i个个体有 $m_{i}$ 次观测， $i = 1, \dots, n$ ，总的观测数为 $N = \sum_{i = 1}^{n} m_{i}$ 。设 $Y_{i j}$ 和 $(X_{i j}, T_{i j})$ 分别是是第i个个体第j次观测的响应变量和协变量，其中 $X_{i j}$ 是 $p \times 1$ 维向量， $Y_{i j}$ 和 $T_{i j}$ 都是一维变量。纵向数据的部分线性模型为：

$Y_{i j} = X_{i j}^{T} β + g (T_{i j}) + ε_{i j}, i = 1, 2, \dots, n; j = 1, 2, \dots, m_{i}$ (1)

其中 $β$ 是 $p \times 1$ 维未知参数向量， $g (\cdot)$ 是未知的基准函数， $ε_{i j}$ 为随机误差项，假定 $E [ε_{i j} | T_{i j}] = 0$ ， $E [ε_{i j}^{2} | T_{i j}] = σ_{ε}^{2}$ ，不失一般性，不妨假定 $T_{i j} \in [0, 1]$ 。一般假定来自不同个体的观测是相互独立的(称之为组间独立)，而来自同一个个体的观测具有一定的相关性(称之为组内相关)。

Zeger和Diggle [1] (1994)最早对模型(1)进行了研究，利用后移算法(back-fitting)，结合核估计以及最小二乘估计将参数 $β$ 和函数 $g (\cdot)$ 估计出来。Lin和Carroll [2] (2001)利用profile估计方程估计参数部分，并结合估计方程与核估计方法估计非参部分。He等 [3] (2002)利用B-样条逼近非参部分，然后选择适当的损失函数用M估计方法估计参数 $β$ 以及样条系数。Fan和Li [4] (2004)利用局部多项式逼近非参部分，在假定工作独立协方差矩阵下，提出两种估计方法：差分估计和profile最小二乘估计。Xue和Zhu [5] (2008)利用核估计以及差分法消去未知的基准函数 $g (\cdot)$ ，并利用经验似然(Owen, 1988) [6] 方法估计 $β$ 以及进行统计推断。以上方法都没有考虑纵向数据模型中的组内相关性以及估计的稳健性，而在对实际问题的研究中得到的数据常常存在异常值或与假定的分布不符，于是估计的稳健性变得尤为重要。

本文首先利用广义估计方程(Liang, 1986) [7] 的思想，引入工作相关矩阵将组内相关性考虑进来，然后利用指数平方损失函数(Wang, 2013) [8] 降低异常值的影响，并在估计方程中加W权重减轻杠杆值的影响，得到稳健的广义估计方程，并以此构造出稳健的经验似然函数，得到稳健的经验似然估计，并进行统计推断。

2. 稳健经验似然的构造

首先对(1)式两边取给定 $T_{i j}$ 下的条件期望，得

$E [Y_{i j} | T_{i j}] = E [X_{i j}^{T} | T_{i j}] β + g (T_{i j})$ ，

两式相减得

$Y_{i j} - E [Y_{i j} | T_{i j}] = {(X_{i j} - E [X_{i j} | T_{i j}])}^{T} β + ε_{i j}$ ，

令 $Y_{i j}^{*} = Y_{i j} - E [Y_{i j} | T_{i j}]$ ， $X_{i j}^{*} = X_{i j} - E [X_{i j} | T_{i j}]$ ，则模型变为

$Y_{i j}^{*} = X_{i j}^{* T} β + ε_{i j}, i = 1, 2, \dots, n; j = 1, 2, \dots, m_{i}$ 。

为了稳健，本文引入指数平方损失函数 $φ_{γ} (r) = - \frac{2 r}{γ} \exp (- \frac{r^{2}}{γ})$ ，其中 $γ > 0$ 为调节参数，当 $γ$ 非常大时， $1 - \exp (- r^{2} / γ) \approx r^{2} / γ$ ，于是得到的估计与最小二乘估计类似；当 $γ$ 较小时，指数平方损失函数能够降低较大的残差对参数估计的影响，即选取较小的 $γ$ 能够有效的控制异常值的影响，提高估计的稳健性，最优 $γ$ 值的选取见第三节。

令 $Y_{i}^{*} = {(Y_{i 1}^{*}, Y_{i 2}^{*}, \dots, Y_{i m_{i}}^{*})}^{T}$ ， $X_{i}^{*} = {(X_{i 1}^{*}, X_{i 2}^{*}, \dots, X_{i m_{i}}^{*})}^{T}$ ， $ε_{i} = {(ε_{i 1}, ε_{i 2}, \dots, ε_{i m_{i}})}^{T}$ ， $r_{i}^{*} (β) = Y_{i}^{*} - X_{i}^{*} β$ ， $V_{i} = V a r (ε_{i}) = σ_{ε}^{2} R_{i} (ρ)$ ， $R_{i} (ρ)$ 为工作相关矩阵， $ρ$ 为未知的参数，注意在随后的矩条件 $E [Z (β_{0})] = 0$ 中可将方差 $σ_{ε}^{2}$ 消去，于是不妨直接假定 $V_{i} = R_{i} (ρ)$ 。构造辅助随机向量

$Z_{i} (β) = X_{i}^{* T} V_{i}^{- 1} h_{i}^{γ} (r_{i}^{*} (β)), i = 1, \dots, n$ 。

其中 $h_{i}^{γ} (r_{i}^{*} (β)) = C_{i} [φ_{γ} (r_{i}^{*} (β)) - E [φ_{γ} (r_{i}^{*} (β))]]$ ，减去 $φ_{γ}$ 的期望是为了确保Fisher一致性(He [9] , 2005)。权重矩阵 $C_{i} = d i a g (c_{i 1}, \dots, c_{i m_{i}})$ 用来约束协变量空间中杠杆点(leverage points)的影响，常用的权重是Mallows-type权函数

$c_{i j} = c (x_{i j}) = \min {1, {\frac{b_{x}}{{(x_{i j} - m_{x})}^{T} S_{x}^{- 1} (x_{i j} - m_{x})}}^{\frac{ξ}{2}}}$ ，

其中 $ξ \geq 1$ ， $m_{x}$ 和 $S_{x}$ 分别是对 $x_{i j}$ 位置参数和尺度参数的稳健估计， $b_{x}$ 是 $χ^{2} (p)$ 的95%分位数。

利用辅助向量 $Z_{i} (β)$ 可以定义 $β$ 的稳健经验似然比函数，然而此函数不能直接用于估计 $β$ 以及进行统计推断，因为 $Z_{i} (β)$ 中含有未知的函数 $E [Y_{i j} | T_{i j}]$ 和 $E [X_{i j} | T_{i j}]$ 以及未知的相关性参数 $ρ$ ，需要用各自的估计量替代。对于 $ρ$ 可以用稳健的矩估计方法，例如，对于可交换工作相关结构， $ρ$ 的估计为

$\hat{ρ} = \frac{1}{n H^{2}} \sum_{i = 1}^{n} \frac{1}{m_{i} (m_{i} - 1)} \sum_{j \neq k} φ_{γ} (e_{i j}) φ_{γ} (e_{i k})$ ，

对于一阶自回归工作相关结构， $ρ$ 的估计为

$\hat{ρ} = \frac{1}{n H^{2}} \sum_{i = 1}^{n} \frac{1}{m_{i} - 1} \sum_{j \leq m_{i} - 1} φ_{γ} (e_{i j}) φ_{γ} (e_{i, j + 1})$ ，

其中 $H^{2} = E [φ_{γ}^{2} (e_{i j})]$ 。

对于 $E [Y_{i j} | T_{i j}]$ 和 $E [X_{i j} | T_{i j}]$ 的估计可用非参数统计方法，本文选用核估计

$\hat{E} [Y_{i j} | T_{i j} = t] = \sum_{i = 1}^{n} \sum_{j = 1}^{m_{i}} W_{i j} (t) Y_{i j}$ 和 $\hat{E} [X_{i j} | T_{i j} = t] = \sum_{i = 1}^{n} \sum_{j = 1}^{m_{i}} W_{i j} (t) X_{i j}$ ，其中 $W_{i j} (t) = K_{h} (T_{i j} - t) / \sum_{k = 1}^{n} \sum_{l = 1}^{m_{k}} K_{h} (T_{k l} - t)$ ， $K_{h} (\cdot) = K (\cdot / h)$ ， $K (\cdot)$ 是一个核函数。

用估计值分别替代 $Z_{i} (β)$ 中的 $ρ$ 、 $E [Y_{i j} | T_{i j}]$ 和 $E [X_{i j} | T_{i j}]$ ，得到 $Z_{i} (β)$ 的估计量 ${\hat{Z}}_{i} (β)$ ，以此构建 $β$ 的稳健似然比函数

$L (β) = \max {\prod_{i = 1}^{n} n p_{i} | p_{i} \geq 0, \sum_{i = 1}^{n} p_{i} = 1, \sum_{i = 1}^{n} p_{i} {\hat{Z}}_{i} (β) = 0}$ ，

利用拉格朗日乘子法可以得出， $L (β)$ 的最大值在 $p_{i} = \frac{1}{n (1 + λ^{T} {\hat{Z}}_{i} (β))}$ ， $i = 1, \dots, n$ 处取到，

其中 $λ$ 满足

$\sum_{i = 1}^{n} \frac{{\hat{Z}}_{i} (β)}{1 + λ^{T} {\hat{Z}}_{i} (β)} = 0$ ，

于是 $β$ 的对数经验似然比函数为

$l (β) = - \sum_{i = 1}^{n} \log (1 + λ^{T} {\hat{Z}}_{i} (β))$ 。

最大化似然比函数可以求出 $β$ 的估计 ${\hat{β}}_{MELE}$ ，根据Xue [5] 和He [9] ，在一定正则条件下，有

$\sqrt{n} ({\hat{β}}_{M E L E} - β_{0}) \overset{d}{\to} N (0, Σ_{0}^{- 1} Ω_{0} Σ_{0}^{- 1})$ ，

以及

$- 2 l (β) \overset{d}{\to} χ^{2} (p)$ ，

其中 $χ^{2} (p)$ 表示自由度为p的卡方分布，于是本文估计具有相合性以及渐近正态性，且 $β$ 的置信域为

$I_{α} = {β | - 2 l (β) \leq χ_{1 - α}^{2} (p)}$ ，

其中 $α$ 为显著性水平。

3. 算法

下面给出具体的算法：

Step 1：用核估计计算 $\hat{E} [Y_{i j} | T_{i j}]$ 和 $\hat{E} [X_{i j} | T_{i j}]$ ，对数据进行变换， ${\hat{X}}_{i j}^{*} = X_{i j} - \hat{E} [X_{i j} | T_{i j}]$ ；

Step 2：用GEE估计作为参数估计的初始值 $β^{(0)}$ ，令t=1；

Step 3：在估计值为 $β^{(t)}$ 时，求出相关性参数的估计 $\hat{ρ}$ ，并代入工作相关矩阵得到 ${\hat{V}}_{i} = R_{i} (\hat{ρ})$ 。通过最小化 $\det (C o v (β^{(t)}))$ 得到调节参数 $γ$ 的估计 $γ_{o p t}^{(t)}$ ，其中 $\det (\cdot)$ 表示行列式运算；

$C o v (β^{(t)}) = {[\hat{Σ} (μ_{i} (β^{(t)}), \hat{ρ})]}^{- 1} \hat{Ω} (μ_{i} (β^{(t)}), \hat{ρ}) {[\hat{Σ} (μ_{i} (β^{(t)}), \hat{ρ})]}^{- 1}$ ，

$\hat{Σ} (μ_{i} (β^{(t)}), \hat{ρ}) = \sum_{i = 1}^{n} X_{i}^{T} {\hat{V}}_{i}^{- 1} E [\frac{\partial h_{i}^{γ} (μ_{i} (β^{(t)}))}{\partial μ_{i} (β^{(t)})}] X_{i}$ ，

$\hat{Ω} (μ_{i} (β^{(t)}), \hat{ρ}) = \sum_{i = 1}^{n} X_{i}^{T} {\hat{V}}_{i}^{- 1} [h_{i}^{γ} (μ_{i} (β^{(t)}))] {[h_{i}^{γ} (μ_{i} (β^{(t)}))]}^{T} {\hat{V}}_{i}^{- 1} X_{i}$ ；

Step 4：最小化 $- 2 l (β, \hat{ρ})$ 得到新的估计值 $β^{(t + 1)}$ ；

Step 5：令t = t + 1，迭代Step 2~Step 3直到收敛，得到最终的估计值 ${\hat{β}}_{M E L E}$ 和 ${\hat{γ}}_{o p t}$ 。

4. 模拟

本节通过蒙特卡洛模拟，比较本文方法与Xue提出方法的稳健性。模型设定为

$y_{i j} = x_{i j} β + g (t_{i j}) + ε_{i j}, i = 1, 2, \dots, n; j = 1, 2, \dots, m$ ，

其中 $x_{i j} ~ U n i f o r m (- 1, 1)$ ， $t_{i j} ~ U n i f o r m (0, 1)$ ， $g (t) = 3 \sin (\frac{π}{2} t)$ ， ${(ε_{i 1}, \dots, ε_{i T})}^{T} ~ N ({(0, \dots, 0)}^{T}, σ^{2} R (ρ))$ ，令 $σ^{2} = 1$ ， $R (ρ)$ 分别取可交换结构(Exch)和一阶自相关结构(AR-1)，参数 $ρ$ 选取0.3和0.7两个数值，取n = 50，100；m = 3，10。估计时所用的工作相关性矩阵分别选取独立结构(Ind)、可交换结构(Exch)和一阶自相关结构(AR-1)。令数据以概率 $δ$ 受到来自分布 $χ^{2} (5) - 5$ 的污染，考虑 $δ = 0.05, 0.1$ 和0.2三种不同的污染程度。由n、m、 $ρ$ 和 $δ$ 的不同取值以及真实相关矩阵的不同结构共得到24种不同的情形，每种情形分别进行1000次模拟，计算出对应的偏(Bias)、均方误差(MSE)、覆盖率(CP)以及置信区间宽度(Width)，结果列在下文的表格和图中。

表1所列为四种估计的偏(Bias)与均方误差(MSE)的计算数值，其中 $\hat{β} (Xue)$ 表示用Xue的方法得到

Table 1. The bias and mean squared error of estimators

表1. 估计的偏(Bias)与均方误差(MSE)

的估计， $\hat{β} (Exch)$ 、 $\hat{β} (AR-1)$ 和 $\hat{β} (Ind)$ 表示本文方法利用不同工作相关性矩阵结构得到的估计，第一行的Exch和AR-1表示真实的相关性矩阵的结构。通过比较可以发现，在多数情形下，本文估计量(不论利用何种工作相关矩阵结构)的偏差要更加接近于0；而在所有情形下，本文估计量的均方误差要远远小于Xue的估计，大多不到其一半，这表明本文构建的估计量有较强的稳健性。当污染率增加时，四种估计的均方误差也随之增加，这是由于污染数据的比例增加导致估计结果的波动增大，而相对于Xue的方法本文估计量的均方误差仍处于较低的水平。当n或m增大时，四种估计的均方误差都减小，这是由于样本量增大导致估计的方差减小。

图1表示真实的相关性矩阵结构为Exch时的不同情形下四种估计的均方误差，其中圆圈符号代表Xue的估计，三角形代表本文提出的估计，显然在所有情形下本文方法的均方误差都远小于Xue的方法。图1中的前3个三角表示在n = 50，m = 3， $ρ = 0.3$ ，污染率为0.05时分别利用Exch、AR-1和Ind三种工作矩阵结构得到的估计，可以发现工作矩阵用Exch结构得到的估计的均方误差最小，用AR-1结构得到的结果与之相近，用Ind结构(即不考虑组内相关性)得到的估计的均方误差最大。前3个圆圈表示对应情形下Xue的估计，由于Xue的估计没有用到工作相关矩阵，因此得到的估计相同，于是这三个圆圈处

于相同的高度。从圆圈的分布可以看出3个圆圈为一个阶梯，第1~3个阶梯所处情形的区别在于污染率分别为0.05、0.1和0.2，于是均方误差呈现上升的趋势；前3个阶梯与随后的3个阶梯所处情形的区别在于相关性参数的不同，因此这两段阶梯形状和高度相似；前6个阶梯与随后的6个阶梯所处情形的区别在于m分别取3和10，m取10时样本量增加了大约两倍，估计的均方误差更小，于是第7~12个阶梯要明显低于前6个阶梯。对三角形的走势进行同样的分析也能得出类似的结果，而且在每个三角形的阶梯中，总是第1个三角形最低，第3个三角形最高，这表明当模型中存在组内相关性而在估计时忽略相关性(用Ind工作矩阵)得到的估计效率最低，而选取的工作矩阵结构为真实的结构时估计的效率最高。

表2列出的是n = 50，m = 3时不同情形下四种方法求出的置信水平为95%的置信区间的覆盖率(CP)

Figure 1. Mean squared error of four estimators under different conditions

图1. 不同情形下四种估计的均方误差

Table 2. Coverage probabilities and width of the confidence interval

表2. 置信区间的覆盖率(CP)和宽度(Width)

和宽度(Width)，第一行的Exch和AR-1表示真实的相关性矩阵的结构。通过比较可以发现，在几乎所有情形下，与用Xue的方法求出的置信区间相比，本文方法(不论用何种工作相关矩阵结构)得到的置信区间的覆盖率更加接近真实的置信水平95%，而且宽度更小，这表明用本文方法进行统计推断能够得到更加稳健的结果。通过比较利用三种不同的工作相关结构得到的结果发现，当模型中存在组内相关性而在统计推断时忽略相关性(用Ind工作矩阵)得到的结果最差，而选取的工作矩阵结构为真实的结构时统计推断的结果最好。从表2中还可以看出，污染率由0.05增大到0.2时，置信区间的宽度也相应增加，这是由于数据污染越严重，估计量的波动越大，达到相同的置信率所需要的置信区间也随之扩大。

5. 结论

本文利用指数平方损失函数，针对纵向数据部分线性模型的参数部分提出了一种稳健的估计方法。首先通过核估计以及变换将非参部分消去，然后利用广义估计方程(GEE)的思想，通过假定相关性结构将组内相关性考加入到参数估计过程中；同时为了提高估计的稳健性，引入指数平方损失函数降低异常值的影响，并利用W权重减轻杠杆值的影响，构造出稳健的广义估计方程，最终推导出稳健的经验似然比函数，通过最大化似然比函数可得到参数的稳健估计，在一定正则条件下该估计具有相合性以及渐近正态性，且似然比函数服从渐近卡方分布，由此可进行稳健的统计推断。

本文在生成的数据中加入一定比例的污染，考虑了不同样本容量、不同相关性结构以及不同的污染率，对24种情形分别进行蒙特卡洛模拟，并将本文提出的方法与Xue的方法进行比较。结果表明，多数情形下本文估计量(不论利用何种工作相关结构)的偏差要更加接近于0，且在所有情形下的均方误差远小于Xue估计的均方误差，这表明本文构建的估计量有较强的稳健性。将所有情形得到的结果放在一张图上可以明显看出，若存在组内相关性而估计时忽略，估计的有效性最差；而工作相关矩阵用可交换结构(Exch)和一阶自相关结构(AR-1)得到的估计的差别相对较小；若假定的工作相关性矩阵的结构与真实结构相同，估计的效果最好。与用Xue方法求得的置信区间相比，不论工作相关性矩阵的结构是否准确，本文方法得到的置信区间有着更小的宽度以及更加接近真实置信水平的覆盖率，这表明用本文方法进行统计推断能够得到更加稳健的结果。

基金项目

本项目受国家自然科学基金(11231005; 71673171)和山东省自然科学基金(ZR2017BA002)资助。

参考文献

[1]	Zeger, S.L. and Diggle, P.J. (1994) Semiparametric Models for Longitudinal Data with Application to CD4 Cell Num-bers in HIV Seroconverters. Biometrics, 50, 689. [Google Scholar] [CrossRef] [PubMed]
[2]	Lin, X. and Carroll, R.J. (2001) Semiparametric Regression for Clustered Data Using Generalized Estimating Equations. Journal of the American Statistical Association, 96, 1045-1056. [Google Scholar] [CrossRef]
[3]	He, X. and Kim, M.O. (2002) On Marginal Estimation in a Semiparametric Model for Longitudinal Data with Time-Independent Covariates. Metrika, 55, 67-74. [Google Scholar] [CrossRef]
[4]	Fan, J. and Li, R. (2004) New Estimation and Model Selection Procedures for Semiparametric Modeling in Longitudinal Data Analysis. Journal of the American Statistical Association, 99, 710-723. [Google Scholar] [CrossRef]
[5]	Xue, L.G. and Zhu, L.X. (2008) Empirical Likelihood-Based Inference in a Partially Linear Model for Longitudinal Data. Science in China Series A: Mathematics, 51, 115-130. [Google Scholar] [CrossRef]
[6]	Owen, A.B. (1988) Empirical Likelihood Ratio Confidence In-tervals for a Single Functional. Biometrika, 75, 237-249. [Google Scholar] [CrossRef]
[7]	Liang, K. and Zeger, S.L. (1986) Longitudinal Data Analysis Using Generalized Linear Models. Biometrika, 73, 13-22. [Google Scholar] [CrossRef]
[8]	Wang, X., Jiang, Y., Huang, M., et al. (2013) Robust Variable Selec-tion with Exponential Squared Loss. Journal of the American Statistical Association, 108, 632-643. [Google Scholar] [CrossRef] [PubMed]
[9]	He, X., Fung, W.K. and Zhu, Z. (2005) Robust Estimation in Generalized Partial Linear Models for Clustered Data. Journal of the American Statistical Association, 100, 1176-1184. [Google Scholar] [CrossRef]

为你推荐

友情链接