1. 引言
纵向数据是指通过对观测个体在不同时间节点上进行多次重复测量而获得的数据。因此,纵向数据分析可以对同一个体内部的变化规律以及协变量对响应变量的影响进行动态分析。在独立数据的回归分析中引入数据的组内相关性,提高统计推断的效率的同时,纵向数据分析也对统计方法提出了巨大的挑战[1]-[3]。常见的适用于纵向数据的模型,如边际回归模型、转移回归模型和混合效应模型。传统的参数回归模型只考虑参数部分,在处理实际问题,尤其是分析长期或动态环境下的数据时,模型解释能力不足。因此,考虑系数参数随时间变化是提升模型适应性的重要方向。变系数线性模型的首次提出是由Shumway [4],Cleveland [5]和Hastie以及Tibshirani [6]给出的。其他基于该模型的讨论和扩展可从Fan和Zhang [7]以及Chiang等人[8]的论文中得到。
传统的变系数线性模型通常利用最小二乘方法估计系数参数,然而其对异常值敏感且依赖误差分布假设。但秩回归作为一种能有效降低异常值影响的非参数回归方法,它的引入恰好弥补了这一缺陷。该方法也在纵向数据下得到了广泛研究,如将基于秩回归的方法运用到纵向数据中[9]-[11],并扩展到变量选择研究中。Fu等[12]基于独立性假设提出了基于秩的变量选择方法;Fu等[13]基于加权秩提出了带有SCAD (平滑裁剪绝对偏差)惩罚的Wilcoxon离散函数。但是在估计纵向数据的协方差矩阵时,大部分文献选择提前指定具体结构,如Jung等人[9]在独立工作结构下构造了广义的Wilcoxon-Mann-Whitney秩统计量,但得到的估计不是渐进有效的。Fu等人[14]在可交换结构下考虑了基于秩的估计函数,但是当组内相关结构不是可交换时估计效率会降低。因此,建立协方差模型,在更一般的相关结构下研究变系数模型是值得关注的话题。吕晶等[15]利用修正的Cholesky分解处理了纵向秩回归的组内相关性,提出了更加有效的无偏性秩回归得分函数。
以上提到的文献模型虽然在变系数估计方面取得了显著进展,但大多未系统解决变量选择问题。往往在实际建模中,研究者倾向于初始纳入过多变量以避免遗漏重要预测因子,但这一做法不可避免地导致模型过拟合、预测精度下降及计算效率损失。对此,Wang等人[16]结合了基差函数扩展和SCAD惩罚函数提出了正则化变量选择方法,成功识别并选出具有时变效应的重要变量。Zhang [17]提出了MCP (极小极大凹惩罚)惩罚函数,在保留SCAD惩罚优点的同时对回归系数进行有差别惩罚,从而得到更加精确的估计,同时证明了基于MCP惩罚的回归模型具有Oracle性质。但是相较SCAD惩罚函数,基于MCP惩罚的函数形式更为简洁、参数估计偏差更小、模型结果也更加精简。
综合上述讨论,本文结合B样条函数近似和修正的Cholesky分解提出一种纵向数据下变系数线性模型的秩回归方法。利用B样条光滑函数近似变系数参数,并在修正的Cholesky分解下估计更具一般性结v构的协方差工作矩阵。然而,基于秩回归的估计函数非凸,不连续且不可微。本文将利用Brown等人[18]提出的诱导光滑的方法获得更精确的估计。在光滑估计函数的基础下,文章分别添加了非凸惩罚函数SCAD和MCP进行对比分析,以针对不同相关性数据,实现更有效的变量选择。
2. 基于修正的Cholesky分解的秩回归
2.1. B样条近似
假定纵向数据
满足如下形式的变系数模型:
(1)
其中,
为响应变量,
是一个
维协变量,
,
是未知的非参数函数,并且
是第
个个体在
时刻测得的零均值随机过程。
对于模型的非参数函数,利用B样条函数近似未知变系数
,可得到
。其中,
,
,且控制点总数
,
为样条曲线的阶数,
为内节点个数。经过上述样条近似,可得到如下模型:
(2)
现定义
为标准化B样条基函数,定义
,
,
。因此,(2)可以写为
,其中
,
。
基于上面的近似,我们可以得到在
处的残差。对于模型(2),定义
为
的平均秩,
,其中
,记
,
。
对
有秩估计函数:
(3)
其中
,
为
的期望关于
的导数,且,
为
的密度函数,
涉及未知的密度函数
。假设
为常数,并在模型(3)中用代替。
假定使用一个块对角矩阵
作为
的工作协方差矩阵,可得到
的估计函数为
,其中,
。
2.2. 一般工作结构的秩估计函数
在以往的秩估计方法中,Jung和Ying [9]假定误差具有独立工作结构用于估计
,但估计结果
在其他工作结构情况下会严重损失估计效率。基于此,Fu和Wang [14]在可交换结构下提出了最佳秩估计函数,并利用矩方法估计协方差矩阵的逆中的参数
和
。在该模型下,只有
具有可交换结构时,
和
才具有相同的相关结构。因此,当
不具有可交换相关结构时,
会损失估计效率。
已知上述两个模型只有在给定结构下的估计才是有效的,当误差具有其它结构时,估计效率大大降低。此时,修正的Cholesky分解可以保证协方差矩阵正定,同时提高数值计算的稳定性。故本文将基于修正的Cholesky分解建模,基于Yao和Li [19],
可进行如下分解,
(4)
则
。其中,
是主对角元素均为1的下三角矩阵,
为
的对角矩阵。记
,
的第
个元素为
,则有如下关系式:
已知
为对角矩阵,故
互不相关,且
。根据Liu和Li [20]的思想,在此构造线性模型和非参数模型,引入
维系数向量
和一维未知光滑函数估计自回归系数
和更新方差
。此处取
。
利用最小二乘法对参数向量
进行估计,求解下面的最小二乘问题即可得到估计值
:
其中,。
根据Fan and Yao [21]的思想,对光滑函数
的估计可通过求解如下最小二乘问题得到:
其中,
,h为带宽,
为核函数,通过上述问题的求解可知
。
结合上述讨论,可得到估计函数。估计函数的解记为
,求出结果需要对估计函数求导,但
不可微,则采用Brown B和Wang [18]提出的诱导光滑方法得到
的近似式,即
(5)
得到诱导光滑秩估计函数为:
(6)
其中,
表示标准正态的卷积分布函数,
,
,
,
是
的
维协方差矩阵,
为诱导光滑秩估计函数的解,。此时
函数的特性满足了我们的需求。
2.3. 迭代算法
已知上述求导结果,算法具体迭代步骤如下:
步骤1 给定初始值和
;
步骤2 利用第
次迭代得到的
和
,在下面公式的基础上更新
和
;
(7)
(8)
其中,。
步骤3 重复上述步骤2直至收敛。
3. 变量选择与惩罚秩估计函数
在实际情况中,真实的模型通常是未知的,并且我们不知道哪些系数为0,但提前假定系数为0往往会造成损失,因此为避免错误假设带来的损失,考虑到参数的稀疏性问题,我们在上述诱导光滑秩估计函数的基础下引入满足无偏性的SCAD惩罚函数和MCP惩罚函数改进模型,通过构建惩罚秩估计函数得到系数参数更一致的估计。
3.1. 非凸惩罚函数
SCAD惩罚函数
形式如下:
(9)
其中SCAD惩罚函数的一阶导为
已知SCAD惩罚函数没有连续的二阶导数,但是对于该惩罚函数可以通过一个二次函数近似。现假定有初始值
,惩罚函数的近似函数如下所示:
(10)
在近似式下,得到近似的秩估计函数:
(11)
其中,
,
。
可得到近似的估计等式为:,其中,
为一个初始估计值,即非惩罚加权Wilcoxon估计量。
计算得到算法迭代式如下:
(12)
(13)
其中,,
。
MCP惩罚函数也同样满足Oracle性质,且在处理特征之间有很高相关性数据时,表现要比SCAD惩罚函数更好。MCP惩罚函数的惩罚项
为:
(14)
MCP惩罚函数的一阶导为
同样利用二次函数对MCP惩罚近似,得到MCP惩罚下的秩估计函数为
(15)
其中,
。则有估计等式。
同样可得算法迭代式:
(16)
(17)
其中,,
。
3.2. 最佳调节参数选择
在(9)和(14)式中,还有参数a需要估计,a的不同取值会直接影响估计性能。对于(9)式中的参数a,Fan和Li [22]通过蒙特卡洛模拟得出a的最优值约等于3.7,(14)式的a在实际使用中通常默认为3。对于参数
,本文使用BIC (贝叶斯信息准则)进行参数选择。具体计算式如下:
(18)
4. 模拟研究
数据来源于如下变系数模型
(19)
其中
,
,
,
。
,
服从
上的均匀分布,在
的条件下,
产生于正态分布
生成的随机数加1,其中
;
服从参数为0.8的伯努利分布,其余协变量
服从均值为0,协方差矩阵为
的多元正态分布。
为对比不同相关性数据下惩罚函数变量选择的结果,考虑两种生成协变量的协方差矩阵,具体如下:
CASE Ⅰ协方差矩阵
;
CASE Ⅱ协方差矩阵
。
随机误差
服从多元正态分布
。这里协方差矩阵
采用定义如下的矩阵
,其中
是
的对角矩阵且第
个对角元素为
,
,以及
是对角元素全为1的下三角矩阵且第
个元素为
,
,其中
,
和
。
对于重复观测次数
,此处我们考虑不平衡的情形,令
取2到10之间的随机数。取
为小中大样本,模拟次数为100次。
为了体现模型评估的准确性,我们采用均方根平均误差(RASE)来对模型结果进行评价,RASE的具体计算表达式如下:
(20)
将本文方法下的估计结果记为
、
,与三种结构下的PGEE方法进行对比分析,估计结果记为
、
、
。具体见表1。
Table 1. RASE results for CASE Ⅰ and CASE Ⅱ (
、
(×10−1))
表1. CASE Ⅰ和CASE Ⅱ的RASE结果(其中
、
(×10−1))
|
|
|
CASE Ⅰ |
CASE Ⅱ |
RASE |
30 |
12 |
|
0.7663 |
0.2021 |
|
0.7637 |
0.1908 |
|
0.7025 |
0.2174 |
|
0.0946 |
0.0870 |
|
0.0944 |
0.0870 |
15 |
|
0.6214 |
0.1936 |
|
0.7213 |
0.1523 |
|
0.6547 |
0.1237 |
|
0.0088 |
0.0073 |
|
0.0077 |
0.0072 |
50 |
12 |
|
0.6688 |
0.1939 |
|
0.7633 |
0.1417 |
|
0.6981 |
0.0871 |
|
0.0855 |
0.0850 |
|
0.0795 |
0.0747 |
15 |
|
0.5652 |
0.1543 |
|
0.5012 |
0.1540 |
|
0.4980 |
0.1246 |
|
0.0654 |
0.0531 |
|
0.0554 |
0.0526 |
100 |
12 |
|
0.5165 |
0.2016 |
|
0.5275 |
0.2058 |
|
0.4932 |
0.2091 |
|
0.0393 |
0.0300 |
|
0.0393 |
0.0290 |
15 |
|
0.3960 |
0.1180 |
|
0.3910 |
0.1324 |
|
0.2862 |
0.1461 |
|
0.0386 |
0.0319 |
|
0.0376 |
0.0291 |
根据上面的表格,可以得到如下结论:
1) 不同维度下处理效果
为了体现本文提出的方法对不同维度样本数据的处理效果差异,逐步增加模型维数,分别取
和
。对比上述结果,在小中大三种样本类型下,模型维数越大,估计的均方根平均误差越小,说明模型的估计效率越高。
2) 不同协方差工作结构对估计结果的影响
基于文章研究,在相同惩罚函数和样本数据结构下,PGEE方法对应的模型平均误差略高于本文提出方法下的模型误差,说明利用修正的Cholesky分解处理变系数纵向秩回归模型的组内协方差矩阵是有效的,明显降低了估计效率。同时,在模拟研究中,会出现两种方法的模型误差非常接近的情况,这说明此时对协方差矩阵结构的两种估计都是正确的。总之,与现有方法相比,本文提出的方法具有更强的优势,主要原因在于它允许协方差结构具有更一般的形式,不需提前指定矩阵结构,从而可以达到更强的稳健性和有效性。
3) 不同协方差相关性对惩罚函数变量选择的影响
对比相同维度下CASE Ⅰ和CASE Ⅱ的模型结果,发现当样本协方差矩阵相关性变强时,CASE Ⅱ的模型平均误差更小。这是因为当变量高度相关时,MCP惩罚的硬阈值特性和无偏性使其能更有效地筛选关键变量并减少估计偏差,而SCAD的渐进惩罚可能导致冗余变量残留。结合两个惩罚的表达式分析,
时,MCP惩罚完全为0,而SCAD仍然存在轻微惩罚,为非零常数。
5. 模拟研究
我们将本文提出的方法应用到纵向孕酮数据中,该数据的具体表述见文章[23]。这项研究收集了34名女性的尿样,每个妇女的重复观测次数从11到28变化且这组数据共有492个观测值,每位女性的观测次数覆盖了完整的月经周期。但由于不同女性的周期长度不同,研究采用时间标准化,将每位女性的月经周期按比例缩放到28天的参考周期。同时,考虑到激素数据通常呈右偏分布,研究对原始孕酮值进行对数转换,使其更接近正态分布,便于后续统计分析。已经有一些学者利用线性模型分析这组数据,前面的文献旨在研究血清孕酮水平的对数与年龄(Age)、身体质量指数(BMI)和时间(
)的关系。Fan等人[24]利用Huber得分函数分析这组数据,尽管有界的Huber得分函数可以减弱响应变量中异常值的影响从而得到稳健估计,但是在非稳健估计情形下会损失一些效率。吕晶等人[15]利用修正的Cholesky分解对这组数据进行了有效的秩推断分析,但是文章并没有考虑变量选择时造成的模型损失。考虑到孕酮数据随时间变化的特殊性,本文建立了B样条近似下的变系数秩回归模型,叠加非凸惩罚函数进行变量选择,研究血清孕酮水平的对数与Age、BMI、
以及它们交互项之间的关系,具体模型如下:
(21)
下面比较相同样本数据下,本文所提方法(
、
)、PGEE方法(
,
,
)以及吕等人[15]提出的方法(
)的结果。表2列举了200次Bootstrap抽样得到的估计系数(Estimate)和对应的标准差(SE)。
由表2可得如下结论:
1) 在上述所有方法中,本文提出的方法具有最小标准差,这说明本文提出的方法更有效;
2) 对比
、
、
以及
、
可知,利用修正的Cholesky分解处理纵向秩回归协方差矩阵的结构是有效的,明显降低了模型估计过程中损失的效率;
3) 在本文提出的方法下,
较
的标准差更小,说明同样作为非凸惩罚函数,在修正的Cholesky分解下的变系数纵向秩回归模型中,MCP惩罚函数对模型有效性的提高更显著。图1是对200次Bootstrap抽样的一次随机样本数据绘制得到的相关性热图。可知由于交互项的存在,变量
、
、
、
之间出现了强相关性,比较
和
对应的两种估计方法下得到的四个变量的标准差结果,可以看出,强相关下,MCP惩罚函数表现出更明显的优势;
Table 2. Estimated coefficients (×10−2) and standard deviations (×10−1) derived from the progesterone data
表2. 孕酮数据中所得的估计系数(×10−2)以及标准差(×10−1)
|
|
Age |
BMI |
Time |
Age*Time |
BMI* Time |
Time* Time |
Age* BMI |
|
Estimate |
−5.0348 |
−5.3870 |
−15.481 |
0.2718 |
0.2670 |
−0.0201 |
0.1434 |
SE |
5.6838 |
8.2926 |
1.8319 |
0.0344 |
0.0442 |
0.0243 |
0.2211 |
|
Estimate |
7.3184 |
11.5133 |
−4.2705 |
0.1122 |
0.0557 |
−0.0121 |
−0.2473 |
SE |
1.4396 |
2.2622 |
1.1004 |
0.0244 |
0.0313 |
0.0173 |
0.0658 |
|
Estimate |
−7.2348 |
−12.870 |
−3.2181 |
0.1218 |
0.3670 |
−0.0211 |
0.1134 |
SE |
5.1661 |
7.7001 |
1.4750 |
0.0321 |
0.0362 |
0.0339 |
0.1058 |
|
Estimate |
7.1611 |
11.6469 |
−3.8152 |
0.1128 |
0.0395 |
−0.0138 |
−0.2435 |
SE |
1.4663 |
2.2829 |
1.1037 |
0.0244 |
0.0327 |
0.0176 |
0.0669 |
|
Estimate |
24.9950 |
39.2499 |
−3.5169 |
0.1956 |
−0.0744 |
−0.0484 |
−0.9459 |
SE |
1.9106 |
3.0075 |
6.9158 |
0.1284 |
0.1664 |
0.0711 |
0.1113 |
|
Estimate |
0.4673 |
0.7336 |
−2.6240 |
0.0725 |
0.0848 |
0.0049 |
0.1542 |
SE |
0.6155 |
1.0663 |
2.9786 |
0.0671 |
0.0650 |
0.0382 |
0.0498 |
Figure 1. Bootstrap resampling-based correlation heatmap
图1. Bootstrap随机抽样样本相关性热图
Figure 2. Boxplot of estimation results from 200 bootstrap resampling trials
图2. 200次Bootstrap随机抽样估计结果的箱线图
4) 绘制上述五种方法的参数估计结果对应箱线图如下,结合图2的特点分析,MCP惩罚函数下的箱线图相对集中,说明估计结果的稳定性和一致性更强,而SCAD惩罚下的箱体较宽,这是因为SCAD惩罚对高相关性变量的处理不稳定,会导致系数被过度压缩或方向不一致。总之,根据箱线图分析可知,对于维度相同的样本数据,MCP惩罚函数对变量的选择更果断,能有效降低估计方差。
6. 结论
本文针对纵向数据中存在的时变效应与异质性结构,提出了一种基于变系数线性模型的稳健估计方法。该方法让每个变量的影响大小可以随时间变化,比如在研究药物疗效时,药物对病人的作用效果可能会随着治疗时间的推移逐渐增强或减弱。相比之下,传统方法只能假设药物的效果在整个治疗过程中保持不变,这往往不符合实际情况。同时,为进一步提升估计效率,本文设计了基于修正Cholesky分解的协方差矩阵估计方法,避免了预设参数结构的局限性,并通过惩罚秩回归技术实现了对离群值与厚尾分布的高鲁棒性。理论证明与数值模拟均表明,所提方法在参数估计的一致性、效率性及稳健性方面均优于现有方法。除了纵向数据,本文提出的方法还可扩展至非平稳时间序列分析与时变比例风险模型等场景,为复杂动态系统的统计建模提供了通用工具。