1. 引言
随着大数据时代的到来,对每一个患者的医疗健康记录也越来越详细。通常情况下,不同患者对不同疾病的治疗方案会产生不同的反应,患者之间治疗效果的异质性使医疗决策复杂化,从而促使医疗研究者们从传统的“一刀切”方法过渡到量身定制疗法,即个性化医疗。
个性化医疗的一个新兴研究方向是使用适当的算法技术对患者进行分类,得到不同的亚组,并分析这些亚组的治疗效果。在现有的文献中,已经开发出了多种基于数据驱动的亚组识别方法。Zhao等人[1]引入了结果加权学习(O-Learning)框架,从分类的角度直接寻找最佳的二元处理方法。Loh [2]提出了广义无偏交互检测与估计方法,旨在识别那些在接受治疗后效果得到显著提升的患者亚组。此外,Foster等人[3]设计了一种虚拟双胞胎方法,用于发现治疗效果增强的特定亚组。同时,Cai等人[4]和Zhao等人[5]则采用参数评分体系来估算个体患者的治疗差异,并据此筛选出从新治疗中可能获得更大益处的人群。
事实上,上述大多数亚组识别工作使用了与变点检测相似的技术[6],并且可以使用传统的变点理论来严格证明。因此,可以考虑基于变点模型提出亚组识别方法,变点模型也称为阈值回归或分段回归模型,它的一个自然扩展是变平面模型。变平面模型相对于变点模型的优点是,它允许潜在的分组变量是协变量的线性组合,而不是局限于单个协变量,可以处理的变量更多。
到目前为止,由于难以处理由变平面定义的多维断点和不连续的亚组指标,对多阈值变平面模型只进行了少量的研究。Li和Jin [7]提出了一种基于惩罚的加速失效时间回归模型框架。在Jin等人[8]的研究中,他们将阈值问题定义为群体模型选择问题,并应用了快速计算工具。Wei和Kosorok [9]使用切片逆回归技术提出了协变量空间中具有变平面的不规则Cox模型,Fan等人[10]使用双鲁棒性评分统计量考虑了使用变平面方法来检验亚组是否存在,但是该方法只允许一个阈值(即只有两个子组),并且在一个单位球上搜索平方分数测试统计数据的最大值相当具有挑战性,尤其是在针对多个组时。为了解决上述问题,本文考虑了一个具有未知阈值的变平面模型,该模型允许存在多个变平面,自动生成具有不同协变量效应的亚组,从而促进个性化医疗在医学领域的应用[11]。
本文提出的方法其优势主要体现在以下三个方面。首先,本文研究的变平面的概念不只是使用预先指定的索引变量,而且允许协变量的线性组合,可以得到更有意义的亚组定义,进而为精准医疗提供更灵活的工具。其次,本文对普通的基于最小二乘的多阈值变平面模型估计进行了重要改进,考虑基于秩回归的多阈值变平面模型估计,将阈值识别问题转化为模型选择问题,所得结果在鲁棒性方面具有更显著的优势。此外,在实践中,亚组可能只是在少数选定的协变量效应上有所不同,在其他协变量上具有相同的效应。因此,本文允许某些效应为零,从而获得稀疏解,这是通过惩罚诱导平滑估计方法实现的。
2. 多阈值变平面
2.1. 多阈值变平面模型基本理论
假设
遵循以下具有s个阈值的变平面模型:
(1)
其中
是p维向量,
是与第i个研究对象
对应的响应变量。
为基线组的协变量效应向量,
为第j个亚组相对于基线组的增强效应向量,其子组由变平面
定义。当
时,参数
不被识别。
是不包含截距项的d维分组变量,
为变平面参数,
是阈值位置,且满足
。
是由
组成的独立的误差项,
,
,且
的概率密度函数均为
。
是连续的随机变量,且对于任何成对的差异值
,
,
,其中位数均为0。在这个模型中,可以通过将不同的治疗组编码为
中的虚拟协变量来合并多个治疗效果,相应的系数
和
表示不同处理方案的效果。为了更精确地识别模型,本文考虑对
做出假设:
,且固定的第r个元素为正。
2.2. 基于秩回归的多阈值变平面模型求解
Hettmansperger [12]指出基于秩回归的估计方法是不依赖于总体分布的、具有稳健性的、高度有效的。此外,相对于一般的最小二乘估计法,秩回归方法能够有效地处理异方差和异常值问题。
记
。根据Jaeckel [13]的思想,结合秩回归的理论知识可知,秩估计的目的是最小化残差的离散度。因此,当
已知时,未知参数
可以通过最小化,如下目标函数来估计:
(2)
其中
,并约束
。
然而,在一般情况下,变平面的数量和位置都是未知的,而且在回归模型中,需要在选择出显著协变量的同时及时更新参数估计值。显然,公式(2)并不能同时进行显著变量选择和参数估计,因此考虑使用惩罚估计。在实践中,本文提出了一种迭代的两阶段多阈值变平面估计方法。在第一阶段中,对于任意给定的一致估计量
,可通过带有惩罚的变点检测算法得到s的一致估计量
。得到
之后,在第二阶段使用诱导平滑方法来估计参数
。具体过程如下。
2.2.1. 初步分割阶段
对于给定的
,记,生成秩映射
,使得
是
中的第i个最小值,为了避免位置估计不一致,将其按升序排列,即
。
首先,本文根据
将数据序列分为
段,其中当
时,
趋于无穷大。即拆分数据序列使得第一段
,包含第
个观测值,其他
段
,
,分别包含m个观测值,其中
。定义
,表示集合
中所含元素个数,即集合
的大小。令
,
,,
,
,
,
,则估计值可以通过最小化以下带有惩罚的目标函数得到:
(3)
其中
,
为惩罚函数。
本文选取Fan和Li [14]提出的具有较好性质的非凹惩罚函数,即平滑截断的绝对偏差(SCAD)惩罚,其定义为其一阶导数,并且是关于原点对称的。即对于
,
其中
,且
是一个非负惩罚参数,用来控制模型的变量选择或稀疏性。一般地,当p较大时,通常假设
为稀疏结构。现考虑使用迭代局部二次近似算法来找到式(3)的最小值。Leng [15]指出式(2)中的目标函数可以视为Jaeckel [13]提出的Wilcoxon分数的秩离散函数,所以式(3)中的第一项可以近似为:
其中
是
的中位数,且
使用简单的泰勒展开,给定目标函数(3)的初始估计
(等效于给定了
和
),可以相应地获得权重
和残差的中位数
。对于式(3)的第二项,本文考虑近似正则项为:
因此,式(3)可以近似为:
(4)
其中,且
,
为方便起见,记估计量,
,
(5)
显然,由上述定义可知
是
的子集。若
和
,则
且
。因此,当给定每个估计量
的值,就可以获得变平面的阈值数量估计值
。如果
,则表明没有子组。如果
,则真阈值
极有可能位于区间
。若给定的估计量
是一致的,则初步分割阶段得到的估计值
也将以很高的概率收敛。
2.2.2. 平滑优化阶段
根据初步分割阶段得到的变平面阈值数量的估计值
,可通过最小化以下平滑目标函数来估计模型中的参数
和:
(6)
其中。
针对以上目标函数,本文考虑使用一个迭代估计过程,它可以产生相对稳定的解。对于给定的
,目标函数(6)可以简单地视为分段函数,可以通过秩回归方法来估计基线系数
和增强效应
。然而,对于给定的
,目标函数(6)不是连续的,找到它的最小值比较困难。因此,本文考虑使用光滑的分布函数
作为不连续的示性函数的平滑逼近,其中带宽h随着样本量n的增加逐渐趋于0。如果
,则当
时,
。因此,目标函数(6)可以用如下函数来近似:
(7)
其中。
记
。对于非稀疏问题,可以直接通过Newton-Type算法来最小化目标函数(7)。对于稀疏问题,考虑在式(7)中增加惩罚函数,即最小化以下惩罚目标函数来估计
:
(8)
记
,可通过迭代诱导平滑方法来处理上述带有惩罚的目标函数,进而得到参数的估计值。具体的计算类似初步分割阶段的处理方法,对式(8)的第一项和第二项进行近似即可。
重复进行上述初步分割阶段和平滑优化阶段,直到满足收敛条件。尤其当变平面的估计数量保持不变时,考虑终止迭代。现将本文提出的求解基于秩回归的多阈值变平面模型的算法记为TSMCPLD,其具体算法过程如下。
算法. TSMCPLD
步骤0:给定
的初始估计,记为
,并设置
; |
步骤1:实现初步分割阶段。最小化式(4)得到估计值
,然后计算式(5)中定义的索引集
,通过
获得阈值数量; |
步骤2:对于给定的
,在平滑优化阶段中,通过最小化惩罚目标函数(8)来更新参数
; |
步骤3:迭代步骤1和2直至收敛。 |
在上述算法中,初步分割阶段的性能依赖于片段长度m,并且最佳m的选择可以遵循[7]中的建议,将数据序列进行L次初步分割阶段,事件(不包括第一段)的公共长度为
,设
,其中
取区间内
个网格点的值,贝叶斯信息准则(BIC)可用于选择最佳索引
。
在平滑优化阶段的具体计算中,可以使用R包BB中的BBoptim函数来优化高维非线性目标函数。此外,参数的数量可能相当大,尤其是有大量的异构子组时,包含惩罚函数会导致稀疏解。在中等或高维环境下,调谐参数
也可以通过贝叶斯信息准则(BIC)来选择。具体的计算公式为:
其中RSS为残差平方和。
3. 渐进理论性质
为了更好地建立渐近理论性质,本文考虑增加以下必要条件:
条件1:a)
是有限且正定的。
是正定的。
和
是独立的,
。
几乎必然成立。
b) 对于某些
,设
,且
,
。
条件2:参数
的参数空间是紧空间,其中
且
以零为界。设
且
。本文假设罚函数
满足以下条件:
条件3:
是一个对称函数,它在
上是不递减的凹函数。存在一个常数
,使得
对于所有
都是常数,且
。除了有限的t,
存在且连续,而且
。本文设
且
。记
,其包含真实向量阈值位置
,变平面参数
。与本文中
和
的定义类似,可以通过将
替换为
来定义
和
。根据条件1可知,,其中
是一个正定矩阵。为了获得式(8)中
的渐近性质,考虑以下假设条件:
条件4:
,其中
是
的最小特征值。
条件5:设置
且
,
表示给定
时
的条件密度,
表示
的密度,其中
有紧支撑且二阶导数有界。
。此外,对于某些
,
几乎必然成立。
条件6:
和
,当
时。
设计矩阵的条件1允许特定制度的异方差性。误差假设可以被放宽为
,其中
独立于
,且
是i.i.d.的,均值为零和方差为
。条件2是关于参数空间的,它通过要求
来排除小于
个亚组的简化模型的可能性。条件3和4通常用于高维数据环境的收缩回归中。SCAD这类凹形惩罚满足条件3,对于SCAD惩罚,条件4等价于
,这确保了目标函数(8)是全局凸的。条件5是一个标准的平滑条件,其表明存在s个不同的跳跃,否则模型无法识别。条件6可以来确定h的速率。
根据大数定律和条件5,可以得到
,且当
和
时,有
。因此,当
是已知的或是一致估计值,即
时,对于足够大的n,在每个分段
中,最多有一个阈值,其中,
和
的定义在第2.2.1节中。由以下定理1即可保证初步分割阶段得到变平面数量估计值
是s的一致估计。
定理1. 假设
且
,其中
为常数。当
时,
和
。如果条件1~5成立,那么有
。
设
是(1)中的回归参数,
是模型中
的重要变量集。对于给定的一致估计量
,由定理1可以获得最小化非正则目标函数(7)的平滑秩回归估计量
的一致性,其中
。本文考虑通过最小化惩罚平滑目标函数(8)来获得估计量
,以下定理保证了我们估计量的一致性。
定理2. 在条件1~6下,当
时,
且
,
有局部最小值
,使得
,
,且
,其中
。
现重新记
,其中
是第j个子群中
个非零协变量集的索引集,
。不失一般性,考虑将
记为
,其中
,
且
。记
。记
表示
个分块矩阵,其中每一块矩阵分别为
,
是
维对角矩阵,其中
,
,且
,而且
是
维矩阵,其中
,
。
设
,其中
,
,
且
,
。记:
以下定理中可以证明估计量的极限分布是成立的。
定理3. 在条件1~6下,当
时,
和
,在概率趋近于1的情况下,定理2中的惩罚平滑估计量
满足:
a) 稀疏性:
b) 渐近正态性:
其中,
且
。此外,
和
都是渐进独立的。
定理3可以为许多比我们更简单但文献中尚未研究的模型提供推理工具。例如,考虑一维阈值变量(即
)的情况很有趣,其中
,
。然后,可以通过本文提出的估计方法估计
,并在以下推论中得到所得估计量的分布理论:
推论1. 假设条件1~6成立,那么有
,此外,
和
是渐近独立的,且有:
4. 实证分析
现考虑将本文所提出的方法应用于艾滋病临床试验组研究175所得数据。该数据是R软件的内置数据集(ACTG175),可直接在R中调用。这项随机临床试验比较了不同药物治疗对感染人类免疫缺陷病毒I型成人的治疗效果[16]。本文的研究目标是对获取到的患者数据进行亚组分析,以便在(20 ± 5)周时得到更精确的每个组的CD4计数(细胞/mm3)预测值。现结合实际病例与本文的研究目标,考虑选择以下9个协变量进行分析,具体见下表1。
Table 1. Various covariates and their meanings
表1. 各协变量及其含义
协变量 |
含义 |
单位 |
|
血友病(0 = 否,1 = 是) |
— |
|
性别(0 = 女性,1 = 男性) |
— |
|
基线CD4计数 |
— |
|
直到首次出现以下情况的天数: 1) CD4T细胞计数至少下降50; 2) 表明进展为艾滋病的事件;3) 死亡 |
天 |
|
年龄 |
岁 |
|
重量 |
kg |
|
Karnofsky分数 |
— |
|
基线CD8计数 |
— |
|
之前接受抗逆转录病毒治疗的天数 |
天 |
本文首先将
作为自变量,
周时的CD4计数作为因变量,结合相应数据拟合得到线性回归模型,即认为其没有亚组,并用
表示对数据进行普通的最小二乘估计得到的各个参数的估计值。选择
作为阈值变量。
现考虑在艾滋病临床试验组研究所得数据中随机选取500名患者对应的变量数据,将其应用于本文所提出的基于秩回归估计的多阈值变平面模型中,可以得到系数估计值
和
,以及它们的标准误差(SE),具体见下表2。
由表2分别可以得到两个亚组的各种解释变量的推论。例如,第一组基线CD4计数变量
的系数为0.452,前两组间的系数差为0.011,说明第二亚组的系数为0.452 + 0.011 = 0.463,第二和第三亚组之间的系数差为0.202,即说明第三亚组的系数为0.463 + 0.202 = 0.665。然而,在没有进行的亚组分析的简单线性回归模型中,对于基线CD4计数变量,普通最小二乘法只返回一个恒定的系数0.538,没有考虑到亚组内的基线CD4计数差异。其他系数也可以类似地解释。
Table 2. Estimated values of various coefficients and corresponding standard errors
表2. 各系数估计值以及相应的标准误差
|
|
|
|
|
|
系数 |
标准误差 |
系数 |
标准误差 |
系数 |
标准误差 |
系数 |
标准误差 |
|
−0.073 |
−0.054 |
0.123 |
0.105 |
0.241 |
0.082 |
−0.003 |
0.126 |
|
−0.165 |
0.015 |
−0.002 |
0.025 |
−0.011 |
0.104 |
−0.086 |
0.024 |
|
0.001 |
0.020 |
0 |
— |
0 |
— |
0.023 |
0.066 |
|
0.452 |
0.052 |
0.011 |
0.035 |
0.202 |
0.032 |
0.538 |
0.035 |
|
0.222 |
0.048 |
0 |
— |
0.053 |
0.024 |
0.244 |
0.043 |
|
0 |
— |
−0.036 |
0.045 |
0 |
— |
−0.025 |
0.014 |
|
−0.006 |
0.014 |
0 |
— |
0 |
— |
−0.006 |
0.031 |
|
0.075 |
0.031 |
0.018 |
0.021 |
0.163 |
0.012 |
0.032 |
0.019 |
|
0.079 |
0.019 |
−0.023 |
0.029 |
−0.105 |
0.084 |
−0.054 |
0.034 |
|
−0.175 |
0.042 |
−0.234 |
0.037 |
−0.047 |
0.033 |
−0.087 |
0.051 |
现考虑将选取的艾滋病临床试验数据以7:3的比例分为训练集和测试集两部分,选择前70%作为训练集,后30%作为测试集。将得到的训练集对应的数据带入基于秩回归的多阈值变平面模型中,通过使用本文提出的两阶段计算方法,可以得到各参数估计结果,再将各参数估计结果带入测试集中,结合测试集中自变量对应的数据,即可获得相应的因变量,即CD4计数预测值。类似地,可以得到基于普通最小二乘估计的多阈值变平面模型的各参数估计结果,将其带入测试集中也可以得到预测的CD4计数。
根据得到的两种不同方法的CD4计数的预测值,借助R软件,可以画出它们预测的CD4计数对比的散点图,具体见下图1。
Figure 1. Comparison of prediction results by different methods scatter plot
图1. 不同方法预测结果对比散点图
由上图1得到的不同方法预测结果的散点图对比,可以发现秩回归估计方法和最小二乘估计方法的预测值都与实际观测值有微小差距,因此考虑绘制实际观测的CD4计数的数据分布直方图和Q-Q图,进一步说明本文选取的秩回归估计方法的合理性,具体见下图2。
(a) (b)
Figure 2. Histogram of CD4 count data distribution (left) and Q-Q chart (right)
图2. CD4计数的数据分布直方图(左)和Q-Q图(右)
根据图2展示的CD4计数数据分布直方图与Q-Q图可知,该数据并未完全遵循正态分布,特别是在分布的两端尾部,部分数据点显著偏离了正态分布的参照线,这表明数据集中存在异常值或离群数据,例如第190个与第464个数据点。因此,相较于一般的适用于独立同分布数据的最小二乘估计法,本文所提出的基于秩回归的多阈值变平面模型估计方法在此类数据上表现出更高的适用性。该方法展现出良好的鲁棒性,其估计效果更为优越。
此外,考虑将本文所提出的基于秩回归估计的多阈值变平面模型(MCPL)的预测性能与基于秩回归估计的单阈值变化平面(SCPL)模型、相关文献[7]提出的单阈值变点模型(MCPT)以及等加权多变量
的变平面模型(E-MCPL)的预测性能进行了比较。由于本例选取的数据中,
、
为不连续变量,所以不能应用于单阈值变点模型。本文总结了上述提出的所有方法的预测误差,具体见下表3。
Table 3. Prediction errors of model estimation results using different methods
表3. 不同方法的模型估计结果的预测误差
方法 |
预测误差 |
|
阈值
|
分组结果 |
MCPL |
0.565 |
2 |
(−0.436, 0.315) |
390:66:44 |
SCPL |
0.581 |
1 |
0.213 |
105:395 |
MCPT-X3 |
0.578 |
1 |
−0.102 |
198:302 |
MCPT-X4 |
0.585 |
0 |
— |
— |
MCPT-X5 |
0.575 |
2 |
(−1.312, 1.513) |
148:305:47 |
E-MCPL |
0.587 |
0 |
— |
— |
OLS |
0.597 |
0 |
— |
— |
注:MCPL表示本文提出的基于秩回归的多阈值变平面模型估计方法;SCPL表示基于秩回归的单阈值变平面模型估计方法;MCPT-X3表示阈值变量为X3的单阈值变点模型估计方法;MCPT-X4表示阈值变量为X4的单阈值变点模型估计方法;MCPT-X5表示阈值变量为X5的单阈值变点模型估计方法;E-MCPL表示等加权多变量
的变平面模型估计方法;OLS表示普通的最小二乘模型估计方法。
由上表3结果可知,对比其他几种方法的估计结果,本文提出的基于秩回归的多阈值变平面模型估计方法的预测误差是最小的。即表明本文所提出的方法估计更精确、更有效。此外,为了研究亚组,本文总结了几种模型估计方法的分组结果,见上述表3的最后一列。现考虑通过所有协变量对应的不同亚组的平均值来展示其分组结果,具体见下图3。
(a) (b)
(c) (d)
Figure 3. Average values of covariates corresponding to subgroups for different model estimation methods
图3. 不同模型估计方法的协变量对应亚组的平均值
由上述图3中不同模型估计方法得到的每个协变量分组后组内平均值的条形分布图可知,本文提出的基于秩回归的多阈值变平面模型的分组效果更显著,能够更好地根据病人的不同特征(即自变量)将其分到相应的组别,采取适合该病人的治疗方法,即更好地体现了个性化医疗。
5. 结论
本文的创新点是,相对于普通的最小二乘估计法,本文所提出的基于秩回归的多阈值变平面模型估计方法具有很好的鲁棒性,而且此方法还添加了惩罚函数,可以扩展到高维的数据分析。此外,当特征空间的维数超高且为样本大小的指数阶时,可以通过基于秩回归的多阈值变平面模型估计方法来估计单个或多个标记的影响,进而考虑单个或多个阈值的变化,以便得到更精确的结果。
本文得出的结论可以应用于医学中的个性化医疗技术,以便为更多病情复杂的患者找到适合他们的治疗方案,从而更好、更有效地对其进行精准治疗,帮助患者早日康复,不再忍受病痛的折磨。