1. 引言
在一段时间内,若某个感兴趣事件重复发生,我们称之为复发事件。复发事件在临床试验以及工业领域中很常见,例如癌症的反复发生,反复感染病毒,机器反复发生故障等等。在实际研究中,我们遇到的复发数据可能是来自不同医疗机构的病人,或者是家族遗传病,这时,来自于同一个机构或家庭的病人就具有相似性,我们需要根据这些属性(例如医疗机构,家族),将研究的多个个体进聚类,得到聚类复发事件数据。
复发事件是近些年来的一个热门研究领域。根据复发事件建模对象的不同,主要有两种研究:一种是对复发事件过程的强度函数建模 [1] [2] ;另一种是对边际均值或比率函数进行建模 [3] 。均值模型和比率模型具有计算简单,真值易估计、稳健性强等优点,因此吸引了大批学者进行研究。有些学者假设协变量效应和基准比率之间是乘积关系的乘性模型,例如Lin [4] 或者Lawless [5] 。相应的,也有学者研究协变量效应和基准比率之间是相加关系的加性模型,例如Liu和Wu [6] 等人。Cai [7] 等人则在平均寿命函数中同时考虑了加性效应和乘性效应。死亡事件也受到了学者的关注,Sun [8] 等人提出了一种特定复发事件均值的半参数方法,该方法结合了死亡事件的加性模型和条件复发事件的加性模型,在这篇论文的基础上,马燕 [9] 所提出的方法则是基于乘性模型。Xu [10] 等人还研究了复发事件和死亡事件的联合尺度变化模型,并用脆弱变量来解释复发事件和死亡事件之间的相关性,Chan和Wang [11] 通过以死亡时间为源头,通过逆向计数的方法来研究复发事件。在估计间歇性观测的时间依赖协变量的比率模型时,Sun等人在2020 [12] 年提出了一种基于逆速率加权和核平滑的估计方法,Lyu Tianmeng等人2021 [13] 年则提出了使用加性–乘性比率的半参数回归模型来解决上诉问题。对被调查的个体可能会经历几种不同类型的多类型复发事件,杜彦斌 [14] 等人提出了一种半参数转移模型,作者利用广义估计方程的思想对参数进行了估计。杨青龙 [15] 用广义半参数风险模型研究了多类型复发事件,并用重采样方法计算估计参数的方差。
对于聚类复发事件的研究主要集中在边际均值或者边际比率函数上。Schaubel和Cai [16] 对聚类复发事件提出了一个半参数乘积比率模型。Liu [17] 推广了该模型,假设来自于一个中心的数据为一个类,不同的类具有不同的基准比率函数,并且考虑了死亡事件,当中心数较大时,作者提出对基准比率函数分段常数化,提高计算效率,但是Liu [17] 只研究了乘积比率模型,没有考虑加性的情况。Liu等人 [18] 在聚类复发事件的比率函数加入了一个起乘积作用的类固定效应项,但该方法的计算效率不高。He [19] 等人提出了一个加性比率函数模型,在模型中加入带加性作用的类固定效应项。此外,Sun [20] 等人还分别考虑了加性比率模型和加性风险回归模型的核加权估计过程。
本论文借鉴了Liu [17] 等人的基准比率函数分段常数化的方法,但他只研究了乘性比率函数模型的情况,我们在此基础上研究加性比率函数模型的估计,并且进一步研究了估计量大样本性质。
本文第一部分给出记算符号,并建立模型和估计方法,第二部分给出估计量的相合性和渐近正态性等大样本理论,第三部分进行数值模拟验证提出的方法,并与基准比率函数不做分段化处理时的结果进行了比较。第四部分分析了一个慢性肉芽肿病的数据,第五部分是论文的总结和展望,渐近性质的证明在附录里。
2. 模型和估计方法
2.1. 符号说明及模型建立
假设有n个观测的个体,将这些研究的个体分成K个类,用
表示类的指标值,用
代表第k个类所包含的样本数,满足
,同时用
表示第i个个体,对于个体i,我们
用
表示该个体的类别,
表示个体i在第k个类。
表示个体i的右删失时间,假设删失时间与复发事件过程是独立的。
表示个体处于删失的风险,这里的
是一个示性函数。用
表示在t时刻之前,个体i潜在的事件复发次数,
表示在t时刻之前观测到
的复发次数。用
表示观测截止时间。假设给定协变量的条件下,右删失时间与复发事件过程是独立的。
用
表示第i个个体在时刻t的瞬间复发事件发生次数,它只能取1 (有事件发生)或0 (没有事件发生)。在复发事件数据分析中,定义
为给定历史数据下,t时刻复发事件的风险或强度函数。我们研究复发事件的边际强度函数
,也叫做比率函数。对比率函数定义如下的加性模型:
(1)
式中:
表示与时间有关的协变量,
表示与类别有关的基准比率函数,
是待估计的参数。
定义
,
,
,
,在右删失与复发事件独立的假设下,有
,结合
,模型(1)变成
(2)
2.2. 估计方法
我们利用分段常数化的思想,将
切割成L个区间,
是L个区间的切割点。设
在区间
上为一个常值函数,记成
。同样的,将
进行分段常值化,用
表示
在
时间区间
上的值。记
,
,根据以上的记法,模型(2)以及估计方
程的思想,得到如下的估计方程:
(3)
(4)
由方程(3)可得
(5)
将(5)式代入方程(4),可得
(6)
其中
。在上式中,对于每一个向量
,
。将
的估计量,代入到(5)式,得到
的估计结果如下:
(7)
根据分段常值化的假定,我们可以进一步求出累积基准比率函数
的估计:
(8)
式中:
,表示两个数中的较小者。
3. 渐近性质
记
是
的极限,
是
的极限。另外记
。
为了研究估计量的渐近性质,我们需要以下正则性条件:
a)
对于一切
都成立;
b)
,对于所有的
均成立。(为了保证
的分母不等于0);
c)
,都是有界的;
d) A是正定矩阵,这里
。
3.1. 定理一
在上述正则化条件下,
是一个强相合估计。收敛关系
几乎处处成立。而且
收敛到一个正态分布,这个正态分布的均值是0,方差是
,可以由
估计,这里
。
3.2. 定理二
在上述条件下,对于任意给定的k,
,
关于
几乎处处一致收敛于
,
弱收敛于零均值的高斯过程,其在
处的协方差函数为
,这里
4. 数值模拟
4.1. 数据生成
在本节中,我们按照模型随机生成有限的样本,对参数进行模拟研究。首先,我们假设n个个体来自于K个类(
),每个类包含
个样本(
),总个体
,对每一个个体
我们生成两个协变量
,对于第k类生成一个脆弱变量
,假设
来自区间(0, 1)上的均匀分布,
来自参数为0.5的两点分布,
来自于均值和方差都为1的伽玛分布,并假设来自同一个类的个体共用一个相同的
。假设删失时间C服从区间(u, v]上的均匀分布,u在[0, 0.5]之间变化,v在[2, 6]之间变化,试验终止时间
,这些设置保证复发事件的平均发生次数在2~3次之间。我们从下列模型中生成复发事件:
(9)
我们分别考虑
、
两种情况,
,为了对基准比率函数实行分段常数化,将事件发生时间的整个区间
分别分成
或
个小区间,在每一个小区间上
为一个常
数。我们根据提出的方法来估计模型中的回归参数
和累积基准比率函数
。
4.2. 模拟结果
的估计结果见表1和见表2。表中BIAS表示
的估计值
和真值
之间的偏差在1000次中的平均值,ASE表示
的计算的标准差估计在1000次模拟中的平均值,ASD表示1000次模拟中所得到的
的观测值的样本标准差,CP表示在正态分布下,真值
的95%置信区间内,覆盖到的
的百分比。模拟结果可以看出:估计值和真值的偏差都在0.05以内,样本标准差和估计量的标准差估计比较接近,
的95%置信区间内,覆盖真值的比例在95%附近,估计效果较好。

Table 1. The parameter estimation results of repeated simulations 1000 times when μ 0 k = t
表1.
时,重复模拟1000次的参数估计结果

Table 2. The parameter estimation results of repeated simulations 1000 times when μ 0 k = 0.5 t 2
表2.
时,重复模拟1000次的参数估计结果
另外,我们也绘制了
,
,
时,
在不同时间点处的估计曲线以及置信度为95%的置信带的估计,见图1和图2。
的估计的95%置信带内基本上包含了真实的
。图1和图2如下所示。

Figure 1. Estimate when
图1.
时的估计

Figure 2. Estimate when
图2.
时的估计
在评价加入分段常数化的计算效率的时候,我们使用联想YOGA14S笔记本电脑,该电脑基于AMD R7-5800H处理器。在设置模型参数时,我们设置
,
,
,用本文的分段常数化方法与不加入分段常数化的传统方法进行了比较。在不进行分段常数化时,根据计算,
的估计表达式为:
(10)
其中
,相应的
。
同理,此时也可以计算与标准差
有关的值,分别如下:
(11)
(12)
比较的结果在表3中,从结果中发现使用传统的估计方法,估计量的偏差大于分段常数化的偏差结果。无论使用哪种方法,在估计方差时,样本观测的标准差和模拟计算的结果均十分接近。
两种方法的差别主要体现在计算时间上,对于恒定的个体
,分别设置
计算500次模拟结果,结果记录在表3中。可以看到,用分段常数化的方法运行时间显著低于传统方法,传统方法所用的时间是分段常数的4倍以上;并且随着K的增大,这一比值也在不断增大。由于计算机性能的限制,包含更多个体的实验并没有展示。但分段常数化方法偏差更小,计算速度更快是毋庸置疑的,相较于传统方法优势很明显。
了解释分段常数化计算效率更高的原因,假设所有个体n的复发次数之和为
,当我们使用分段常数化的方法计算文中的
,
和
时,我们将时间区间一共分成了L段,这里的L由我们设置,此时我们设置的L一般远小于总个体n的复发次数之和
。但当我们使用传统方法时,我们需要计算所有个体相邻两个发病时间点的
,
和
,此时的
。随着L的增大。计算所涉及的矩阵维度也随之增大,计算的数据量同样增大,因此计算时间大幅增加,每次计算都带有一定的误差,随着计算量级的增大,计算次数变多,最后所得到的偏差也随之增大。

Table 3. Computational time comparison results
表3. 运算时间比较结果
5. 实例分析
在这部分,我们分析了一个慢性肉芽肿病(CGD)数据 [16] ,这种疾病是免疫功能方面的遗传性疾病,大多发生在婴幼儿中。数据集包括来自不同医院的(13个医院)128个的病人,记录了他们的发病的间隔时间,是否接受Gamma干扰素治疗,基因信息,年龄,身高,体重,性别,是否删失,是否用过抗生素等信息。根据以前学者的研究 [4] ,我们主要关心患者年龄和接受Gamma干扰素治疗对疾病的重复感染比率函数的影响。用协变量
表示是否使用Gamma干扰素,
表示使用Gamma干扰素,
表示使用安慰
剂。用
表示年龄,这里我们对年龄做了规范化变换
。假设重复感染的比
率函数满足模型:
(13)
应用提出的估计方法对参数
进行估计,
的估计结果见表4中。从表四的结果可以看出,协变量
的估计系数
为0.25%,且该系数的检验P值小于0.0001,说明系数是显著的,因此说明接受Gamma干扰素治疗能够显著降低重复感染的比率函数。且固定年龄时,使用Gamma干扰素治疗的患者比使用安慰剂的患者平均降低0.25%。协变量
的估计系数
为−0.14%,但是检验的P值却大于0.05,所以年龄的影响不显著。

Table 4. Parameter estimation of CGD data in model (1)
表4. CGD数据在模型(1)下的参数估计
为了对模型进行检验,我们绘制了残差
对观测个体序号i
的残差图,见图3。在图3中,横轴表示个体序号,纵轴表示该个体在模型下的残差值。我们发现残差值在[−2, 2]之间随机变化。因此,没有理由拒绝提出的模型。

Figure 3. Scatterplot of residuals vs. individuals under additive ratio model
图3. 加性比率模型下残差对个体的散点图
6. 总结与展望
本文提出了一个聚类复发事件的加性比率模型,该模型将具有相似特征或来源的个体进行了分类,应用估计方程和非参部分分段常数化的方法对参数进行了估计,证明了估计量的相合性和渐近正态性。在数值模拟中获得了较好的估计效果,在与传统方法进行对比时,计算效率远远高于传统方法。并且对慢性肉芽肿病数据进行了分析,得到了与实际情况相吻合的结论。我们提出的模型和方法具有一定的应用前景,特别是可以应用到多中心医疗数据,家族遗传病医疗数据,以及社区医疗数据中,同时,我们的模型计算效率高,处理大规模医疗数据非常得心应手。
属于同一个类别的个体可能具有相关性,未来我们会考虑在模型中加入一个随机效应项,表示同一类个体之间的关系,那就需要对随机效应项的分布做一些假设,对分布中包含的参数进行估计。另外复发事件往往伴随着死亡事件的发生,我们会进一步研究这两类事件之间的联合建模,比如考虑加入随机效应项或者考虑对反向均值函数进行建模。加性模型可以推广到更加灵活的模型上,比如加性乘积模型,变系数模型,转移函数模型,部分线性模型等等,这些模型会用到一些非参数估计方法,统计推断会更复杂一些,更具有挑战性,适用范围也更广。
附录
定理一证明
因为
。
对于任意有限的
,
,
。由大数定理可知,
,所以,由
的收敛性以及矩阵A的正定性,可以得到
,相合性得证。
下面证明渐近正态性,
其中
。这里的
是均值为0,且独立同分布的随机变量,所以
。
应用中心极限定理,可得
的分布收敛到一个正态分布,这个正态分布的均值是0,方差是
。
定理一证明
因为
,
由上一个定理的证明我们得到
,所以
,同样的
所以得到
,所以相合性得证。
下面证明渐近正态性。
交换连加顺序,并应用大数定律,上式可以转化为如下关系:
这里,
。
因为
,所以
,则等式右边的第一项的期望为0,同样的
,所以
,则等式右边第二项的期望为0,所以有
。又因为,对于固定的t,上式
渐近于均值为零的独立同分布的随机变量之和,则由多元中心极限定理知,
以有限维分布弱收敛到均值为零的高斯过程,其在
处的协方差函数为
。