1. 引言
复发事件数据在多个学科领域,如医学、经济学和生物学等,是一种常见的特殊数据类型。这种数据类型下,研究中的个体可能在特定时期内多次经历同一事件,具体表现包括:肿瘤再次出现、多次入院治疗、重复感染、连续服药以及周期性经济下滑等现象[1]。基于复发事件的强度或速率函数,已有多种方法用于分析复发事件数据[2]-[4],Cook和Lawless (2007) [1]等人对复发事件方法进行了出色的综述。
在许多应用中,复发事件个体可能会出现死亡、治愈、接受其他治疗等终止事件,从而停止随访。通常终止事件与研究复发事件往往存在着紧密联系。分析带有复发事件的终止事件的方法可以分为强度模型、边际模型和偏边际模型[9]。强度模型通过引入一个共同的脆弱性变量,描述复发事件与终止事件之间的相互依赖。这些模型假设事件强度由可观测的协变量和未观测的脆弱变量共同决定,从而提供了理解事件关系的新视角[6]。作为强度模型的替代方案,一些作者提出了边际模型[7]-[9],边际模型通过存活者与死亡个体比例的平均值来定义复发事件的发生概率,具有假设灵活、对泊松分布偏差稳健和解释直观等优点,适用于复杂关系情境。然而,其简化计算也导致模型参数的解释力减弱[18]。
偏边际模型主要研究存活个体的事件复发率,并可通过脆弱变量来描述复发和终止事件间的关联系[2] [5] [6] [11]-[13]。例如,Cook和Lawless (1997) [11]提出了个体在特定时间点的复发事件平均值和复发率概念。Ye等(2007) [12]构建了一个基于脆弱变量的联合半参数建模框架,在保持边际模型特性的同时,有效刻画了终止事件与复发事件的相依关系,即仅以协变量和脆弱变量为条件,而不考虑过程的先前历史。
Kalbfleisch等(2013) [10]提出了一种基于估计方程的新方法,用于估计联合脆弱性模型中的边际参数和关联参数。这种方法具有三个主要优点:无需泊松过程假设即可进行参数估计,提高了鲁棒性;直接估计共同脆弱性分布;能够估计事件间的依赖程度。然而实际应用中,加法模型作为乘法模型的重要替代选择,也具有其独特价值。Pan和Schaubel (2009) [5]采用加性模型来估计条件复发事件率,并使用比例风险模型来估计终止事件风险。这种方法可以评估治疗对幸存者生存率和复发事件率的影响,有助于解释研究结果间的差异。Zeng和Cai (2010) [2]以及Sun和Kang (2013) [13]分别研究了加法率模型和加法、乘法率模型,其乘法率模型体现在使用比例风险率模型对终止事件进行建模,由于基线率函数依赖于非参数的脆弱变量,因此复发和终止事件之间关联的脆弱变量被视为一干扰项。Chen等(2016) [14]考虑了部分Aalen加性模型,该模型对复发事件条件比率和终止事件风险率均采用了乘性脆弱变量。但他们并没有建立所提估计值的大样本性质,Sun等(2017) [15]提出了一种新模型,利用共享脆弱变量同时分析复发和终止事件,阐释二者的关联性,并给出了大样本估计特性。Lin和Ying (1995) [16]则指出,实际应用中,协变量可能同时呈现加性和乘性效应。基于这一观点,Sun和Kang (2013) [13]开发了一个复发事件的可加可乘模型,引入非参数形式的脆弱变量。然而,这种处理方式使得模型在解释复发事件和终止事件相关性方面存在冗余。孙琴等(2019) [17]构建了一个联合模型:复发事件采用含脆弱变量的可加和可乘结构,而终止事件则使用带脆弱变量的乘法模型。但因其复发和终止事件是唯一的,不能应用于更复杂的情况,在实际情况中,一个复发事件往往伴随着多个终止事件,就如上文所述,而研究者也十分关心它们之间的联系。
在孙琴等(2019) [17]这篇文章的展望提出的新的复发事件与终止事件的联合分析模型的基础上,继续对带有两种终止事件相关的脆弱变量的复发事件加法乘法比率模型进行分析,进一步提出了联合模型中边缘参数和关联参数的估计方程,最后再给出估计量的参数估计及其证明。
2. 模型假设和参数估计
定义
为
时间窗内观察到的复发事件累积计数过程,
为
维外生协变量[18],其中
为
维协变量,
为
维协变量。定义
和
分别代表第i个观察对象的终止事件时间和删失时间。其中终止事件会停止未来复发事件的发生,即当
时,。
表示终止事件类型,个体历经
种终止事件,则
,
取值为1,2。记
,
,其中
是示性函数,由于数据删失,
未能完全观测,令
表示复发事件在区间
上实际数量,同理,令
表示终止事件在区间
上实际数量,其中
。考虑包含
个独立同分布个体的样本,其观测数据形式为
。
令
和
是两个非负不可观测的脆弱变量且分别独立于
。根据Ye [12]和Kalbfleisch [10]。我们考虑一个给定
,
及脆弱变量
的复发事件的偏边际比率模型
(1)
特别是,
可能会受协变量
和脆弱变量
影响,不过与终止事件
无关。说明当协变量给定时,
对复发事件与终止事件进行联合建模。
则表达式(1)可以表示成
(2)
这表明给定
和
,
指定了存活到时间
的受试者中复发事件的边际比率。为了方便分析,假设存在两种终止事件,因此考虑如下的可加可乘比率模型
(3)
其中回归参数
和
分别是
维向量和
维向量,
是一个未指定的基线比率函数。
令为给定协变量
和脆弱变量
下的风险函数。我们指定以下对于终止事件的乘法风险率模型:
(4)
其中回归参数
是
维度向量,
是一个未指定的基线风险函数,因而两种终止事件的风险函数可以用(4)式表达,为了便于表示,模型(3)和(4)的
假定为同一组协变量,所提出的估计方法可进一步推广,适用于处理两个模型中存在差异的协变量集合。
此外,类似Ye (2007) [12],假设脆弱变量
和
分别服从伽马分布
和
,为了可识别这个模型,固定
,
,且脆弱变量分布假设的稳健性已在孙琴[17]和Qu [15]中得到验证。我们在下文中假设给定
,删失时间
与
独立。
3. 估计方法
令
。注意到,如果脆弱变量
和
已知,可以利用Liu [19]以及Gill [3]的方法分别应用到模型(3)和(4),从而得到
、
和
的估计方程。但在实际情况中,
和
通常是未知的,这使得直接应用上述方法变得不可行。对此,通过考虑一个包含
,
和
的边际模型,其通过给定
和
的条件下,取模型(3)和(4)的条件期望。假设脆弱变量
和
服从伽马分布情况下有:
(5)
(6)
其中
给其定义
其中
在假设下,模型(3)和(4)可以得出
和
是零均值随机过程。
当
已知时,相当于知道
,可以用以下方程估计
,其中
其中
是常数,使得
,并且
根据Lin和Ying [16],我们选取
定义,其中
而
是未知的,为了估计
,令
和
在模型假设下,可得
和
因此有
(7)
当
,
和
描述了复发事件和各个终止事件的关联性。
如Kalbfleisch [10]所讨论的,为
构造了以下估计方程:
其中
代表个体
在
时刻仍存活且未经历终止事件,并且在之后的某个时间点发生了第
类终止事件。
令
,通过解估计方程
来获得
的估计值,其中
由于每个参数的估计式取决于其他参数的估计式,因此可以通过递归过程的方获得估计方程的解。因此,提出以下的迭代算法来求解
。
步骤0 选取初值
,
,
,
和
,
。
步骤1 令
,由上述方程得
,把
、
代入
,
,
和
,其中
,则求解得到更新估计
和
,
。
步骤2 给定
,
解出
,
,得到估计
和
。
步骤3 重复步骤1和2,更新估计值,直到收敛。
注意,初始的估计值
,
和
,
可以有多种的选取方法,为了简单起见,因而选择
,
,
,
,
和
为累计基线风险函数的Nelson-Aalen类型估计。对于收敛性,该算法大多数时候会收敛,但偶尔会发生非收敛,具体取决于初始值设置。
令
,
,
,则,,,
,
和
的真值分别为
,
。下面描述了所提出的估计器的渐近属性。首先考虑
、、和的存在性、唯一性和强相合性。
4. 估计量的渐进性质
为了研究所提出的估计的渐近性质,需要以下正则性条件:
(C1)
是独立同分布的。
(C2)
是有界的,
。
(C3)
在
上几乎处处为有界变差随机过程。
(C4) 存在
的一个紧集
,满足
,
是非奇异的,其中
是的极限值,其中
的定义在(A.4)中给出。
定理1
、、和几乎处处存在且唯一。
证明 令
,其中
,
。对任意向量
和变量
,定义
其中对于任意向量
,有
。令
及
为
的极限
。
对给定的
,令及和分别为
及
和
的解。则
且和均满足方程
(8)
其中
,(8)是Volterra积分方程,且存在唯一解。
固定
,令
(9)
的解为
,其中
。
这是Volterra积分方程且有唯一解,满足
,
,令
利用(8)和(9)可得
其中
,由强大数定律可知,在
和
条件下,几乎必然一致地有
。
因为上式也是一个Volterra积分方程,求解可得
(10)
其中
,是
在
上的乘积积分[1]及
表示
的左连续版本。利用乘积积分的渐进性质[20],一致强大数定律[21]及Lin和Ying (2011) [9]得出在
和
时,和分别几乎处处收敛到
和
,设
令
,其中,
为
的极限值,在
和
上,几乎处处一致收敛到
。因此证明
、、及的存在性和唯一性,只需证明:
(11)
有唯一解,则
其中
,则
为
的
替换为
可得。
设
根据强大数定律以及,和的一致收敛性,则对于
的一致收敛到非随机过程
。可证:
所以,的一致相合性及(C4)得:当
足够大,
时,非奇异。根据逆函数定理[18],则
存在唯一解
,即存在唯一估计
,,和
定理1证毕。
定理2
强相合于
,且在
上,几乎处处收敛到
,和几乎处处分别收敛到
和
。
证明 对(11)进行一阶泰勒展开,可得
因此几乎处处有
由于
,非奇异,上述等式可知
是强相合的。由,和的一致收敛性表明:对于
,,和几乎处处一致地分别收敛到
,
和
。
定理2证毕。
定理3
按分布收敛到具有均值为0,协方差矩阵为
的正态随机变量。
证明 令,,由定理1得
解得
其中
,
表示关于
在
的乘积积分。根据和的一致收敛性,结合一致强大数定律[21]及Lin和Ying (2011) [9]研究,则
时,有
(12)
其中
是
极限,
。
令
由(12)得
(13)
其中
在(11)中,对
可分解为
令
且
和
分别是
和
的极限。可以证
(14)
其中
类似地
(15)
其中
和
分别是
和
的极限,
,且
设
且
为
的极限。经计算可得
(16)
其中
,和(A.7)的证明一样:(A.9)右边的第二项化简得
(17)
其中
和
分别是
和
的极限,且
和
设
,同样的,(A.9)右边的第三项等于
(18)
其中
和
分别是
和
的极限,且
由上面计算,则
(19)
,其中
(20)
令
及
,根据泰勒一阶展开可得
通过多元中心极限理论,
是零均值和协方差矩阵为
的渐进正态分布,其中
。定理3证毕。
定理4 当
,,和均弱收敛到零均值随机过程。
证明 由于证明
和
的弱收敛性类似,为方便起见,只需证明其一即可,不妨证明
和的弱收敛性,注意到
(21)
令
根据一致强大数定律,当
和
时,可证明几乎处处收敛到非随机函数
,由泰勒一阶展开和(12),(20),(21)得
其中
类似的,由(13)和(20)得
其中
及
为极限,给定
在时刻
的条件下,
独立同分布且具有零均值。由多元中心极限定理,
,
和的有限维分别弱收敛于零均值过程。此外,
可表示为
的单调函数的累加或乘积形式,故此过程是紧密的[22]。则
,
和是紧的,并在
处的协方差函数为
。定理4证毕。
5. 结束语
针对已存在双重终止事件的复发事件联合模型,继续对其进行研究,通过建立估计方程,推导出方程参数的相合性与渐近正态性。
因为模型(1)和(2)允许脆弱变量
与复发事件与终止事件之间相关性是正向,也可以是负向。对于这种情况,可以采用以下模型:
其中,模型(2)不变,
为单位均值,方差小于1的伽马分布。可得
和
这表明复发事件的发生率与终止事件呈反向关联,因为在时间
有一个终止事件的个体预计,会比在时间
之后有一个终止事件的个体有更少的复发事件。此外,通过在
,
和
中分别用
和
代替
和
,可以构造与前几节相同的估计方程。
然而,在分析终止事件和复发事件数据的联合模型时,协变量的选择标准与确定方法应当遵循以下原则:首先需要通过Wald统计检验和效应量评估,即标准化系数绝对值大于1.96来识别协变量的显著性;对于显著协变量,应进一步通过似然比检验比较其在加法模型和乘法模型中的拟合优度,以确定其更适合纳入可加部分
还是可乘部分
。当协变量维度较高时,则采用LASSO惩罚回归方法进行变量筛选;对于存在高度删失的数据,应当使用逆概率加权法或多重插补技术来校正选择偏差。此外,需要通过Bootstrap重抽样来验证最终模型的稳定性,要求核心参数的变化率不超过15%。这一系统化的协变量选择流程既保证了统计严谨性,又能适应不同类型的数据特征。
采用广义估计方程法进行参数估计,在半参数模型框架下可能存在效率提升空间。未来研究可着眼于开发更简洁高效的推断方法。另外,为评估模型(1)和(2)对数据的拟合程度,可考虑基于残差和的图形和数值分析方法[13]。其中,和通过将
和
中的参数替换为相应估计值获得。这一问题的理论深化和数值模拟值得进一步探索。
基金项目
国家自然科学基金项目(11561010),广西高校中青年教师科研基础能力提升项目(2022KY0707)资助。
NOTES
*通讯作者。