加性乘积风险率模型在聚类失效时间数据中的应用
Application of Additive Multiplicative Hazard Rate Model in Clustered Failure Time Data
摘要: 论文对聚类失效时间数据建立了加性–乘积风险率函数模型,根据模型创建了估计方程,应用牛顿迭代法求得参数向量的估计,并给出估计量的相合性和渐近正态性的证明。通过数值模拟验证了估计量在有限样本下的表现,最后分析了慢性肉芽肿病风险率函数的影响因素和因素的影响方式。
Abstract: In this paper, an additive multiplicative hazard rate function model is established for clustered failure time data, an estimation equation is created according to the model, the estimation of parameter vector is obtained by Newton iterative method, and the consistency and asymptotic normality of estimators are proved. The performance of the estimator under limited samples is verified by numerical simulation. Finally, the influencing factors and ways of the hazard rate function of chronic granulomatosis are analyzed.
文章引用:康泽宇, 亢芳圆. 加性乘积风险率模型在聚类失效时间数据中的应用[J]. 应用数学进展, 2022, 11(2): 836-844. https://doi.org/10.12677/AAM.2022.112089

1. 引言

生存分析在生物医学,工程中应用广泛。比如我们经常关心患某种疾病的病人的生存时间,工业产品的使用寿命,以及广义的生存时间,如某个感兴趣事件发生的时间。生存时间研究方法有非参数分析,参数分析方法和半参数分析方法。半参数分析方法的灵活性,稳健性和有效性介于其它两种方法之间,所以是最常用的一种方法。在生存分析数据的收集中,常常会遇到聚类数据,也就是个体之间不是完全独立的。比如数据是来自于各个医疗中心,或者是以家庭为单位收集的,还有的数据是一个个体的事件的重复发生。来自同一医疗中心的个案或同一家庭的个案或同一个体的多次复发数据,叫做成簇数据或聚类数据。同一个聚类的数据是有关系的,不同的类之间相互独立。

聚类失效时间的研究方法有边际建模方法和混合效应建模方法。在边际建模中,对同一个类的每个个体建立边际模型,建模时,对个体之间的关系不作任何假定,而在模拟部分,对同一类内个体间的关系进行一些假定 [1] [2] [3]。在混合效应模型中,对同一类的个体用一个共同的脆弱变量来说明个体之间的相关性 [4] [5]。以上文献大部分围绕着Cox模型 [6] 和加性风险模型。实际上加性乘积模型具有更强的灵活性。文献 [7] 提出一个广义加性乘积风险模型,以后的学者在此基础上进行进一步推广。文献 [8] 对带有辅助生存信息的加性乘积模型进行了统计推断。文献 [9] 对复发事件和终止事件进行联合分析,假设终止事件的风险率函数服从加性乘积模型。

加性乘积模型在聚类失效时间中的应用比较少,这篇论文是将加性乘积模型应用到聚类失效时间中。分析影响慢性肉芽肿病风险率函数的因素,以及影响方式。论文第一部分介绍了模型形式,估计方法和渐近理论证明,第二部分进行了数值模拟,验证提出的方法,第三部分对实际数据进行分析,第四部分是论文的总结和展望。

2. 模型和估计过程

2.1. 模型

首先把全部对象根据某个属性聚成n个簇。设第i个类中有 n i 个对象,其中 i = 1 , 2 , , n ,并用 T i j 表示第i个簇中第j个对象的失效时间, C i j 为右删失时间, X i j = min ( T i j , C i j ) 表示观察到的生存时间, δ i j = I ( T i j C i j ) 表示第i类中第j个对象是否删失, Z i j W i j 为协变量向量。 τ 表示试验终止时间。

T i j 的风险率函数的定义如下:

λ i j ( t ) = lim Δ t 0 P ( t T i j < t + Δ t | T i j t ) Δ t

对风险率函数 λ i j ( t ) 建立加性乘积模型,给定协变量 Z i j W i j 的情况下,假设风险率函数满足:

λ i j ( t | Z i j , W i j ) = λ 0 ( t ) e Z i j T β 0 + W i j T γ 0 (1)

式中: λ 0 ( t ) 是基准风险率函数; β 0 是协变量 Z i j 的效应,表示对风险率函数的乘积效应; γ 0 是是协变量 W i j 的效应,表示对风险率函数的加性效应。

2.2. 模型估计过程

引入潜在的计数过程 N i j * ( t ) = I ( T i j t ) 和观测到的计数过程 N i j ( t ) = δ i j I ( T i j t ) 以及风险过程 Y i j ( t ) = I ( T i j > t ) δ i j ,根据风险率函数模型和计数过程的定义,得

E ( d N i j ( t ) | Z i j , W i j ) = Y i j ( t ) ( λ 0 ( t ) e Z i j T β 0 + W i j T γ 0 ) d t

进一步得到以下的零均值过程: d M i j ( t ) = d N i j ( t ) Y i j ( t ) [ λ 0 ( t ) e Z i j T β 0 + W i j T γ 0 ] d t

根据文献 [10] 中的广义估计方程的思想,我们建立以下的估计方程:

i = 1 n j = 1 n i 0 t d N i j ( u ) Y i j ( u ) [ λ 0 ( u ) e Z i j T β + W i j T γ ] d u = 0 (1)

i = 1 n j = 1 n i 0 τ Z i j [ d N i j ( t ) Y i j ( t ) [ λ 0 ( t ) e Z i j T β + W i j T γ ] d t ] = 0 (2)

i = 1 n j = 1 n i 0 τ W i j [ d N i j ( t ) Y i j ( t ) [ λ 0 ( t ) e Z i j T β + W i j T γ ] d t ] = 0 (3)

由(1)式可得:

Λ 0 ( t ) = 0 t λ 0 ( u ) d u = 0 t i = 1 n j = 1 n i d N i j ( u ) Y i j ( u ) W i j T γ d u i = 1 n j = 1 n i Y i j ( u ) e Z i j T β

Λ 0 ( t ) 代入式(2)进一步计算得

i = 1 n j = 1 n i 0 τ ( Z i j Z ¯ ) ( d N i j ( t ) Y i j ( t ) W i j T γ d t ) = 0 (4)

其中 Z ¯ = i = 1 n j = 1 n i Z i j Y i j ( t ) e Z i j T β i = 1 n j = 1 n i Y i j ( t ) e Z i j T β

Λ 0 ( t ) 代入式(3)进一步计算得

i = 1 n j = 1 n i 0 τ ( W i j W ¯ ) ( d N i j ( t ) Y i j ( t ) W i j T γ d t ) = 0 (5)

其中 W ¯ = i = 1 n j = 1 n i W i j Y i j ( t ) e Z i j T β i = 1 n j = 1 n i Y i j ( t ) e Z i j T β

接下来,我们应用牛顿迭代法,对方程(4)和(5)进行求解,得到 β , γ 的估计。应用牛顿迭代法时,需要求出方程(4)和(5)左边表达式对 β , γ 的导函数。记:方程(4)的左边表达式为 U 1 ( β , γ ) ,方程(5)的左边表达式为 U 2 ( β , γ )

U 1 ( β , γ ) β T = 0 τ ( i = 1 n j = 1 n i Z i j Z i j T Y i j e Z i j T β i = 1 n j = 1 n i Y i j ( t ) e Z i j T β i = 1 n j = 1 n i Z i j Y i j ( t ) e Z i j T β i = 1 n j = 1 n i Z i j T Y i j ( t ) e Z i j T β ( i = 1 n j = 1 n i Y i j ( t ) e Z i j T β ) 2 ) i = 1 n j = 1 n i ( Y i j ( t ) e Z i j T β λ 0 ( t ) d t ) = 0 τ i = 1 n j = 1 n i Z i j Y i j ( t ) e Z i j T β ( Z i j Z ¯ ) T λ 0 ( t ) d t + o p ( n ) = 0 τ i = 1 n j = 1 n i ( Z i j Z ¯ ) Y i j ( t ) e Z i j T β Z i j T λ 0 ( t ) d t + o p ( n )

类似的,可以计算出: U 1 ( β , γ ) γ T = 0 τ i = 1 n j = 1 n i ( Z i j Z ¯ ) Y i j W i j T d t

U 2 ( β , γ ) β T = i = 1 n j = 1 n i 0 τ ( W i j W ¯ ) Y i j ( t ) e Z i j T β Z i j T λ 0 ( t ) d t + o p ( n )

U 2 ( β , γ ) γ T = 0 τ i = 1 n j = 1 n i ( W i j W ¯ ) Y i j W i j T d t

把这四项写成矩阵形式,并记: A ^ = ( i = 1 n j = 1 n i 0 τ ( Z i j Z ¯ ) Y i j ( t ) ( e Z i j T β Z i j T λ 0 ( t ) d t , W i j T d t ) i = 1 n j = 1 n i 0 τ ( W i j W ¯ ) Y i j ( t ) ( e Z i j T β Z i j T λ 0 ( t ) d t , W i j T d t ) )

其中 θ = ( β T , γ T ) T = ( β γ )

θ 0 = ( β 0 T , γ 0 T ) T = ( β 0 γ 0 )

A ( θ ) = E { 0 τ ( Z i j z ¯ W i j w ¯ ) ( e Z i j T β Z i j T λ 0 ( t ) d t , W i j T d t ) Y i j ( t ) }

其中 z ¯ , w ¯ Z ¯ , W ¯ 的极限,由大数定律可知 1 n A ^ ( θ ) p A ( θ )

2.3. 估计量的渐近性质

首先给出一些正则条件。

(C1) 协变量 Z i j , W i j , j = 1 , 2 , , n i ; i = 1 , , n .是有界的;

(C2) n组观测 { Z i j , W i j , T i j C i j , δ i j , Y i j ( ) , N i j ( ) , j = 1 , , n i } i = 1 , , n .是相互独立的;

(C3) A ( θ ) θ 0 的邻域 H 上可逆。

定理1:在以上正则条件下,方程(4),(5)的解在 θ 0 邻域 H 内存在且唯一,将这个解记作: θ ^ = ( β ^ γ ^ ) ,且 θ ^ θ 0 的相和估计。

证明:记

d M i j ( t ) = d N i j ( t ) Y i j ( t ) ( λ 0 ( t ) exp ( Z i j T β ) + W i j T γ ) d t

U ( θ ) = ( U 1 ( θ ) U 2 ( θ ) ) = ( i = 1 n j = 1 n i 0 τ ( Z i j Z ¯ ) d M i j ( t ) i = 1 n j = 1 n i 0 τ ( W i j W ¯ ) d M i j ( t ) )

可以证明 1 n U ( θ 0 p 0 ) 。由于 1 n U ( θ ) θ T = 1 n A ^ ( θ ) ,再根据大数定律,以及 A ^ ( θ ) 关于 θ 的连续性,可知在 θ 0 邻域内, 1 n A ^ ( θ ) 依概率一致收敛到 A ( θ ) ,由假设: A ( θ ) θ 0 邻域内可逆,这样当n充分大的时候, 1 n A ^ ( θ ) θ 0 邻域内可逆。由逆函数定理(Rudin, 1976) [11],可以证明 U ( θ ) θ 0 邻域内存在唯一解 θ ^ 。再由中值定理,在 θ 0 邻域内存在一个点 θ * 使得, 1 n U ( θ ^ ) 1 n U ( θ 0 ) = 1 n A ( θ * ) ( θ ^ θ 0 ) ,当n充分大时,等号左边依概率收敛于0,等号右边的 1 n A ( θ * ) 可逆,因此当n充分大时 θ ^ p θ 0

定理2:在正则条件下 θ ^ 渐近服从 ( p + q ) 维的正态分布, n ( θ ^ θ 0 ) 渐近服从 N p + q ( 0 , Σ ) ,其中

Σ = A 1 ( θ 0 ) E ( ξ i 2 ) A 1 ( θ 0 ) T

证明:根据函数中值定理,有

1 n U ( θ ^ ) 1 n U ( θ 0 ) = 1 n A ^ ( θ 0 ) ( n ( θ ^ θ 0 ) ) + O p ( 1 ) n ( θ ^ θ 0 ) = ( 1 n A ^ ( θ 0 ) ) 1 1 n U ( θ 0 ) + O p ( 1 )

因为

U ( θ 0 ) = i = 1 n j = 1 n i ( 0 τ ( Z i j Z ¯ ) d M i j ( t ) 0 τ ( W i j W ¯ ) d M i j ( t ) ) = i = 1 n ξ i + O p ( n )

其中, ξ i = j = 1 n i ( 0 τ ( Z i j z ¯ ) d M i j ( t ) 0 τ ( W i j w ¯ ) d M i j ( t ) ) 是均值为0的随机变量,而且 ξ 1 , ξ 2 , , ξ n 相互独立。所以由中心极限定理 U ( θ 0 ) 渐近服从正态分布 N p + q ( 0 , n E ( ξ i 2 ) ) 。前面已有 n ( θ ^ θ 0 ) = n A ^ 1 ( θ 0 ) U ( θ 0 ) + O p ( 1 ) 再结合 1 n A ^ ( θ 0 ) p A ( θ 0 ) ,可得 n ( θ ^ θ 0 ) 渐近服从多元正态分布 N p + q ( 0 , A 1 ( θ 0 ) E ( ξ i 2 ) A 1 ( θ 0 ) T )

3. 数值模拟

首先,生成 n ( n = 100 , 200 , 400 ) 个独立的类,每一个类的大小为2。协变量为 Z i j W i j 分别服从参数为0.5的二项分布和区间(0, 1)的均匀分布,设失效时间的风险率函数模型为 λ i j ( t | Z i j , W i j ) = λ 0 ( t ) e ( Z i j T β 0 ) + W i j T γ 0 ,设 λ 0 ( t ) = 0.5 ( β 0 , γ 0 ) 分别取(0.5, 0.5),(1, 0.5),(0.5, 1)。取试验截止时间为τ = 2,删失时间C取区间(0, v)上的均匀分布,v可以变化使得删失控制在30%~70%之间。首先生成基准失效时间 T i j 0 = log ( 1 Φ ( A i + B i j ) ) ,其中 A i 服从均值为0,方差为 ρ 的正态分布, B i j 服从均值为0,方差为 1 ρ 的正态分布。参数 ρ 表示不同类间的异质性, 1 ρ 则表示同一类内不同对象的异质性,其中 ρ 取三种情况分别为0.25,0.5,0.75。该模拟重复进行500次。上述条件下的模拟结果如表1表2表3所示,其中EST,SE,ESE和CP分别代表参数估计的均值,样本标准差,标准差的渐近估计,以及正态近似条件下, β 0 的95%置信区间下的覆盖率。从表1~3中的EST,SE,ESE和CP值都可以看出,当样本量变大时参数估计的均值越接近真值,随着样本量增加样本标准差和标准差的渐近估计越来越接近,CP也越来来越近似于95%,可以得到本文提出的估计方法模拟效果良好,在其他参数设置下,得到结果是差不多的。

Table 1. Estimation for β0 = (0.5, 0.5)

表1. β0为(0.5, 0.5)的估计

Table 2. Estimation for β0 = (1, 0.5)

表2. β0为(1, 0.5)的估计

Table 3. Estimation for β0 = (0.5, 1)

表3. β0为(0.5, 1)的估计

4. 应用

在这部分我们采用提出的方法分析一个临床医学数据 [12] gamma干扰素治疗慢性肉芽肿性疾病的研究。数据共有128名慢性肉芽肿性疾病患者,被随机分为两个组,gamma干扰素组和安慰剂组,每个病例的数据给出了患者发生重复严重感染的时间,在进行中期分析时,65名安慰剂患者中的20名和63名gamma干扰素患者中的7名都至少经历过一次严重感染。在这里,我们把每一个个体视作一个簇,每个个体的各次复发的间隔时间视为簇中的成员。

假设数据可以由加性–乘积模型拟合,即 λ i j ( t | Z i j , W i j ) = λ 0 ( t ) e Z i j T β + W i j T γ ,定义 Z i j 为治疗代码,如果病人接受gamma干扰素治疗则取1,如果病人在安慰剂组则取2, W i j 为规范化后的个体年龄。

通过本文的方法可以得到的 β , γ 的估计分别为: β ^ = 0. 7827 γ ^ = 0.00 23 ,标准差分别是0.2242和0.0011,检验P值分别为2.3996 × 10−4和0.01689,根据 β ^ 的值的大小,能够得出当 Z i j = 1 时比 Z i j = 2 基准风险率函数低,由此可见用gamma干扰素治疗的风险比安慰剂组的风险更低,而且P值小于0.05,说明gamma干扰素治疗能显著降低感染慢性肉芽肿病的风险率函数,根据 γ ^ 的值的大小以及相应的P值,可以得出年龄越大感染慢性肉芽肿病的风险显著地越低。具体地,固定年龄时,干扰素治疗组的风险率在时刻t时比安慰剂组的风险率绝对数值降低 λ ^ 0 ( t ) × 2.5972 ,固定治疗组别时,年龄每增加10岁,风险率的绝对数值降低4.8 × 10−4。另外我们给出累积的基准风险率函数的估计 0 t λ ^ 0 ( t ) d t ,由它可以得到 λ ^ 0 ( t ) 在每个时刻的近似估计,见图1 (横坐标为所有个体的复发事件的间隔时间t,单位为天)。

Figure 1. Estimation for 0 t λ ^ 0 ( t ) d t

图1. 0 t λ ^ 0 ( t ) d t 对时间的函数图像

为了对模型的拟合优度进行检验,我们对残差进行分析:我们来绘制残差 r ^ i j 关于个体复发 i = 1 , 2 , ... , 128 , j = 1 , 2 , ... , n i 的散点图,见图2 (横坐标为所有个体的复发的标识,128个个体共有203个复发),其中

r ^ i j = 0 τ d N i j ( t ) Y i j ( t ) [ λ ^ 0 ( t ) e Z i j T β ^ + W i j T γ ^ ] d t

残差图可看出,残差随机分布在[−2, 2]中,因此不拒绝给出的模型。

Figure 2. Scatter of residual vs. individual

图2. 残差对个体的散点图

5. 总结

在这篇论文中,我们对聚类失效时间建立了边际加性乘积风险率函数模型,应用估计方程的思想进行统计推断,在计算中,我们使用了牛顿迭代法,得到参数的估计,应用大数定律证明估计量的相合性,应用中心极限定理证明估计量的渐近正态分布,并给出估计量的渐近方差,然后进行数值模拟验证提出的方法,模拟结果表现较好,最后将提出的模型和方法应用于实际数据,找到gamma干扰素治疗和年龄对慢性肉芽肿病的影响方式。未来我们将考虑在模型中加入随机效应项表示同一类之间的相关性,利用的数据信息更充分,相应的估计方法也更具有挑战性。

参考文献

[1] Cai, T., Wei, L. and Wilcox, M. (2000) Semiparametric Regression Analysis for Clustered Failure Time Data. Biometrika, 87, 867-878.
https://doi.org/10.1093/biomet/87.4.867
[2] Yin, G. and Cai, J. (2004) Additive Hazards Model with Multivariate Failure Time Data. Biometrika, 91, 801-818.
https://doi.org/10.1093/biomet/91.4.801
[3] Lu, S. and Wang, M. (2005) Marginal Analysis for Clustered Failure Time Data. Lifetime Data Analysis, 11, 61-79.
https://doi.org/10.1007/s10985-004-5640-6
[4] Cai, T., Cheng, S.C. and Wei, L.J. (2002) Semiparametric Mixed-Effects Models for Clustered Failure Time Data. Journal of the American Statistical Association, 97, 514-522.
https://doi.org/10.1198/016214502760047041
[5] Cai, J.W. and Zeng, D.L. (2011) Additive Mixed Effect Model for Clustered Failure Time Data. Biometrics, 67, 1340-1351.
https://doi.org/10.1111/j.1541-0420.2011.01590.x
[6] Cox, D.R. (1972) Regression Model Sandlife Tables (with Discussion). Journal of the Royal Statistical Society, Series B, 34, 187-220.
https://doi.org/10.1111/j.2517-6161.1972.tb00899.x
[7] Martinussen, T. and Scheike, T.H. (2002) A Flexible Additive Multiplicative Hazard Model. Biometrika, 89, 283-298.
https://doi.org/10.1093/biomet/89.2.283
[8] Shang, W.P. and Wang, X. (2017) The Generalized Moment Estimation of the Additive-Multiplicative Hazard Model with Auxiliary Survival Information. Computational Statistics & Data Analysis, 112, 154-169.
https://doi.org/10.1016/j.csda.2017.03.013
[9] Han, M., Sun, L.Q., Liu, Y.T. and Zhu, J. (2018) Joint Analysis of Recurrent Event Data with Additive-Multiplicative Hazards Model for the Terminal Event Time. Metrika, 81, 523-547.
https://doi.org/10.1007/s00184-018-0654-3
[10] Liang, K.Y. and Zeger, S.L. (1986) Longitudinal Data Analysis Using Generalized Linear Models. Biometrika, 73, 13-22.
https://doi.org/10.1093/biomet/73.1.13
[11] Fleming, T.R. and Harrington, D.P. (1991) Counting Processes and Survival Analysis. Wiley, New York.
[12] Rudin, W.B. (1976) Principles of Mathematical Analysis. 3rd Edition, McGfraw-Hill, New York.