竞争风险下Fine-Gray模型与Cox模型的比较与评价
Comparison and Evaluation of Fine-Gray and Cox Models under Competitive Risks
DOI: 10.12677/AAM.2024.132047, PDF, HTML, XML, 下载: 92  浏览: 211  科研立项经费支持
作者: 都业成, 侯 文*:辽宁师范大学数学学院,辽宁 大连
关键词: Fine-Gray模型Cox模型竞争风险Fine-Gray Model Cox Model Competing Risks
摘要: 在生存分析中经常会遇到存在竞争风险的情形,在存在竞争风险情形下,比较Cox模型与Fine-Gray模型估计的分析效果。本文介绍了在存在竞争风险情形下的Fine-Gray模型,举例说明了Fine-Gray模型风险集的定义以及权重计算方法,并利用Cox模型与Fine-Gray模型对实际存在竞争风险的数据集进行了实例分析,结果表明,Fine-Gray模型与Cox模型分析结果不同,尤其是Cox模型会高估事件的累计发生率。因此,在生存分析中存在竞争风险时,选择Fine-Gray模型进行建模是更适合的。
Abstract: In survival analysis, scenarios with competing risks are frequently encountered. In the presence of competing risks, the analysis performance of the Cox model and the Fine-Gray model is compared. This paper introduces the Fine-Gray model in the context of competing risks, providing a detailed explanation of the definition of the Fine-Gray model’s risk set and the calculation method for weights. Through example analysis using actual data with competing risks, the paper demonstrates that the results of the Fine-Gray model and the Cox model differ, especially with the Cox model overestimating the cumulative incidence of events. Therefore, in survival analysis, when facing competing risks, choosing the Fine-Gray model for modeling is more suitable.
文章引用:都业成, 侯文. 竞争风险下Fine-Gray模型与Cox模型的比较与评价[J]. 应用数学进展, 2024, 13(2): 485-493. https://doi.org/10.12677/AAM.2024.132047

1. 引言

在许多学科领域,如医学、生物学、保险精算学、经济学以及人口统计学等多个领域都需要研究生存分析问题,当所研究的问题只存在单一结局时,Kaplan和Meier提出的K-M方法 [1] 和Cox提出的Cox模型 [2] 是最为常用的方法,Cox模型是一种常用的生存分析模型,用于探讨与生存时间相关的因素。它假设风险比在时间的推移过程中是恒定的,不随时间变化。在被给出的协变量集合 x 1 i , x 2 i , , x m i 下,个体i的风险可以分解成两个部分,一部分是包括协变量不包括时间,一部分包括时间不包括协变量。Cox模型基本形式如下:

h i ( t ) = h 0 ( t ) exp { β 1 x 1 j + + β m x m j }

其中 h 0 ( t ) 是基线危险函数, β 1 , β 2 , , β m 是需要估计的参数或系数。 t 1 < t 2 < < t r 是惟一的有序感兴趣时间点,回归系数 β 1 , β 2 , , β m 由偏似然方程的最大值决定。累积危险函数为 H ( t ) = 0 t h ( u ) d u ,累积分布函数 F ( t ) 可由 H ( t ) 导出, F ( t ) = 1 exp ( H ( t ) )

然而,所研究的问题并不总是单一结局的,因此在某些情况下,上述方法可能并不适用,其中一种情况就是存在竞争风险,Gelman [3] 和Gooley [4] 对竞争风险理论进行了描述,Kalbfleisch和Prentice [5] 提出了一种考虑竞争风险的方法,在存在竞争风险条件下,事件i发生在时间t之前的概率分布叫做子分布,类型i事件的累计发生率函数被定义为 F i ( t ) = P ( T t , C = i ) ,记为CIF,Fine和Gray [6] 于1999年提出了Fine-Gray模型,这是一种基于CIF建模的一种竞争风险模型,然而,所研究的问题并不总是单一结局的,因此在某些情况下,上述方法可能并不适用,其中一种情况就是存在竞争风险,Gelman [3] 和Gooley [4] 对竞争风险理论进行了描述,Kalbfleisch和Prentice [5] 提出了一种考虑竞争风险的方法,在存在竞争风险条件下,事件i发生在时间t之前的概率分布叫做子分布,类型i事件的累计发生率函数被定义为 F i ( t ) = P ( T t , C = i ) ,记为CIF,Fine和Gray [6] 于1999年提出了Fine-Gray模型,这是一种基于CIF建模的竞争风险模型,Fine-Gray模型在存在竞争风险的生存分析实际问题中有着广泛应用,朱旭 [7] 和钱迪 [8] 等分别以胃癌和肝癌患者为样本构建Fine-Gray模型研究生存分析问题。

2. Fine-Gray模型介绍

该模型基于

γ ( t , x ) = γ 0 ( t ) e β x

这里的 γ 是子分布危险函数, γ 0 是子分布的基线危险函数,x是协变量向量, β 是回归系数。其中子分布危险函数为

γ i ( t ) = lim δ t 0 { P ( t < T < t + δ t , C = i | T > t T t C i ) δ t }

偏似然方程为

L ( β ) = j = 1 r exp ( β x j ) i R j w j i exp ( β x i )

在所有的感兴趣的事件被观察到的时间点取乘积,其中 t 1 < t 2 < < t r 。Fine-Gray模型的偏似然形式和Cox比例风险模型相似,与Cox比例风险模型相比,Fine-Gray模型主要有两个差异,风险集合 R j 定义方式不同以及引入了删失生存权重 w j i 。风险集合 R j 由在时间t之前未经历事件的个体和在时间t之前经历了一个竞争风险事件的个体组成。

R j ( t ) = { i : T i t T i t }

因此,那些经历过竞争风险事件的个体一直处于风险集中。在存在竞争风险的前提下,一种类型i事件在时间t之前不发生的概率称为子生存函数,定义为 S i ( t ) = P ( T > t , C = i )

删失生存概率权重 w j i 定义为

w j i = S ^ ( t j ) S ^ ( min ( t j , t i ) )

这里的 S ^ 是删失生存分布函数的一个K-M估计,需要解释一下,删失生存分布定义为 ( T i , C i ) ,这里的 T i 定义为观察到第一个事件的时间,如果未观察到事件则 C i = 1 ,而观察到事件时 C i = 0 。在每个观测到感兴趣事件发生的时间点(下标为j),风险集合由在时间t之前未经历事件的个体和在时间t之前经历了一个竞争风险事件的个体组成。对给出的部分似然的对数进行求导,得到得分统计量:

U ( β ) = j = 1 r { x j i R j w j i x i exp ( x i β ) i R j w j i exp ( x i β ) }

β ^ 表示回归系数 β 的估计,是函数 U ( β ) = 0 β 的取值。

为说明Fine-Gray模型的计算过程,给出示例数据集见表1表1中包括10个观测个体,其观测到的时间点,事件类型,每个个体协变量为分别在表1的第1~4列。

Table 1. Example dataset

表1. 示例数据集

备注:事件类型I:感兴趣事件;事件类型II:竞争风险事件 ;事件类型III:删失。

表1第5列给出了删失分布生存函数估计值 S ^ ,这里的 S ^ 由K-M估计计算可得,K-M方法的过程如下:假定 t 1 < t 2 < < t r 是唯一的删失时间点,设 d j 为在 t j 时间发生删失的个体数量, n j 为在 t j 之前有经历该事件风险的个体数量。则

S ^ ( t ) = t j t n j d j n j

在10个观测个体中,有4个个体发生删失。删失时间点分别在 t = t 1 , t 2 , t 6 , t 9 ,这4个删失时间点的生存分布 S ^ 值,计算如下;

S ^ ( t 1 ) = 10 1 10 = 0.90 S ^ ( t 2 ) = S ^ ( t 1 ) × 8 9 = 0.80 S ^ ( t 6 ) = S ^ ( t 2 ) × 4 5 = 0.64 S ^ ( t 9 ) = S ^ ( t 6 ) × 1 2 = 0.32

在其他未发生删失6个时间点,每个时间点的生存函数估计值 S ^ 与小于该时间点的前一个删失时间点的生存估计值相同。

在得到各个时间点的生存函数估计值后,可以计算删失生存概率权重 w j i ,计算过程见表2。观测个体单元在第1行,感兴趣(类型I)事件发生的时间点在第1列,表中数据为类型I事件在各阶段所在风险集中取得的权重 w j i

Table 2. Calculation process of weights w j i for deleted survival probabilities

表2. 删失生存概率权重 w j i 的计算过程

备注:表中“−”表示该单元对应时间点 t i 不在讨论的风险集 R j 中。

对于感兴趣事件(类型I),竞争风险事件(类型II),删失(类型III) 3种不同类型事件,10个观测个体他们在不同时刻的权重也不相同。

注意,在风险集 R j 中,对于时间点 t j ,当 t j t i 时,由 min ( t j , t i ) = t j ,此时

w j i = S ^ ( t j ) S ^ ( min ( t j , t i ) ) = 1

t j > t i 时,权重小于1。

以个体4为例,其对应的删失生存概率权重 w j i

w 4 i = S ^ ( t 4 ) S ^ ( min ( t 4 , t i ) )

个体1和个体2在 t = t 1 t = t 2 时发生删失,在此之前没有观测到感兴趣事件,因此不在风险集中,个体3在 t = t 3 时观测到感兴趣事件,它只参与了第一项的部分似然,权重为1,个体4在 t = t 4 时观测到竞争风险事件,在 t 4 之前,权重为1,随着时间推移,权重逐渐降低。个体5在 t = t 5 时观测到感兴趣事件,参与了前两项的部分似然,权重为1。

对于本例,需要求解的得分统计量为:

U ( β ) = x 3 w 33 x 3 e x 3 β + w 34 x 4 e x 4 β + + w 3 , 10 x 10 e x 10 β w 33 e x 2 β + w 34 e x 4 β + + w 3 , 10 e x 10 β + x 5 w 54 x 4 e x 4 β + w 55 x 5 e x 5 β + + w 5 , 10 x 10 e x 10 β w 54 e x 4 β + w 55 e x 5 β + + w 5 , 10 e x 10 β + x 7 w 74 x 4 e x 4 β + w 77 x 7 e x 7 β + + w 7 , 10 x 10 e x 10 β w 74 e x 4 β + w 77 e x 7 β + + w 7 , 10 e x 10 β + x 10 w 10 , 4 x 4 e x 4 β + w 10 , 8 x 8 e x 8 β + w 10 , 10 x 10 e x 10 β w 10 , 4 e x 4 β + w 10 , 8 e x 8 β + w 10 , 10 e x 10 β = 0

表2中的权重值和表1中的x代入可得

U ( β ) = 8 8 e 8 β + 9 e 9 β + 7 e 7 β + 10 e 10 β + 11 e 11 β + 13 e 13 β + 8 e 8 β + 9 e 9 β e 8 β + e 9 β + e 7 β + e 10 β + e 11 β + e 13 β + e 8 β + e 9 β + 7 9 e 9 β + 7 e 7 β + 10 e 10 β + 11 e 11 β + 13 e 13 β + 8 e 8 β + 9 e 9 β e 9 β + e 7 β + e 10 β + e 11 β + e 13 β + e 8 β + e 9 β + 11 0.8 × 9 e 9 β + 11 e 11 β + 13 e 13 β + 8 e 8 β + 9 e 9 β 0.8 e 9 β + e 11 β + e 13 β + e 8 β + e 9 β + 9 0.4 × 9 e 9 β + 0.5 × 13 e 13 β + 9 e 9 β 0.4 × e 9 β + 0.5 × e 13 β + e 9 β = 0

可以算出函数的解 β ^ = 0. 4363

3. 基于Fine-Gray模型的CIF估计

定义 H ( t ) 为子分布的累计危险函数,它的估计计算方法如下

H ^ ( t ; x 0 , β ^ ) = t j t { exp ( x 0 β ^ ) i R j w j i exp ( x i β ^ ) }

其中t表示感兴趣的时间点, x 0 为代入的协变量, β ^ 为回归系数的估计值。

通过累积危险函数 H ( t ) 可计算CIF的估计值,计算公式如下:

F ( t ) = 1 exp ( H ( t ) )

利用表1中的示例数据集,代入4个感兴趣时间点及对应协变量,计算累计危险函数以及CIF的估计值。

H ^ ( t = t 3 ; x 0 = 8 , β ^ = 0. 4363 ) = e 8 β ^ e 8 β ^ + e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ = 0 .1773

H ^ ( t = t 5 ; x 0 = 7 , β ^ = 0.4363 ) = e 7 β ^ e 8 β ^ + e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ + e 7 β ^ e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ = 0.2743

H ^ ( t = t 7 ; x 0 = 11 , β ^ = 0.4363 ) = e 11 β ^ e 8 β ^ + e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ + e 11 β ^ e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ + e 11 β ^ 0.8 e 9 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ = 0.0479

H ^ ( t = t 10 ; x 0 = 9 , β ^ = 0.4363 ) = e 9 β ^ e 8 β ^ + e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ + e 9 β ^ e 9 β ^ + e 7 β ^ + e 10 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ + e 9 β ^ 0.8 e 9 β ^ + e 11 β ^ + e 13 β ^ + e 8 β ^ + e 9 β ^ + e 9 β ^ 0.4 e 9 β ^ + 0.5 e 13 β ^ + e 9 β ^ = 0.6724

CIF的估计值为

F ^ ( t = t 3 ; x 0 = 8 , β ^ = 0.4363 ) = 1 e H ^ ( t = t 3 ; x 0 = 8 , β ^ = 0.4363 ) = 0.1625 F ^ ( t = t 5 ; x 0 = 7 , β ^ = 0.4363 ) = 1 e H ^ ( t = t 5 ; x 0 = 7 , β ^ = 0.4363 ) = 0.2399 F ^ ( t = t 7 ; x 0 = 11 , β ^ = 0.4363 ) = 1 e H ^ ( t = t 7 ; x 0 = 11 , β ^ = 0.4363 ) = 0.0468 F ^ ( t = t 10 ; x 0 = 9 , β ^ = 0.4363 ) = 1 e H ^ ( t = t 10 ; x 0 = 11 , β ^ = 0.4363 ) = 0.4895

4. 实例分析

数据来自R中的数据集(survival包中的mgus2),共计1371例单克隆丙种球蛋白病患者,其中结局事件定义为“发生浆细胞恶性肿瘤”有114例,而结局事件是在“发生浆细胞恶性肿瘤”之前因其他原因死亡患者有855例,这些发生“其他死亡”的患者因无法观察到“发生浆细胞恶性肿瘤”的终点,就被称为与“发生浆细胞恶性肿瘤”存在竞争风险的事件,其他402例患者是在观测期间上述结局事件没有发生。研究指标变量定义与赋值见表3

Table 3. Definitions and assignments of variables

表3. 各变量的定义与赋值

协变量x有两个,分别为血红蛋白水平和年龄,记为x1,x2,创立协变量矩阵。生存时间t对类型I事件表示直至发展为浆细胞恶性肿瘤或最后一次访视时间,对类型II事件表示直到死亡或最后一次接触的时间,对类型III事件表示最后一次接触时间。

数据集mgus2中的各个变量的统计描述见表4

Table 4. Statistical description of variables

表4. 变量的统计性描述

利用Fine-Gray模型分析建模,这里的协变量为x1,x2,自变量为生存时间t,响应变量为回归系数 β ^

如果用Cox模型进行回归分析,由于不考虑竞争风险,因此在考虑类型I事件时,将类型I事件为感兴趣事件,类型II和类型III事件改为删失事件,在考虑类型II事件时,则将类型II事件作为感兴趣事件,类型I和类型III事件改为删失事件。

利用Fine-Gray模型和Cox模型建模所得结果见表5

Table 5. Comparison between Fine-Gray model and Cox model

表5. Fine-Gray模型与Cox模型对比

根据表5,可得出以下结果:

在对类型I事件建模中,Fine-Gray模型与Cox模型估计结果差异很大。Fine-Gray模型协变量x1的回归系数不显著,x2的回归系数显著。Cox模型估计结果则与之相反。而在对于类型II事件建模中,Fine-Gray模型与Cox模型估计结果非常接近。协变量x1和x2对应的回归系数都非常显著。说明利用Fine-Gray模型与Cox模型的建模区别主要体现在对类型I事件的估计结果上。主要由于Cox模型只针对样本中发生类型I事件114例的个体建模,而Fine-Gray模型在考虑了发生类型I事件的114例个体基础上,还考虑发生类型II (竞争风险)事件的855例个体,在建模过程中,通过表2中的权重计算方法,算出竞争风险事件个体的权重,并且随着时间推移,竞争风险事件个体在风险集中的权重逐渐降低。

为了更直观的说明Fine-Gray模型与Cox模型的区别,分别绘制类型I事件的累计发生率的曲线图。以mgus2数据集协变量的中位数 x 1 = 13.5 x 2 = 72 ,编号为135的患者为例,分别用Fine-Gray模型和Cox模型对发生浆细胞恶性肿瘤这一感兴趣事件的累计发生率进行预测,结果见图1

Figure 1. Predictive comparison between Fine-Gray model and Cox model

图1. Cox模型与Fine-Gray模型对比预测图

5. 结语

由第3部分实证对比分析可以看出,Fine-Gray模型适用于具有多个终点的生存数据,在存在竞争风险的情况下,得到的结果更符合实际,具有更好的拟合性。如临床上常见术后死亡患者无法获取关心终点,故术后死亡与关心终点存在竞争风险。相比之下,使用传统Cox模型会忽略竞争风险,可能高估所研究事件的累计发生率。

基金项目

本研究由2022年度辽宁省研究生教育教学改革研究项目(2022-180-39510165)资助。

NOTES

*通讯作者。

参考文献

[1] Kaplan, E.L. and Meier, P. (1958) Nonparametric Estimation from Incomplete Observations. Journal of the American Statistical Association, 53, 457-481.
https://doi.org/10.1080/01621459.1958.10501452
[2] Cox, D.R. (1972) Re-gression Models and Life-Tables. Journal of the Royal Statistical Society: Series B (Methodological), 34, 187-202.
https://doi.org/10.1111/j.2517-6161.1972.tb00899.x
[3] Gelman, R., Gelber, R., Henderson, I.C., et al. (1990) Improved Methodology for Analyzing Local and Distant Recurrence. Journal of Clinical Oncology, 8, 548-555.
https://doi.org/10.1200/JCO.1990.8.3.548
[4] Gooley, T.A., Leisenring, W., Crowley, J., et al. (1999) Estimation of Failure Probabilities in the Presence of Competing Risks: New Representations of Old Estimators. Statistics in Medi-cine, 18, 695-706.
https://doi.org/10.1002/(SICI)1097-0258(19990330)18:6<695::AID-SIM60>3.0.CO;2-O
[5] Kalbfleisch, J.D. and Prentice, R.L. (2011) The Statistical Analysis of Failure Time Data. John Wiley & Sons, Hoboken.
[6] Fine, J.P. and Gray, R.J. (1999) A Proportional Hazards Model for the Subdistribution of a Competing Risk. Journal of the Amer-ican Statistical Association, 94, 496-509.
https://doi.org/10.1080/01621459.1999.10474144
[7] 朱旭, 陈书, 魏歆然, 等. 基于Fine-Gray竞争风险模型的青年胃癌患者预后影响因素研究[J]. 第二军医大学学报, 2021, 42(10): 1140-1147.
https://doi.org/10.16781/j.0258-879x.2021.10.1140
[8] 钱迪, 涂博祥, 陈枭, 等. 基于Fine-Gray竞争风险模型的小肝癌患者预后模型构建与验证[J]. 中华肿瘤防治杂志, 2023, 30(23): 1435-1443.
https://doi.org/10.16073/j.cnki.cjcpt.2023.23.07