摘要: 本文旨在介绍基于SEER数据库构建无远处转移的胆囊腺癌患者的预测及预后模型的研究现状及进展。首先,介绍其研究背景及其重要性,指出了该课题的提出及其现实意义。接着,系统总结了该课题的主要理论框架和研究方法。通过对国内外相关课题的深入梳理与分析,介绍了该课题在该领域的研究现状和特点,发现该课题在该领域中目前存在的一些创新,主要体现在该领域中关于其他疾病的大量文献,而该疾病的相关文献较其他疾病少之又少。最后,本文对现有研究进行了综合评述,指出了现阶段研究的不足之处,未来将树立不断完善该课题的目标。本文旨在为该疾病的医学领域的研究人员提供参考,并为其他相关研究提供一些思路和建议。
Abstract: This review aims to present the current research status and advancements in developing predictive and prognostic models for non-metastatic gallbladder adenocarcinoma (GBA) using the Surveillance, Epidemiology, and end results (SEER) database. Firstly, the research background and its significance are introduced, and the practical importance of this topic is pointed out. Subsequently, the theoretical frameworks and methodological approaches adopted in this field are systematically summarized. Through an in-depth analysis of global studies, we highlight the unique characteristics of existing research, notably the scarcity of disease-specific literature compared to the extensive studies on other malignancies. This article conducts a comprehensive review of the existing research, points out the shortcomings of the current studies, and sets the goal of continuously improving this subject in the future. This work serves as a comprehensive reference for researchers in gastrointestinal oncology and provides actionable insights for related studies.
1. 研究背景
查阅相关文献,胆囊腺癌(GB-ADC)的诊断基于病理学诊断,目前国内外对于胆囊腺癌患者仍然没有准确的预后风险和生存分析。关于疾病的预测模型一直是研究热点,传统的生存预测模型包括肿瘤分期系统、Cox回归模型等,但是这些模型在使用时只能大概粗略地进行预测,肿瘤列线图预测模型相较于传统预测模型具有个体化、直观便利等优点,可直观展示影响因素对结局的影响程度,从而达到预测结局的目的,已经在其他癌症诊断和生存预测方面得到广泛使用[1],所以Nomogram预测模型因其可以结合多个预测指标,可简单、方便、有效地预测肿瘤患者临床预后,已经在多种恶性实体瘤中得到广泛应用。虽然,胆囊腺癌是胆囊癌最常见的病理类型,但查阅相关文献,关于胆囊腺癌的预后预测模型的相关报道少之又少,更多的是关于胆囊癌患者相关的预后预测模型的报道,虽然国内外关于GB-ADC相关的列线图预测模型也逐渐得到发展,但仍旧较少。
2. 理论概述
胆囊腺癌是起源于上皮的胆囊恶性肿瘤,占胆囊恶性肿瘤的90% [2]。胆囊癌的发病率在不同的地理区域之间有很大的差异,在我国,胆囊癌的发病率已位列消化系统恶性肿瘤的第6位。尽管胆囊癌在胃肠道恶性肿瘤中少见,但在胆道恶性肿瘤中却是最常见的,占胆道癌症的70%以上。胆囊癌也被认为是最具侵略性、恶性程度最高的癌症之一,中位生存期不到6个月[3] [4],因此,就胆囊恶性肿瘤而言预测和构建患者的生存分析就显得十分重要,不仅能够对危险因素进行分析,还能预测其生存率,提高疾病的诊断并且减少病人的负担。
美国检测、流行病学和最终结果数据库(Surveillance, Epidemiology, and End Results Program, SEER)开始运行于1972年,它是由美国联邦政府资助创建的一个系统,该公共数据库纳入了约28%全美人口的肿瘤诊治机构定期收集肿瘤患者的癌症发病率、肿瘤原发部位、肿瘤分期、肿瘤形态、肿瘤治疗方案以及随访时间和生存率等数据,SEER数据库中癌症患者的信息的应用在肿瘤的流行病学、回顾性分析、生存分析等方面的相关研究得到权威认可,因此SEER数据库被广泛应用于肿瘤学的研究,并且可以查阅到大量关于应用SEER数据库构建诺模图的相关文献。而在肝胆胃肠的相关恶性肿瘤中,SEER数据库被大量应用于肝脏、胃肠的恶性肿瘤的生存分析,通过这些文献,我们可以知道通过运用R软件绘制出预测疾病生存分析(如个体病人生存期)的诺模图(Nomogram),该图能够更加生动形象化地展示Logistic回归分析结果及COX回归分析结果,纳入患者的生物学以及临床变量并经过一系列的函数计算后所得到的图形化预测模型,可以用于多项指标联合的共同诊断或预测疾病的发生发展,诺模图能更加直接地展示疾病的风险因素对疾病结局的影响程度,进而可以达到预测结局的目的,因此已经广泛应用于多种癌症的诊断及预后分析,譬如,施[5]等通过对2004年至2019年间5102例已经被诊断为胃印戒细胞癌(GSRC)的患者构建远处转移危险因素及预后预测模型的开发和验证,在四个独立危险因素(GSRC患者远处转移的独立危险因素)和三个独立预后因素的基础上构建诊断胃印戒细胞癌远处转移的列线图及预后列线图预测模型,其目的是为了提高临床工作的医务人员评估GSRC患者发生远处转移的风险概率及预测GSRC伴远处转移患者生存率的准确性,从而改善个性化治疗决策的制定。这个模型在胆囊癌方面也开始逐渐应用起来,阿[6]等通过对2004~2015年间诊断为胆囊癌(GBC)并行手术治疗且AJCC分期N分期为N0的2272例患者进行单因素和多因素Cox回归分析得出5个独立风险因素,并构建相关列线图,经验证后显示所构建的胆囊癌患者在手术治疗时淋巴结清扫术可显著改善N0期胆囊癌患者的预后,其在预测1、3和5年生存率方面较为出色,该诺模图有较好的预测能力,能准确的对患者进行危险因素分层,促进个性化诊疗,提高患者的生存率。
3. 主要研究方向
1、应用研究:通过上文可以知道SEER数据库已经被广泛应用于肿瘤学的研究,通过SEER数据库所构建的诺模图能够对疾病结局进行预测,该文章的研究目标就是基于SEER数据库构建无远处转移的胆囊腺癌患者的预测及预后模型。
2、研究方法:① 数据的获取并筛选:通过SEER*Statt (Version8.4.2)软件从SEER数据库中提取2005~2020年期间所登记的胆囊腺癌病人的一般资料和临床病理数据等,提取的数据为年龄、种族、性别、婚姻状况、诊断年份、肿瘤分化程度、美国癌症联合委员会(AJCC)肿瘤分期、T分期、N分期、M分期、组织学类型、肿瘤长径、治疗信息、生存情况、病人预后情况等信息。由于SEER数据库中所提供的部分变量均由代码表示,故在获取数据后,需根据官网所提供的代码说明书对各种变量进行翻译。其中人口统计学特征如下:种族、性别、生存时间(月)、婚姻状况、随访结束时生命状态信息(存活或死亡)。肿瘤特点包括肿瘤大小、组织学类型、分化程度、TNM分期、区域淋巴结转移情况。治疗信息包括肿瘤手术史、放射治疗史及化学药物治疗史。数据中所有患者诊断年份为2005~2020年,依据第七版AJCC分期来确认TNM分期。在清洗数据的过程中,病例来源未知、病理诊断来源为“仅尸检”(Autopsy Only)、人种不明、年龄 > 80岁、分化程度不明、T分期为Tx、T0、N分期为Nx及M分期为M1将被清除。进而在所得数据中选择可作为胆囊腺癌无远处转移风险的变量并分组,然后获得自己所需的数据。② 统计分析方法:采用SPSS 25.0和R 4.5.0软件进行统计分析。按照7:3将研究数据随机分为两组,一组是训练组(Train Group),另外一组是验证组(Validation Group),首先在训练组中进行单因素logistic回归,以发现GB-ADC的相关危险因素。然后,将单因素logistic回归中p < 0.05的因子纳入多因素logistic回归进行分析,其中p < 0.05的变量即为GB-ADC的独立危险因素,以此来构建预测GB-ADC的诺模图。绘制校准图以评估诺模图的预测准确性。此外利用受试者工作特征曲线(Receiver Operating Characteristic Curve, ROC)评估所构建的诺模图的灵敏性和特异性,临床决策曲线分析(Decision Curve Analysis, DCA)以及临床影响曲线(Clinical Impact Curve, CIC)来评估所构建的模型的临床可靠性。对于已经诊断为胆囊腺癌的患者,分别使用单变量和多变量COX回归分析OS和预后相关变量的关系,确定危险比(HR值)及95%置信区间(95%CI),筛选出有统计学意义的变量(p < 0.05)用于构建独立预后诺模图。计算一致性指数以测量诺模图的判断能力,量化预测生存结局和观察到的生存结局一致的患者比例。创建校准图以评估诺模图的预测准确性。还可以通过应用时间依赖性ROC曲线的下方面积来评价并且预测所绘制的诺模图的灵敏性及特异性。如前所述,把从数据库中收集并进行清洗后得到的数据按照7:3将研究数据随机分为两组,其中一组是验证组,另外一组训练组我们用来构建模型,而验证集用来验证列线图,计算受试者工作特征曲线下面积(AUC)和C指数(CI),并绘制校准曲线,评估模型的性能;使用决策曲线分析(DCA)评估列线图的效用。
4. 结论与展望
目前国内外关于胆囊腺癌的生存分析少之又少,因此本文旨在通过SEER*Statt (Version8.4.2)软件从数据库中筛选出2005至2020年间诊断为无远处转移的胆囊腺癌患者的一般资料及临床病理数据等,通过单因素logistic回归分析选出无远处转移胆囊腺癌患者的独立危险因素,以此构建预测的诺模图(Nomogram),然后通过单因素及多因素回归分析得到预后因素,再次构建诺模图,最后校准诺模图,所有统计分析均通过运行R软件(Version4.3.2),P < 0.05有统计学意义。基于SEER数据库构建无远处转移的胆囊腺癌患者的预测及预后模型,能够确定胆囊腺癌在临床诊治工作中的危险变量,以便早期发现胆囊腺癌患者,从而尽早进行干预,提高患者的生存率,也避免了病人后续的治疗费用及手术风险,从而整体地改善患者的生活水平。
NOTES
*通讯作者。