1. 引言
胃癌是全球癌症致死最高的肿瘤之一 [1] 。由于发病隐匿,且只有不超过10%的患者会进一步恶化,因此大多患者确诊已经为晚期,而晚期的中位生存率不超过12个月 [2] 。与多数实质性肿瘤类似,胃癌的主要治疗方法为手术切除、放疗、化疗、靶向治疗和免疫治疗 [3] 。随着胃癌治疗研究的发展,传统的TNM分期已经不能为胃癌治疗方案的选择提供太多指导。目前流行的Lauren分型因其可区分患者的临床特征、遗传学、形态学和流行病学等特征,广泛的应用于手术方案的选择 [4] 。然而缺乏指导放疗、化疗、靶向治疗和免疫治疗等方案选择的分型。只有对病人进行精准分类,根据不同患者的特征选择最佳的治疗方案,我们才能够达到精准治疗的效果。因此构建能够将胃癌患者精准分类的预后模型至关重要。
lncRNA (Long noncoding RNA, lncRNA)是一种不翻译蛋白的长链RNA。越来越多的研究发现lncRNA在胃癌的进展过程中发挥着重要的作用 [5] [6] 。Wang等表明,IncRNA与胃癌的增殖、迁移、免疫逃逸和细胞凋亡的抑制等密切相关 [7] 。除此之外,lncRNA还可以调控胃癌中关键基因的转录,翻译和翻译后修饰等过程。例如,BDNF-AS可以通过影响FBXW8的转录,介导胃癌腹膜转移中的铁死亡 [8] 。综上所述,lncRNA几乎参与了胃癌发生发展的整个过程。因此,基于胃癌中关键的lncRNA构建能够预测胃癌患者的预后是可行的。
近年来,随着生物信息学的发展和人工智能在生物医学领域的应用,不仅积累了大量的基因测序数据,而且使得基于大数据构建临床预测模型成为可能。因此在该研究中,我们基于GEO数据库和TCGA数据库中的lncRNA表达数据和临床预后数据,应用机器学习构建了胃癌的lncRNA预测模型,并且阐述了不同患者的临床病理特征。该研究不仅能够对胃癌患者的预后进行精准预测,而且能够对临床治疗方案的提出提供指导。
2. 材料和方法
2.1. 数据下载
该研究分析的数据均来源于TCGA数据库和GEO数据库。数据集GSE84437下载自GEO数据库,包含433例胃癌样本,用做模型训练集。TCGA-STAD队列下载自TCGA数据库,包含407例胃癌样本,用作模型准确性验证的外部验证集。所有数据的基因表达谱数据均经过标准化处理,并且提取lncRNA的表达谱数据用于后续分析。
2.2. 预后模型的构建
首先,应用单因素Cox回归筛选胃癌预后相关的lncRNA,并用森林图展示其预后价值。然后将数据导入机器学习–迭代LASSO回归模型进行分析。该模型每运行一次,便会产生相应的AUC (Area Under Curve, AUC)值 [9] 。为了能够构建精准的临床预测模型,我们选择迭代1000次。以AUC为标准筛选最优的临床预测模型,并应用Kaplan-Meier生存分析展示预测模型的预后价值。最后,为了评价准确预测每一位患者的预后,我们基于最优模型计算了每一位患者的风险分数。
2.3. 最优lncRNA预测模型的验证
我们选择数据来源不同的外部验证集TCGA-STAD队列验证改lncRNA预测模型的准确性。首先根据该模型计算患者的风险分数,然后按照风险分数将患者分为高风险组和低风险组。应用Kaplan-Meier生存分析展示该模型的预后价值。并用患者1年,3年和5年的ROC展示该模型的预测能力。同时,为了进一步展示该模型在外部验证集中的预测能力,我们展示了高、低风险组中患者的生存状态和每个lncRNA的表达情况。
2.4. 该模型独立预后价值的验证
预测模型的准确性往往会受患者本身特征的影响,因此评价预测模型的独立预测价值至关重要。为了能够评价该预测模型是否为独立预后因素,我们基于患者的临床特征(年龄、性别,淋巴结转移和肿瘤大小)和lncRNA预测模型进行单因素Cox回归和多因素Cox回归。如果该lncRNA预测模型具有独立的预后价值,则无论单因素Cox回归还是多因素Cox回归则均具有预后价值。
2.5. lncRNA预测模型与临床特征的关系
评价lncRNA临床预测模型与临床特征的关系有助于该模型的临床应用。我们评价了不同年龄和性别胃癌患者中分线分数的差异。另外,我们还评价了代表患者严重程度的肿瘤大小和淋巴结转移情况下患者风险分数的差异情况。为了准确评价lncRNA预后模型与临床特征的关系,我们在训练集和外部验证集均进行了分析。
2.6. 免疫细胞浸润分析
cibersort是目前应用最为广泛的免疫细胞浸润分析之一 [9] ,可基于支持向量机通过反卷积的算法计算免疫细胞浸润情况。默认可根据基因表达矩阵计算22种免疫细胞的表达矩阵。该研究中,我们应用IOBR包计算了胃癌免疫细胞浸润的情况。分析高、低风险组中免疫细胞浸润的差异以评价该lncRNA模型与免疫细胞浸润的关系。另外,我们还应用pearson分析了每一个lncRNA与免疫细胞浸润的关系。
2.7. 统计分析
该研究所有统计分析均基于R version 4.2.2完成。所有两组间对标的计量资料,首先对数据进行正态性和方差齐性检验,如果符合则用两样本的方差分析,如果不符合则用Welch检验。相关性分析采用Pearson相关性分析。所有统计分析以P < 0.05视为有统计学差异。
3. 结果
3.1. lncRNA预测模型的构建
应用单因素Cox回归模型筛选胃癌预后相关的lncRNA,结果表明,TTTY8、STX18-AS1、ST7-AS1、FGD5-AS1、PRKCQ-AS1、POM121L9P和MORF4L2-AS1等基因的高表达提示胃癌较好的预后,而SNHG5、LINC01615、LINC01291、LINC01278、LINC01173、LINC0069和LINC00443等基因的高表达提示胃癌较差的预后(图1)。
Figure 1. Forest diagram of prognosis related IncRNA in gastric cancer
图1. 胃癌预后相关IncRNA的森林图
基于分析得到的预后相关lncRNA,我们应用机器学习–迭代LASSO回归模型构建临床预测模型。应用同样的模型,通过不同的排列组合构建1000次模型后,我们发现20个lncRNA的预测模型的AUC最高(图2(A))。ROC曲线下面积高达0.764 (图2(B))。为了进一步确定该预测模型对不同阶段患者的预测能力,我们分析了1年,3年和5年的预测能力,发现该预测模型在1年,3年和5年的预测能力相似,1年,3年和5年的预测能力分别为0.72,0.75和0.76 (图2(C))。Kaplan-Meier生存分析结果表明,该lncRNA预测模型能够将胃癌患者的预后完全区分,且高风险的患者显著预后较差(P < 0.0001,图2(D))。另外,我们还进一步展示了高模型的表现,可见该模型能够显著区分患者的生存状态,而每一个在高、低风险组中的表达差异并不明显(图2(E))。
Figure 2. Construction of lncRNA clinical prediction model. A. The distribution of AUC in 1000 prediction models; B. ROC of lncRNA prediction model in training set; C. The lncRNA prediction model predicts ROC at 1 year, 3 years, and 5 years; D. Kaplan Meier survival analysis of patients in high and low-risk groups; E. Risk score, survival status, and expression of each lncRNA in high and low-risk groups of patients
图2. lncRNA临床预测模型的构建。(A) 1000个预测模型中AUC的分布;(B) 训练集中lncRNA预测模型的ROC;(C) lncRNA预测模型在1年、3年和5年的ROC;(D) 高、低风险组患者的Kaplan-Meier生存分析;(E) 高、低风险组患者中风险分数、生存状态和每个lncRNA表达情况
3.2. lncRNA预后模型的验证
为了确保该预测模型的准确性,我们在外部验证集中进行了详细的验证。与训练集类似,我们按照该预测模型计算了外部验证集中每一个患者的风险分数,并按照风险分数将所有外部验证集中的患者分为高、低风险组。通过构建1年,3年和5年的ROC曲线发现,该lncRNA预测模型在外部验证集中同样表现优异(图3(A))。具体表现为,1年的预测价值较低,而3年和5年的预后预测能力与训练集几乎一致,3年和5年AUC分别为0.75和0.71。该模型鉴别的高风险组胃癌患者依然具有显著较差的预后(P = 0.0018,图3(B))。同样的,该预后模型在外部验证集中同样能够区分患者的生存状态,而基因的表达差异也不明显(图3(C))。
Figure 3. Validation of the IncRNA prediction model. A. 1 year, 3 years, and 5 years of ROC for lncRNA in external validation sets; B. Kaplan Meier survival analysis of patients in high and low-risk groups in external validation sets; C. The risk score, survival status, and expression of each lncRNA in the high and low risk groups of patients in the external validation set
图3. IncRNA预测模型的验证。(A) 外部验证集中lncRNA的1年、3年和5年的ROC;(B) 外部验证集中高、低风险组患者的Kaplan-Meier生存分析;(C) 外部验证集中高、低风险组患者中风险分数、生存状态和每个lncRNA表达情况
3.3. lncRNA预后模型为胃癌的独立预后因素
为了确定该临床预测模型的预测能力不受临床特征的影响,我们进行基于临床特征和lncRNA预测模型进行单因素Cox回归和多因素Cox回归分析。在训练集中,单因素Cox回归分析结果表明,年龄(P < 0.001)、淋巴结转移(P < 0.001)、肿瘤大小(P < 0.001)、风险分数(P < 0.001)和lncRNA预测模型(P < 0.001)均与预后相关;多因素结果进一步确定了该模型为胃癌的独立预后因素(图4(A))。有趣的是,在外部验证集中,无论单因素Cox回归分析还是多因素Cox回归分析,结果均显示年龄、淋巴结转移和风险分数和lncRNA预测模型(所有P < 0.05)。因此,我们确定该lncRNA为胃癌的独立预后因素。
Figure 4. Confirming that the lncRNA prediction model is an independent prognostic factor for gastric cancer. A. Single and multiple factor COX regression analysis in the training set; B. Single and multiple factor Cox regression analysis in the external validation set; The left figure shows the results of single factor Cox regression analysis, and the right figure shows the results of multi factor Cox regression analysis
图4. 确定lncRNA预测模型为胃癌的独立预后因素。(A) 训练集中的单、多因素COX回归分析;(B) 外部验证集中的单、多因素Cox回归分析;左图为单因素Cox回归分析结果,右图为多因素Cox回归分析结果
Figure 5. Clinical features of lncRNA prediction model. A. The distribution of risk scores among patients with different clinical characteristics in the training set; B. The distribution of risk scores among different clinical features in the external validation set
图5. lncRNA预测模型的临床特征。(A) 风险分数在训练集不同临床特征患者中的分布;(B) 风险分数在外部验证集中不同临床特征中的分布
3.4. lncRNA预测模型的临床特征
我们通过不同临床特征人群中胃癌患者风险分数的分布来确定该lncRNA预测模型的临床特征。在训练集中,不同年龄和性别间的风险分数并无显著差异,而风险分数随着肿瘤大小和淋巴结转移分级的增加而递增(图5(A))。令人惊讶的是,在外部验证集中,风险分数在不同临床特征胃癌患者中的分布呈现出一致的结果(图5(B))。这说明该lncRNA预测模型可以准确区分患者的临床特征。
3.5. lncRNA预测模型与免疫细胞浸润的关系
应用CIBERSORT计算免疫细胞浸润的表达矩阵,通过分析高、低风险组中免疫细胞浸润的差异,结果表明,CD4+记忆T细胞,辅助T细胞和NK细胞在低风险组患者中的浸润显著较高,而Treg细胞、巨噬细胞和肥大细胞在高风险组患者中浸润较高(图6(A))。我们进一步分析了lncRNA预测模型中每个lncRNA与免疫细胞浸润的关系,发现ST7-AS1、SLC16A1-AS1、DGCR5、DLGAP1-AS5、GBP1P1、HHLA3、HOTAIR、INHBA-AS1、LINC00443、SNHG14、SNHG15、SLC25A25-AS1、POM121L9P、SNHG1和ST7-AS1等基因与免疫细胞的浸润关系密切(图6(B))。
Figure 6. Relationship between lncRNA prediction model and immune cell infiltration. A. Differences in immune cell infiltration between high-risk and low-risk groups; B. Correlation analysis between each lncRNA and immune cell infiltration in the lncRNA prediction model
图6. lncRNA预测模型与免疫细胞浸润的关系。(A) 免疫细胞浸润在高、低风险组中的差异;(B) lncRNA预测模型中每个lncRNA与免疫细胞浸润的相关性分析
4. 讨论
LncRNA可从转录、转录后、翻译和翻译后调控胃癌进展过程中关键蛋白的表达和表达后修饰,对于胃癌的诊断和治疗有着重要的意义 [10] 。因此,我们期待基于lncRNA构建出能够预测胃癌患者的临床预测模型。为了确保临床预测模型的准确性,我们纳入了GEO数据库和TCGA数据库中的大样本数据,并选择外部验证集对模型进行验证,发现该预测模型不论在训练集还是外部验证集均具有良好的预测能力。另外,我们还分析了该预测模型与胃癌中免疫细胞浸润的关系。
与以往常见的临床预测模型的构建不同 [11] ,我们应用机器学习的方法,通过对预后相关基因进行排列组合以拟合出最优的临床预测模型。这种方法可排除更多的干扰基因,这样使得模型的准确性和广泛适用性更好,这也是我们构建的lncRNA预测模型在训练集和外部验证集均具有良好预测能力的原因。该临床预测模型主要由ST7-AS1、SLC16A1-AS1、DGCR5、DLGAP1-AS5、GBP1P1、HHLA3、HOTAIR、INHBA-AS1、LINC00443、SNHG14、SNHG15、SLC25A25-AS1、POM121L9P、SNHG1和ST7-AS1等20个lncRNA构成。DGCR5在包括胃癌之内的消化系肿瘤中均高表达,并且与消化系肿瘤的增殖、侵袭转移和治疗后复发密切相关,是一个潜在的治疗靶点 [12] 。HOTAIR主要通过ceRNA在胃癌的进展中发挥作用,其主要参与胃癌上皮–间质转化的调节,抑制HOTAIR的表达可逆转胃癌的上皮–间质转化 [13] [14] 。INHBA-AS1是胃癌的预后相关基因 [15] 。SNHG1主要通过ceRNA促进胃癌的进展 [16] 。我们的研究还表明lncRNA预测模型与胃癌的淋巴结转移和肿瘤大小密切相关,关于lncRNA的研究进一步证明了该结论。总之,已有研究表明构成20-基因预测模型的多个lncRNA在胃癌的进展中发挥重要的作用,这进一步说明我们的预测模型具有较高的可靠性。然而lncRNA在胃癌中的表达及构建的预测模型尚未完全被阐述,因此有待进一步的深入研究。
分析胃癌中的免疫细胞浸润情况,我们发现CD4+记忆T细胞,辅助T细胞和NK细胞在低风险组患者中的浸润显著较高,而Treg细胞、巨噬细胞和肥大细胞在高风险组患者中浸润较高。这与胃癌免疫微环境的研究一致。进一步分析构成预测模型的lncRNA与免疫细胞浸润的关系,发现ST7-AS1、SLC16A1-AS1、DGCR5、DLGAP1-AS5、GBP1P1、HHLA3、HOTAIR、INHBA-AS1、LINC00443、SNHG14、SNHG15、SLC25A25-AS1、POM121L9P、SNHG1和ST7-AS1等基因与免疫细胞的浸润关系密切。其中SNHG15可通过促进PD1的表达促进胃癌的免疫逃逸 [17] 。这提示该lncRNA预测模型可能与免疫治疗具有一定的联系,有待我们进一步的挖掘。
总之,我们基于GEO数据库和TCGA数据库的大样本数据构建了一个lncRNA预测模型。该模型不仅可预测胃癌患者的预后,而且与胃癌的肿瘤大小和淋巴结转移密切相关。另外,我们还发现该预测模型可以区分胃癌患者的免疫微环境,并发现多个构成预测模型的lncRNA与胃癌中免疫细胞的浸润密切相关。
基金项目
课题名称:肿瘤微环境浸润细胞联合LncRNA预测早期胃癌淋巴结转移
承担单位:南昌县人民医院
课题负责人:邓定文
研究周期:2020/10/01~2022/10/01
申报日期:2020年08月05日
申报编号:SKJP220201452
立项合同编号:202140197
NOTES
*通讯作者。