1. 前言
乳腺癌(breast cancer, BC)是全世界最常见的恶性肿瘤之一,根据世界卫生组织国际癌症研究机构(IARC)的调查报告:2020年全球新发癌症病例1929万例,其中乳腺癌新增人数达226万,超过肺癌成为全球发病率第一的癌症。2020年全球癌症死亡病例996万例,其中在女性肿瘤患者中,乳腺癌致死率排名第一 [1]。在过去的二十年中,局部手术、全身化疗、精确放疗、内分泌治疗、免疫治疗、生物靶向制剂治疗等方法,显著改善乳腺癌患者的生存获益 [2]。但由于乳腺癌是一种涉及遗传和环境因素的异质性疾病,其治疗仍具有挑战性。随着分子生物学的发展,人们对乳腺癌病因、病理生理过程的认识不断深入,越来越多参与肿瘤发生、发展和影响预后的生物标志物被相继发现,并在早期诊断、疗效评估和预后预测等方面发挥重要作用 [3]。
GGCT (γ-谷氨酸环转移酶)是谷胱甘肽代谢的主要酶之一,在各种癌症表达上调——胶质瘤、乳腺癌、肺癌、食道癌、胃癌、结直肠癌、膀胱癌、前列腺癌、宫颈癌和骨肉瘤——并促进癌症进展;其减少可抑制癌细胞的增殖、侵袭和转移 [4]。Li等 [5] 发现,GGCT在卵巢癌中过度表达,并与高级FIGO分期、淋巴结转移和高浆液性卵巢癌(HGSCs)的腹水量有关。此外,他们报告说,GGCT可通过激活 PI3K/AKT/mTOR信号通路促进卵巢癌细胞增殖、迁移和侵袭,敲除该基因对卵巢癌细胞生长有明显抑制作用 [5]。有研究表明,在乳腺癌细胞MCF7前列腺癌细胞PC3中,敲低GGCT可以触发自噬促进信号级联,包括激活AMPK-ULK1通路和/或mTORC2-Akt通路的失活 [6]。也有研究表明GGCT可在乳腺癌患者体液中检测到,有可能作为乳腺癌的血清标志物 [7]。
生物信息学在癌症研究中已被广泛应用,为寻找肿瘤患者预后相关分子标志物,以及构建肿瘤相关预测模型提供重要研究手段。在这里我们利用多种常用公共数据库中乳腺癌临床数据,评估分析了GGCT在乳腺癌中的表达水平和潜在的临床价值,以期为GGCT靶向治疗的未来发展和乳腺癌的预后预测提供理论指导,并根据TCGA数据库开发一种预后模型来预测乳腺癌患者的总体生存率和无病生存率。
2. 材料和方法
2.1. Oncomine分析
Oncomine (https://www.oncomine.com/) [8] 是研究肿瘤差异表达基因以及特定基因与癌症分期、分级和临床病理参数的相关性等方面的数据库。输人基因GGCT,P值阈值设定为10−4,差异倍数阈值设置为2,等级设置为10%,得到GGCT在各种肿瘤中的差异表达数据。红色是高表达,红色越深表达量就越高,蓝色是低表达,蓝色越深表达量越低。
2.2. Timer2.0分析
Timer 2.0 (http://www.timer.com/) [9] 主要可以进行三个方面的分析:免疫的相关性分析;肿瘤基因的扩展;上传自己的数据进行免疫情况评估。使用该数据库查看基因的差异表达情况。输入目标基因GGCT,用箱形图显示基因表达水平的分布,灰色列表示该基因在肿瘤组织和正常组织中表达有差异。
2.3. GEPIA2.0分析
GKPIA2.0 (https://www.gepia.com/) [10] 数据库是由北京大学研发的用于比较基因在正常和肿瘤组织中表达差异的公共数据库,包含来自TCGA和GTEX的9000多个肿瘤样本和8000多个正常样本的RNA测序表达数据。本研究使用GEPIA数据库分析GGCT在正常乳腺组织与乳腺癌中的表达水平。
2.4. HPA分析
HPA数据库(https://www.proteinatlas.org/) [11],这是一个大规模蛋白质研究项目,主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。本研究基于该数据库中获取GGCT蛋白表达数据,并对正常乳腺组织和乳腺癌组织中的GGCT水平进行分析。也获取了GGCT在各种肿瘤细胞中的表达水平。
2.5. bc-GenExMinerv4.7分析
bc-GenExMinerv4.7 (https://www.bcgenex.com/) [12] 是基于乳腺癌TCGA转录组测序数据的生物信息学工具,可以进行生存分析、相关性分析等操作。使用表达模块分析GGCT基因的临床参数,如雌激素受体(ER)、孕酮受体(PR)、表皮生长因子受体-2 (HER-2)、Scarff Bloom & Richardson分级(SBR)、诺丁汉预后指数(Nottingham Prognositc Index, NPI)、有无淋巴结转移等。
2.6. Kaplan-Meier Plotter分析
Kaplan-Meier plotter (https://www.kmplot.com/) [13] 是一个用于评估基因对患者生存影响的数据库。使用该数据库评估乳腺癌患者的总体生存率(overall survival, OS)、无远处转移生存率(distant metastasis free survival, DMFS)、无复发生存率(recurrence free survival, RFS)、进展后生存期(post-progression survival, PPS)与GGCT mRNA表达之间的相关性。
2.7. Linked Omics分析
Linked Omics数据库(http://www.linkedomics.org/) [14] 是第一个多组学数据库,将临床蛋白质组学肿瘤分析联盟(the Clinical Proteomic Tumor Analysis Consortium, CPTAC)生成的基于质谱的全球蛋白质组学数据整合到选定的TCGA 肿瘤样本中。我们采用Pearson相关性分析对乳腺癌中与GGCT表达趋势相同和相反的基因进行分析筛选,结果分别以火山图、热图和散点图的形式呈现。选取Linked Omics中的基因集富集分析(Geneset Enrichment Analysis, GSEA)功能模块进行基因本体论(Genetic Ontology, GO)分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)分析。具体参数设置为:FDR < 0.05,模拟次数为500。
2.8. 数据处理
从TCGA (https://portal.gdc.cancer.gov/)下载乳腺浸润癌HTSeq-FPKM格式的RNAseq数据,将数据进行log2转化,保留有临床信息并且去除重复样本,纳入年龄、T、N、M、病理分期及PR、ER、HER2、GGCT进行单因素Cox回归分析,筛选有显著统计学意义的变量确定为预后相关的影响因素。进一步对上述影响因素进行多因素Cox回归分析,并且建立预后风险预测模型,计算所有乳腺癌患者的风险评分。绘制生存状态图及风险热图,并根据风险评分绘制生存曲线,通过受试者工作特征曲线(receiver operating characteristic, ROC)下面积(area under the curve, AUC)量化该模型的预测能力。
3. 结果分析
3.1. GGCT mRNA在泛癌中的表达
Oncomine数据库,GGCTmRNA在多种癌症中显著高表达,包括乳腺癌组织、结肠癌组织、胃癌组织、头颈部肿瘤组织、肺癌组织中等,有4组数据显示乳腺癌组织高表达GGCT,无数据显示正常组织GGCT高表达(图1(A))。此外,我们从TIMER上获取的转录组数据也提示GGCT的表达在大多数实体肿瘤中显著上调(图1(B))。我们使用DriverDBv3数据库分析GGCT的表达情况,如图1(C)所示,GGCT mRNA在大部分原发实体瘤中显著高表达。以上数据提示乳腺癌组织存在GGCT过表达现象,且GGCT可能具有潜在的促癌作用。
3.2. GGCT在乳腺癌中表达水平上调
接下来我们从TCGA数据库中挑选110对配对乳腺癌样本,T检验显示,GGCT在乳腺癌组织中高于正常组织,差异具有统计学意义(P < 0.001) (图2(A))。HPA数据库用来探究GGCT在乳腺癌中的蛋白水平,结果提示乳腺癌组织中GGCT蛋白表达显著高于正常组织(图2(B))。同时我们也发现GGCT mRNA表达水平在三种乳腺癌细胞系SK-BR-3、T-47d和MCF7中也很高(图2(C))。
A:Oncomine数据库分析GGCT mRNA表达水平(癌症与正常)与正常乳腺组织相比,乳腺癌组织、结肠癌组织、胃癌组织、头颈部肿瘤组织、肺癌组织中GGCT mRNA明显过表达;图中显示了具有统计学意义的靶基因GGCTmRNA表达上调。B:TIMER数据库中GGCT在不同恶性肿瘤及癌旁组织中的表达水平。C:使用DriverDB检测GGCT在不同肿瘤类型中的表达水平。蓝色线和紫色线分别代表所有肿瘤组织和正常组织的平均值。注:**P < 0.01,***P < 0.001。
Figure 1. The expression of GGCT in Pan-cancer
图1. GGCT在泛癌中的表达
(A) TCGA数据库中110对配对乳腺癌样本GGCT表达比较。
(B) HPA数据库中乳腺癌组织及癌旁组织GGCT染色的代表图。(C) HPA数据库中GGCT在不同肿瘤细胞系的表达情况。注:***P < 0.001。
Figure 2. The expression level of GGCT is up-regulated in breast cancer
图2. GGCT在乳腺癌中表达水平上调
3.3. GGCT在乳腺癌中的表达与临床病理特征的关系
为了进一步探讨乳腺癌患者中GGCT mRNA表达情况,我们利用bc-GenExMiner进行Welch检验,根据不同的临床病理特征,比较不同组别患者GGCT转录水平。分子分型结果表明,雌激素受体(ER+) (P < 0.0001)和孕酮受体(PR+) (P < 0.0001)表达情况与GGCT表达成负相关(图3(A),图3(B))。相反,与HER2(−)患者相比,GGCT mRNA水平在HER2(+)患者中表达较高(P < 0.0001) (图3(C))。淋巴结阳性(Nodal status+)乳腺癌患者中GGCT mRNA水平高于淋巴结阴性者(Nodal status−) (P < 0.0001) (图3(D))。在诺丁汉预后指数(NPI)分析中,NPI水平越高,GGCT的mRNA表达越高(P < 0.0001) (图3(E))。在Scarff Bloom & Richardson分级标准(SBR)中,SBR分级越高,GGCT mRNA水平越高(P < 0.0001) (图3(F))。


(A)-(C) GGCT mRNA的表达情况与ER、PR、HER2+的关系;(D) GGCT mRNA的表达情况与淋巴结的关系;(E) 不同NPI乳腺癌亚型中GGCT mRNA表达水平;(F) 不同SBR乳腺癌亚型中GGCT mRNA表达水平。
Figure 3. Relationship between GGCT expression and clinicopathological features in breast cancer
图3. GGCT在乳腺癌中的表达与临床病理特征的关系
3.4. 高表达GGCT的乳腺癌患者具有更短的OS、RFS、DMFS和PPS
采用Kaplan-Meier生存分析TCGA-BRCA,结果表明,GGCT高表达的乳腺癌患者有更差的预后。如图4(A)所示,GGCT mRNA的高表达与OS的缩短有关(HR = 1.66, P = 0.003)。我们也发现GGCT mRNA表达上调的患者,DSS明显降低(见图4(B))。用Kaplan-Meier Plotter数据库分析乳腺癌中GGCT的预后价值,结果同样显示,乳腺癌患者GGCT mRNA表达水平的升高与更短的总体生存率(OS) (HR = 1.69, 95% CI:1.4~2.05,P = 5.8e−08,图4(C))、无复发生存率(RFS) (HR = 1.66, 95% CI:1.49~1.84,P < 1E−16,图4(D))、无远处转移生存率(DMFS) (HR = 1.53, 95% CI:1.3~1.79,P = 1.6e−07,图4(E))、肿瘤进展后生存率(PPS) (HR = 1.33, 95% CI:1.05~1.68,P = 0.016,图4(F))均存在显著相关性。根据以上结果,GGCT表达高的乳腺癌患者死亡率、复发率、远处转移率和的肿瘤进展率明显高于GGCT表达低的患者。这表明GGCT对于乳腺癌患者预后的判断比较准确。
3.5. 乳腺癌患者的预后因素分析
从TCGA数据库获得的乳腺癌样本,去除重复样本后,使用GGCT表达的中位数将1065例有临床数据的乳腺患者分为高GGCT组和低GGCT组,临床基线数据如表1所示。单变量Cox回归分析结果显示,T、N、M、临床病理分期及GGCT是影响乳腺癌患者整体生存和无疾病生存的因素。而ER、PR、HER2的状态对OS无显著影响(表2,表3)。将单变量分析中确定的重要风险因素进行多变量Cox回归分析。我们得出结论,年龄、T、M、临床病理分期及GGCT是OS的重要独立风险因素,M、临床病理分期和GGCT是DFS的重要独立因素是DFS的重要独立因素(表2,表3)。


(A)~(B) Kaplan-Meier分析TCGA-BRCA数据,GGCT与总体生存(OS)和无病生存(DSS)的关系。(C)~(F) 通过Kaplan-Meier Plotter得到的生存曲线显示,GGCTmRNA的表达情况与乳腺癌患者的总体生存率(OS)、无复发生存率(RFS)、无远处转移生存率(DMFS)、进展后生存率(PPS)的关系。
Figure 4. Breast cancer patients with high GGCT expression have shorter OS, RFS, DMFS and PPS
图4. 高表达GGCT的乳腺癌患者具有较短的OS、RFS、DMFS和PPS

Table 1. Relationship between GGCT mRNA expression and clinical parameters of breast cancer patients
表1. GGCT mRNA表达与乳腺癌临床特征参数的关系

Table 2. Risk factors for overall survival according to Cox proportional hazards regression model
表2. 根据Cox比例风险回归模型分析总体生存风险因素

Table 3. Risk factors for disease free survival according to Cox proportional hazards regression model
表3. 根据Cox比例风险回归模型分析无病生存的危险因素
3.6. 预测风险模型的构建和评价
基于上述结果,我们建立两个预测模型,并生成了预测OS、DFS的3年生存率和5年生存率的列线图。将GGCT、年龄、M及临床病理分期纳入OS、DFS的诺模图中(图5、图6)。同时绘制生存预测的ROC曲线,曲线下面积AUC值3年总存活率为0.744,5年总存活率为0.689,3年无病生存率为0.744,5年无病生存率为0.742 (图7),显示该预后风险模型对乳腺癌患者的生存具有较好的预测能力。我们根据T、N、M分期构建了两个预测模型(补充图1和补充图2)。3年总存活率为0.638,5年总存活率为0.628,3年无病生存率为0.659,5年无病生存率为0.66 (补充图3)。对两种依赖时间的ROC曲线进行头对头比较,结果表明新模型的预测精度明显高于传统TNM模型(见图8)。
每个风险因素都通过向上画一条直线到点轴来对应一个点。位于总点轴上的点的总和通过直线向下绘制一条线到生存轴,代表了3年和5年总体生存的概率。
Figure 5. Nomogram to predict 3-year and 5-year overall survival
图5. 3年和5年总体生存的诺模图预测模型
每个风险因素都通过向上画一条直线到点轴来对应一个点。位于总点轴上的点的总和通过直线向下绘制一条线到生存轴,代表了3年和5年总体生存的概率。
Figure 6. Nomogram to predict 3-year and 5-year disease free survival
图6. 3年和5年无病生存的诺模图预测模型
A. 3年总体生存;B. 5年总体生存;C. 3年无病生存;D. 5年无病生存。
Figure 7. The ROC curves represented the discrimination of the models measured by the C-index
图7. C-index衡量ROC曲线代表的模型区分度
A. 总体生存;B. 无病生存。
Figure 8. The time dependent ROC curves comparing the new models with the TNM models
图8. 新模型与TNM模型进行比较的时间依赖的ROC曲线
3.7. GGCT在乳腺癌中的共表达网络
为了进一步探究GGCT在乳腺癌中可能的生物学功能,我们使用Linked Omics数据库获取了TCGA数据库中GGCT的共表达基因(图9(A))。与GGCT显著正、负相关的前50个基因我们通过热图的形式展现(图9(B),图9(C))。随后我们进行了GO分析,包括生物学过程(biologicalprocess, BP)、细胞组件(cellularcomponent, CC)、分子功能(molecularfunction, MF),以及KEGG信号通道富集分析。GGCT共表达基因的生物学过程主要包括正向调控染色体分离、有丝分裂细胞周期相转变和细胞周期过程的负调控,负向调控蛋白活化级联、脂肪酸代谢过程和过氧体转运等生物过程(图9(D))。GGCT共表达基因主要位于染色体区域、异染色质和微管中(图9(E)),其分子功能主要与运动活性、解旋酶活性、DNA二级结构结合的正向调控,电子转移活性、维生素炳定和抗氧化活性的负向调控相关(图9(F))。KEGG分析提示与GGCT共表达的基因主要参与正向调节细胞周期,负向调节补体和凝血级联等(图9(G))。
4. 讨论
乳腺癌是一种异质性恶性肿瘤,复发概率高,预后低下。目前,预防复发和转移的有效治疗策略仍然很少见。因此,开发一种新的预后工具来识别需要更多关注和治疗的高风险复发患者非常重要。在本研究中,首先我们通过癌症与正常组织间有明确定义参数的基因表达数据库评估GGCT在乳腺癌及其不同分型中的表达水平、预后和共表达情况。首先,应用Oncomine数据库评估GGCT在正常组织和多种癌症中表达情况,发现GGCT在乳腺癌、结肠癌、胃癌、头颈部肿瘤等多种癌症中表达量升高,尤其在乳腺癌中最显著。接下来,进一步探索GGCT在各型乳腺癌中的表达情况。在分子分型中,GGCT在P R阴性、ER阴性、HER2阳性乳腺癌中高表达,这表明GGCT的表达可能与乳腺癌的分型有关。组织学分级显示,SBR等级越高,GGCT表达上调越显著,乳腺癌SBR分级与预后关系密切,由此推测,GGCT的表达可能与乳腺癌预后不良有关。NPI指数是根据淋巴结分期、肿瘤大小及病理学分级,对乳腺癌患者预后进行评估的指标。在诺丁汉预后指数(NPI)分析中,NPI水平越高,GGCT的表达越高,大量研究已证明NPI指数高的患者更易出现复发转移,预后不良。生存分析表明,GGCT的高表达与OS、RFS、D MFS、PPS不良有显著关系。以上结果表明,乳腺癌患者中GGCT表达升高预示着患者预后不良。基于以上发现,我们认为GGCT可能是乳腺癌预后的1个有用的标志物。
在本研究中,病理M、临床病理分期和GGCT是OS和DFS的重要独立因素。建立GGCT表达水平与临床病理学数据相结合的新模型,以预测乳腺癌患者的OS和DFS。同时,也建立了两个基于TNM状态的预测模型,与新模型进行比较。时间相关的ROC曲线显示,新模型比TNM模型具有更好的识别性高。本研究有几个优点。首先,这是一个将遗传信息与临床数据相结合的命名图,用于预测乳腺癌患者的生存和复发。该工具对在床边为患者提供咨询也非常方便用户。其次,我们根据TCGA临床数据与TNM命名图进行了面对面的比较。结果表明,结合遗传和临床信息可以更好地预测预后。
5. 结论
本研究通过一系列生物信息学,我们发现了乳腺癌潜在的预测预后的基因。高表达的GGCT可以作为患者预后不良的生物标志物。本文的研究也有一些局限性。这尚未在实验室实验和临床进行验证。预测模型的生成依赖于TCGA的追溯数据。未在临床上进一步验证。
附录
每个风险因素都通过向上画一条直线到点轴来对应一个点。位于总点轴上的点的总和通过直线向下绘制一条线到生存轴,代表了3年和5年总体生存的概率。
Figure S1. The TNM Nomogram to predict 3-year and 5-year overall survival
补充图1. TNM诺模图预测模型预测3年和5年总体生存率
每个风险因素都通过向上画一条直线到点轴来对应一个点。位于总点轴上的点的总和通过直线向下绘制一条线到生存轴,代表了3年和5年总体生存的概率。
Figure S2. The TNM Nomogram to predict 3-year and 5-year disease free survival
补充图2. TNM诺模图预测模型预测3年和5年无病生存率
A. 3年总体生存;B. 5年总体生存;C. 3年无病生存;D. 5年无病生存。
Figure S3. The ROC curves represented the discrimination of the TNM models measured by the C-index
补充图3. C-index衡量ROC曲线代表的TNM模型区分度
NOTES
*通讯作者。