摘要: 目的:综合生物信息学分析,探究胸腺瘤的致病基因及调控通路。方法:GEO基因表达总数据库检索并下载3组胸腺瘤基因芯片数据,并利用GEO2R筛选出差异基因(DEGs),然后通过Metascape和STRING在线软件对差异基因进行GO、KEGG富集分析和蛋白互作网络构建;然后应用Cytoscape软件筛选致病基因;最后应用UALCAN和GEPIA数据库对关键基因进行验证、生存分析及调控机制通路探究。结果:分析三组数据集获得1259个共同DEGs,GO、KEGG富集分析和SinoBiological网站检索显示DEGs参与肿瘤坏死因子信号通路、跨膜受体蛋白酪氨酸激酶信号通路、TNF信号通路、PI3K-Akt信号通路、鞘脂类信号通路、Hippo信号通路、钙信号通路、癌症通路、癌症中的转录失调和造血细胞系。30个关键致病基因,包括ITGA4、ITGB3、ITGB5、ITGB6、ITGA8、ITGA11、COL6A1、THBS2、COL6A2等。通过对致病基因进行验证、通路探究和生存分析,发现ITGA4、CD4、THY1、CD1D和IL2RB均可影响患者总体生存率,提示可作为THY的潜在研究方向。结论:通过公共数据库的生物信息检索,筛选出致病基因及其参与的机制通路,其中ITGA4、CD4、THY1、CD1D和IL2RB基因将可能成为新的分子生物标志物和靶向基因治疗目标。
Abstract:
Objective: To investigate the pathogenic genes and regulatory pathways of thymoma by compre-hensive bioinformatics analysis. Methods: GEO Gene Expression Omnibus database was retrieved and downloaded for 3 sets of thymoma gene microarray data, and the differential genes (DEGs) were screened by GEO2R, then GO, KEGG enrichment analysis and protein interaction network con-struction were performed for the differential genes by Metascape and STRING online software; then the pathogenic genes were screened by Cytoscape software; finally, the UALCAN and GEPIA data-bases were applied to validate the key genes, analyze their survival and explore the regulatory pathways. Results: Analysis of the three datasets yielded 1259 common DEGs, GO, KEGG enrichment analysis and SinoBiological website search showed that DEGs were involved in tumor necrosis factor signaling pathway, transmembrane receptor protein tyrosine kinase signaling pathway, TNF sig-naling pathway, PI3K-Akt signaling pathway, sphingolipid signaling pathway, Hippo signaling pathway, calcium signaling pathways, cancer pathways, transcriptional dysregulation in cancer and hematopoietic cell lines. 30 key pathogenic genes include ITGA4, ITGB3, ITGB5, ITGB6, ITGA8, ITGA11, COL6A1, THBS2, COL6A2, etc. Through validation, pathway exploration and survival analy-sis of the pathogenic genes: ITGA4, CD4, THY1, CD1D and IL2RB could all affect the overall survival of patients, suggesting a potential research direction for THY. Conclusion: The causative genes and their involved mechanistic pathways were screened by bioinformatics search of public databases, in which ITGA4, CD4, THY1, CD1D and IL2RB genes will likely become new molecular biomarkers and targets for targeted gene therapy.
1. 引言
胸腺瘤(Thymoma, THY)是一种罕见、恶性程度较低的胸腺上皮细胞肿瘤,其特点是生长缓慢且极少转移,在成人患者中很常见。胸腺瘤与体液和细胞免疫缺陷有关,致病基因可能在胸腺瘤发展与免疫失调相关的病因机制中发挥相关作用。研究统计,近50%胸腺瘤患者会发展为重症肌无力(MG),而近80%的重症肌无力患者会发现胸腺瘤 [1] 。治疗胸腺瘤的主要方法是外科手术切除。WHO分型以病理组织学特征为依据,Masaoka分期以肿瘤侵袭范围为依据,胸腺瘤的预后与WHO分型和Masaoka分期显著相关 [2] [3] [4] 。近些年来,利用NCBI的生物信息学基因数据库和TCGG临床数据库,探索胸腺瘤患者发病的可能致病基因和机制通路,为肿瘤的临床早期诊断、个体化肿瘤药物的靶向治疗和预后提供指导。
2. 数据材料
检索NCBI数据库并下载3组胸腺瘤数据集,分别为GSE94769、GSE55852和GSE42977,样本属于人类胸腺上皮肿瘤组织,数据集来源于GPL13534、GPL10123和GPL6790芯片平台。
3. 处理方法
3.1. 基因数据处理及DECs筛选
GEO中检索到胸腺瘤基因芯片数据,同时利用GEO2R在线工具分析将3组数据集整合处理,并进行差异性基因DECs筛选,然后将3组数据集的差异基因筛选结果绘制火山图和Venn图。
3.2. 差异表达基因的功能富集分析
应用Metascape在线软件,检索差异表达基因(DECs)的生物学功能和调控机制通路,并进行GO、KEGG功能富集分析、SinoBiological网站的调控通路探究。富集分析就是分析一组基因在某个功能节点上的作用交集。京都基因和基因组百科全书(KEGG)是构成基因组、化学和功能分析的综合数据资源,是了解生物体高级功能和生物系统的基因组重要数据库。
3.3. 差异表达基因的蛋白质相互作用分析
STRING数据库是检索目标基因相互作用关系的数据信息合集,其中包含丰富广泛的物种信息、多样蛋白质种类及蛋白相互作用联系,可由于分析蛋白质与蛋白质间的相互作用关系(PPI),有助探究主要基因的调控网络关系。
3.4. 关键基因筛选
将STRING构建致病基因的蛋白质互作网络PPI的结果导入Cytoscape3.8.2软件,应用cytoHubba插件将MCC算法中交集前30的关键基因筛选,选定在12种算法中出现频率大于10次的基因为致病基因。绘制关键基因的网络相关作用图并导出数据分析结果。
3.5. 验证关键基因表达水平及生存分析
应用UALCAN和GEPIA在线基因分析软件,验证致病基因在胸腺瘤中的表达值及临床生存分析。通过不同数据库的双重验证分析,对胸腺瘤的关键致病基因进行探究分析。
4. 结果
4.1. THY差异表达基因筛选
检索NCBI数据库并应用GEO2R软件,对GSE94769、GSE55852和GSE42977集合数据集,进行差异表达基因进行分析,共筛选出1259个差异表达基因(DEGs),并绘制Venn图(图1)和火山图(图2)。
4.2. 差异表达基因的GO富集分析
通过Metascape软件对1259个差异基因进行GO富集分析,结果显示差异基因表达产物主要参与细胞粘附的调控调节、细胞形态发生的调控、细胞的激活、细胞间质发展等;管道形态发生、信息节点连接、调控复杂受体、跨膜受体蛋白酪氨酸激酶信号通路、肌动蛋白filament-based过程、大脑发育、脊索动物的胚胎发育及组织形态发生形成等(图3)。

Figure 1. Venn diagram of differentially expressed genes
图1. 差异表达基因Venn图

Figure 2. Volcano diagram of differentially expressed genes
图2. 差异表达基因火山图

Figure 3. GO enrichment analysis of differential genes
图3. 差异基因GO富集分析

Figure 4. KEGG enrichment analysis of differential genes
图4. 差异基因KEGG富集分析
4.3. 差异表达基因的KEGG富集分析
应用Metascape软件对1259个差异基因进行富集通路探究,其主要参与的信号通路有肿瘤坏死因子信号通路、TNF信号通路、PI3K-Akt信号通路、鞘脂类信号通路、Hippo信号通路、钙信号通路、癌症通路、癌症中的转录失调和造血细胞系等(图4)。
4.4. 差异表达基因PPI作用分析结果
STRING软件导入胸腺瘤的差异表达基因,进行蛋白质–蛋白质相互作用网络PPI构建,最终筛选出前30个致病基因制作网络关系图,节点数量共1252个,节点变数共5482条,相互作用关系共获得4676条。
4.5. 关键基因筛选结果
通过STRING数据库构建差异表达基因蛋白质互作PPI网络关系图,并将PPI分析结果导入Cytoscape中,利用cytoHubba插件的MCC算法从PPI网络中筛选前30个关键致病基因,包括ITGA4、ITGB3、ITGB5、ITGB6、ITGA8、ITGA11、COL6A1、THBS2、COL6A2、COL9A1、THBS3、PSMA7等(图5)。

Figure 5. PPI network diagram of the top 30 key pathogenic genes
图5. 前30个关键致病基因PPI网络关系图
4.6. 关键基因验证及生存分析
通过检索UALCAN和GEPIA两大数据库中胸腺瘤的数据信息,对选定的关键基因进行验证、通路探究和生存分析。ITGA4 (P = 0.039)、CD4 (P = 0.03)、THY1 (P = 0.04)、CD1D (P = 0.034)和IL2RB (P = 0.0017)对患者的总生存率具有影响意义(图6~10)。

Figure 6. Survival analysis of ITGA4 gene
图6. ITGA4基因生存分析图

Figure 7. Survival analysis of CD4 gene
图7. CD4基因生存分析图

Figure 8. Survival analysis of THY1 gene
图8. THY1基因生存分析图

Figure 9. Survival analysis of CD1D gene
图9. CD1D基因生存分析图
5. 讨论
胸腺瘤(Thymoma, THY)是一种恶性程度较低的胸腺上皮细胞肿瘤,其特点是生长缓慢且极少转移。临床表现多为气短、咳嗽、胸痛等,1/5病患可能合并重症肌无力(MG);而MG患者约半数以上有胸腺瘤或胸腺增生异常 [5] 。恶性肿瘤胸腺瘤是罕见的,胸腺瘤通常发生在中年患者 [6] 。Masaoka临床分期系统将胸腺瘤分为A、AB、B1、B2和B3或混合型,手术切除胸腺是目前治疗该病最有效的手段 [7] ,虽然胸腺瘤不常见且恶性肿瘤发生率低,但胸腺瘤与免疫系统疾病之间有密切关联。基于生物数据库及高通量技术的探究,通过对胸腺瘤发病的相关致病基因及机制通路的检索,揭示出相关基因及其发病机制可能成为胸腺瘤的分子生物标志物和靶向基因治疗目标。
本研究通过GEO基因表达总数据库检索并下载3组胸腺瘤基因芯片数据集,筛选出1259个差异基因(DEGs),然后通过Metascape和STRING在线软件对差异基因进行生物学功能、机制通路分析和蛋白质–蛋白质作用网络构建。其中差异基因所涉及的信号通路有肿瘤坏死因子信号通路、跨膜受体蛋白酪氨酸激酶信号通路、TNF信号通路、PI3K-Akt信号通路、鞘脂类信号通路、Hippo信号通路、钙信号通路、癌症通路、癌症中的转录失调和造血细胞系等。应用在线软件检索和关键基因的PPI网络构建,筛选出30个关键基因。通过UALCAN和GEPIA数据库对致病基因进行验证、生存分析和调控通路研究。通过生存分析验证证实,ITGA4 (P = 0.039)、CD4 (P = 0.03)、THY1 (P = 0.04)、CD1D (P = 0.034)和IL2RB (P = 0.0017)基因均可影响患者总体生存率,提示生物标志物可能成为THY的潜在研究方向。
肿瘤坏死因子(TNF)信号通路:肿瘤坏死因子超家族的成员通过配体介导的三聚体发挥作用,引起多个细胞内适配器的募集,从而激活多种信号转导途径。其中TNF家族蛋白的募集可导致转录因子如NF-kappaB和JNK等激活,从而促进细胞分化、细胞免疫、炎症反应和肿瘤细胞死亡等 [8] [9] [10] 。跨膜受体蛋白酪氨酸激酶信号通路(TPK-Ras-MAPK),其中RAS作为原癌基因,是TPK传递信号的重要部分,非受体酪氨酸蛋白激酶,在胸腺发育中的T细胞的生长增殖功能中起重要作用。PI3K-Akt信号通路属于G蛋白偶联受体(GPCRs)受体调节通路,可调节多种正常的生物学过程。张俊英等认为,PI3K-Akt信号通路通过激活、活化NF-κB,从而介导机体细胞免疫及体液免疫应答,引起相关肺炎疾病 [11] 。Hippo信号通路参与机体细胞的生长、分化、增殖,在肿瘤的病程进展中发挥作用;赵昊等揭示了Hippo信号通路在免疫稳态调控中发挥重要作用 [12] 。
ITGA4 (整合素A4)基因编码一条α4链。研究发现,ITGA4可能参与细胞溶解性T细胞相互作用,参与G蛋白偶联受体信号转导通路、MAPK-Erk信号通路和自噬信号通路等 [13] 。CD4 (T细胞表面糖蛋白)通常位于T细胞内的部分,与T细胞表面的受体互相作用,激活相应免疫细胞并调节免疫作用,放大TCR产生的信号 [14] 。THY-1在细胞迁移、粘附、分化、再生、凋亡、机械转导和细胞分裂中发挥重要作用,因而参与T细胞活化、神经突生长、细胞凋亡、肿瘤抑制、伤口愈合和纤维化等过程 [15] [16] 。
抗原递呈糖蛋白CD1D,CD1家族包括CD1A-CD1E,CD1受限的NKT细胞被抗原刺激后可以通过立即产生大量细胞因子来激活或抑制其他免疫活性细胞,因此,这些细胞被认为是免疫调节剂 [17] ,可结合自身和非自身糖脂并将其呈现给自然杀伤性T细胞上的T细胞受体的抗原呈递蛋白。IL2RB (白细胞介素2受体),隶属I型细胞因子受体家族,通过调控T细胞的活化活性,从而促进T细胞的增长、分化和调节,并积极参与调节机体免疫功能。在大多数肿瘤类型中,研究发现,IL2RB高表达与预后不良相关,提示IL2RB在肿瘤发生、增殖、转移过程中起着重要作用。Li G等认为,IL2RB含量与肿瘤浸润淋巴细胞(如泛癌中的CD8+T细胞、树突状细胞和巨噬细胞)的丰度呈正相关 [18] 。ITGA4、CD4、THY-1、CD1D和IL2RB基因的发病机制与免疫反应相关联,同时其机制通路应需研究验证 [19] 。
6. 结论
综上所述,胸腺瘤(THY)是低度恶性罕见的免疫系统肿瘤,其发病基因机制与免疫系统疾病相互关联。然而,由于基因数据库样本的局限及胸腺瘤实验的欠缺,后期研究仍需要大量样本参数进行验证。基于生物数据库及高通量技术的探究,通过对胸腺瘤发病的相关致病基因及机制通路的探究,揭示ITGA4、CD4、THY-1、CD1D和IL2RB基因可能成为THY的潜在研究方向及其发病机制可能成为新的治疗靶点,亦为THY提供治疗新方向。
NOTES
*通讯作者。