1. 介绍
胃癌作为一种恶性肿瘤发病率仅次于肺癌、乳腺癌、结直肠癌和前列腺癌,同时也是第三大最常见的癌症死亡原因[1]。胃腺癌占所有胃恶性肿瘤的90%以上[2]。目前临床上关于胃腺癌的治疗主要包含全身化疗、放疗、手术、免疫治疗和靶向治疗[3]。有研究指出胃癌根治性手术后病灶可能存在微小残留病灶的标志物,目前正在试图确定包括靶向治疗在内的额外的辅助治疗是否可以清除这些标志物[3]。由此可见继续探索胃腺癌相关的生物学标志至关重要。
Figure 1. Flowchart
图1. 流程图
早在1994年国际癌症研究机构(IARC)便提出“有足够的证据表明幽门螺旋杆菌感染对人类具有致癌性”[4]。幽门螺旋杆菌感染是已知最重要的胃癌危险因素[5]-[7]。有证据指出胃粘膜中的幽门螺旋杆菌相关的长期炎症反应可能导致持续的组织损伤,从而导致远期胃癌的发生,El-Omar等人的研究提出IL1B和IL1RN基因(IL1B编码白细胞介素(IL)-1β和IL1RN编码其天然存在的受体拮抗剂)的多态性与幽门螺旋杆菌相关的胃癌风险升高有关[8] [9]。早期研究发现,并非所有幽门螺旋杆菌菌株感染都导致剧烈的粘膜炎症反应[10]。进一步的研究提示这是因为一部分幽门螺旋杆菌菌株表达细胞毒素相关基因A [10]。后者被认为是一种120 kDa大小的癌蛋白,通过病原体的IV型分泌系统转位到胃上皮细胞中,诱导多个信号级联反应[11] [12]。因此讨论细胞毒素相关基因A与胃腺癌的关系非常重要,而寻找其潜在的生物学靶点可能是突破口之一。
公开的基因表达数据集GSE29998来自于基因表达综合数据库获(GEO)。该数据集包括50个胃腺癌样本和49个匹配的正常粘膜样本。而另一数据库则来自于陈等人的研究成果,在他们的研究中,通过转染胃腺癌细胞,导致细胞毒素相关基因A磷酸化水平升高,并发生细胞形态改变,这提示来自于幽门螺旋杆菌表达细胞毒素相关基因A发挥作用[13]。而后对这些细胞进行了测序,并获得了公开的数据库[13]。Chen等人的研究在细胞水平上指出了细胞毒素相关基因A刺激胃腺癌细胞的潜在基因数据库,而我们的研究是为了进一步在临床样本中探索这些潜在生物学靶点。我们希望能够强调这一点,并绘制了流程图(图1)。
2. 材料方法
2.1. 临床胃腺癌样本相关基因数据集和微阵列数据
GSE29998数据集存在于GPL6947平台99例全部样本来自Tissue Solutions Ltd. (http://www.tissue-solutions.com/)。使用Illumina mRNA表达芯片生成基因表达谱。
2.2. 临床胃腺癌样本中相关差异基因的分析
使用limma包在数据集中筛选疾病组和对照组间的差异表达基因,得到相应的−log10 P. Value值和logFC值,差异阈值设定为:p.val < 0.05&|log2FC| > 1。在疾病组和对照组样本(DN vs Control)共获得540个显著差异表达基因,其中上调基因数量为254个,下调基因为316个,结果中分别展示了上调和下调基因中表达量前10的基因。使用ggplot2包展示基因差异情况。使用“ComplexHeatmap”包绘制热图,结果中展示了差异表达基因中的表达量绝对值前20的基因。
2.3. 细胞毒素相关基因A磷酸化水平升高的胃腺癌细胞与对照组的差异基因分析
根据Chen等人研究所提供的原始数据,差异阈值设定为:p.val < 0.05 & |log2FC| > 2。在疾病组和对照组样本共获得1062个显著差异表达基因,其中上调基因数量为594个,下调基因数量为468个,使用“ComplexHeatmap”包绘制热图(进行了log转换),结果中展示了差异表达基因中的表达量绝对值前20的基因。
2.4. 绘制韦恩图
将DEGs1 (570个基因)与DEGs2 (910个基因,id转换后有重复值)取交集,交集基因记作候选基因,使用R包“VennDiagram”绘制Venn图对结果进行可视化处理。
2.5. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的富集分析
我们对上述得到的差异表达基因基于GO、KEGG通路的富集分析,寻找基因集合内大量基因共同的功能及相关通路。使用统计学方法累计超几何分布分析一组基因在某个功能结点上是否出现(over-presentation)。京都基因与基因组百科全书(KEGG)是了解高级功能和生物系统(如细胞、生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立,是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称。基因本体论(gene ontology, GO)系统包括三个部分:生物学过程(biological process, BP)、分子功能(molecularfunctions, MF)、细胞组分(cellular components, CC)。我们使用R包“clusterProfiler”进行GO和KEGG功能富集分析,寻找差异表达基因集合内大量基因共同的功能及相关通路。
2.6. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的
蛋白质–蛋白质相互作用及相关性分析
蛋白质相互作用网络是以蛋白质作为节点,参与同一代谢途径、生物学过程、结构复合体、功能关联或蛋白质间的物理接触作为边的网络。目前来讲,蛋白质互作网络是被研究最充分的生物分子网络之一。蛋白质是组成生物体并行使生物功能的重要生物大分子。蛋白质通过相互作用构成网络来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。因此,蛋白质互作网络对于理解细胞网络结构及功能,以及疾病发生发展的基础至关重要。为了探究差异基因之间是否存在互作关系,我们利用STRING (https://string-db.org)网站置信度为0.4 (confidence = 0.4),预测交集基因的互做关系。
2.7. 统计分析
使用R软件(4.0.0版)对生物信息学数据进行统计分析。Student t检验用于评估临床样本中的基因表达水平。P值 < 0.05表示差异具有统计学意义。
3. 结果
3.1. 临床胃腺癌样本中相关差异基因的回顾性分析
在疾病组和对照组样本(DN vs Control)共获得540个显著差异表达基因,其中上调基因数量为254个,下调基因为316个,火山图和热图中分别展示了上调和下调基因中表达量前10的基因(图2(A)和图2(B))。
注:图2为GSE29998差异性分析,疾病组和对照样本DEG的鉴定。图A差异表达基因的火山图,此时横轴为log2FC,纵轴为−log10 (P.val),每一个红点代表一个上调基因,每一个蓝点代表一个下调基因;图B差异表达基因的热图,红色和蓝色分别表示具有高、低表达水平的差异表达基因,左侧树状图表示对来自不同基因的聚类分析结果。
Figure 2. Analysis of related differentially expressed genes in clinical gastric adenocarcinoma samples
图2. 临床胃腺癌样本中相关差异基因的分析
3.2. 细胞毒素相关基因A磷酸化水平升高的胃腺癌细胞与对照组的差异基因分析
在疾病组和对照组样本共获得1062个显著差异表达基因,其中上调基因数量为594个,下调基因数量为468个,同时绘制了火山图和热图,结果中展示了差异表达基因中的表达量绝对值前20的基因(图3(A)和图3(B))。
注:图3为Cheng等人研究结论中数据库的差异性分析。图A差异表达基因的火山图,此时横轴为log2FC,纵轴为−log10 (P.val),每一个红点代表一个上调基因,每一个蓝点代表一个下调基因,图B差异表达基因的热图,红色和蓝色分别表示具有高、低表达水平的差异表达基因,左侧树状图表示对来自不同基因的聚类分析结果。
Figure 3. Analysis of differential genes between gastric adenocarcinoma cells with elevated phosphorylation level of cytotoxin-related gene A and the control group
图3. 细胞毒素相关基因A磷酸化水平升高的胃腺癌细胞与对照组的差异基因分析
3.3. 绘制韦恩图
注:图4将DEGs1 (570个基因)与DEGs2 (910个基因,id转换后有重复值)取交集,交集基因记作候选基因。
Figure 4. Venn diagrams of the two databases
图4. 两数据库的韦恩图
将两个差异数据集取交集,交集基因记作候选基因,共得到18个基因为候选基因:Collagen type I alpha 1 (COL1A1), tissue inhibitor of metalloproteinase 1 (TIMP1), Sushi repeat-containing protein X-linked 2 (SRPX2), NEDD4-like E3 ubiquitin protein ligase (NEDD4L), Rap1 GTPase-activating protein (Rap1GAP), Superoxide dismutase 2 (SOD2), syntaxin-16 (STX16), tubulin-binding cofactor B (TBCB), Sorbin and SH3 domain-containing protein 2 (SORBS2), Plasmolipin (PLLP), RAD51-associated protein 1 (RAD51AP1), Insulin-like growth factor-binding protein 7 (IGFBP7), Homeobox C6 (HOXC6), anterior gradient protein 2 (AGR2), Interferon-stimulated gene product 15 (ISG15), NK6 Homeobox 2 (NKX6-2), glutathione S-transferase mu 3 (GSTM3), phospholipase A2 group IIA (PLA2G2A)。占总比例的1.2% (图4)。
3.4. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的富集分析
注:图5候选基因的GO分析。A图为八卦图,最外圈中蓝色代表生物学过程(BP),黄色代表细胞成分(CC),红色代表功能(MF);第三圈代表的是通路中富集到的基因数量;第二圈代表的是富集到的基因上调和下调基因的占比;B图为气泡图,横坐标为注释通路的基因个数,纵坐标为通路,颜色是以p.adjust的值来决定的。
Figure 5. GO enrichment analysis of differentially expressed genes associated with Helicobacter pylori cytotoxin-related gene A in clinical gastric adenocarcinoma samples
图5. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的GO富集分析
注:图6候选基因在KEGG通路分析,A图为弦图,左侧代表候选基因,右侧代表富集程度最高的五条通路,弦连接着相关的元素,弦的宽度表示关系的强度。B图为气泡图,横坐标为注释通路的基因个数,纵坐标为通路,颜色是以p.adjust的值来决定的。
Figure 6. KEGG enrichment analysis of differentially expressed genes associated with helicobacter pylori cytotoxin-related gene A in clinical gastric adenocarcinoma samples
图6. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的KEGG富集分析
使用“clusterProfiler”和“GOplot”包对18个交集基因进行GO富集和KEGG富集分析,其中GO分析筛选标准为p.adjust < 0.05,结果显示共富集了262条GO通路,其中生物学过程(BP)有223条(结果展示了TOP3,下同),主要在细胞对非生物刺激的反应(cellular response to abiotic stimulus)、细胞对环境刺激的反应(cellular response to environmental stimulus)、对辐射的反应(response to radiation)等生物学过程显著富集;细胞组分(CC)有12条,主要在含胶原蛋白的细胞外基质(collagen-containing extracellular matrix)、内质网腔(endoplasmic reticulum lumen)及纤维胶原三聚体(fibrillar collagen trimer)等细胞成分显著富集;分子功能(MF)有27条,主要在生长因子结合(growth factor binding)、细胞外基质结构成分(extracellular matrix structural constituent)及蛋白酶绑定(protease binding)等分子功能显著富集(图5(A)和图5(B))。
KEGG富集分析筛选标准为p.adjust < 0.05,共富集到8条KEGG通路,主要富集于化学致癌-活性氧(chemical carcinogenesis-reactive oxygen species)、亚麻酸代谢(alpha-Linolenic acid metabolism)、亚油酸代谢(linoleic acid metabolism)、囊泡运输中的SNARE相互作用(SNARE interactions in vesicular transport)及醛固酮调节的钠重吸收(aldosterone-regulated sodium reabsorption)等。利用“clusterProfiler”R包进行可视化(图6(A)和图6(B))。
3.5. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的
蛋白质–蛋白质相互作用及相关性分析
蛋白质–蛋白质相互作用网络(PPI, protein-protein interaction)分析显示只有少量分候选基因中存在着密切的相互作用(图7)。而处于枢纽地位的是COL1A1。因此我们认定COL1A1可能是幽门螺旋杆菌通过细胞毒素相关蛋白A参与胃腺癌进程的关键靶点。
注:图7每一个圆点代表一个差异表达的主动脉夹层中细胞焦亡相关的候选基因,蓝色代表显著下调的候选基因,红色代表显著上调的候选基因,与其他候选基因间的桥对最多的,则被认为是处于核心位置。
Figure 7. Protein-protein interaction and correlation analysis of differentially expressed genes associated with Helicobacter pylori cytotoxin-related gene A in clinical gastric adenocarcinoma samples
图7. 临床胃腺癌样本中幽门螺旋杆菌细胞毒素相关基因A关联的差异表达基因的蛋白质–蛋白质相互作用及相关性分析
4. 讨论
幽门螺旋杆菌是一种具有螺旋弯曲的形状和鞭的微需氧革兰阴性芽孢杆菌,定植于人胃上皮表面。幽门螺旋杆菌的感染率在世界范围内已超过50%,被认为是包括胃腺癌在内的消化道疾病的高危因素[14] [15]。值得一提的是幽门螺旋杆菌耐药性是世界性的难题[14]。因此如何阻断幽门螺旋杆菌的毒性是值得探讨的话题。鉴于表达细胞毒素相关基因A的幽门螺旋杆菌对于胃粘膜具有强烈的炎性刺激作用,因此寻找细胞毒素相关基因A在胃腺癌中发挥作用的靶点意义重大[10] [13]。
COL1A1又称I型胶原alpha 1,是胶原蛋白家族的一员,参与上皮–间充质转化,在多种恶心肿瘤中高表达[16]。其本质是一种异源三聚体分子,由两条α1(I)链和一条α2(I)链组成[17]。胶原蛋白是细胞外基质的主要成分,是正常组织功能的重要组成部分;它在维持组织和器官的稳定性和完整性方面起着至关重要的作用[16]。根据COL1A1的功能,有可能是因为其改变了细胞外基质的构成,从而为胃腺癌的转移和入侵提供了协助,但其与幽门螺杆菌细胞毒素相关蛋白A的具体互作关系尚不得知。有研究指出COL1A1的过表达通过SMAD3激活了TGF-β信号通路,胃腺癌中过量的COL1A1可能通过激活TGF-β信号通路显著增强了其迁移和侵袭能力,这一结论符合也符合细胞外基质的功能[18]。通过TGF-β信号通路,COL1A1促使腺癌细胞获得间充质表型,这最终增强了胃腺癌的入侵能力[18]。Li等人的文章指出,在胃腺癌中COL1A1的表达量与生存率呈负相关,可能可以作为胃腺癌的潜在生物学靶点,这与我们的研究结论相互支持[16]。此外,COL1A1高表达水平的胃腺癌细胞通过靶向抑制miR-129-5p和miRNA let-7i发挥的保护作用获得更强的增殖能力和迁徙能力[16] [19]。目前,COL1A1在胃腺癌领域的研究相对不足,但这在未来将是一个非常有前景的方向[16]。总之我们的研究首次通过生物信息学分析,在已有研究的基础上提出胃腺癌中的高表达的COL1A1很可能来自于表达细胞毒素相关基因A的幽门螺旋杆菌这一结论。
本研究存在一些局限性,首先,我们缺乏具体的机制研究来讨论COL1A1是如何具体与来自于幽门螺旋杆菌的细胞毒素相关基因A相互作用的。其次,由于临床样本相比单纯的胃腺癌细胞更加复杂,所以可能有很多潜在靶向基因被忽略了,这需要通过更大样本量的测序工作来完善。
NOTES
*通讯作者。