1. 引言
乳腺癌是女性最常见的恶性肿瘤性疾病,乳腺癌的发病机制尚不明确,其发生特点多因素、多步骤、错综复杂,随着乳腺癌样本数据的产生和计算机技术的快速提高,生物信息学这一新兴学科得到迅速发展。所以通过生物信息学方法找到乳腺癌中与发病机制有关的靶点,无疑是一种快速便捷的方法。通过NCBI内的GEO数据库运用生物信息学方法筛选出与乳腺癌的核心基因,对其中一个核心基因EGFR进行生物信息学分析,并进一步深入研究该基因在乳腺癌中产生的通路效应与生物功能。
2. 材料及方法
2.1. 材料
利用NCBI网站提供的GEO数据库,选取GSE124646数据集,数据样本中包含10组(一组十个)不同癌细胞比例的样本,本实验采用了该数据集中两组数据(100%正常细胞与100%癌细胞)共20个数据按照完全正常与完全癌化分为两组[1]。
2.2. 方法
2.2.1. 差异基因的筛选
将两组样本数据导入R语言(3.6.1版本)中,确定两组数据无重复性,运用数据包(limma)得到基因表达列表与探针芯片结合产生的基因表达矩阵,以|LogFC| > 2且P < 0.05为筛选标准,运用统计学方法获取差异基因[2]。将上调基因与下调基因分别运用String (https://string-db.org/)和Cytoscape (3.7.1版本)进行网络互作挑选表达最清晰的一组,下调基因表达更完整选择联通度最高的基因EGFR对该基因表达的蛋白质进行分析并分析包含该基因的通路[3]。
2.2.2. 蛋白质结构与理化性质分析
对于EGFR编码的蛋白使用ExPASy在线工具对蛋白质分子量、等电点、疏水性等理化性质分析得到其物理性质(ExPASy, https://web.expasy.org/),使用SOPMA在线工具预测蛋白质二级结构(SOPMA, https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html),使用SignalIP在线工具预测其信号肽及剪切位点证明其是否跨膜(SignalIP, http://www.cbs.dtu.dk/services/SignalP/),对于蛋白质功能域受体的预测通过PFAM (https://pfam.xfam.org/)与SMART (http://smart.embl-heidelberg.de/)两种方法对比详细预测该蛋白的功能域位点[3]。
2.2.3. KEGG与GO通路富集分析
在R语言中对挑选出的差异基因进行KEGG与GO基因富集通路,两种方法得出更详细的基因功能[2],运用Cytoscape进行通路可视化,寻找关于EGFR基因的信号通路,对EGFR在这些通路中起到的作用及其功能进行描述,了解差异基因所具有的生物学意义以及参与的重要生物学途径。
2.2.4. 生存曲线分析
使用Kmplot (http://kmplot.com/analysis/)数据库分析通路中有关基因表达水平与无复发生存率(RFS)的关系,数据以危险比(HR)和95%可信区间(95%CI)显示这些基因与乳腺癌相关的生存曲线[4]。
3. 结果
3.1. 差异基因的表达
在R语言中导入的两组数据首先进行数据处理证明两组数据不重复,构建实验矩阵并使其实验数据标准化,选用数据包(limma)得到差异基因的统计学数据,选择GPL570探针包转换探针名得到基因id和基因名称,在热图(见图1)中显示差异基因得到明显的上调与下调模块,差异基因用火山图(见图2)表示,显示差异基因上调128个(adj.p.val < 0.05 & logFC > 2),下调258个(adj.p.val < 0.05 & logFC < −2),共386个。分别提取出上调与下调基因进行String与Cytoscape 蛋白网络互作分析,将两组基因分别输入到String在线软件分析中得到蛋白质的相互作用包括直接物理相互作用和间接的功能相关性,形成蛋白互作网络图,并使用Cytoscape 进行蛋白质网络可视化处理得到两组蛋白质网络图显示出连通度最高的基因CDK1,KIAA0101,TOP2A,EGFR,IGF1等(见表1),选择下调基因网络互作图中连通度高的EGFR基因进行生物信息学分析。
Figure 1. Heatmap showing gene comparison and cluster analysis
图1. 热图显示基因对比与聚类分析
Figure 2. Volcano plot showing up-regulated and down-regulated genes
图2. 火山图显示上调与下调基因
Table 1. Protein connectivity of gene expression
表1. 基因表达的蛋白连通度
上调基因 |
下调基因 |
CDK1 |
39 |
BIRC5 |
35 |
EGFR |
38 |
FOS |
22 |
KIAA0101 |
36 |
KPNA2 |
35 |
IGF1 |
31 |
LPL |
20 |
NUSAP1 |
35 |
TOP2A |
35 |
LEP |
28 |
ADIPOQ |
19 |
BUB1 |
35 |
NURKA |
35 |
PPARG |
26 |
CXCL12 |
18 |
CDC20 |
35 |
FOXM1 |
35 |
JUN |
26 |
EGR1 |
17 |
3.2. 蛋白质性质
EGFR基因表达的蛋白质是一种酪氨酸激酶受体(receptor tyrosine kinase, RTK),该家族成员主要包括4 种跨膜受体其中EGFR属于人表皮生长因子受体1。EGFR家族的配体主要有EGF、TGFα、AREG、BTC等配体家族[5] [6]。
3.2.1. 蛋白质的基本理化性质及其疏水性分析[5]
利用ExPOSy在线工具对EGFR及其蛋白序列分析,其由1210个氨基酸组成,相对分子量为134277.4,等电点为6.26。该蛋白的半衰期在哺乳动物网织红细胞中约为30 h;不稳定指数为44.59,为不稳定蛋白;脂肪指数为80.74,平均亲水系数为−0.316,预测为疏水蛋白[6]。
3.2.2. 蛋白质结构预测
通过SOPMA在线工具预测蛋白质二级结构预测发现α螺旋占27.27%,延长链占15.54%,无规则卷曲占51.49%。通过SignalIP工具预测其信号肽及剪切位点为信号肽的可能性为99.69%。通过PFAM与SMART两个工具对比得出其蛋白质功能域共四种:受体L域(Recep_L_domain),类呋喃半胱氨酸富集区(Furin-like),生长因子受体域IV (GF_recep_IV),蛋白质酪氨酸激酶(Pkinase_Tyr) [7]。
3.3. 基因通路富集
通过R语言分析下调基因的KEGG与GO富集通路,通过数据包(clusterProfiler)和(org.Hs.eg.db)进行KEGG和GO通路富集分析,通过(adj.p.val < 0.05)选择出36条基因通路(见图3),关于EGFR基因的通路KEGG有3条(见图4),GO通路有11条(见图5),运用Cytoscape软件进行通路可视化得到通路富集图。
在KEGG通路图中包含PI3K-Akt signaling pathway (hsa04151)、Focal adhesion (hsa04510)、MAPK signaling pathway (hsa04010)三种通路,关联最高的基因为EGFR,PDGFD,PDGFRA,IGF1 [4]。
Figure 3. KEGG and GO pathway gene enrichment pathways
图3. KEGG与GO通路基因富集通路
Figure 4. KEGG pathway of EGFR gene
图4. EGFR基因的KEGG通路
Figure 5. GO pathway of EGFR gene
图5. EGFR基因的GO通路
三种通路中EGFR等基因会激活生长因子(GF)与生长因子受体(RTK)相结合,该过程在三种通路主要以RTK-Grb-2-Rass-Raf-ERK途径影响三种通路的过程。当RTK结合时激活酪氨酸激酶,通过衔接蛋白将信号传递给Ras蛋白,使RAF被活化在通过其磷酸化激活促分裂原激活的蛋白激酶的激酶(MEK)、促分裂原激活的蛋白激酶(ERK)等,ERK进一步被转运使ELK-1、SAP等转录因子磷酸化调节SRF蛋白,参与细胞发育、生长、增殖、分化等多种生理、病理过程[8]。
PI3K-Akt信号通路(hsa04151)中GF与RTK结合后会激活磷脂酰肌醇-3-激酶(PI3K)与PI3K结合时,会活化蛋白激酶B (protein kinase B, PKB/Akt),活化的Akt可影响细胞凋亡,细胞周期,糖酵解等过程[9]。两者结果相似会使信号传至细胞核内,使得核内转录因子磷酸化,启动靶基因的转录,最终导致细胞增殖、血管生成、DNA修复等一系列生物学过程[10]。
MAPK信号通路(hsa04010)中当RTK结合时伴随Ras蛋白激活与MEKK1产生作用,从而激活MAP2K异构体MKK4,使c-Jun N端激酶(JNK)磷酸化。活化后的JNK会提高AP-1的转录活性,促进DNA的表达和蛋白质的合成。JNK与p38可共同使ELK-1,ATF-2等转录因子发生磷酸化进而影响P53信号通路[8] [11]。
Focal adhesion通路(hsa04510)中RTK结合信号因子时会使粘附斑激酶(FAK)产生一系列的效应,其复合体与衔接子蛋白结合,活化下游JNK,而JNK活化转录因子C-Jun从而调控细胞增殖与分化。FAK磷酸化后与PI3K结合,活化下游蛋白激酶B,促进细胞周期进展及细胞增殖[12]。FAK信号通路中当RTK结合时还会造成多种通路对于肌动蛋白骨架调节通路有一定影响,FAK通过磷酸化使得Src、Calpain、paxillin等蛋白激活,而这些蛋白最后使得actin蛋白激活造成应力纤维形成,丝状伪足,板状伪足形成等生物学效应[13]。
在GO通路中显示关于细胞组分,生物过程和分子功能三个方面GO富集通路,在细胞中主要功能作用于细胞膜区域如:膜筏、膜微结构域、膜区等;其分子功能主要有:跨膜受体蛋白激酶活性,整合素结合,跨膜受体蛋白酪氨酸激酶活性等,生物学过程包括类固醇激素反应,平滑肌细胞增殖及其调节,酸性化学反应,肌肉细胞增殖,关联高的基因有TGFBR2,KLF4,PPARG,FGFR2,CAV1,CD36,TGFBR3,PDGFD,IGF1,ADIPOQ,CX3CL1等。
在KEGG和GO两类通路中挑选出14条通路,其中在KEGG和GO两类都存在的基因有EGFR,CAV1,PDGFRA,KIT,TGFBR2,JUN,PPP2R1B,PDGFD,IGF1,NTRK2,DUSP1,FGFR2,FOS共13种基因。
3.4. 十三种基因在乳腺癌中的生存曲线
在Kmplot数据库中检索通路中显示的十三个基因寻找其与RFS的关系,十一种显示3955例,两种显示1764例,分析所有有关数据,选择最佳截止时间从而得到其生存曲线(见图6)显示出十三种基因表达水平对于乳腺癌患者具有极高的影响[14] (FOS同为CAV1;PPP2R1B同为PR65B)。其中十三种基因的log rank P < 0.05证明十三种基因具有意义。
Figure 6. Survival curves of thirteen genes
图6. 十三种基因的生存曲线
4. 讨论
本实验运用生物信息学方法探索乳腺癌核心基因从而探究该基因在乳腺癌的机制,提高了肿瘤基因定位的准确性,预测肿瘤的转移与否和预后判断有重要意义。通过GEO数据库比较乳腺癌肿瘤组织和正常组织对比,寻找肿瘤特异性表达基因,并研究这些基因富集的通路。我们筛选出乳腺癌差异基因EGFR,并通过生物信息学方法预测了该基因表达的蛋白质基本性质及该基因影响的主要通路及其作用,根据其信号肽预测表现出该蛋白可能是一种跨膜信号蛋白,配合其四种功能域的作用及理化性质分析出该蛋白应该属于受体型,且酪氨酸激酶与磷酸化有相关性反应确定该蛋白为酶偶联型受体。通过检索NCBI数据库得出EGFR是位于人体7p13-q22染色体上的酪氨酸蛋白激酶受体。与通路分析的结果相对应[15]。
表皮生长因子受体(Epidermal Growth Factor Receptor, EGFR)作为受体酪氨酸激酶家族的重要成员,其异常激活与多种肿瘤的发生发展密切相关。在乳腺癌中,EGFR的过表达或突变通过调控多条信号通路,影响肿瘤细胞的增殖、存活、侵袭和转移[16]。
通过PI3K-Akt signaling pathway (hsa04151)、Focal adhesion (hsa04510)与MAPK signaling pathway (hsa04010)三种通路得知关于EGFR基因的主要通路为RTK-Ras-ERK通路,其在三类通路中主要影响细胞的增殖与分化等功能[15]。EGFR基因作为上游基因影响三类通路中绝大多数的信号通路,其在PI3K通路和MAPK通路中介导的中间产物影响其他通路的反应。例如,在HER2阳性乳腺癌中,EGFR与HER2的异源二聚化可激活PI3K-Akt通路,导致对曲妥珠单抗等靶向药物的耐药。此外,EGFR信号还可通过激活STAT3通路,促进肿瘤干细胞(CSCs)的自我更新和分化,导致肿瘤的复发和耐药[17]。这三类通路与GO分析共同显示出通过与生长因子的结合影响细胞的转移,分化,增殖,周期调控等一系列生物学功能,在某些细胞中应起到协同作用。
通路P53 signaling pathway (hsa04115)和cell cycle (hsa04110)是三条通路的进一步结果[18]。三条通路主要调控细胞周期,PI3K信号通路中其通过影响下游信号因子影响细胞周期的凋亡[19],MAPK途径参与细胞周期中的细胞增殖与细胞凋亡发挥重大作用,而黏着斑通路影响PI3K与MAPK两条通路从而在细胞周期的增长、凋亡的过程中发挥了极为重要的作用[15] [20]。P53信号通路是通过防止细胞应激或DNA损伤引起的突变来保持基因组的稳定性,其与多种信号通路相互作用来稳定基因组,从而调节多种细胞过程,包括凋亡、衰老、细胞周期阻滞、分化、DNA修复和复制与cell cycle信号通路进一步呼应[21]。
通过生存曲线的显示基因表达在乳腺癌的影响巨大,对于肺癌、卵巢癌、宫颈癌、前列腺癌、膀胱癌等其他癌症的研究中发现,因EGFR信号通路传导失调所引起的肿瘤占相当大的比重。另外,EGFR基因的失调可促进肿瘤细胞的增殖、肿瘤血管生成、黏附、侵袭、转移和肿瘤细胞的凋亡等生物学机制,侧面验证了其对于细胞周期调控有关,预测EGFR在原发性乳腺癌的发生、发展和迁移中起着重要的作用。EGFR通过调控多条信号通路,在乳腺癌的发生、发展及耐药过程中发挥关键作用。深入解析EGFR的分子机制,可为开发更有效的靶向治疗策略提供理论依据。未来的研究需进一步探讨EGFR与其他信号通路的交叉对话,以及其在肿瘤微环境中的动态调控作用。