1. 引言
肌肉减少症(sarcopenia)又称肌少症,是一种常见的老年综合征,其特征为肌肉量减少、质量下降和躯体功能的减退[1],该病典型的临床表现为肌力下降、行走困难和四肢纤细等。越来越多的研究表明[2],肌少症与多种不良后果密切相关,包括增加老年人跌倒、骨折、躯体功能障碍的风险。在老龄化社会背景下,肌少症已成为全球面临的一个公共卫生挑战[3]。肌少症不仅会增加老年人的住院率和医疗成本,还会严重影响患者的生活质量,甚至缩短寿命[4]。因此,对肌少症的早期识别和干预至关重要,这不仅有助于改善老年人的生活质量,还能减轻医疗保健系统的负担[5]。由于肌少症的发病机制复杂,目前尚未完全明确其机制,虽然部分研究揭示了其发病的关键因素,但确切的发病机制仍在不断探索中。
生物信息学在识别疾病多通路和多靶点方面呈现出显著优势,不仅能通过大规模数据分析,还可以探讨多个信号通路的相互作用[6]。因此,本研究基于基因表达综合数据库(gene expression omnibus, GEO)中肌少症患者的数据进行相关生物信息学分析。随后对差异表达基因进行深度筛选,识别在肌少症发展过程中可能具有潜在作用的关键基因,进一步探讨肌少症的关键分子机制,为肌少症治疗方案的开发提供新思路。
2. 材料与方法
2.1. 数据来源
GEO数据库是由美国国家生物技术信息中心(NCBI)维护的一个公共数据库,专门用于存储和共享各类型的高通量基因,不仅可以进行差异基因的表达分析,而且还可以对特征基因进行筛选再分析。在GEO数据库(http://www.ncbi.nlm.nih.gov/gen/ [7])以“sarcopenia”为检索词,下载GSE1428数据集矩阵文件。GSE1428源于GPL96平台[(HG-U133A) Affymetrix Human Genome U133A Array],其中该数据集包括22个样本,有10名(19至25岁)和12名(70~80岁)男性大腿肌肉样本。
2.2. 差异基因筛选与可视化
通过GEO query包,读取GSE1428数据集并去除一个探针对应多个分子的探针,随后利用R语言中的limma包对原始数据进行背景校正,并采用箱线图和密度分布图进行质量控制,剔除异常样本。数据经过分位数归一化处理,以保证不同样本之间的表达水平具有可比性。之后,通过主成分分析(principal component analysis, PCA)检查样本间整体分布的一致性,结果显示样本间分布较为集中,表明数据处理流程规范可靠。最后以|logFC| > 1.5 (差异倍数)、P < 0.05为条件进行差异表达基因的筛选,并对符合条件的差异表达基因使用ggpubr包绘制火山图和pheatmap包绘制热图。
2.3. 蛋白–蛋白相互作用分析(PPI)及Hub基因的筛选
从GEO数据库获取差异靶点数据后,将其导入至STRING数据库(https://cn.string-db.org/ [8]),种属选择“Homo sapiens”,以获取靶点间的蛋白质PPI互作网络并下载“tsv”文件,为后续分析做好准备。将该文件“tsv”导入Cytoscape3.7.1软件开展蛋白质PPI可视化分析。借助Cytoscape3.7.1软件内置插件CytoHubba进行差异基因的筛选,此插件涵盖12种算法,随机选取6种算法进行分析,每种算法分别计算出排名前20个核心基因。并将6种算法的结果取交集得到关键Hub基因,并对其基因进行可视化。
2.4. GO及KEGG通路富集分析
将筛选的关键Hub基因导入到DAVID数据库(http://david.ncifcrf.gov/ [9]),以“Homo sapiens”及“P < 0.05”为筛选条件,进行GO富集分析与KEGG通路富集分析。其中,GO富集分析主要包括生物过程(biological process, BP)、细胞组成(cellular component, CC)和分子功能(molecular function, MF)。随后,通过微生信在线平台(https://bioinformatics.com.cn/)对筛选结果绘制气泡图,来展示富集的GO条目和KEGG相关通路。
3. 结果
3.1. GEO芯片差异性分析结果
通过R语言对GSE1428数据集进行预处理并绘制归一化箱式图和各组主要成分分析图(PCA)、通过归一化箱式图和PCA图可知,GSE1428样本数据分布较为一致,并且能直观展示样本的分布和聚类情况,从
Figure 1. Normalized box plot and principal component analysis (PCA) plot; (A) normalized box plot: display the normalized results of GEO chip data, and show the distribution of different samples through box plots; (B) PCA diagram: Based on PCA, dimensionality reduction is performed on sample data to visualize the differences and clustering between different samples
图1. 归一化箱式图和主要成分分析(PCA)图;(A) 归一化箱式图:展示GEO芯片数据的归一化结果,通过箱式图展示不同样本的分布情况;(B) PCA图:基于PCA对样本数据进行降维,以可视化不同样本间的差异性和聚类情况
而保证后续分析的准确性和可比性(图1(A),图1(B))。火山图以|logFC| > 1.5、P < 0.05为条件筛选出差异表达基因898个,其中上调基因469个,下调基因429个,将排名前100名的基因绘制热图(图2(A),图2(B))。
3.2. PPI网络构建及关键基因的选择
将筛选出的差异基因导入到STRING数据库,选择“Homo sapiens”作为物种,生成PPI (蛋白质相互作用)网络,并将数据以“tsv”格式导出。然后,将该文件导入Cytoscape3.7.1软件,并去除不与其他蛋白质相互作用的节点,最终获得760个节点和3691条边(图3)。接着,使用CytoHubba插件中的12种算法随机选取其中6种算法(Betweenness, BottleNeck, Closeness, Degree, EPC, MNC),对网络中的基因进行评分,筛选出每种算法排名前20的关键基因(表1)。为进一步缩小关键基因的范围,对上述6种算法筛选出的基因取交集,并绘制交集的韦恩图。最终确定了8个关键基因,包括细胞周期蛋白D1 (cyclin D1, CCND1)、细胞色素C (cytochrome C, CYCS)、β-肌动蛋白(actin beta, ACTB)、丝裂原活化蛋白激酶8 (mitogen-activated protein kinase 8, MAPK8)、H3.3组蛋白B (H3.3 histone B, H3-3B)、Jun原癌基因(jun proto-oncogene, JUN)、类胰岛素生长因子1 (insulin-like growth factor 1, IGF1)、Cullin蛋白(cullin7, CUL7),这些基因被选定为肌少症研究中的核心候选基因(图4)。
Figure 2. DEGs analysis of GSE1428 dataset; (A) Volcano diagram of differentially expressed genes: red represents upregulated genes, blue represents downregulated genes; (B) The heatmap of the top 100 differentially expressed genes displays clustering and differential features between samples
图2. GSE1428数据集的DEGs分析;(A) 差异基因火山图:红色代表上调基因,蓝色代表下调基因;(B) 差异基因前100的热图显示样本间的聚类和差异特征
Table 1. Top 20 core genes under 6 algorithms
表1. 6种算法下的前20位核心基因
Betweenness |
BottleNeck |
Closeness |
Degree |
EPC |
MNC |
MAPK8 |
MAPK8 |
MAPK8 |
MAPK8 |
MAPK8 |
MAPK8 |
H3-3B |
H3-3B |
H3-3B |
H3-3B |
ATP5MC3 |
H3-3B |
ACTB |
ACTB |
ACTB |
ACTB |
H3-3B |
ACTB |
PRL |
WNT5A |
NFKBIA |
CDKN1A |
ACTB |
NFKBIA |
PHGDH |
PHGDH |
CDKN1A |
FOXO3 |
CDKN1A |
CDKN1A |
CCND1 |
POSTN |
IRS1 |
CCND1 |
FOXO3 |
CCND1 |
ANK1 |
DDX17 |
PHGDH |
CEBPB |
PDHA1 |
CEBPB |
CEBPB |
CCND1 |
FOXO3 |
MRPL13 |
CCND1 |
MRPL13 |
POLR2A |
POLR2A |
CCND1 |
CYCS |
ATP5PD |
CYCS |
MRPL13 |
MRPL13 |
CEBPB |
ATP5F1B |
CEBPB |
ATP5F1B |
IQGAP1 |
CUL7 |
STAT5A |
CUL7 |
MRPL13 |
CUL7 |
CYCS |
CYCS |
CYCS |
CALML4 |
CYCS |
CALML4 |
CUL7 |
CALML4 |
CUL7 |
UQCRFS1 |
ATP5F1B |
UQCRFS1 |
ATP5F1B |
JUN |
ATP5F1B |
JUN |
CUL7 |
JUN |
CALML4 |
CYC1 |
CALML4 |
CYC1 |
UQCRFS1 |
CYC1 |
JUN |
SQSTM1 |
JUN |
ATP5F1C |
JUN |
MRPL4 |
TFRC |
TFRC |
PGK1 |
SUCLG1 |
CYC1 |
ATP5F1C |
COPS5 |
COPS5 |
TFRC |
TFRC |
ATP5F1C |
SUCLG1 |
IGF1 |
IGF1 |
IGF1 |
IGF1 |
SUCLG1 |
IGF1 |
PIK3R1 |
PIK3R1 |
PIK3R1 |
PIK3R1 |
IGF1 |
PIK3R1 |
注:节点代表蛋白质,节点之间的连线代表两个蛋白之间的相互作用。
Figure 3. Visualization of protein-protein interactions of differentially expressed genes in 22 samples of sarcopenia
图3. 肌少症22个样本中差异基因的蛋白质-蛋白质相互作用可视图
Figure 4. Gene Venn diagrams and core genes of 6 algorithms; (A) Gene Venn diagram selected using 6 algorithms; (B) Eight Hub genes were selected based on six algorithms
图4. 6种算法的基因韦恩图和核心基因;(A) 使用6种算法筛选出的基因韦恩图;(B) 根据6种算法筛选出的8个Hub基因
3.3. GO及KEGG富集分析
将上述筛选出的8个基因导入DAVID在线平台,进行GO和KEGG富集分析。在GO富集分析中,BP共富集到10个条目,其中包含血管相关平滑肌细胞增殖的正性调节(positive regulation of vascular associated smooth muscle cell proliferation, PRVS)、细胞对活性氧的反应(cellular response to cadmium ion, CRROS)、蛋白结合的负调控(negative regulation of protein binding,NRPB)、DNA模板转录的正调控(positive regulation of DNA-templated transcription, PRDTT)和细胞周期的调控(regulation of cell cycle, RCC)等;CC富集到4个条目,包括细胞核(nucleus, NUC)、核质(nucleoplasm, NP)、核小体(nucleosome, NUCL)和细胞质溶胶(cytosol, CYT);MF富集到4个条目,包括酶结合(enzyme binding, EB)、核小体DNA结合
Figure 5. GO enrichment analysis KEGG enrichment analysis; (A) GO enrichment analysis chart: The enrichment results of target genes in biological processes, molecular functions, and cellular components; (B) KEGG enrichment analysis chart: the involvement of genes in different metabolic and signaling pathways
图5. GO富集分析KEGG富集分析;(A) GO富集分析图:目标基因在生物学过程、分子功能和细胞组分方面的富集结果;(B) KEGG富集分析图:基因在不同代谢和信号通路中的参与情况
(nucleosomal DNA binding, NDB)、组蛋白去乙酰化酶结合(histone deacetylase binding, HDB)和蛋白结合(protein binding, PB)。在KEGG富集分析中,共得到20个条目,主要包含糖尿病并发症中AGE-RAGE信号通路(AGE-RAGE signaling pathway in diabetic complications, AGE-RAGE)、p53信号通路(p53 signaling pathway, p53)、FoxO信号通路(FoxO signaling pathway, FoxO)、催产素信号通路(Oxytocin signaling pathway, OXY)等。最终,利用微生信在线平台对这些结果进行可视化展示(图5)。
4. 讨论
肌少症是一种与衰老相关的综合征,随着年龄的增长,骨骼肌量和肌力逐渐下降,不仅增加了老年人跌倒、骨折和住院的风险,还严重影响老年人的生活质量和独立性。研究表明,肌少症影响着世界上5%~13%的老年人[10],即使以保守估计,其患病率目前仍影响着5000多万人,且在未来几十年内,这一数字可能会超过2亿[11]。目前,临床上主要通过运动干预疗法治疗肌少症患者,包括阻力训练、平衡和功能训练以及有氧运动。然而,由于各种原因,实施运动干预面临较大的挑战性。首先,老年患者的基础疾病和体能状况各不相同,这对个性化干预方案的设计提出了难题;其次,长期运动干预需要患者的高度依从性,但部分患者因体力不足、意识薄弱或经济条件限制而难以坚持干预[12] [13]。因此,临床亟需要提升肌少症的诊断水平及后续的治疗措施。
生物标志物作为疾病筛查、分层、预后及治疗决策的重要工具,在疾病的早期诊断、病情监测和疗效评估中发挥着关键作用[14]。本研究通过生物信息学方法筛选出肌少症的差异表达基因,随后运用算法和富集分析筛选出8个关键基因:CUL7、CCND1、CYCS、ACTB、MAPK8、H3-3B、JUN和IGF1。这些Hub基因与肌少症的发生机制密切相关,有望成为治疗肌少症的潜在生物标志物,并为未来的研究提供新思路。
CYCS基因编码是一种位于线粒体内膜间隙的小型血红素蛋白,主要在细胞呼吸和电子传递链中发挥作用。据报道,CYCS不仅参与骨骼肌细胞的能量代谢,还在细胞凋亡过程中扮演重要角色。在骨骼肌衰退过程中,CYCS的表达减少可能会激活线粒体凋亡途径,从而加速肌肉老化[15]。此外,CYCS负责ATP的生成,当其表达水平降低时,线粒体的能量代谢效率也随之下降,导致肌肉能量供应不足,最终引起肌肉质量和功能的下降,这种现象在肌少症患者中尤为明显[16]。同时,有研究通过建立肌力下降的小鼠模型发现[17],骨骼肌衰老的主要原因是线粒体功能基因表达的减少,而CYCS可能在这一进程中发挥重要作用。因此CYCS基因有望成为一种潜在的生物标志物,为肌少症的理解和诊断提供新的思路。
ACTB基因是属于细胞骨架基因家族,主要编码β-肌动蛋白。β-肌动蛋白在肌肉细胞的修复、细胞黏附和应力纤维形成中发挥关键作用,对肌肉组织的健康与恢复至关重要[18]。此外,ACTB还与其他类型的肌动蛋白(如α-肌动蛋白)有协同作用,共同维持肌肉细胞的结构稳定[19]。研究表明,在人类样本中,ACTB基因表达的减少不仅会导致肌肉细胞结构的不稳定、还会引发肌肉功能下降,进一步验证了其在细胞骨架调控中的作用。这表明,ACTB在维护肌肉细胞功能和结构完整性方面具有重要意义[20]。
MAPK8是一种丝裂原活化蛋白激酶,隶属于JNK家族,主要在细胞增殖、凋亡、炎症反应和应激反应等多种生物学过程中发挥重要作用。最近的一项研究表明,MAPK8的激活会影响肌肉细胞的应急反应和代谢调节,尤其是在骨骼肌萎缩过程中,MAPK8通过调控线粒体功能、细胞凋亡和炎症通路,加速肌肉质量的下降[21]。然而,MAPK8的过度激活还可能引发氧化应激,导致肌肉细胞的能量生产和抗氧化保护能力下降。这种效应会导致细胞内的钙离子失调和活性氧的过量生成,进一步加剧肌肉衰老的过程[22]。
JUN基因家族包含c-Jun,与fos基因家族的成员共同构成AP-1转录因子复合物,参与基因表达和信号传导,特别是在细胞应激、增值和凋亡过程中具有重要的作用[23]。这种应激机制对包括肌肉组织在内的多种组织结构至关重要。骨骼肌的再生与修复依赖于卫星细胞的活化,而c-Jun在这一过程中起到了关键作用。研究表明,当肌肉细胞受损或受到强烈刺激时,c-Jun的表达水平会上升,从而促进卫星细胞的增值与分化,加速损伤部位的修复[24]。文献报道,高强度运动后,人体体内c-Jun基因的mRNA水平会显著上调,约为运动前的3倍左右[25],这与肌肉细胞对负荷和损伤的适应性调整密切有关[26]。尽管目前尚未完全明确c-Jun对肌肉细胞的具体作用机制,但作为AP-1转录因子的一部分,它可能通过调节某些肌肉特异性基因的表达,参与肌肉对运动的适应过程,影响肌肉结构和代谢的变化,具体的靶基因和调控网络仍需进一步研究。
CCND1基因编码的细胞周期蛋白D1在细胞周期调控和细胞增值中发挥关键作用。特别是,它能通过G1到S期转变,帮助细胞进入DNA复制阶段,从而推动细胞的增殖。这一功能在肌肉组织,尤其是骨骼肌的再生和修复过程中尤为重要[27]。当骨骼肌发生损伤或因运动导致负荷增加时,骨骼肌干细胞被激活,开始增殖和分化,以修复受损组织[28]。此外,研究发现,CCND1的异常表达可能导致肌肉细胞的异常增生,引发纤维化等肌肉疾病。高水平的细胞周期蛋白D1不仅影响肌肉细胞的增殖,还可能改变肌肉组织的结构[29]。因此,CCND1基因在骨骼肌的细胞周期调控中具有至关重要的作用,既支持正常的肌肉修复与再生,也在异常表达时可能影响肌肉的正常发育。其双重作用使CCND1成为研究肌肉适应性和疾病机制的重要基因。
5. 结论
综上所述,本研究基于GEO数据库的生物信息学分析,通过筛选数据集GSE1428,最终鉴定出898个与肌少症相关的关键基因。这些基因在细胞增殖与修复、维持细胞结构、能量代谢、细胞应激反应、细胞调控及骨骼肌再生和修复等方面具有广泛功能。其中,筛选出的8个Hub基因(CUL7, CCND1, CYCS, ACTB, MAPK8, H3-3B, JUN, IGF1)为深入探索肌少症的分子机制和潜在治疗靶点提供了新的研究方向。结合这些基因的功能,我们推测肌少症的发生可能主要通过以下机制网络实现:其一,CYCS和MAPK8通过调控线粒体能量代谢及凋亡信号,导致能量供应不足和细胞凋亡增加;其二,ACTB和H3-3B影响细胞骨架稳定与核小体结构,削弱肌肉修复与维持能力;其三,CCND1与CUL7通过调节细胞周期和蛋白降解通路影响肌肉细胞增殖与代谢;其四,IGF1和JUN在卫星细胞活化及骨骼肌再生中发挥促进作用。整体来看,本研究提出了一个“能量代谢–细胞周期–骨架结构–再生修复”的机制模型,为理解肌少症分子病理提供了系统性视角。从临床意义角度来看,这些Hub基因未来有望作为外周血检测的潜在生物标志物,为肌少症的早期诊断、分层管理及个性化干预提供参考。同时,部分基因及其相关信号通路(如IGF1、MAPK通路)有可能成为药物干预的新靶点,这对于开发延缓肌少症进程的新型治疗策略具有潜在价值。然而,这些基因在肌少症中的具体作用机制尚未完全明晰,未来需要更多的实验研究来验证它们的具体功能及相互作用网络,以推动这些基因标志物在肌少症诊断和治疗中的临床应用。
NOTES
*通讯作者。