1. 引言
糖尿病肾病(diabetic nephropathy, DN)是糖尿病最严重的慢性微血管并发症之一,显著影响患者的健康和生活质量,其发病率已超过原发性肾小球疾病,成为终末期肾病(end stage renal disease, ESRD)的主要病因[1]。临床上,DN通常表现为大量蛋白尿的出现及肾小球滤过率(glomerular filtration rate, GFR)和血清肌酐(serum creatinine, SCr)的显著变化[2],但尿液蛋白/肌酐比值、估算肾小球滤过率、血清肌酐浓度等指标对DN的诊断敏感性和特异性较低,无法准确反映肾功能障碍的严重程度。目前,我国对该病的治疗策略较为保守,主要集中于血糖控制、血压管理以及使用ACE抑制剂或血管紧张素受体阻滞剂等,难以有效阻止DN的进展[3]。近期有研究表明,DN中肾功能进行性不可逆性损伤与免疫因素有关。KIM-1、NGAL、NAG、TNF-α和IL-1β等炎症标志物已被证实与DN密切相关[4]。SGLT2抑制剂不仅在血糖控制方面具有显著效果,还有望减少肾小管葡萄糖的再吸收,从而减轻肾负荷,改善肾功能[5]。然而,现有干预措施在延缓疾病进展方面仍具有局限性,无法准确预测DN的进展,大多数患者不可避免地会发展为ESRD,因此,探寻可用于糖尿病肾病早期诊断的新型生物标志物具有重要的临床意义。
肾脏组织活检仍然是诊断DN的“金标准”。然而,作为一种侵入性操作,该方法本身存在一定局限性,包括出血风险及采样误差等。已有研究证实,尿白蛋白可以作为DN进展的有效检测指标[6] [7]。但值得注意的是,约20%~40%的患者在出现尿白蛋白之前,就已表现为肾小球滤过率下降,提示尿白蛋白在糖尿病肾病的早期诊断方面仍存在不足。血清中含有丰富的分泌蛋白,这些蛋白在机体生理及病理过程中发挥重要调控作用。尽管过去受限于血液中蛋白质的高度异质性和溶解性差异,相关研究开展较为困难,但目前已有越来越多研究开始关注血清蛋白在糖尿病肾病发生发展中的监测价值[8],因此,探索血清来源的分泌蛋白作为糖尿病肾病的潜在生物标志物,具有重要的研究价值和临床意义。
本研究综合运用生物信息学分析方法,结合独立数据集进行外部验证,系统筛选并评估DN发生发展过程中具有潜在诊断价值的生物标志物及相关治疗靶点,旨在为DN的临床研究提供新的理论依据和研究思路。
2. 材料与方法
2.1. 数据来源
从GEO获取5个糖尿病肾病(diabetic nephropathy, DN)相关数据集:GSE30528的数据来自肾小球组织,包含9例DN患者样本和13例健康者样本;GSE30529的数据来自肾小管组织,包含10例DN患者样本和12例健康者样本;GSE30122的数据来自肾组织,包含19例DN患者样本和50例健康者样本;GSE96804的数据来自肾小球组织,包含41例DN患者样本和20例健康者样本。GSE142153的数据来自人类外周血,包含23例DN患者样本和10例健康者样本。从人类蛋白质图谱(human protein atlas,HPA)数据库中获取编码分泌蛋白的基因。
2.2. 差异表达分析
以|log2FC| ≥ 1和P < 0.05为筛选条件,利用R软件(版本4.3.2)“limma”包分析GSE30528和GSE30529中DN患病组与对照组的差异表达基因(Differentially expressed genes, DEGs),使用“ggplot2”包绘制火山图。利用“gvenn”包可视化差异表达的分泌蛋白相关基因(differential expression-secreted protein genes, DE-SPGs)的韦恩图。
2.3. GO功能和KEGG信号通路富集分析
利用R软件“clusterProfiler”包对DEGs进行GO功能注释和KEGG通路富集分析,其中,GO功能注释包括分子功能(molecular function, MF)、生物学过程(biological process, BP)和细胞组分(cellular components, CC)三个类别。并选取分析结果中排名前10的条目进行可视化绘制。
2.4. PPI网络的构建及候选关键基因的筛选
利用STRING(Search Tool For the Retrieval of Interacting Genes/Proteins, https://cn.string-db.org/)数据库构建蛋白质–蛋白质相互作用(protein-protein interaction, PPI)网络。使用Cytoscape软件(版本3.10.0)中的CytoHubba插件,分别采用MCC、MNC、Degree和EPC 4种不同的拓扑算法筛选前10个基因,取交集确定为DN相关的候选关键基因。
2.5. 关键基因鉴定及诊断效能评估
利用“limma”包对外部组织验证集GSE96084和血液验证集GSE142153两个数据集验证关键基因表达情况。同时使用“pROC”包绘制受试者工作特征(Receiver Operating Characteristic, ROC)曲线,计算其曲线下面积(Area Under the Curve, AUC),AUC越接近1表明诊断价值越高。
2.6. 关键基因的临床价值
利用Nephroseq v5数据库(https://www.nephroseq.org/resource/login.html)评估关键基因表达水平与肾脏疾病临床特征的相关性,探讨关键基因的临床意义。
2.7. 潜在小分子药物预测
基于DGIdb (Drug-Gene Interaction Database, https://dgidb.org/)数据库预测靶向关键基因的潜在小分子药物。筛选标准为已知临床阶段的药物或已批准的药物。
3. 结果
3.1. DE-SPGs的筛选
对3个基因表达谱芯片数据集进行差异表达分析的结果显示,GSE30528数据集共筛选得出632个差异表达基因,其中表达上调的基因167个,表达下调465个(图1(A));GSE30529数据集共筛选得出差异表达基因656个,其中表达上调的基因561个,表达下调95个(图1(B));GSE30122数据集共筛选得出差异表达基因223个,其中表达上调的基因181个,表达下调42个(图1(C)),将其与编码分泌蛋白的基因取交集,共获得57个DEGs (图1(D)),其中,52个基因表达上调(图1(E)),4个基因表达下调(图1(F))。
Figure 1. Differential expression analysis. (A) Volcano plot of GSE30528; (B) Volcano plot of GSE30529; (C) Volcano plot of GSE30122; (D) Venn diagram of DE-SPGs; (E) Venn diagram of upregulated DE-SPGs; (F) Venn diagram of downregulated DE-SPGs
图1. 差异表达分析。(A) GSE30528火山图;(B) GSE30529火山图;(C) GSE30122火山图;(D) DE-SPGs韦恩图;(E) 上调DE-SPGs韦恩图;(F) 下调DE-SPGs韦恩图
3.2. DE-SPGs功能富集分析
对DE-SPGs进行GO功能富集分析,结果表明这些基因显著富集于体液免疫反应、细胞杀伤及酶活性的负调控等生物学过程(图2(A))。KEGG信号通路富集分析结果显示:DE-SPGs在补体和凝血级联反应、ECM-受体相互作用和PI3k-Akt等多条信号通路显著富集(图2(B))。
Figure 2. GO and KEGG pathway enrichment analyses
图2. GO功能和KEGG信号通路富集分析
3.3. PPI网络的构建及候选关键基因的鉴定
基于57个DE-SPGs所构建的蛋白质-蛋白质相互作用(protein-protein interaction, PPI)网络共包含50个节点和257条相互作用边(图3(A))。为进一步识别网络中的关键节点,利用CytoHubba插件,采用最大团中心性(maximal clique centrality, MCC)、邻域组件中心性(maximum neighborhood component, MNC)、边缘渗透组件(edge percolated component, EPC)和度(degree)四种拓扑算法筛选排名前十的基因,最终确定4个候选关键基因,分别是FN1、CD44、CCL5、CD48 (图3(B))。
Figure 3. Construction of the PPI Network and Identification of Hub Genes. (A) PPI network of DE-SPGs; (B) Venn diagram of candidate hub genes
图3. PPI网络的构建与关键基因的鉴定。(A) DE-SPGs 的PPI网络;(B) 候选关键基因的韦恩图
3.4. 候选关键基因表达水平的验证及诊断效能的评估
为验证上述候选关键基因作为诊断标志物的效果,本研究基于外部组织验证集GSE96084和血液验证集GSE142153进行外部验证。CD44和CCL5两个基因在DN患病组中的表达均高于对照组(图4(A)、图4(B))。这一表达趋势与测试数据集的结果一致,进一步支持了上述结果的可重复性。ROC曲线分析结果表明,CD44在外周血和组织样本中的AUC值分别为0.673和0.745,表明其具有良好的诊断效能(图4(C)、图4(D))。
Figure 4. Validation of candidate hub genes expression and evaluation of diagnostic efficacy. Expression levels of candidate hub genes in the (A) GSE96804 and (B) GSE142153datasets; ROC curves for candidate hub genes in the (C) GSE142153and (D) GSE96804 datasets
图4. 候选关键基因表达水平的验证及诊断效能的评估。候选关键基因的表达(A) GSE96804;(B) GSE142153;候选关键基因的ROC曲线(C) GSE142153;(D) GSE96804
3.5. 临床相关性分析
在DN患者中,CD44基因的表达水平与GFR呈显著负相关(P < 2.2e−16) (图5(A)),与SCr呈正相关(P = 3.2e−08) (图5(B))。
3.6. 潜在治疗药物筛选
通过DGIdb数据库筛选出相关小分子药物共19个(表1),其中,胆汁酸转运蛋白抑制剂(SC-435)、PF-03475952和贝伐珠单抗(BIVATUZUMAB) 具有较高的相互作用得分,均为2.75,提示其可能是潜在治疗DN的小分子药物。
Figure 5. Clinical correlation analysis of CD44 expression levels with DN. (A) Correlation between CD44 expression levels and glomerular filtration rate; (B) Correlation between CD44 expression levels and serum creatinine
图5. CD44表达水平与DN的临床相关性分析。(A) CD44表达水平与肾小球滤过率的相关性;(B) CD44表达水平与血肌酐的相关性
Table 1. Potential small-molecule drugs for the treatment of DN
表1. 潜在治疗DN的小分子药物
Drug |
Regulatory approval |
Indication |
Interaction score |
ODEVIXIBAT |
Approved |
|
0.46 |
ELOBIXIBAT |
Not approved |
|
1.37 |
[3H] TAUROCHOLIC ACID |
Not approved |
|
1.37 |
DOCETAXEL ANHYDROUS |
Approved |
Antineoplastic agent |
0.03 |
BIVATUZUMAB MERTANSINE |
Not approved |
|
0.17 |
GAMMA-INTERFERON |
Not approved |
|
0.61 |
GP-120 ANTIGEN |
Not approved |
|
0.42 |
MARALIXIBAT |
Not approved |
|
0.92 |
SC-435 |
Not approved |
|
2.75 |
MOMETASONE |
Approved |
Glucocorticoid, antiinflammatory agent |
0.61 |
RECOMBINANT TUMOR NECROSIS
FACTOR FAMILY PROTEIN |
Not approved |
|
0.37 |
264W94 |
Not approved |
|
1.37 |
PF-03475952 |
Not approved |
|
2.75 |
HYALURONIC ACID |
Approved |
Antileukopenic agent |
0.92 |
ACETAMINOPHEN |
Approved |
Analgesic |
0.11 |
MPA |
Not approved |
|
0.55 |
BIVATUZUMAB |
Not approved |
|
2.75 |
GENTAMICIN |
Approved |
|
0.24 |
CISPLATIN |
Approved |
|
0.02 |
4. 讨论
DN的致病机制涉及葡萄糖代谢障碍、炎症反应、氧化应激、缺血缺氧以及遗传易感性等多种因素共同作用的结果[9]。尽管目前已有血糖控制、ACE抑制剂或血管紧张素受体阻滞剂等干预手段,但由于DN早期病理变化隐匿且具有一定可逆性,临床确诊时多已进入中晚期,往往错过最佳干预时机,治疗效果受限。因此,探寻可用于DN早期诊断的潜在生物标志物具有重要临床意义。
本研究基于多个独立数据集进行生物信息学分析,以识别与DN发生发展相关的关键基因。通过整合三个微阵列数据集及分泌蛋白基因库,共筛选出57个与分泌蛋白相关的DEGs。GO富集分析显示,体液免疫反应和细胞杀伤作用是导致DN肾功能损伤和疾病进展的主要生物学过程。既往研究表明,黏附分子、趋化因子和细胞因子等促炎分子在DN的发生发展中起重要作用;巨噬细胞浸润、炎症通路激活及细胞因子释放均可促进肾脏损伤和纤维化[10]。KEGG富集分析结果表明,DE-SPGs主要参与补体和凝血级联反应、ECM-受体相互作用、PI3K-AKt信号通路等。补体和凝血级联通路在DN中被异常激活,与既往研究提出的“补体系统驱动肾小管间质损伤”的观点相符[11]。DN发病机制复杂,涉及多种细胞和分子事件,其中细胞外基质(ECM)过度沉积是其关键病理特征之一[12]。ECM不仅参与组织器官的形态发生,对维持细胞及组织结构功能亦至关重要[13]。而PI3K-Akt信号通路可通过促进ECM积聚,加速糖尿病患者肾间质纤维化及DN进展[14] [15]。
通过PPI网络分析及4种拓扑算法,筛选出4个候选关键基因,进一步分析发现CD44无论是在DN组织样本还是外周血样本中的表达均与测试集表达一致,并具有良好的诊断效能。分化簇44蛋白(Cluster-of-Differentiation-44, CD44)是一种单跨膜细胞表面黏附蛋白及抗肿瘤药物靶标。其在正常肾组织中表达甚微,但在损伤条件下,可于活化的肾小管上皮细胞及浸润的巨噬细胞中显著上调[16]。本研究临床相关性分析结果与之吻合,提示CD44可能弥补SCr、BUN等传统功能指标在反映肾脏结构性损伤方面的不足,成为DN的新型诊断靶点。CD44在细胞迁移、癌症侵袭等多种生理病理过程中发挥重要作用,不仅参与白细胞渗出、伤口愈合及淋巴细胞活化[17],还可通过激活MAPK/NF-κB p65信号轴,抑制线粒体生物合成关键因子,导致线粒体功能障碍、脂质代谢紊乱,最终诱导肾小管上皮细胞凋亡[18]。结合本研究结果,我们推测CD44高表达与DN进展密切相关:一方面,活化的CD44通过启动下游PI3K/Akt等信号通路,加剧局部炎症级联反应,诱导体液免疫应答;另一方面,其可通过促进上皮–间质转化,直接驱动ECM过度沉积及肾损伤。
综上所述,CD44作为DN早期诊断的潜在生物标志物具有良好的敏感性和特异性,其高表达可能通过调控PI3K-Akt信号通路、促进ECM沉积及免疫炎症反应,参与DN的发生发展。但本研究结论尚需进一步实验验证。
基金项目
本研究由国家级大学生创新创业训练计划(项目编号:202410601059)、自治区级大学生创新创业训练计划(项目编号:202310601110)和校级大学生创新创业训练计划(项目编号:X202510601260)共同资助。
NOTES
*共同第一作者。
#通讯作者。