1. 引言
根据国际癌症研究机构最新统计,乳腺癌已取代肺癌成为全球女性发病率最高的恶性肿瘤[1]。其中三阴性乳腺癌(TNBC)因缺乏雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2 (HER-2)这三个关键治疗靶点,约占所有乳腺癌病例的15%~20% [2]。这类肿瘤具有独特的生物学特性:不仅生长速度快、容易发生远处转移,还存在显著的肿瘤内部异质性,导致不同患者甚至同一患者不同病灶对治疗的反应差异极大。虽然TNBC肿瘤组织中通常含有较多免疫细胞,理论上对免疫治疗更敏感,但目前临床实践中仍以传统化疗为主。
铜代谢MURR 1结构域(COMMD)家族是近几十年才发现的。它由10个家族成员(COMMD 1~COMMD 10)组成,其特征在于通过在蛋白质的羧基末端存在高度保守且独特的称为COMM结构域的基序,其作为COMMD-COMMD蛋白质相互作用的界面[3]。这些成员在整个进化过程中高度保守,并具有某些共同的功能特性,包括转录因子NF-κB活性[3]、免疫应答[4]、铜稳态[5]、胞内分选[6]和上皮钠通道功能的调节[3]。该家族成员COMMD10的功能研究显示,其在多种实体瘤中扮演重要角色:在结直肠癌中,COMMD10通过与NF-κB信号通路中的p65亚基结合,阻止其进入细胞核发挥促癌作用,从而抑制肿瘤细胞的侵袭能力[7];在肝癌模型中,COMMD10不仅能通过下调抗凋亡蛋白Bcl-2表达诱导癌细胞死亡,还能通过调节细胞内铜铁离子平衡,打破HIF-1α/CP形成的促血管生成正反馈环,使肿瘤细胞对放疗更敏感[8];但在胃癌中,COMMD10表达可抑制胃癌细胞DNA损伤修复,加重DNA损伤,激活ATM-p53信号通路,从而促进胃癌进展[9]。另外,COMMD10通过干扰铜铁平衡促进铁死亡,提高肝癌细胞对放疗的敏感性[8]。最新研究还发现它对肝脏巨噬细胞功能至关重要。京都基因和基因组百科全书(KEGG)分析显示,COMMD10及其相互作用蛋白主要富集在癌症相关通路、低氧响应、泛素化蛋白降解、细胞内吞作用等生物学过程中[10]。然而,目前尚未在乳腺癌中研究COMMD10。
本研究首次将COMMD10基因特征与TNBC预后相结合,通过多组学数据分析构建了包含5个关键基因的预测模型。该模型在独立验证队列中表现出优异的预测效能,能够有效区分高风险复发人群。结合化疗药敏测试和免疫微环境分析,旨在为这类难治性乳腺癌开发更精准的治疗方案。
2. 材料和方法
2.1. 数据收集和处理
我们从TCGA数据库获取了1098例乳腺癌样本的RNA测序数据和临床信息,结合临床资料筛选出ER-、PR-、HER2-三阴性乳腺癌患者,剔除不完整数据后保留139例样本用于后续分析。同时从GEO数据库下载了GSE103091数据集的107例三阴性乳腺癌样本数据作为验证集。数据处理方面,我们将FPKM或log2 (FPKM + 0.1)标准化后的表达谱转换为TPM值,再进一步进行log2 (TPM + 0.1)转换。最后利用KM-plotter数据库分析COMMD10基因表达水平与不同临床特征乳腺癌患者预后的相关性。
2.2. 筛选标记基因及预后预测模型的构建和评估
从TCGA数据库下载了RNA-seq数据和临床样本信息并处理。用EPIC、MCPCOUNTER、TIMER这三种免疫浸润评分算法筛选出CD8+T细胞,从已发表文献获取CD8+T细胞标记基因。把从TCGA收集的TNBC病例用来构建预后模型,用Spearman系数测定标记基因和COMMD10基因的表达相关性。按P < 0.05且相关系数|r| > 0.2的条件选出78个基因,再用K-M生存曲线从这78个基因里鉴定出56个预后相关基因。为避免过度拟合,对有意义(P < 0.05)的预后相关基因做LASSO回归分析,最终筛选出5个有独立预后价值的基因来构建风险评分。患者风险评分公式是:风险评分 = 基因1 × 系数1 + 基因2 × 系数2... + 基因n × 系数n。根据中位危险度评分把患者分成高危组和低危组。用R程序包“生存”生成K-M生存曲线,看两组生存率差异;用R软件包“survivalROC”生成时间依赖性受试者工作特征(ROC)曲线,评估预后模型预测能力。使用R语言中“survival”包对此预后模型及临床病理特征(年龄、淋巴结受累情况、远处转移情况)进行单因素和多因素COX回归分析验证该预后模型的风险评分是否为乳腺癌患者的独立预后因素,再生成诺莫图。使用R语言中的“clusterProfiler”包对关键基因进行功能富集分析,研究其在三阴性乳腺癌中的可能参与的相关通路。
2.3. 免疫治疗和药物敏感性分析
从癌症免疫组图谱(The Cancer Immunome Atlas, TCIA)数据库下载了包含24个免疫浸润细胞评分以及每个样品免疫表型评分(IPS)的文件,同时把文件里未知或没明确指定的数据都删除。接着利用癌症药物敏感性基因组学(Genomics of Drug Sensitivity in Cancer, GDSC)数据库里的岭回归模型,通过“oncoPredict”这个软件包,计算了TCGA-TNBC中一些药物的半最大抑制浓度(IC50)值。之后用t检验的方法,比较了高风险组和低风险组在这些药物IC50值上的差异,从而完成了药物敏感性的预测工作。这样做有助于更深入地了解不同风险组患者对特定药物的敏感情况,为后续的个性化治疗提供有价值的参考依据。通过这些步骤,能够更精准地评估药物在不同人群中的效果,为癌症治疗方案的制定提供更科学的支持。
3. 结果
3.1. COMMD10在乳腺癌中的表达
我们从癌症基因图谱(TCGA)数据库获取数据后,发现COMMD10蛋白在多种癌症中的表达存在明显差异。如图1(A)所示,这种差异在不同肿瘤类型间尤为突出。此前已有研究指出,COMMD10在肝癌和结肠癌的发展中扮演重要角色,但是它在乳腺癌中是否也有类似作用尚未可知。为了深入探究,我们特别分析了COMMD10在乳腺癌不同亚型中的表达情况。结果发现了一个有趣的现象:在管腔样型乳腺癌中,COMMD10的表达水平明显高于正常乳腺组织;而在三阴性乳腺癌中,该蛋白的表达却显著低于正常组织(图1(B))。为了评估这一差异对患者预后的影响,我们进行了生存分析。结果显示,在管腔样型和HER2阳性型乳腺癌患者中,COMMD10的表达水平与疾病复发风险没有明显关联。但在三阴性乳腺癌患者中,情况截然不同,COMMD10表达量的高低直接影响患者预后。从图1(C)可以清晰看到,在三阴性乳腺癌群体中,COMMD10低表达组的患者预后明显更差。这一结果与图1(B)中观察到的表达趋势完全吻合,说明COMMD10的表达水平可能是三阴性乳腺癌患者预后的重要指标。
A:COMMD10在泛癌中的表达;B:COMMD10在乳腺癌不同分子亚型中的表达;C:COMMD10与乳腺癌不同亚型预后的关系;*,P < 0.05;**,P < 0.01;***,P < 0.001。
Figure 1. Expression of COMMD10 in breast cancer
图1. COMMD10在乳腺癌中的表达
3.2. 构建与COMMD10相关的预后模型
在TCGA数据库分析中,我们首先用三种方法(MCPCOUNTER, TIMER, EPIC)分析了TNBC里哪些免疫细胞的活跃程度和COMMD10基因有关(图2(A)~(C))。通过对比发现,CD8+T细胞是这三种方法共同指向的关键细胞类型(图2(D))。众所周知,CD8+T细胞是专门攻击癌细胞的核心免疫细胞,这类细胞及其相关基因已经被证实和患者预后密切相关。加上之前发现COMMD10能促进CD8+T细胞向肿瘤组织聚集,我们决定重点研究这两者的关系。
A:MCPCOUNTER;B:EPIC;C:TIMER TNBC中免疫细胞浸润与COMMD10表达的关系;D:三种方法中与COMMD10表达相关的重叠免疫细胞类型。
Figure 2. Relationship between COMMD10 expression and immune cell infiltration in tumor
图2. COMMD10表达与肿瘤中免疫细胞浸润关系
A、B:LASSO回归构建COMMD10相关的预后模型;C:训练集;D:验证集风险因子图;E:训练集;F:验证集K-M曲线;G:训练集;H:验证集ROC曲线。
Figure 3. Construction and validation of prognostic model
图3. 预后模型的构建与验证
通过数据分析,我们找到了190个与CD8+T细胞活性高度相关的基因,其中78个同时和COMMD10基因表达显著相关(R > 0.2且P < 0.05)。接下来,我们用TCGA里的TNBC数据作为训练集,进一步筛选出51个对预后有预测价值的基因。然后用Lasso回归方法建立了预测模型,具体计算公式是:风险评分 = (−0.0779)*KLRB1 + (−0.0436)*GZMA + (−0.1273)*IFNG + (−0.5135)*KLRF1 + (0.6588)*GPR65 (图3(A)、图3(B))。
根据这个公式,我们给每个患者算出风险评分,并用中位数把患者分成两组:低风险组70人,高风险组69人。结果发现,高风险组患者死亡时间明显更早(图3(C)),生存分析显示他们的总生存期显著更短(P < 0.05,图3(E))。通过ROC曲线评估模型预测能力,结果显示1年、3年和5年生存率的曲线下面积分别达到0.61、0.69和0.77 (图3(G))。
3.3. 验证预后模型的预测价值
为了验证模型的可靠性,我们在另一个数据集GSE103091中进行了测试。使用和之前相同的风险评分公式,计算了这个数据库中患者的风险值。结果和之前的发现一致:高风险组患者死亡时间明显更早(图3(D))。接着用同样的中位数标准将患者分成两组,高风险组53人,低风险组54人。生存分析显示,低风险组患者的总生存期显著更长(P < 0.05,图3(F))。同时,ROC曲线的3年和5年生存率的曲线下面积分别达到0.59、0.64 (图3(H)),进一步验证了模型的预测效果。
3.4. 风险评分联合临床病理特征的列线图的构建
为验证该预后模型风险评分是否可以作为判断乳腺癌临床患者生存预后的独立因素,结合临床病理特征进行单因素COX回归分析和多因素COX回归分析,结果绘制森林图(图4)。在单因素COX回归分析中,淋巴结受累情况、远处转移情况、预后模型风险评分均可作为乳腺癌患者的生存预后的独立预测因素,而在多因素COX回归分析中只有远处转移情况和预后模型风险评分可作为乳腺癌患者的生存预后的独立预测因素。
A:结合临床病理特征的单因素COX回归分析;B:结合临床病理特征的多因素回归分析。
Figure 4. Predictive model COX regression analysis
图4. 单因素及多因素COX回归分析模型对TNBC的预测价值
列线图能够用于多指标联合诊断或预测疾病的发生和发展。整合生存时间、生存状态和这些独立预后因素包括年龄、N分期、M分期和模型构建预后诺模图(图5(A),图5(B)),并绘制校准曲线以检验诺模图的有效性。直观显示了临床病理变量与OS的1年、3年和5年生存概率之间的关系(图5(C),图5(D))。如图所示,1年、3年和5年的校准曲线显示了我们的结果和预测值的一致性,c指数分别为0.842,95% CI (0.753~0.931),P值 = 6.21e−14;0.883,95% CI (0.836~0.929),P值 = 2.49e−58。结果显示,该列线图能较好地预测乳腺癌患者的预后,对今后乳腺癌患者的个体化诊断和治疗有一定的指导意义。
A:训练集;B:验证集用于预测1年、3年和5年OS的列线图。C:训练集;D:验证集1年、3年和5年的校准曲线。
Figure 5. Construction of Nomogram
图5. 诺莫图的构建
3.5. 预测模型的相互作用网络及功能富集分析
对预测模型的关键基因构建相互作用网络并对其进行富集分析,结果如图6(A)所示,发现预测模型的5个关键基因及其20个共表达基因和644条连接,参与多种免疫通路调控(图6(B)),主要涉及对细胞因子刺激反应的调控、细胞因子介导的信号通路的调控、对干扰素-γ的反应、细胞杀伤、免疫受体活性、细胞对干扰素-γ的反应、细胞因子受体活性、细胞杀伤的正向调控、对干扰素-γ反应等等通路。可以看出,预测模型对干扰素-γ、细胞因子和细胞杀伤等免疫活动从多个通路共同调节。
3.6. 预测评分的免疫分析和药物敏感性分析
从图7(A)中我们可以观察到一个重要现象:大部分已知的免疫调控基因与风险评分呈现明显的反向关系。这意味着在低风险患者群体中,这些关键的免疫调节分子表达水平较高,为免疫治疗提供了更多可作用的靶点。免疫细胞浸润的气泡图分析(图7(B))可以发现风险评分与NK细胞、Tex、Tgd、Tfh的水平呈负相关,与浸润的CD8+细胞、树突状细胞、巨噬细胞、单核细胞的水平呈正相关。前者是直接攻击癌细胞的,后者则负责将癌细胞的信息传递给其他免疫细胞。
A:预测模型关键基因及共表达基因分析;B:预测模型通路富集分析。
Figure 6. Enrichment analysis of the prediction model
图6. 预测模型的富集分析
A:免疫检查点基因;B:免疫细胞浸润评分与预后模型的相关性;C:免疫治疗评分差异;D-I:化疗药物IC50值差异;*,P <0.05;**,P < 0.01;***,P < 0.001。
Figure 7. Immunoanalysis and drug sensitivity analysis
图7. 免疫分析和药物敏感性分析
在图7(C)的分析中,我们特别关注了不同风险组对两种主流免疫治疗药物的响应差异。数据显示,在抗PD-1治疗无效的患者群体中,高风险组的治疗有效率均低于低风险组。这可能是因为高风险患者体内负责激活免疫反应的基因表达水平较低,导致免疫系统无法有效识别和攻击肿瘤细胞。
为了研究患者风险分层与药物反应的关系,通过oncoPredict R包分析了常用化疗药物在不同风险人群中的敏感性差异。结果显示,低风险组患者对EGFR抑制剂Sapitinib的药物有效性指标(IC50值)显著更低,意味着他们对这种靶向药更敏感(图7(D))。有趣的是,高风险群体对另外几类药物表现出独特的敏感性:ERK通路抑制剂(如ERK_6604和SCH772984)、PI3Kβ选择性抑制剂(AZD6482)、TGF-β I型受体阻滞剂(SB505124),以及MEK 1/2抑制剂Selumetinib)在高风险组中的药物半数抑制浓度明显更低(图7(E)~(I))。这表明高风险患者可能更适合接受这些信号通路靶向治疗。
4. 讨论
乳腺癌是女性最常见的癌症类型,近年来发病率持续上升[11]。这种疾病存在明显个体差异,不同患者的病情发展和治疗效果可能相差很大[12] [13]。虽然现代医学已经发展出手术切除、放射治疗、化学药物治疗、内分泌调节治疗以及靶向精准治疗等多种手段,但仍有部分患者面临癌症复发转移或药物耐药的问题,使得治疗效果不理想[14] [15]。三阴乳腺癌(TNBC)约占乳腺癌病例的15%~20%,这类肿瘤的显著特征是雌激素受体(ER)和孕激素受体(PR)表达缺失,同时人表皮生长因子受体2 (HER2)也不出现扩增[16]。与其他类型乳腺癌相比,TNBC往往生长更快、侵袭性更强,患者预后情况和生存质量明显更差[17]。由于缺乏ER和HER2这样明确的治疗靶点,目前化疗仍是三阴乳腺癌患者的主要治疗选择[18]。以蒽环类药物多柔比星(DOX)为例,虽然作为一线化疗药物广泛应用,但长期使用容易使肿瘤细胞产生耐药性,这也是癌症治疗面临的普遍难题[19]。近年来,基于高通量测序技术的生物信息学研究取得突破性进展。王教授团队[20]通过整合TCGA数据库的587例TNBC样本,构建了包含PARP1、RAD51等6个DNA损伤修复基因的预后模型。该模型在多队列验证中显示出优异的预测效能。随后,Peng等[21]通过全基因组测序结合机器学习算法,开发了包含B3GALT5-AS1、KIF5A等7个基因的预后模型,在淋巴结阴性患者队列中实现了更精准的生存。
基因COMMD10作为近年肿瘤学领域的研究热点,其功能机制研究呈现多维特征。该基因通过调控细胞代谢重编程及关键信号通路(如NF-κB通路) [3],在肿瘤起始阶段即发挥重要作用。值得注意的是,COMMD10的调控功能具有显著的肿瘤类型特异性,在胃癌中表现为促癌基因特性[9],而在乳腺癌中则呈现抑癌效应,这种功能异质性为精准医学研究提供了新视角。
在这里,我们发现基因COMMD10具有作为免疫调节剂的潜力,并且基于COMDM10的风险模型是预后的独立预后指标,并且与免疫应答相关。我们首先发现COMMD10基因在三阴性乳腺癌中低表达,且高表达TNBC患者预后更好。既往研究表明,TNBC中NF-κB通路异常激活促进肿瘤细胞存活和增殖,而抑制TNBC中的NF-κB通路可以增强抗肿瘤疗效[22]。COMMD10作为NF-κB通路的负调控因子,COMMD10低表达可能解除对NF-κB的抑制,加剧TNBC的恶性表型。随后,通过免疫浸润分析发现COMMD10表达与三阴性乳腺癌免疫微环境中的CD8+T细胞浸润水平相关。然后,使用RNA-seq数据,我们确定了78个与COMMD10显著相关的CD8+T细胞相关基因。此外,还鉴定了5个候选基因(KLRB、GZMA、IFNG、KLRF1和GPR65),并用于构建风险模型。最后,基于模型的风险评分用于预测预后,且在多个验证数据集上表现良好,我们将预测模型与临床特征相结合构建了进行了单因素及多因素COX回归分析,并构建了诺莫图。我们还进行了免疫浸润分析,发现高风险组和低风险组在免疫细胞浸润方面存在显著差异,高风险组中大部分免疫抑制相关免疫细胞的丰度较高,TNFSF4、CD80、CD27等免疫检查点也在高风险组中呈现高表达,这也可能是其免疫逃逸的原因之一。此外,本研究还使用OncoPredict包进行了药物敏感性分析,发现高风险组和低风险组对某些化疗药物的敏感性存在差异。这五种药物在肿瘤中均可通过细胞因子途径上调IFN-γ,并增加CD8+T细胞活性,诱导肿瘤细胞免疫原性细胞死亡。这些结果为临床治疗提供了一些有价值的参考。
5. 结论
综上所述,本研究的主要价值在于开发了一种基于COMMD10基因特征的三阴乳腺癌(TNBC)预后评估模型。研究同时分析了化疗药物敏感性、免疫细胞浸润及免疫检查点蛋白表达等关键指标,为临床个性化治疗方案设计提供了新思路。
本研究还存在一些局限性:首先,当前模型基于公开数据库的二代测序数据构建,属于回顾性研究范畴,需要前瞻性大样本队列进一步验证其临床适用性;其次,现有样本量有限,建议后续研究扩大样本规模以提升结论可信度;最后,受实验条件限制,模型核心基因的具体生物学功能尚未通过实验室验证,这部分机制研究需在未来工作中补充完善。