1. 引言
乳腺癌已成为全球女性最常见的恶性肿瘤[1]。虽然在西方发达国家它仍是女性死亡的主要原因之一,但在中国,其发病率正迅速上升,并伴有发病年龄年轻化的趋势。临床上,根据激素受体(HR)状态——包括雌激素受体(ER)和孕激素受体(PR)——以及人表皮生长因子受体2 (HER2)的表达,将乳腺癌分为四种主要亚型。其中,HR阳性/HER2阴性(HR+/HER2−)乳腺癌约占所有病例的三分之二,因其相对惰性的生物学行为和对内分泌治疗的敏感性,传统上被视为“预后良好”的亚型[2]-[5]。
然而,HR+/HER2−乳腺癌在生物学上并非单一、同质的疾病,其显著的内在异质性导致不同患者在治疗反应及复发模式上存在巨大差异[6]。尽管接受了标准治疗,仍有15%的患者在5年内复发,5%~10%的患者在2.5年内发生转移[7]-[10],表明该亚群面临更高的复发风险和更差的生存预后。这种临床变异性强调了进行更深层次分子特征分析的必要性,以识别高危亚群并指导靶向治疗策略。
分子谱分析的进步进一步凸显了HR+/HER2−乳腺癌内部的巨大异质性。基于PAM50的基因谱分析显示,免疫组化(IHC)与分子分型之间存在37.8%的不一致率,其中27.0%的IHC定义的Luminal A型实际上被归类为Luminal B型,10.2%归类为HER2富集型[4] [11]。在基因组水平上,Luminal A型肿瘤表现出独特的突变谱,其特征是TP53突变率较低(12% vs Luminal B型的29%),但PIK3CA (45% vs 29%)和MAP3K1 (13% vs 5%)的突变频率较高[12]。这些分子差异导致了临床观察中预后和治疗反应的异质性。
虽然目前的风险分层工具(如21基因和70基因检测)改善了HR+/HER2−患者的化疗决策,但它们在准确识别具有生物学侵袭性的亚群方面仍有局限[13]-[18]。最近的多组学分析为这种异质性提供了更深入的见解。复旦大学附属肿瘤医院2023年的一项研究利用整合基因组、转录组和代谢组谱分析,将HR+/HER2−乳腺癌分为四个不同的分子亚群,强调了治疗策略的潜在差异[19]。CDK4/6抑制剂的开发和临床成功(如MonarchE和NATALEE试验所示)进一步强调了精确识别高危人群的必要性。
然而,驱动HR+/HER2−乳腺癌极差预后(如早期复发和转移)的关键分子机制仍知之甚少。特别是,驱动高危疾病发生和发展的遗传及分子特征尚未得到全面系统的阐明[20]。这一知识空白限制了开发靶向治疗策略的能力,使得部分高危患者缺乏最佳治疗选择。在此背景下,本研究利用METABRIC数据库调查与HR+/HER2−乳腺癌极差预后相关的多组学特征。通过全面的差异和富集分析,我们旨在阐明驱动高危疾病的分子机制并确定潜在的治疗靶点,为推进精准肿瘤学提供有价值的见解。
2. 材料与方法
2.1. 数据获取与整合
多组学数据,包括临床信息、基因组改变(SNV/INDEL)、拷贝数变异(CNV)、转录组谱(芯片)和DNA甲基化数据(RRBS),均通过cBioPortal for Cancer Genomics从METABRIC数据库获取。经过严格的质量控制和数据过滤,共有965例具有完整临床和多组学资料的HR+/HER2−乳腺癌样本纳入分析。
2.2. 多组学差异分析
为了鉴定与HR+/HER2−乳腺癌预后相关的关键分子特征,使用R包“MOVICS”(v0.99.17)在预后不良和预后良好患者组之间进行了全面的多组学差异分析。所有分析均在R(v4.2.2)中进行,并由CancerSubtypes包(v1.24.0)提供支持。本研究特别关注药物敏感性和免疫检查点治疗反应的差异,旨在为更精准的治疗策略提供见解。
2.2.1. 突变分析
使用MOVICS中的compMut函数比较两组间的突变频率。应用卡方检验识别差异突变基因,频率截断值(freq.cutoff)设定为freq.cutoff = 0.05,确保仅包含在至少5%的样本中发生突变的基因。统计显著性由校正后P < 0.05确定。
2.2.2. 转录组分析
对于转录组分析,使用na.omit函数去除了含有缺失值的基因。差异表达分析使用针对芯片数据优化的limma方法通过runDEA函数进行。使用runMarker函数鉴定显著差异表达基因,显著性定义为P < 0.05和校正后P < 0.05。
2.2.3. 表观基因组分析
RRBS的甲基化数据采用β值方法进行分析。缺失值使用impute包中的impute.knn函数进行填补。差异甲基化分析结合ChAMP包中的DMP方法与limma进行,显著性阈值设定为P < 0.05且校正后P < 0.05。
2.2.4. 药物敏感性分析
我们使用compDrugsen函数基于转录组信息预测不同亚型对药物的响应。该分析通过计算基因表达与药物反应指标(IC50或EC50)之间的相关性,评估亚型特异性的药物敏感性。参数设置如下:tissueType设定为“breast”,显著性检验采用非参数检验。该分析旨在扩大筛选范围,挖掘亚型特异性的潜在治疗靶点。
2.3. 基因集富集分析(GSEA)
为了阐明预后不良组基因表达变化的生物学意义,我们进行了GSEA分析。这是一种用于评估预定义的基因集是否在排序基因列表的顶部或底部显著富集的计算方法。该方法能够检测生物学通路和过程的潜在改变。GSEA通过R中的MOVICS包内的GSEA函数实现,允许对全局基因表达谱进行综合分析,并检测基因集中细微但协调的变化。
2.4. 基因集变异分析(GSVA)和单样本基因集富集分析(ssGSEA)
鉴于通过GSEA发现高危乳腺癌样本中DNA损伤修复通路显著富集,进一步采用GSVA和ssGSEA对这些通路进行详细探索。
GSVA是一种非参数、无监督的方法,可将基因水平的表达数据转换为每个样本的通路水平富集评分,从而能够详细评估各患者组的代谢通路活性。ssGSEA是GSEA的扩展,计算特定基因集在每个样本上的富集评分,提供个体水平通路激活的精细视图。
本分析从cBioPortal获取了475例HR+/HER2−乳腺癌样本的FPKM标准化基因表达矩阵。根据既往研究[21]得到的一份包含276个与DNA损伤修复通路相关基因的列表进行分析。使用R中的GSVA包,应用GSVA和ssGSEA函数计算通路富集评分,kcdf参数设置为“Gaussian”以适应连续表达数据。结果使用ggplot2和ggpubr包进行可视化,并使用Student’s t检验评估组间差异。
2.5. 预后独立影响因素的Cox比例风险回归分析
为了评估关键分子特征对患者预后的独立预测价值,我们构建了多变量Cox比例风险回归模型。为消除治疗异质性的干扰,该分析仅纳入接受了标准内分泌治疗的患者队列。模型校正的协变量包括:年龄、化疗史、组织学分级、阳性淋巴结数量、TP53突变状态(Mutation vs. Wild-type)以及MMEJ通路评分(连续变量)。通过计算风险比(Hazard Ratio, HR)及其95%置信区间(CI),确定各因素对无复发生存期(RFS)的独立影响。
2.6. 使用TCGA数据库进行外部验证
为检验结论的普适性,我们引入TCGA-BRCA数据作为验证集。通过UCSC Xena平台获取临床及生存数据,筛选出484例ER+/HER2−病例。考虑到PFI (无进展间隔)与DFS (无病生存期)的高度相关性(r = 1),我们选取PFI作为预后终点。
同源重组缺陷(Homologous Recombination Deficiency, HRD)是指细胞无法通过高保真的同源重组通路有效修复DNA双链断裂,从而导致基因组高度不稳定及特定基因组“疤痕”积累的状态。它是反映肿瘤DNA修复能力受损程度的关键生物标志物。我们获取的HRD评分引自既往文献[22],经匹配后保留435例有效数据。为规避生存偏倚,我们剔除了PFI与OS值相同且无事件记录的“无效随访”病例,最终锁定43例具可评估数据的患者。
受限于样本量,我们调整了分组策略,以PFI是否超过2.5年为界进行二分(PFI_gt2.5y vs PFI_le2.5y),并运用Wilcoxon秩和检验、Welch’s t检验及Cohen’s d效应量,多维度评估HRD评分的组间差异。
3. 结果
3.1. 入组患者的基线特征
高危HR+/HER2−乳腺癌的常规治疗方案通常涵盖半年的化疗及后续的长期内分泌治疗。若患者在2年内复发,即被视为原发性内分泌耐药,此类人群经过目前优化治疗后总生存期(Overall Survival after Recurrence, OS)约为4年。鉴于部分患者未接受标准内分泌治疗,本研究剔除了这部分样本,以确保研究群体的同质性。
基于此,我们确立了严苛的高危(CS1组,54例)纳入标准:无复发生存期(RFS) < 2.5年且复发后总生存期(OS) ≤ 4年,同时剔除初始肿瘤 > 5 cm或III期患者以排除局部晚期干扰。相对地,低危组(CS2组,134例)则限定为RFS > 5年且排除临床I期患者。
我们总结了两组样本预后情况,其中,CS1组RFS中位值20.41个月显著低于CS2组中位值140.14个月;CS1组OS中位值34.87个月亦显著低于CS2组中位值142个月,CS1组预后更差。尽管在年龄、肿瘤大小、分级及手术化疗方式上无显著差异,但阳性淋巴结数量(P < 0.001)的差异具有统计学意义(表1)。
Table 1. Clinical characteristics and survival outcomes of patients with CS1 and CS2 signatures
表1. CS1和CS2特征患者的临床特征及生存结局
特征 |
CS1组(N = 54) |
CS2组(N = 134) |
P值 |
年龄 |
|
|
0.529 |
<40岁 |
1 |
2 |
|
40~44岁 |
0 |
5 |
|
45~49岁 |
3 |
9 |
|
≥50岁 |
50 |
118 |
|
阳性淋巴结数量 |
|
|
<0.001 |
0 |
12 |
0 |
|
1~3 |
22 |
104 |
|
≥4 |
20 |
30 |
|
肿瘤直径 |
|
|
0.403 |
≤20 mm |
12 |
22 |
|
>20 mm |
42 |
112 |
|
组织学分级 |
|
|
0.291 |
I (良好) |
2 |
10 |
|
II (中等) |
24 |
70 |
|
III (差) |
27 |
52 |
|
缺失 |
1 |
2 |
|
手术方式 |
|
|
0.860 |
保乳手术 |
16 |
38 |
|
乳房切除术 |
38 |
96 |
|
化疗 |
|
|
1.000 |
无 |
44 |
110 |
|
有 |
10 |
24 |
|
肿瘤分期 |
|
|
1.000 |
1期和2期 |
35 |
90 |
|
3期 |
4 |
9 |
|
缺失 |
15 |
35 |
|
生存结局 |
中位RFS (月) |
20.41 |
140.14 |
|
中位OS (月) |
34.87 |
142 |
|
3.2. 两个预后组之间的多组学差异
为了从分子层面解码预后差异,我们对基因组、表观组及转录组进行了深度挖掘,结果显示:
基因组分析:预后不良的CS1组中观察到显著更高的TP53突变频率(表2)。总体而言,TP53的肿瘤突变负荷(TMB)为20%。卡方检验得出了极显著的P值(2.24 × 10−3)和校正后P值(5.38 × 10−2),证实了CS1和CS2之间TP53突变存在实质性差异。
转录组分析:在转录组水平上,大量基因表现出显著的差异表达。在CS1中,157个基因显著上调(P < 0.05) (图1(A)),而346个基因显著下调(图1(B))。CS1中前10个上调和下调的基因汇总于(表3)。
表观基因组分析:表观基因组分析鉴定出109个基因在CS1的转录起始位点(TSS)区域显著高甲基化(校正后P < 0.05)。前10个高甲基化基因列于(表4)。值得注意的是,在TSS区域未检测到差异低甲基化基因。
Table 2. Chi-square test for the independence between molecular subtype and TP53 mutation
表2. 分子亚型与TP53突变独立性的卡方检验
突变基因 |
总体(TMB) |
CS1 |
CS2 |
P值 |
校正后P值 |
TP53 |
38 (20%) |
19 (35.2%) |
19 (14.2%) |
0.00224 |
0.0538 |
Table 3. Top 10 upregulated genes in CS1 identified by transcriptomic differential analysis (left); Top 10 downregulated genes in CS1 identified by transcriptomic differential analysis (right)
表3. 转录组差异分析鉴定的CS1中前10个上调基因(左)及下调基因(右)
序号 |
基因 |
P值 |
校正后P值 |
基因 |
P值 |
校正后P值 |
1 |
KIF20A |
1.89 × 10−10 |
3.85 × 10−6 |
TRIM4 |
5.41 × 10−7 |
2.74 × 10−4 |
2 |
BIRC5 |
1.59 × 10−9 |
1.45 × 10−5 |
GASK1B |
6.38 × 10−7 |
2.89 × 10−4 |
3 |
GTSE1 |
2.14 × 10−9 |
1.45 × 10−5 |
CHRNB1 |
1.39 × 10−6 |
5.55 × 10−4 |
4 |
LMNB2 |
3.87 × 10−9 |
1.93 × 10−5 |
ABAT |
2.94 × 10−6 |
8.94 × 10−4 |
5 |
SAPCD2 |
4.73 × 10−9 |
1.93 × 10−5 |
TMEM26 |
3.11 × 10−6 |
9.32 × 10−4 |
6 |
PLK1 |
6.37 × 10−9 |
2.16 × 10−5 |
PNPLA4 |
4.11 × 10−6 |
1.12 × 10−3 |
7 |
TROAP |
8.74 × 10−9 |
2.54 × 10−5 |
FAM241A |
4.24 × 10−6 |
1.14 × 10−3 |
8 |
PTTG1 |
1.00 × 10−8 |
2.55 × 10−5 |
MAPT |
4.66 × 10−6 |
1.23 × 10−3 |
9 |
CDC20 |
3.14 × 10−8 |
6.63 × 10−5 |
PIGV |
5.15 × 10−6 |
1.32 × 10−3 |
10 |
BLM |
3.25 × 10−8 |
6.63 × 10−5 |
SMARCA2 |
5.16 × 10−6 |
1.32 × 10−3 |
Table 4. Top 10 hypermethylated TSSs in CS1 identified by epigenomic differential analysis
表4. 表观基因组差异分析鉴定的CS1中前10个高甲基化转录起始位点(TSS)
序号 |
基因 |
P值 |
校正后P值 |
1 |
ADCYAP1 |
6.14 × 10−8 |
8.10 × 10−4 |
2 |
LINC00577 |
2.92 × 10−6 |
0.0126 |
3 |
SMIM17 |
3.61 × 10−6 |
0.0126 |
4 |
CYP7B1 |
4.28 × 10−6 |
0.0126 |
5 |
MEG3 |
4.79 × 10−6 |
0.0126 |
6 |
MTNR1A |
6.29 × 10−6 |
0.0138 |
7 |
ACAN |
7.55 × 10−6 |
0.0142 |
8 |
SLC6A3 |
1.00 × 10−5 |
0.0162 |
9 |
LOC283683 |
1.11 × 10−5 |
0.0162 |
10 |
PRDM12 |
1.29 × 10−5 |
0.017 |
Figure 1. (A) Heatmap of upregulated biomarkers in CS1. (B) Heatmap of downregulated biomarkers in CS1
图1. (A) CS1组中上调生物标志物的热图。(B) CS1组中下调生物标志物的热图
3.3. CS1组药物敏感性降低及耐药性增加
对两个患者亚组间药物敏感性和耐药性的比较分析显示,对多种化合物的反应存在显著差异。CS1组对BMS345541 (一种IκB激酶抑制剂)和AS605240 (一种PI3K抑制剂)表现出增强的敏感性(图2(A))。相反,CS1组对Imatinib (一种酪氨酸激酶抑制剂)和DMOG (一种HIF-PH抑制剂)的敏感性降低(图2(B))。这些结果突显了根据分子谱定制治疗策略的机会,并强调了发现生物标志物的必要性,以便对这一高危、预后不良的人群进行更精准的治疗靶向。
3.4. GSEA揭示DNA损伤修复通路显著上调
鉴于表观组仅发现高甲基化基因,而转录组差异广泛,我们进一步通过GSEA寻找通路层面的线索。结果显示,两组间多个KEGG通路中表现出显著差异(图3)。我们观察到在高危患者群体中,上调通路主要集中于DNA损伤修复相关领域(图3(A)),包括KEGG_CELL_CYCLE (细胞周期通路)、KEGG_DNA_REPLICATION (DNA复制通路)、KEGG_HOMOLOGOUS_RECOMBINATION (同源重组修复通路)、KEGG_MISMATCH_REPAIR (错配修复通路)、KEGG_SPLICEOSOME (剪接体通路)和KEGG_BASE_EXCISION_REPAIR (碱基切除修复通路)等多个环节。这个结果揭示了高危患者生物学行为可能与高增殖、高DNA修复活性密切相关。相反,免疫炎症反应及生物代谢相关通路则在高危患者中被抑制(图3(B)),如:KEGG_COMPLEMENT_AND_COAGULATION_CASCADES (补体和凝血级联通路)等。这表明高危亚组中可能存在免疫反应抑制和代谢改变。
(A) BMS345541和AS605240在CS1 (蓝绿色)和CS2 (红色)亚组中的敏感性。两种药物在CS1中的IC₅₀值均低于CS2,表明CS1组敏感性增加,且具有统计学显著性。(B) Imatinib和DMOG在两个亚组中的敏感性。两种药物在CS1中的IC50值均高于CS2,表明CS2组敏感性增加,且具有统计学显著性。
Figure 2. Results of the drug sensitivity analysis
图2. 药物敏感性分析结果
(A) 上调通路和 (B) 下调通路。每一行对应一个KEGG通路,每一列代表一个亚型(CS1, CS2)。颜色表示标准化富集评分(NES):红色表示富集程度较高,蓝色表示富集程度较低。细胞周期、DNA复制和同源重组等通路在不同亚型间表现出独特的富集模式。
Figure 3. Results of GSEA enrichment analysis
图3. 基因集富集分析(GSEA)的结果
3.5. DNA损伤修复通路的GSVA分析
GSVA分析进一步细化了我们对DNA修复异常的认知。8个关键基因在两个预后组之间显示出统计学显著差异(图4)。RBBP8表达在高危组中显著较低,而EXO1、FEN1、HMCES、JMJD6、POLQ、RAD51和XRCC3则显著上调(图4)。尤为关键的是,GSVA (图5(A))与ssGSEA (图5(B))均指向同一个结论:高致癌性的微同源介导末端连接(MMEJ)通路(一种DNA双链断裂(DSB)修复的替代机制)在高危患者中显著富集。然而,两组之间在同源重组(HR)和非同源末端连接(NHEJ) (经典的DSB修复通路)方面未观察到显著差异。
3.6. TP53突变与MMEJ评分的独立预后价值验证
多因素Cox回归模型进一步验证了TP53突变与MMEJ通路在预后评估中的独立性(图6)。在纳入年龄、淋巴结状态、分级及化疗等临床协变量后,TP53突变(HR = 2.12, P = 0.013)和MMEJ评分(HR = 3.78, P = 0.013)仍显著关联于更差的RFS。值得注意的是,MMEJ评分作为连续变量显示出较高的风险比,提示随着易错修复通路的激活程度增加,复发风险呈显著上升趋势。该结果巩固了二者作为HR+/HER2−乳腺癌不良预后核心分子驱动因子的地位。
箱线图描绘了各组评分的分布,水平线表示中位数,箱体边界代表四分位距(IQR)。触须延伸至1.5 × IQR,异常值显示为单独的点。X轴标签代表关键的DNA损伤修复因子,Y轴表示基因表达值。星号表示两组之间的统计学显著差异:*P < 0.05;**P < 0.01;***P < 0.001;NS,不显著。
Figure 4. Comparison of gene set scores for DNA damage repair pathway factors between the CS1 (yellow) and CS2 (blue) groups
图4. CS1 (黄色)和CS2 (蓝色)组之间DNA损伤修复通路因子基因集评分的比较
箱线图展示了各组评分的分布,X轴标签表示不同的基因集。在GSVA分析(A)中,Y轴(评分)代表基因表达值,而在ssGSEA分析(B)中,Y轴(评分)表示基因集富集评分。在所有基因及MMEJ基因集中,GSVA (A)和ssGSEA (B)分析均显示两组之间存在显著差异。其中,“Paper”指代基于文献报道的 276个DNA损伤修复相关基因组成的综合基因集,用于评估样本的总体DNA修复通路活性
Figure 5. Comparison of gene set scores between the CS1 (yellow) and CS2 (blue) groups
图5. CS1 (黄色)和CS2 (蓝色)组之间基因集评分的比较
该模型纳入了年龄、化疗史、组织学分级、阳性淋巴结数量、TP53突变状态及MMEJ通路评分等变量。图中展示了各变量的风险比(Hazard Ratio, HR)及其95%置信区间(CI)。MMEJ评分和淋巴结数量作为连续变量分析,其余为分类变量。结果显示,在调整其他临床因素后,TP53突变(HR = 2.12, P = 0.013)和高MMEJ评分(HR = 3.78, P = 0.013)均为显著的独立预后危险因素
Figure 6. Forest plot of multivariate Cox proportional hazards regression analysis for Relapse-Free Survival in HR+/HER2− patients receiving endocrine therapy
图6. 接受内分泌治疗的HR+/HER2−乳腺癌患者无复发生存期的多因素Cox回归分析森林图
本图展示了根据无进展间隔(PFI)分层的两组患者的HRD评分分布情况:PFI_gt2.5y组(>2.5年,粉色)和PFI_le2.5y组(≤2.5年,蓝色)。小提琴图描绘了各亚组中HRD评分的密度分布,其中嵌入的箱线图指示了中位数和四分位距。图中的黑点代表单个样本。组间的统计比较结果以P值(P = 0.107)显示,用于评估不同PFI类别之间HRD评分差异的显著性
Figure 7. Distribution of HRD scores between PFI-based subgroups in the TCGA-BRCA cohort
图7. TCGA-BRCA队列中基于PFI分组的HRD评分分布
3.7. 使用TCGA数据库进行外部验证
在TCGA-BRCA验证集中,共有43例患者被纳入研究,其中25例被分配到PFI_gt2.5y组(PFI大于2.5年),18例被分配到PFI_le2.5y组(PFI小于2.5年)。
同源重组缺陷(HRD)评分的比较表明,短PFI组有HRD水平升高的趋势。尽管受限于样本量,Wilcoxon检验(P = 0.1066)与Welch’s t检验(P = 0.094)未达传统显著性水平,但Cohen’s d值为−0.56,提示中等效应量。这一结果与我们在METABRIC数据库分析得到的结果一致,佐证了HRD水平升高与不良预后之间的潜在联系(图7)。
4. 讨论
乳腺癌是全球女性中最常见的恶性肿瘤[1],在癌症相关死亡率中排名第五。激素受体阳性(HR+)/HER2−乳腺癌约占所有病例的70%,通常预后良好。然而,由于其显著的异质性,约15%的HR+/HER2−患者尽管接受了标准治疗,仍会在5年内复发。与其他乳腺癌亚型不同,HR+/HER2−疾病的复发风险无限期持续,可延长至确诊后20~30年[23]。
临床上,某些HR+/HER2−患者尽管肿瘤较小,但在诊断时即有淋巴结受累或远处转移,表现出侵袭性疾病特征。另一些患者经历早期复发——无论是在手术后不久、辅助化疗期间或一年内,还是辅助内分泌治疗两年内——表明对化疗和内分泌治疗均存在原发性耐药[24]。这种内在的异质性显著复杂化了治疗策略的制定。尽管进行了广泛研究,目前仍缺乏用于精确分型和预后的确切分子标志物。因此,阐明驱动该亚型异质性的分子机制对于改善患者预后至关重要,这也是本研究的核心临床依据。
基于这一临床痛点,本研究利用多组学手段对HR+/HER2−乳腺癌进行了深度剖析。我们的核心目标有二:一方面是通过研究各组学层面的差异,揭示HR+/HER2−高危乳腺癌内在的遗传及生物学特征,推动对其的进一步理解;另一方面是发现高危HR+/HER2−乳腺癌亚型潜在的治疗靶点,以期转化为新的治疗策略或药物,实现对该类型人群早期、精准和强化治疗,最终改善患者的生活质量和生存率。
我们首先定义了一种极端的高危患者人群,RFS < 2.5年并OS < 4年,同时,为了排除非生物学因素(如治疗延迟)造成的不良预后,排除了初诊局部晚期的患者。而低危患者人群,我们不仅定义其RFS > 5年,并且同时排除因初诊I期而掩盖的不良预后。通过设定严苛的筛选标准,我们构建了极具代表性的高危与低危对照组,从而捕捉到了以往研究中可能被稀释的分子差异。基于METABRIC数据库的多组学分析,我们揭示了基因组、转录组和表观基因组水平的显著差异。基因组分析首先指出TP53突变在高危组中的富集。TP53突变是人类癌症中最普遍的遗传改变之一[25]。作为“基因组卫士”,TP53的功能缺失往往意味着细胞对DNA损伤监控能力的丧失。在HR+/HER2−乳腺癌中,TP53突变常与同源重组修复(HRR)相关基因突变(如BRCA1/2)共发生,可能加剧基因组不稳定性并加速癌症进展[26]。
我们也观察到了表观基因组差异,特别是涉及先前与乳腺癌进展相关的基因。例如,CYP7B1基因表达上调,该基因编码的酶负责催化胆固醇氧化产物如27-羟基胆固醇(27-HC)7α-羟基化。在HR+乳腺癌中,27-HC作为选择性雌激素受体调节剂,促进肿瘤生长[27]。然而,CYP7B1通常在该乳腺癌亚型中下调,导致27-HC在肿瘤微环境中的积累[28]。
在转录组水平上,观察到了最显著的差异,表明基因表达改变可能驱动高危HR+/HER2−乳腺癌的不良预后。诸如UBE2C和CBX2等已知增强肿瘤细胞增殖的基因[29] [30]在高危组中显著上调。相反,增强化疗敏感性并抑制肿瘤进展的PIP基因[31]则下调。
然而,转录组中最令人担忧的差异是DNA损伤修复通路的显著差异。DNA修复缺陷是肿瘤发生和发展的关键驱动因素[32]。同源重组(HR)DNA修复通路中的致病突变,如BRCA1/2突变,是乳腺癌中最常见的遗传改变之一[33]。这些突变损害了细胞修复双链DNA断裂的能力,从而增加了基因组不稳定性。
通路富集分析进一步揭示,高危肿瘤表现出DNA损伤修复通路的显著上调,特别是微同源介导的末端连接(MMEJ)通路——这是一种极易出错的机制,与基因组不稳定性和耐药性相关[34]。相比之下,经典的同源重组(HR)和非同源末端连接(NHEJ)通路未显示显著差异。7个关键的DNA修复基因——EXO1、FEN1、HMCES、JMJD6、POLQ、RAD51和XRCC3——在高危组中显著上调。随后的GSVA和ssGSEA分析证实了高危肿瘤中MMEJ通路的过度激活。鉴于其与复杂基因组重排和治疗耐药的强相关性,MMEJ过度激活可能促成了这些肿瘤的侵袭性表型。
与此同时,我们使用预后相关因素的Cox比例风险模型进一步评估TP53突变状态和MMEJ通路评分对患者预后的独立影响。得到了两者均为独立不良预后因素的结论。
为了验证这一发现,我们在TCGA队列中进行了外部验证。结果显示,尽管可评估病例数量有限(n = 43)降低了统计效能,但PFI较短的患者表现出较高的HRD评分,且具有中等效应量,表明HRD升高与更短的无进展生存期之间存在潜在关联。这一趋势与我们主队列的结果一致,并加强了HRD作为ER+/HER2-乳腺癌潜在预后生物标志物的地位。
然而,本研究仍存在若干局限性。主要局限包括:依赖单一公共数据集且外部验证有限;风险组定义具有主观性;高危亚组样本量相对较小;芯片和RRBS数据的固有局限性。此外,缺乏实验验证也限制了对MMEJ激活的功能解释。
5. 结论
本研究利用METABRIC数据库,首次证明了在预后极差的HR+/HER2−乳腺癌中存在MMEJ介导的DNA修复过度激活。这些发现为该亚组肿瘤侵袭性和耐药性背后的分子机制提供了有价值的见解。然而,样本量相对较小和外部验证有限等局限性仍需进一步调查。未来的研究应侧重于在更大的队列中验证这些结果,并探索靶向MMEJ及相关通路在高危HR+/HER2−乳腺癌中的治疗潜力。
致 谢
感谢公共数据库METABRIC数据库和TCGA数据库提供的数据支持,感谢重庆市自然科学基金创新发展联合基金对本研究的资助,感谢所有对本文提供帮助的机构和个人。
声 明
本研究获得重庆医科大学附属第一医院临床科研伦理委员会批准(审批号:2024年科研伦理(2024-044-01)号),本研究数据来源为公共数据库。
基金项目
重庆市自然科学基金创新发展联合基金(万州区)资助(CSTB2023NSCQ-LMX0018)。
NOTES
*通讯作者。