基于机器学习的保留乳头乳房切除术中乳头–乳晕复合体受累预测模型的开发与验证
Development and Validation of a Machine Learning Based Predictive Model for Nipple-Areolar Complex Involvement in Nipple-Sparing Mastectomy
DOI: 10.12677/acm.2026.1631045, PDF, HTML, XML,   
作者: 刘滢滢, 王新刚*:青岛大学附属医院乳腺病诊疗中心,山东 青岛;李欣蔚, 赵志文:青岛大学附属医院器官移植中心,山东 青岛
关键词: 保留乳头乳房切除术乳头–乳晕复合体受累机器学习Nipple-Sparing Mastectomy Nipple-Areolar Complex Involvement Machine Learning
摘要: 目的:开发并验证一个整合临床特征和机器学习算法的预测模型,用于评估拟行保留乳头乳房切除术患者中乳头–乳晕复合体的受累情况。方法:这项回顾性研究分析了青岛大学附属医院接受NSM并同期乳房重建的238例乳腺癌患者。根据术后病理,患者被分为NAC受累组(n = 36)和NAC未受累组(n = 202)。评估了临床、影像学和病理学特征。进行了单因素和多因素分析,并开发比较了四种机器学习模型——逻辑回归、随机森林、支持向量机和XGBoost。结果:乳头内陷、血性乳头溢液、肿瘤–乳头距离 ≤ 2 cm、淋巴血管浸润和临床淋巴结状态被确定为NAC受累的独立预测因子(P < 0.05)。XGBoost模型表现出最高的预测性能,曲线下面积为0.977,其次是随机森林(AUC = 0.970)、逻辑回归(AUC = 0.968)和SVM (AUC = 0.958)。基于显著预测因子的整合模型在基于逻辑回归的列线图验证中显示出0.775的AUC。多因素分析证实乳头内陷和血性乳头溢液是强有力的独立危险因素(OR = 12.83, OR = 18.64, P < 0.05)。结论:结合关键临床预测因子与机器学习建模,为术前预测NSM候选者NAC受累提供了一个有价值的工具。该方法有助于早期识别高危患者,可能优化手术规划和肿瘤学安全性。
Abstract: Objective: To develop and validate a predictive model incorporating clinical features and machine learning algorithms for assessing nipple-areolar complex (NAC) involvement in patients undergoing nipple-sparing mastectomy (NSM). Methodology: This retrospective study analyzed 238 patients with breast cancer who underwent NSM with immediate breast reconstruction at the Affiliated Hospital of Qingdao University. Based on postoperative pathology, patients were categorized into an NAC-involved group (n = 36) and an NAC-not-involved group (n = 202). Clinical, imaging, and pathological features were evaluated. Univariate and multivariate analyses were performed, and four machine learning models—Logistic Regression, Random Forest, Support Vector Machine (SVM), and XGBoost—were developed and compared. Results: Nipple retraction, bloody nipple discharge, tumor-to-nipple distance (TND) ≤ two cm, lymphovascular invasion, and clinical lymph node status were identified as independent predictors of NAC involvement (P < 0.05). The XGBoost model demonstrated the highest predictive performance, with an area under the curve (AUC) of 0.977, followed by Random Forest (AUC = 0.970), Logistic Regression (AUC = 0.968), and SVM (AUC = 0.958). The integrated model based on significant predictors showed an AUC of 0.775 in logistic regression-based nomogram validation. Multivariate analysis confirmed nipple retraction and bloody nipple discharge as strong independent risk factors (OR = 12.83 and OR = 18.64, P < 0.05). Conclusion: The combination of key clinical predictors and machine learning modeling provides a valuable tool for preoperative prediction of NAC involvement in NSM candidates. This approach aids in the early identification of high-risk patients, potentially optimizing surgical planning and oncologic safety.
文章引用:刘滢滢, 李欣蔚, 赵志文, 王新刚. 基于机器学习的保留乳头乳房切除术中乳头–乳晕复合体受累预测模型的开发与验证[J]. 临床医学进展, 2026, 16(3): 2462-2469. https://doi.org/10.12677/acm.2026.1631045

1. 引言

保留乳头乳房切除术因其更优的美容效果以及对患者生活质量和心理健康的显著改善,在乳腺癌外科治疗中日益受到重视[1] [2]。然而,该手术的基石在于保留的乳头–乳晕复合体无隐匿性肿瘤受累[3]。术前准确识别NAC受累低风险患者至关重要。尽管先前研究已确定了诸如血性乳头溢液和淋巴血管浸润等危险因素,但大多数预测模型基于传统统计方法,高级机器学习技术的应用仍有待探索[4]。本研究旨在通过单因素和多因素分析确定NAC受累的关键预测因子,并开发和比较多种机器学习模型用于术前预测NAC受累风险,从而协助外科医生优化NSM的患者选择。

2. 资料与方法

2.1. 研究人群与数据收集

我们回顾性分析了2023年12月至2024年9月期间在我院接受手术治疗的250例乳腺癌患者的临床数据(图1)。系统收集了临床、影像学和病理学数据。NAC受累定义为癌细胞浸润乳头和/或乳晕的皮肤和/或皮下组织。所有人数据的使用均经青岛大学附属医院伦理委员会批准(QYFYWZLL30700)。

Figure 1. Flowchart of the research screening process

1. 研究筛选流程图

2.2. 预测变量与统计分析

分析的变量包括:年龄、家族史、绝经状态、新辅助化疗、肿瘤位置、临床肿瘤大小、多灶性/多中心性、乳头内陷、乳头溢液、NAC皮肤湿疹样改变、肿瘤–乳头距离、临床淋巴结状态、淋巴血管浸润、伴随导管原位癌、组织学类型和分级、受体状态(ER, PR, HER2, Ki-67)。连续变量采用t检验比较,分类变量采用卡方检验或Fisher精确检验比较。单因素分析中P值 < 0.05的变量被纳入多因素逻辑回归模型以确定独立预测因子。由于部分变量的事件数较少,可能导致传统Logistic回归出现宽置信区间和极端OR值,我们采用Firth惩罚似然法(Firth’s Penalized Likelihood)对多因素模型进行拟合,该方法通过引入惩罚项有效处理数据稀疏和完全分离问题,从而获得更为稳健的回归系数估计。

2.3. 机器学习模型开发

我们开发了四种ML模型:逻辑回归、随机森林、支持向量机和XGBoost。数据集按7:3的比例随机分为训练集和测试集。使用受试者工作特征曲线下面积、准确率、灵敏度和特异性评估模型性能。分析了基于树的模型(随机森林和XGBoost)的特征重要性。基于逻辑回归模型构建了列线图以便临床应用。

3. 研究结果

本研究最初共纳入250例患者。其中12例患者因临床数据缺失被排除,最终统计样本为238例患者。其中,36例患者(15.1%)术后病理证实存在NAC受累。单因素分析显示,乳头内陷、肿瘤大小、TND、淋巴血管浸润、淋巴结状态和多灶性/多中心性与NAC受累显著相关(所有P < 0.05) (表1)。相比之下,年龄、绝经状态、激素受体状态等因素未显示显著关联。

多因素逻辑回归分析进一步细化了这些发现,确定血性乳头溢液、乳头内陷、临床淋巴结状态、多灶性/多中心性、TND和淋巴血管浸润为NAC受累的独立预测因子。乳头内陷和血性乳头溢液的比值比尤其高,分别为12.83和18.64,表明其强大的预测能力(表2)。

Table 1. Patient clinicopathological characteristics and univariate analysis of associations with NAC involvement

1. 乳腺癌患者NAC侵袭相关因素的单因素分析

因素

NAC肿瘤阴性(n = 202)

NAC肿瘤阳性(n = 36)

χ2

P值

年龄

0.563

0.453

≤50岁

71 (35.1)

15 (41.7)

>50岁

131 (64.9)

21 (58.3)

肿瘤家族史

0.184

0.668

23 (11.4)

5 (13.9)

179 (88.6)

31 (86.1)

既往乳腺癌病史

0.629

0.428

6 (3.0)

2 (5.6)

196 (97.0)

34 (94.4)

月经状态

0.401

0.527

绝经前

73 (36.1)

15 (41.7)

绝经后

129 (63.9)

21 (58.3)

新辅助化疗

0.129

0.719

45 (22.3)

9 (25.0)

157 (77.7)

27 (75.0)

肿瘤位置

0.590

0.442

中央区

60 (29.7)

13 (36.1)

外周区

142 (70.3)

23 (63.9)

临床肿瘤大小

31.524

0.000

>3.5 cm

39 (19.3)

23 (63.9)

≤3.5 cm

163 (80.7)

13 (36.1)

多灶/多中心

7.040

0.008

47 (23.3)

16 (44.4)

155 (76.7)

20 (55.6)

乳头凹陷

90.313

0.000

4 (2.0)

19 (52.8)

198 (98.0)

17 (47.2)

乳头溢液

42.349

0.000

血性

2 (1.0)

7 (19.4)

非血性

6 (3.0)

6 (16.7)

194 (96.0)

23 (63.9)

NAC皮肤湿疹样改变

0.951

0.329

0 (0.0)

1 (2.8)

202 (100.0)

35 (97.2)

TND

84.311

0.000

≤2 cm

26 (12.9)

30 (83.3)

>2 cm

176 (87.1)

6 (16.7)

临床淋巴结状态

8.329

0.004

阳性

77 (38.1)

23 (63.9)

阴性

125 (61.9)

13 (36.1)

恶性特征钙化灶

1.475

0.225

194 (96.0)

36 (100.0)

8 (4.0)

0 (0.0)

合并原位癌成分

0.563

0.453

131 (64.9)

21 (58.3)

71 (35.1)

15 (41.7)

组织学类型

2.732

0.604

IDC

158 (78.2)

26 (72.2)

ILC

10 (5.0)

1 (2.8)

DCIS

25 (12.4)

7 (19.4)

LCIS

0 (0.0)

0 (0.0)

混合癌

3 (1.5)

0 (0.0)

其他

6 (3.0)

2 (5.6)

组织学分级

5.812

0.055

1

15 (7.4)

1 (2.8)

2

140 (69.3)

20 (55.6)

3

47 (23.3)

15 (41.7)

ER

0.328

0.567

阳性

142 (70.3)

27 (75.0)

阴性

60 (29.7)

9 (25.0)

PR

0.178

0.673

阳性

133 (65.8)

25 (69.4)

阴性

69 (34.2)

11 (30.6)

HER-2

0.473

0.492

阳性

50 (24.8)

7 (19.4)

阴性

152 (75.2)

29 (80.6)

KI-67

0.734

0.391

≥20

80 (39.6)

17 (47.2)

<20

122 (60.4)

19 (52.8)

脉管癌栓

31.736

0.000

26 (12.9)

19 (52.8)

176 (87.1)

17 (47.2)

Table 2. Multivariable Logistic regression analysis using Firth’s penalized likelihood for predictors of NAC involvement

2. 采用Firth惩罚似然法的乳腺癌患者NAC侵袭的多因素Logistic回归分析

因素

OR

95%CI

P值

乳头凹陷

12.83

3.12~52.76

0.001

临床肿瘤大小

0.28

0.09~0.87

0.028

多灶/多中心

0.36

0.10~1.28

0.113

TND

0.07

0.02~0.24

<0.001

临床淋巴结状态

0.54

0.17~1.72

0.299

脉管癌栓

0.17

0.05~0.58

0.005

乳头非血性溢液

7.21

0.92~56.38

0.060(1)

乳头血性溢液

18.64

4.25~81.73

<0.001(2)

(1) 非血性溢液与无溢液比较的P值;(2) 血性溢液与非血性溢液比较的P值。

Figure 2. Development, performance, and feature importance of machine learning models for predicting NAC involvement

2. 预测NAC受累的机器学习模型的开发、性能及特征重要性

随后,我们开发并验证了四种机器学习模型。XGBoost模型表现出最高的预测性能,AUC达到0.977,紧随其后的是随机森林(AUC = 0.970)、逻辑回归(AUC = 0.968)和SVM (AUC = 0.958) (图2(A))。性能指标(准确率、AUC、灵敏度、特异性)的比较分析证实了集成树模型(XGBoost和随机森林)的整体优越性(图2(B))。XGBoost和随机森林模型均一致地将TND (及其二分类形式TND ≤ 2 cm)、乳头内陷和临床肿瘤大小列为前三位最重要的预测因子,这与传统统计分析的结果一致(图2(C))。为便于临床使用,我们基于单因素分析中确定的显著预测因子构建了一个列线图(图3(A)),为个体化风险评估提供了一个便捷工具。内部验证采用Bootstrap重采样评估列线图对应的逻辑回归模型的区分能力,结果显示AUC为0.775,表明该简化模型具有中等预测效能(图3(B))。

Figure 3. Construction and internal validation of a nomogram for predicting NAC involvement

3. 预测NAC受累列线图的构建与内部验证

4. 讨论

本研究通过整合传统统计学和现代机器学习算法,成功开发并验证了一个用于预测NSM患者NAC受累的稳健模型。我们的发现再次确认了短TND、大肿瘤体积和阳性淋巴结状态等因素在预测NAC受累中的关键作用。值得注意的是,我们发现乳头内陷和血性乳头溢液是NAC受累的最强独立危险因素,其比值比异常高,提示术前应仔细评估这些临床体征。

机器学习模型的应用,特别是XGBoost,产生了优异的预测准确性,在该数据集中表现优于传统逻辑回归。高AUC值(均>0.95)表明这些模型能有效进行患者风险分层。不同ML模型间特征重要性的一致性增强了所确定关键预测因子的可信度。开发的列线图为外科医生提供了一个实用直观的工具,用于术前量化NAC受累风险,有助于手术规划。

逻辑回归模型与列线图AUC的差异(0.968 vs. 0.775)原因在于二者对应的模型构建策略和验证方式存在本质的不同。逻辑回归机器学习模型使用了全部临床、影像及病理特征(共22个变量),并在训练集上通过交叉验证进行超参数调优,最终在独立的测试集(30%数据)上评估其性能,因此获得了较高的AUC值。而列线图是基于传统多因素回归建立的临床实用工具,仅纳入了单因素分析中显著的7个变量,旨在提供简洁直观的风险评分;其AUC通过Bootstrap内部验证(基于全部数据)获得,反映的是简化模型在原始数据集中的平均表现。由于变量数量较少且未经过测试集外部验证,列线图的AUC低于全特征机器学习模型属合理现象,并不代表模型不稳定。事实上,逻辑回归模型在测试集上的AUC为0.968,与随机森林、XGBoost等复杂模型相当,表明其在给定特征空间下具有良好的泛化能力。而列线图作为简化工具,虽然预测精度有所下降,但更易于临床推广。未来仍需在独立外部队列中验证两种模型的稳定性。

本研究存在一些局限性。回顾性设计可能引入选择偏倚。样本量,特别是NACI (+)事件的数量,对于机器学习来说相对有限,可能影响模型的泛化能力。此外,模型缺乏在独立队列中的外部验证。未来需要进行更大样本量的前瞻性、多中心研究以进行外部验证和性能优化。

5. 结论

我们确定了NAC受累的关键临床预测因子,并开发了一个基于机器学习的高性能预测模型。该工具可协助医生在术前识别NSM的理想候选者,从而在确保肿瘤学安全的同时优化美学效果。

NOTES

*通讯作者。

参考文献

[1] Spillane, S., Baker, C. and Lippey, J. (2024) Therapeutic Nipple-Sparing Mastectomy: A Scoping Review of Oncologic Safety and Predictive Factors for In-Breast Recurrence. ANZ Journal of Surgery, 95, 34-40. [Google Scholar] [CrossRef] [PubMed]
[2] Pluta, P., Rathat, G., Blay, L., Gentilini, O.D., Huber, D.E., Daniel, M., et al. (2025) Minimal Access Nipple-Sparing Mastectomy—The Current European Landscape. Menopausal Review, 24, 66-71. [Google Scholar] [CrossRef] [PubMed]
[3] Carroll, A., Robles, C., Lai, H., Blay, L., Pluta, P., Rathat, G., et al. (2025) Oncological, Surgical, and Cosmetic Outcomes of Endoscopic versus Conventional Nipple-Sparing Mastectomy: Meta-Analysis. BJS Open, 9, zraf011. [Google Scholar] [CrossRef] [PubMed]
[4] Xu, Y., Huang, X., Chen, J., Hao, S., Yang, Y., Wang, J., et al. (2020) A Predictive Model of Nipple-Areola Complex Involvement for Indicating Nipple-Sparing Mastectomy in Immediate Breast Reconstruction Patients. Chinese Journal of Practical Surgery, 40, 957-63.