1. 前言
随着低剂量计算机断层扫描(computed tomography, CT)的普及,早期肺癌的检出率明显提高,但肺癌仍是癌症相关死亡的主要原因[1]。腺癌是肺癌的主要组织学类型[2]。气腔播散(spread through air spaces, STAS)是肺癌一种新的侵袭模式,其特征为肿瘤细胞超出肿瘤边缘在邻近肺泡腔内扩散[3]。研究表明,STAS不仅与肺癌淋巴血管浸润、高级别组织学类型相关,还是影响患者术后预后的重要危险因素[4] [5]。对于STAS阳性肺腺癌,接受亚肺叶切除的患者比接受肺叶切除的患者复发风险明显增加、生存率显著降低[6] [7]。亚实性结节是早期肺腺癌的常见表现类型,纯磨玻璃结节几乎无STAS,而部分实性结节可出现STAS [8]。STAS主要依靠术后病理诊断,术前准确预测STAS状态将有助于指导临床选择适宜的手术方式。既往研究发现一些影像学特征与STAS存在相关性[9] [10]。本研究旨在通过分析部分实性结节肺腺癌患者的临床及影像学资料,建立机器学习模型以术前识别STAS状态。
2. 资料与方法
2.1 研究对象
本研究回顾性收集2021年2月至2023年6月于青岛大学附属医院手术切除的I期肺腺癌患者。纳入标准:(1) 术前胸部CT图像表现为部分实性结节;(2) 经病理证实为浸润性肺腺癌,且病灶最大直径≤ 3 cm;(3) 病理资料完整,能满足评估STAS要求。排除标准:(1) 术前接受任何抗肿瘤治疗;(2) 临床资料不完整;(3) 图像质量不佳,影响对肿瘤的评估。最终纳入152例患者,其中女90例,男62例,年龄29~81岁,平均(58.4 ± 10.4)岁,按照7:3比例将患者随机分为训练组(106例)和验证组(46例)。
2.2. CT方法
采用Siemens Somatom Sensation Cardiac 64及GE Discover 750 HD设备进行胸部CT平扫。扫描范围从肺尖至肺底,扫描参数:管电压120 kV,自动管电流,层厚5 mm,重建层厚0.625~1.25 mm。
2.3. 临床资料收集及图像分析
收集患者的临床资料,包括年龄、性别、吸烟史、cT分期、癌胚抗原(carcinoembryonic antigen level, CEA)水平。由2名具有7年以上诊断经验的影像科医师分别评估病灶CT特征,包括结节位置、边界、肿瘤最大径、实性成分最大径、分叶征、毛刺征、胸膜凹陷征、空泡征,并计算实性成分比例(consolidation/tumor ratio, CTR),CTR = 实性成分最大径/肿瘤最大径。
2.4. 统计分析
采用R软件(v4.3.3)及Python软件(v3.9.7)进行统计分析。Kolmogorov-Smirnov检验用于评估连续性数据的正态性。符合正态分布的数据以
表示,否则以中位数(上下四分位数)表示。采用独立样本t检验或Mann-Whitney U检验分析计量资料,χ2检验分析定性资料。单因素logistic回归分析用于筛选与SATS状态相关的变量,将差异有统计学意义的变量纳入多因素logistic回归分析,向后逐步选择独立预测因素。使用逻辑回归(logistic regression, LR)、多层感知器(multilayer perceptron, MLP)、随机森林(random forest, RF)及朴素贝叶斯(naive bayes, NB)算法建立预测肺腺癌STAS状态的机器学习模型,以受试者工作特征曲线下面积(area under the curve, AUC)评估模型的预测效能。10折交叉验证用于训练各机器学习算法。采用校准曲线判断模型的拟合优度,决策曲线分析显示模型的临床收益。P < 0.05为差异有统计学意义。
3. 结果
3.1. 临床资料、CT特征比较
训练组中STAS阳性49例,阴性57例;验证组中STAS阳性20例,阴性26例。胸膜凹陷征在训练组和验证组间差异有统计学意义(P = 0.004),其余临床及CT特征组间差异均无统计学意义(P > 0.05) (表1)。
Table 1. Comparison of clinical data and CT features between the training group and the validation group
表1. 训练组和验证组临床资料、CT特征比较
|
训练组(n = 106) |
验证组(n = 46) |
统计值 |
P值 |
性别 |
|
|
0.075 |
0.784 |
女 |
62 |
28 |
|
|
男 |
44 |
18 |
|
|
年龄 |
58.37 ± 10.85 |
58.59 ± 9.31 |
0.119 |
0.905 |
吸烟史 |
|
|
0.091 |
0.763 |
无 |
83 |
35 |
|
|
有 |
23 |
11 |
|
|
STAS |
|
|
0.098 |
0.755 |
无 |
57 |
26 |
|
|
有 |
49 |
20 |
|
|
CEA |
|
|
0.188 |
0.664 |
正常 |
84 |
35 |
|
|
升高 |
22 |
11 |
|
|
位置 |
|
|
1.383 |
0.847 |
右肺上叶 |
35 |
13 |
|
|
右肺中叶 |
6 |
4 |
|
|
右肺下叶 |
17 |
10 |
|
|
左肺上叶 |
23 |
9 |
|
|
左肺下叶 |
25 |
10 |
|
|
肿瘤最大径 |
17.00 (15.00, 23.75) |
17.00 (14.00, 23.75) |
−0.040 |
0.968 |
实性成分最大径 |
11.00 (7.25, 13.00) |
11.00 (8.00, 16.00) |
−0.803 |
0.422 |
CTR |
0.60 ± 0.18 |
0.65 ± 0.21 |
1.422 |
0.157 |
cT分期 |
|
|
0.809 |
0.667 |
T1a |
49 |
20 |
|
|
T1b |
50 |
21 |
|
|
T1c |
7 |
5 |
|
|
边界 |
|
|
0.002 |
0.967 |
不清 |
48 |
21 |
|
|
清 |
58 |
25 |
|
|
分叶征 |
|
|
2.243 |
0.134 |
无 |
13 |
10 |
|
|
有 |
93 |
36 |
|
|
毛刺征 |
|
|
0.148 |
0.700 |
无 |
38 |
18 |
|
|
有 |
68 |
28 |
|
|
胸膜凹陷征 |
|
|
8.116 |
0.004 |
无 |
35 |
5 |
|
|
有 |
71 |
41 |
|
|
空泡征 |
|
|
2.646 |
0.104 |
无 |
47 |
27 |
|
|
有 |
59 |
19 |
|
|
注:STAS为气腔播散;CEA为癌胚抗原;CTR为实性成分比例。
3.2 临床资料、CT特征单因素及多因素logistic回归分析
单因素分析显示,CEA、肿瘤最大径、实性成分最大径、CTR、cT分期、边界、分叶征、毛刺征与STAS表达状态显著相关(P均<0.05),将上述特征纳入多因素logistic回归分析,结果表明CEA、肿瘤最大径、cT分期以及毛刺征是STAS阳性的独立预测因素(P均>0.05) (表2)。图1展示了1例STAS阳性患者的CT图像。
(a) (b) (c)
Figure 1. A 57-year-old male patient with STAS-positive lung adenocarcinoma. Axial (a), coronal (b), and sagittal (c) CT images show a part-solid nodule in the right upper lobe, with a well-defined boundary,containing a solid component and peripheral lobulation
图1. STAS阳性肺腺癌患者,男,57岁。横轴位(a)、冠状位(b)、及矢状位(c) CT图像示右肺上叶部分实性结节,边界清晰,内可见实性成分,周边可见分叶征
Table 2. Univariate and multivariate logistic regression analyses of clinical data and CT features
表2. 临床资料、CT特征单因素及多因素logistic回归分析
|
单因素分析 |
多因素分析 |
OR (95%CI) |
P值 |
OR (95%CI) |
P值 |
性别 |
1.776 (0.813~3.877) |
0.149 |
|
|
年龄 |
1.035 (0.997~1.074) |
0.070 |
|
|
吸烟史 |
1.356 (0.537~3.422) |
0.519 |
|
|
CEA |
7.694 (2.387~24.802) |
<0.001 |
5.182 (1.158~23.189) |
0.031 |
位置 |
0.933 (0.734~1.187) |
0.573 |
|
|
肿瘤最大径 |
1.276 (1.159~1.405) |
<0.001 |
1.168 (1.029~1.326) |
0.017 |
实性成分最大径 |
1.371 (1.201~1.566) |
<0.001 |
|
|
CTR |
16.882 (1.596~178.584) |
0.019 |
|
|
cT分期 |
14.981 (5.677~39.539) |
<0.001 |
4.650 (1.291~16.744) |
0.019 |
边界 |
2.244 (1.023~4.925) |
0.044 |
|
|
分叶征 |
12.800 (1.599~102.471) |
0.016 |
|
|
毛刺征 |
9.173 (3.369~24.977) |
<0.001 |
10.045 (2.476~40.757) |
0.001 |
胸膜凹陷征 |
1.225 (0.542~2.769) |
0.625 |
|
|
空泡征 |
1.525 (0.703~3.307) |
0.286 |
|
|
注:CEA为癌胚抗原;CTR为实性成分比例。
3.3. 模型构建与评估
基于STAS阳性的独立预测因素(CEA、肿瘤最大径、cT分期、毛刺征),使用LR、RF、MLP及NB算法构建机器学习模型。RF模型在训练组与验证组中预测STAS的AUC值最高,分别为0.920 (95%CI: 0.868~0.973)和0.859 (95%: 0.733~0.985) (表3)。校准曲线表明RF模型预测结果与实际结果具有较好的一致性(图2),DCA显示RF模型在广泛的阈值范围内展现出更高的净收益(图3)。因此,RF模型是预测肺腺癌STAS状态的最佳机器学习模型。
Table 3. The efficiency of different machine learning models in predicting STAS status of lung adenocarcinoma
表3. 不同机器学习模型预测肺腺癌STAS状态的效能
模型 |
训练组 |
验证组 |
AUC (95%CI) |
敏感度 |
特异度 |
AUC (95%CI) |
敏感度 |
特异度 |
LR |
0.909 (0.853~0.965) |
0.878 |
0.807 |
0.829 (0.698~0.960) |
0.750 |
0.846 |
RF |
0.920 (0.868~0.973) |
0.837 |
0.877 |
0.859 (0.733~0.985) |
0.700 |
0.962 |
MLP |
0.904 (0.844~0.964) |
0.816 |
0.895 |
0.842 (0.712~0.973) |
0.750 |
0.885 |
NB |
0.907 (0.851~0.963) |
0.816 |
0.860 |
0.783 (0.641~0.924) |
0.700 |
0.808 |
注:LR,逻辑回归;RF,随机森林;MLP,多层感知器;NB,朴素贝叶斯。
Figure 2. Calibration curves of different machine learning models in the validation group. LR, logistic regression; RF, random forest; MLP, multilayer perceptron
图2. 验证组中不同机器学习模型的校准曲线。LR,逻辑回归;RF,随机森林;MLP,多层感知器
Figure 3. Decision curve analysis of different machine learning models. LR, logistic regression; RF, random forest; MLP, multilayer perceptron
图3. 不同机器学习模型的决策曲线分析。LR,逻辑回归;RF,随机森林;MLP,多层感知器
4. 讨论
STAS作为肺癌的一种侵袭模式,与患者不良预后显著相关,术前准确评估STAS状态有助于临床选择最佳治疗方案,改善患者预后。本研究基于CT特征及临床因素建立了4种机器学习模型以预测部分实性结节肺腺癌STAS状态,其中RF模型预测效能最佳,有利于临床术前准确诊断STAS状态。
既往研究表明,STAS可见于14.8%~56.4%肺腺癌患者[11],本研究中STAS发生率为45.4%,在文献报道范围内。部分实性结节STAS发生率高,恶性程度大,预后较差,需要重点关注。多项研究表明[10] [12],STAS与肿瘤实性成分相关,本研究中单因素分析结果显示STAS阳性与实性成分最大径、CTR显著相关,与既往研究结果相符。本研究通过多因素logistic回归分析,确定了4个部分实性结节肺腺癌STAS状态的独立危险因素:CEA、肿瘤最大径、cT分期及毛刺征。CEA是细胞粘附分子家族中的一种糖蛋白,具有一定的粘附能力。然而,CEA过度表达会破坏其他粘附分子的功能,降低细胞粘附,促使肿瘤细胞从原发部位脱落,这是形成STAS的潜在因素[13] [14]。本研究显示STAS阳性与肿瘤直径、T分期显著相关,与既往文献报道一致[9] [15],提示STAS阳性肿瘤更具侵袭性。毛刺征是肺肿瘤的典型恶性征象之一,其主要形成因素是肿瘤沿肺间质、血管向外浸润性生长[16],本研究中毛刺征是肺腺癌STAS状态的独立预测因子,有助于评估STAS状态。
机器学习作为人工智能的重要分支,已被广泛用于医疗领域,其在肿瘤诊断、分类及预后等方面具有重要价值。既往已有多项研究建立预测模型诊断肺腺癌STAS。徐凤等[17]联合临床及CT特征的logistic回归分析建立预测模型,其AUC达0.807,但该研究未设立验证集进一步评估模型性能。同样,Li等[18]建立基于CT的logistic回归模型预测肺腺癌STAS,其在验证集和外部测试集AUC分别为0.801和0.692。另外,江长思等[19]将年龄及12个CT征象纳入RF算法构建机器学习模型,并取得了较好的预测效能(验证集AUC为0.77),表明机器学习可用于术前预测肺腺癌STAS状态。本研究利用临床因素及CT特征建立的4个机器学习模型中,RF模型表现出良好的诊断效能(AUC = 0.859),优于上述研究结果。RF是一种使用多棵决策树来识别、分类和预测目标数据的机器学习算法,可以提供更高的分类准确性[20]。
本研究尚存在局限性:首先,这是一项单中心回顾性研究,可能存在选择偏倚;其次,样本量较小,未来需扩大样本量,进一步验证模型性能;最后,增强CT可能会提供更多信息,后续有必要增加对增强CT图像的分析。
5. 结论
综上所述,CT特征联合临床因素的机器学习模型可以有效识别部分实性结节肺腺癌STAS状态。
利益冲突
所有作者均声明不存在利益冲突。
声 明
本研究获得青岛大学附属医院伦理委员会批准(审批号:QYFY WZLL 29455)。
NOTES
*通讯作者。