1. 引言
肺癌几十年来一直是全球最高发病率、死亡率的癌症之一[1]。随着CT影像检查技术逐渐发展并广泛应用于临床诊断,肺部结节可通过CT影像检查被发现[2]。既往研究显示,肺部结节中表现为磨玻璃样密度影的肺结节,部分病灶可长期保持稳定,但部分磨玻璃密度因病灶具有恶变潜能而逐渐进展[3] [4]。根据有无实性成分,磨玻璃结节(ground-glass nodules, GGNs)分为纯磨玻璃结节(pure ground-glass nodules, pGGNs)和混合磨玻璃结节(mixed ground-glass nodules, mGGNs) [5]。已有研究[6]发现,早期诊断、早期治疗可提高肺癌患者生存率,因此术前准确评估肺GGN良恶性,对临床治疗方法的选择意义重大,进而影响患者预后。
早期表现为磨玻璃结节的肺癌,临床上通过临床特征和影像学特征(结节密度、是否有毛刺征和分叶征等)来判断其良恶性的方法效能并不理想[7]。文献报道[8] [9],影像组学技术能够通过提取并分析大量的、肉眼无法观察到的病灶特征,建立不受主观因素影响的模型,在癌症诊断方面具有重要价值。本研究构建基于CT影像组学特征、临床和常规CT影像的模型,探究影像组学模型和联合模型在术前鉴别磨玻璃结节良恶性中的价值。
2. 方法
2.1. 研究对象
选取2020年6月至2024年6月在大理大学第一附属医院行胸部CT平扫的121例明确GGN良恶性患者进行回顾性分析,随机分为两组,比例为样本量8:2,结果为训练组n = 96,验证组n = 25。纳入标准:(1) 具有完整的肺部CT平扫图像,且临床检查相关资料完整;(2) CT图像上表现为包括纯磨玻璃结节(pGGNs)和部分实性结节(mGGNs)的磨玻璃结节;(3) CT图像上GGN最大直径 ≤ 20 mm。排除标准:(1) 既往恶性肿瘤病史,患者术前曾接受相关治疗;(2) 无法获取病理资料;(3) 图像质量不佳,影响定量分析。
2.2. 检查方法
采用西门子双源Force高端螺旋CT检查设备进行肺部CT平扫。采集方法:100/Sn140kV,双能量模式扫描,扫描前嘱患者去除检查部位金属异物,并对患者进行呼吸与憋气训练,扫描时均采用仰卧位,统一采用“头–足”扫描方向,范围自锁骨上方约2~3 cm至肋膈角下约2~4 cm,扫描过程中做好患者重要器官防护。扫描参数:A球管:电压100 kV、参考管电流210 mAs,B球管:电压140 kV、参考管电流160 mAs;层厚5.0 mm,准直32 mm × 0.6 mm,视野362 mm,重建层厚1.0 mm;开启自动管电流调节(automatic tube current modulation, ATCM)技术,重建算法采用自适应迭代算法(adaptive statistical iterative reconstruction, ASIR),迭代强度60%。
2.3. 图像分割、特征提取与建模
对CT图像进行预处理,CT图像强度通过归一化转化到标准范围,并对所有CT图像进行重采样(体素大小1 mm × 1 mm × 1 mm)。预处理后的CT图像以DICOM格式导入ITK-SNAP软件,再由2名具有5年以上工作经验的影像学医师A、B分别对30例样本感兴趣区(ROI)进行独立逐层勾画,提取影像组学特征后通过组内/组间相关系数(Intra/inter-class correlation coefficient, ICC)计算组间一致性,得出组间ICC (2, 1) = 0.89 (95%CI: 0.85~0.96);一周后由医师A对该30例样本再次进行勾画并提取影像组学特征,计算出组内ICC (3, 2) = 0 .91 (95%CI: 0.90~0.97)。结果表明两名医师之间具有良好勾画一致性,医师A自身具有重复勾画稳定性。基于上述一致性验证结果,剩余样本结节的分割及影像组学相关工作由医师A独立完成。分割后的图像导入PyRadiomics软件提取到1130个影像组学特征,包括形态学特征和二阶纹理特征:前者如肿瘤体积、最大表面积等;后者如灰度共生矩阵、灰度区域大小矩阵、灰度游程步长矩阵、灰度相关性矩阵等。对获得的影像组学特征在训练集和验证集分别进行Z-Score标准化处理,再通过T检验和套索回归(least absolute shrinkage and selection operator, LASSO)算法降维,五折交叉验证方法选择Alpha,最终得到12个最有意义影像组学特征,影像组学模型构建采用logistic回归。
训练组依病理结果分为良性组(n = 58)和恶性组(n = 38),比较两组临床特征,通过单因素逻辑回归最终筛选出3个差异有统计学意义指标,采用logistic回归构建临床模型、影像组学特征 + 临床特征的联合模型。
2.4. 统计学处理
统计分析采用Python 3.9.2。Shapiro-Wilk检验分析计量资料的正态性,满足正态分布以χ ± s表示,不满足的以中位数或四分位间距描述。单因素分析比较计量资料,满足正态分布且通过方差齐性检验,采用独立样本t检验(Student’s t test);不满足正态分布或未通过方差齐性检验,采用独立样本秩和检验(Mann-Whitney U test)。计数资料以率(n%)表示,卡方检验(Pearson’s χ2 test)进行单因素分析比较。比较三个模型训练组和验证组的效能,评价指标为受试者工作特征曲线、曲线下面积、灵敏度、特异性、准确率、阳性预测率和阴性预测率,并对三组模型的AUC进行德隆检验(Delong test),对三组模型采用临床决策分析(Decision curve analysis, DCA)进行临床应用价值评价。P < 0.05时差异有统计学意义。
3. 结果
3.1. 训练组和验证组临床和常规影像学基线特征
将患者随机分为训练组和验证组,结果(见表1)显示,我们发现在训练组数据集上,有4个临床和影像学参数在良性组和恶性组间显著不同(P < 0.05),分别为年龄、密度、分叶征以及结节–肺界面。
Table 1. Comparison of clinical characteristics between benign and malignant groups in the training set and test set
表1. 训练组和测试组患者良性组和恶性组临床特征比较
特征 |
训练组(n = 96) |
测试组(n = 25) |
良性(n = 58) |
恶性(n = 38) |
P值 |
良性(n = 20) |
恶性(n = 5) |
P值 |
性别 |
女 |
33 (56.59) |
18 (47.37) |
0.480 |
10 (50.00) |
3 (60.00) |
1.000 |
男 |
25 (43.10) |
20 (52.63) |
10 (50.00) |
2 (40.00) |
年龄(岁) |
|
55.93 ± 15.92 |
63.95 ± 11.01 |
0.019 |
60.65 ± 16.10 |
66.00 ± 20.75 |
0.652 |
吸烟史 |
无 |
46 (79.31) |
27 (71.05) |
0.495 |
18 (90.00) |
4 (80.00) |
0.504 |
有 |
12 (20.69) |
11 (28.95) |
2 (10.00) |
1 (20.00) |
形态 |
圆形/类圆形 |
45 (77.59) |
29 (76.32) |
1.000 |
16 (80.00) |
5 (100.00) |
0.549 |
不规则 |
13 (22.41) |
9 (23.68) |
4 (20.00) |
0 (0.00) |
密度 |
均匀 |
39 (67.24) |
12 (31.58) |
0.001 |
14 (70.00) |
1 (20.00) |
0.120 |
不均匀 |
19 (32.76) |
26 (68.42) |
6 (30.00) |
4 (80.00) |
空泡征 |
无 |
56 (96.55) |
33 (86.84) |
0.109 |
20 (100.00) |
5 (10.00) |
1.000 |
有 |
2 (3.45) |
5 (13.16) |
0 (0.00) |
0 (0.00) |
分叶征 |
无 |
58 (100.00) |
33 (86.84) |
0.008 |
19 (95.00) |
5 (100.00) |
1.000 |
有 |
0 (0.00) |
5 (13.16) |
1 (5.00) |
0 (0.00) |
毛刺征 |
无 |
55 (94.83) |
34 (89.47) |
0.429 |
20 (10.00) |
5 (100.00) |
1.000 |
有 |
3 (5.17) |
4 (10.53) |
0 (0.00) |
0 (0.00) |
结节–肺界面 |
模糊 |
25 (43.10) |
7 (18.42) |
0.017 |
5 (25.00) |
1 (20.00) |
0.714 |
光滑 |
23 (39.66) |
26 (68.42) |
13 (65.00) |
4 (80.00) |
毛糙 |
10 (17.24) |
5 (13.16) |
2 (10.00) |
0 (0.00) |
结节位置 |
右肺上叶 |
16 (27.59) |
19 (50.00) |
0.169 |
7 (35.00) |
3 (60.00) |
0.541 |
右肺中叶 |
4 (6.90) |
3 (7.89) |
0 (0.00) |
0 (0.00) |
右肺下叶 |
9 (15.52) |
6 (15.79) |
2 (10.00) |
0 (0.00) |
左肺上叶 |
13 (22.41) |
5 (13.16) |
4 (20.00) |
0 (0.00) |
左肺下叶 |
16 (27.59) |
5 (13.16) |
7 (35.00) |
2 (40.00) |
3.2. 影像组学特征筛选与模型建立
结果(见图1)显示,LASSO分析后在PyRadiomics软件提取到影像组学特征1130个,将其在训练组和验证组分别进行Z-Score标准化处理,确保各影像组学特征在相同标准上进行分析;再通过T检验和LASSO算法降维、筛选出最有意义的影像组学特征12个(见表2)。把12个特征纳入多因素logistic回归模型,建立影像组学模型(见图2),其AUC在训练组中为0.784,在验证组中为0.770。
(A)
(B)
(C)
Figure 1. Results of optimal radiomic feature selection via LASSO. (A) LASSO cross-validation plot; (B) Coefficient convergence plot; (C) Weighted coefficient plot
图1. LASSO筛选最优影像组学特征结果。(A) LASSO交叉验证图;(B) 系数收敛图;(C) 加权系数图
Table 2. Radiomic features selected by LASSO regression
表2. 经LASSO回归筛选出的影像组学特征
序号 |
影像组学特征参数名称 |
1 |
wavelet-HLL_gldm_SmallDependenceLowGrayLevelEmphasis |
2 |
wavelet-HLH_glszm_GrayLevelNonUniformityNormalized |
3 |
wavelet-HLH_glszm_SizeZoneNonUniformityNormalized |
4 |
original_glrlm_HighGrayLevelRunEmphasis |
5 |
original_glrlm_LowGrayLevelRunEmphasis |
6 |
log-sigma-1-mm-3D_glrlm_LongRunLowGrayLevelEmphasis |
7 |
wavelet-LHH_glcm_DifferenceEntropy |
8 |
wavelet-LHH_glcm_SumEntropy |
9 |
wavelet-HLH_glcm_MCC |
10 |
wavelet-HHL_glcm_DifferenceVariance |
11 |
wavelet-HHH_glcm_DifferenceEntropy |
12 |
wavelet-HHH_glcm_SumEntropy |
(A) (B)
(C) (D)
Figure 2. (A) ROC curves of each prediction model in the training set; (B) ROC curves of each prediction model in the validation set; (C) Calibration curves of the three prediction models; (D) Decision curve analysis (DCA) of the three prediction models. Note: Clinic = clinical model; Rad = radiomics model; Unite = combined model; Treat All = universal intervention; Treat None = no intervention
图2. (A) 训练组各预测模型ROC曲线;(B) 验证组各预测模型ROC曲线;(C) 3种预测模型校准曲线;(D) 3种预测模型DCA。注:clinic为临床模型;rad为影像组学模型;unite为联合模型;Treat All为全干预;Treat None为不干预。
3.3. 临床特征筛选与模型建立
本研究共纳入121例患者,良性组78例,恶性组43例。以8:2比例随机划分的96例训练组患者中,良性组58例,恶性组38例。对训练组良、恶性两组患者临床资料进行单因素分析和逻辑回归,筛选出3个GGN良恶性诊断的独立危险因素(见表3),分别为密度、年龄和结节位置。多因素logistic回归模型纳入这3临床特征后建立临床模型(见图2),其AUC在训练组中为0.770,在验证组中为0.725。
Table 3. Logistic regression results of clinical and conventional CT imaging data
表3. 临床和常规CT影像资料逻辑回归结果
特征 |
P |
年龄 |
0.012 |
性别 |
0.361 |
吸烟史 |
0.356 |
形态 |
0.885 |
密度 |
0.001 |
空泡征 |
0.095 |
分叶征 |
0.997 |
毛刺征 |
0.333 |
肺–结节界面 |
0.148 |
结节位置 |
0.014 |
3.4. 联合模型的建立与三种模型的比较
将筛选出的影像组学特征参数、临床和常规CT影像特征参数纳入多因素logistic回归模型中建立联合模型(见图2)。校准曲线(见图2(C))和DCA曲线(见图2(D))结果显示,联合模型的临床净收益高于单一模型,在不同阈值下具有良好的临床效益。表4结果显示,三个模型中,联合模型诊断效能最高(AUC = 0.830),高于影像组学模型(AUC = 0.770)及临床模型(AUC = 0.725)。因此,联合模型在术前区分良性和恶性GGN上具有最佳的诊断能力,影像组学模型在术前区分良性和恶性GGN上具有较好的诊断能力。
Table 4. Comparison of diagnostic performance among the three models
表4. 三种模型诊断效能比较
模型名称 |
AUC |
95%CI |
SEN |
SPE |
ACC |
PPV |
NPV |
训练组 |
影像组学模型 |
0.784 |
0.692~0.872 |
0.632 |
0.810 |
0.740 |
0.686 |
0.770 |
临床模型 |
0.770 |
0.660~0.856 |
0.763 |
0.724 |
0.740 |
0.644 |
0.832 |
联合模型 |
0.836 |
0.755~0.908 |
0.868 |
0.638 |
0.729 |
0.611 |
0.881 |
验证组 |
影像组学模型 |
0.770 |
0.410~1.000 |
0.600 |
1.000 |
0.920 |
1.000 |
0.909 |
临床模型 |
0.725 |
0.455~0.946 |
1.000 |
0.400 |
0.520 |
0.294 |
1.000 |
联合模型 |
0.830 |
0.658~0.968 |
1.000 |
0.750 |
0.800 |
0.500 |
1.000 |
4. 讨论
在胸部CT中,肺部磨玻璃结节表现为病灶密度轻度增高,其内的血管、支气管等结构仍清晰可见,不同特点(大小、位置、实性成分占比、边界特征以及胸膜牵拉等)的GGN具有不同随访策略和干预措施[7] [10]。具有恶变潜能的GGN若能在术前预测其良恶性,可帮助临床医生根据患者病情选择更适合的治疗方案,对患者和临床均有重大意义。目前早期表现为GGN的肺腺癌的主要通过多层螺旋计算机断层扫描(computed tomography, CT)进行筛选,而可以定量描述影像特征信息的影像组学在GGN诊断中意义重大[11]。本研究基于影像组学、临床特征和常规CT影像特征构建机器学习模型并对诊断效能进行比较,探究影像组学模型、临床模型和联合模型在术前鉴别磨玻璃结节(GGN)良恶性中的价值。结果显示,联合模型诊断效能最佳,其次为影像组学模型,最后为临床模型;联合模型和影像组学模型在训练集和验证集AUC大于0.7,表明能为临床诊断GGN提供一定帮助。
本研究回顾性选取行胸部CT平扫的121例明确GGN良恶性患者,对CT图像进行预处理后进行分割,将用PyRadiomics软件提取到的1130个影像组学特征先后进行Z-Score标准化处理、T检验和LASSO回归筛选,得到1个灰度相关矩阵(wavelet-HLL_gldm_SmallDependenceLowGrayLevelEmphasis),2个灰度区域大小矩阵参数(wavelet-HLH_glszm_GrayLevelNonUniformityNormalized、wavelet-HLH_glszm_SizeZoneNonUniformityNormalized),3个灰度游程矩阵参数(original_glrlm_HighGrayLevelRunEmphasis、original_glrlm_LowGrayLevelRunEmphasis、log-sigma-1-mm-3D_glrlm_LongRunLowGrayLevelEmphasis),6个灰度共生矩阵参数(wavelet-LHH_glcm_DifferenceEntropy、wavelet-LHH_glcm_SumEntropy、wavelet-HLH_glcm_MCC、wavelet-HHL_glcm_DifferenceVariance、wavelet-HHH_glcm_DifferenceEntropy、wavelet-HHH_glcm_SumEntropy),这些纹理特征体现了灰度值的变化及其空间联系,反应图像的均匀、细致、粗糙等特质,通过不同纹理信息能够捕捉病灶各个区域的特征,如CT纹理分析可通过评估灰度分布来帮助量化肿瘤异质性,可能间接反应肿瘤缺氧区域,为患者提供预后信息[7] [12] [13]。将以上12个影像组学特征导入logistic回归分析构建影像组学模型,得出训练组和验证组的AUC分别为0.784 (95%CI: 0.692~0.872)、0.770 (95%CI: 0.410~1.000),表明影像组学模型具有良好术前预测GGN良恶性效能。
GGN诊治过程中,需考虑如性别、年龄、家族史、既往病史、吸烟史等癌症危险因素,还需综合考虑GGN密度、数目、形态、大小、实性成分比例、边界情况、与邻近结构关系、有无明显恶性特征(如毛刺征、分叶征、胸膜牵拉征、支气管征)等CT影像特征[3] [7] [9] [14]。本研究采用单因素分析和逻辑回归算法仅筛选出密度、年龄和结节位置3个特征是GGN良恶性诊断的独立危险因素。本研究密度特征为均匀/不均匀,密度均匀结节为pGGN,密度不均匀结节为含有部分实性成分的磨玻璃结节(mGGN)。文献报道[3],mGGN中的实性成分影响GGN的生长和预后,已成为临床诊断考虑关键因素。本研究基于将筛选出的3个临床和常规CT影像学特征纳入多因素logistic回归构建临床模型,该模型AUC在训练组中为0.770 (95%CI: 0.660~0.856),在验证组中为0.725 (95%CI: 0.455~0.946),表明临床模型在术前预测GGN良恶性效能一般。
Delong检验显示,三种模型中影像组学联合临床模型AUC最高,临床模型AUC最低,表明联合模型术前预测GGN良恶性的诊断效能高于单一模型,为临床诊断GGN的准确性提供了更有效的方法和策略;影像组学模型AUC值低于联合模型但高于临床模型,表明影像组学模型具有良好诊断效能。
三种模型通过DCA进行临床应用价值评价,结果显示,本研究建立的三组模型中,联合模型具有最高的临床应用价值,优于影像组学模型、临床模型。
本研究局限性:为单中心回顾性研究,样本量较少,比例分配不平衡;排除无法获得病理结果和完整临床资料的患者,临床和常规CT影像特征没有家族史和胸膜牵拉征、支气管征;分割结节时,部分结节边缘不清晰或受部分容积效应影响,都会对勾画产生一定影响,进而可能影响模型预测准确率;构建联合模型时未采用逐步向前法分析。未来进行研究时,将收集多中心、更大样本量、更完善临床和常规CT影像特征参数。
5. 结论
本研究基于影像组学及临床特征,建立了影像组学模型、临床模型、联合模型3个模型研究术前鉴别磨玻璃结节良恶性诊断效能,其中联合模型具有最佳预测效能,影像组学模型高于临床模型,影像组学模型可为临床诊断提供有效诊断方法。
致 谢
对云南省地方本科高校基础研究联合专项(202101BA070001-128)表示感谢!
声 明
本研究获得大理大学第一附属医院医学伦理委员会批准(审批号:DFY20241129007)。
NOTES
*第一作者。
#通讯作者。