1. 引言
在全球范围内,肺癌仍是导致癌症相关死亡的首要原因,然而仅有约15%的患者在疾病早期阶段被确诊,致使整体预后较差[1] [2]。由于部分早期肺癌缺乏典型临床症状,仅在影像学检查中表现为肺结节,因此早期准确鉴别肺结节的良恶性对于改善患者生存至关重要[3] [4]。目前,CT扫描是肺结节检测与鉴别的核心手段。然而,在实际临床判读中,基于CT区分良恶性结节仍面临较大挑战。研究表明,手术切除的肺结节中高达50%最终病理证实为良性[5],反映出目前基于CT及其他临床信息进行术前良恶性判断存在困难。因为目前尚无关于结节大小、形态、位置及生长速度等特征的明确阈值可用于可靠区分良恶性[6],需综合多项影像与临床指标进行判断,而该过程易受医师经验差异影响,进一步增加了早期肺结节定性诊断的复杂性与不一致性。
近年来,人工智能在肺结节诊断领域的应用受到了广泛关注[7] [8]。基于人工智能的方法能够从医学影像中自动提取高维特征,并通过深度学习模型学习结节的潜在表征模式,从而在良恶性鉴别中提供比放射科医生更为客观准确的判断[9]。其中,卷积神经网络(CNN)是目前最常使用的深度学习框架。在多项关于肺结节良恶性判别的研究中,基于CNN的模型已实现0.856~0.898的识别准确率[10] [11]。CNN通过构建多层卷积结构从局部区域中提取空间特征,并逐层形成更具判别力的高阶特征表示。然而,CNN的感受野有限,其特征学习依赖局部区域的逐级扩展,因此较难捕捉长距离依赖关系和全局结构信息,这在处理结构复杂或形态多变的肺结节时可能成为性能瓶颈[12]。为突破CNN在建模全局依赖上的局限,近年来基于Transformer的视觉模型(Vision Transformer, ViT)被引入医学影像分析[13]。ViT能直接捕捉长程特征关系,在肺结节结构复杂、边界模糊等情况下展现出更强的表征能力,因此成为提升结节良恶性诊断性能的潜在方向。
因此,本研究旨在比较基于CNN框架的ResNet模型与ViT模型在术前CT图像上鉴别肺结节良恶性的性能差异,以探究不同特征提取机制(局部卷积特征vs全局自注意力特征)在肺结节分类任务中的有效性,并为优化早期肺癌影像诊断方法提供依据。
2. 资料与方法
2.1. 数据来源
本研究为回顾性研究,纳入了2023年6月至2025年7月期间在石河子大学第一附属医院接受手术并经病理确诊的肺结节患者。纳入标准包括:(1) 基线CT显示肺结节最大轴径为5~30 mm;(2) 具备全肺覆盖的基线薄层非增强CT扫描(层厚 ≤ 2 mm);(3) CT扫描距离手术时间不超过1个月。排除标准为:(1) 术前接受任何抗肿瘤治疗;(2) 临床或影像学资料不完整;(3) CT图像受伪影或其他因素影响,无法清晰显示结节。最终共纳入134例患者,其中良性结节51例,恶性结节83例。由于本研究采用回顾性设计,所有影像资料均经过匿名化处理,经机构审查委员会批准,免除知情同意。
CT图像来自多种型号的扫描设备,包括GE LightSpeed Ultra (16排)、GE LightSpeed VCT (64排)、联影uCT 768以及西门子SOMATOM Force。所有影像均从图像归档与通信系统(PACS)中提取。为标准化成像数据,首先将体素间距统一重采样至1 mm × 1 mm × 1 mm,并将CT图像的窗宽和窗位分别调至1200 Hounsfield Units(HU)和−350 HU。所有图像最终均以DICOM格式保存。
2.2. 图像分割与预处理
一名具有五年经验的放射科医生使用ITK-SNAP (版本3.8.0,http://www.itksnap.org/)对每例肺结节逐层标注感兴趣区域(ROI),软件对患者的临床与病理信息均保持盲态处理。本研究采用基于包围区域(bounding box)的标注方式,即医生在结节周围绘制规则的正方形区域以覆盖结节及其局部背景,标注差异由另一位具有超过十年经验的高级放射科医生审核,并通过共识方式解决。最终,本研究共获得1172张(554张良性肺结节图像,618张恶性肺结节图像)包含肺结节的薄层CT图像用于后续分析。
2.3. 深度学习模型构建
为了适应深度学习模型的输入,1172张CT图像统一调整为64 × 64像素,并保存为JPEG格式。所有数据按照7:3的比例划分为训练集(n = 820)和测试集(n = 352)。
研究中采用的ResNet-18模型基于二维卷积,其结构如图1所示。该模型输入张量尺寸为(batch_size, channels = 3, height = 64, width = 64)。模型首先通过一个7 × 7的二维卷积层(输入通道 = 3,输出通道 = 32,步幅stride = 2 × 2)进行初步特征提取,随后接入BatchNorm2d层进行归一化,并使用ReLU激活函数。紧接着,通过3 × 3最大池化层实现空间下采样。网络主体由四个级联残差模块组成(通道数依次为64、128、256和512),每个模块包含两个BasicBlock单元。每BasicBlock整合了两个3 × 3卷积层、批归一化和ReLU激活,并利用残差连接缓解梯度消失问题,同时增强特征传递能力。最终,网络通过全局平均池化层和全连接层输出分类预测结果。
我们构建的ViT模型基于Transformer架构。首先,将输入图像(batch_size = 1, channels = 3, height = 64, width = 64)划分为16个16 × 16的patch,并展平后通过线性投影层映射到1024维特征空间,形成形状为 (batch_size, 16, 1024)的patch序列。引入可学习的class token ([CLS] token)并拼接到序列前端(序列形状变为(batch_size, 17, 1024)),同时添加位置编码以保留空间位置信息。该序列随后输入多个Transformer编码器模块,每个模块包含多头自注意力机制和前馈网络。最终,通过提取[CLS] token特征并经多层感知机(MLP)头部,输出分类预测结果。
2.4. 模型训练及评估
在深度学习模型训练过程中,统一设置批量大小为8,训练周期为100轮。优化器采用Adam,初始学习率设为0.001,损失函数为二元交叉熵。每个训练周期结束后,在验证集上评估模型性能,并最终保留验证集上表现最优的模型权重。
本研究对构建的ViT模型及ResNet-18深度学习模型,均使用受试者工作特征曲线下面积(AUC)评估其在训练集及外部测试集中的预测性能。同时,通过决策曲线分析(DCA)计算不同阈值概率下的净收益,以评估模型在临床决策中的潜在应用价值。此外,为直观展示模型的预测依据,本研究采用Grad-CAM方法可视化卷积神经网络对肺结节的关注区域,从而揭示模型在判别良恶性结节时的关键特征。
2.5. 统计学分析
本研究采用SPSS 19.0统计软件进行数据分析。连续变量采用均值(±标准差)进行描述,分类变量以例数(百分比)表示,组间差异采用卡方检验进行评估。
Figure 1. The image processing workflow and the architectures of the deep learning models used in this study. After manual annotation of the region of interest (ROI) on the original CT images, two processing pipelines were applied: (1) the ROI was directly fed into the convolutional neural network (ResNet-18), and (2) the ROI was divided into patches and then input into the Vision Transformer (ViT). The structures of both deep learning models are shown in the figure
图1. 本研究的图像处理流程及深度学习模型架构。对原始CT图像进行感兴趣区域(ROI)标注后,分别采用两种处理方式:一是将ROI输入卷积神经网络(ResNet-18);二是对ROI图像进行patch划分后输入Vision Transformer (ViT)。两个深度学习模型的结构示意如图所示
3. 结果
3.1. 患者的临床特征
来自石河子大学第一附属医院的134例经手术与病理证实的肺结节患者被纳入本研究。患者的基线特征见表1。研究人群的平均年龄为53岁,其中男性59例(44.03%),女性75例(55.97%)。肺结节的平均最大直径为18.61 mm。按解剖分布来看,结节最常见于右上叶(n = 50,占37.3%),其次为左上叶(n = 30,占22.4%),其余分布于右中叶(n = 13,占比9.7%)、右下叶(n = 23,占17.2%)与左下叶(n = 18,占13.4%)。
Table 1. General characteristics of patients
表1. 患者的一般资料
临床特征 |
良性结节 (n = 61) 恶性结节 (n = 73) P值 |
年龄 |
53.31 ± 12.45 |
性别 |
|
男性 |
59 (44.03%) |
女性 |
75 (55.97%) |
最大直径(mm,平均值 ± 标准差) |
18.61 ± 6.13 |
位置 |
|
右上叶 |
50 (37.3%) |
右中叶 |
13 (9.7%) |
右下叶 |
23 (17.2%) |
左上叶 |
30 (22.4%) |
左下叶 |
18 (13.4%) |
3.2. 深度学习模型的预测结果
通过ViT和ResNet-18构建的深度学习模型预测性能如图2所示。在训练集中(表2),ViT模型表现最佳,AUC值为0.977,准确率达到0.978,敏感性为0.975,特异性为0.982;相比之下,ResNet-18模型在训练集的AUC、准确率、敏感性和特异性分别为0.959、0.930、0.944和0.916。在内部测试集中,ViT模型仍然优于ResNet-18,AUC值为0.901,准确率为0.878,敏感性为0.906,特异性为0.838;而ResNet-18模型在测试集的AUC、准确率、敏感性和特异性分别为0.880、0.812、0.824和0.801。总体来看,ViT模型在训练集和内部测试集均取得较高的预测性能,表现出良好的泛化能力。
Table 2. Model prediction performance
表2. 模型预测表现
|
训练集(n = 820) |
内部测试集(n = 352) |
模型 |
Resnet-18 |
ViT |
Resnet-18 |
ViT |
AUC |
0.959 |
0.977 |
0.880 |
0.901 |
准确率 |
0.930 |
0.978 |
0.812 |
0.878 |
敏感性 |
0.944 |
0.975 |
0.824 |
0.906 |
特异性 |
0.916 |
0.982 |
0.801 |
0.838 |
决策曲线分析(DCA) (图3)进一步显示,在大多数阈值概率下,两种深度学习模型预测恶性肺结节的临床净效益均优于“全部治疗”与“全部不治疗”的策略,而ViT模型的临床净效益在训练集和内部测试集中始终高于Resnet-18模型,提示其在肺结节良恶性判断的临床决策中更具有潜在的应用价值。
基于Grad-CAM的热图可视化结果(图4)显示,ViT模型能够更准确地捕捉恶性肺结节的关键区域,尤其是在结节边界模糊或形态复杂的情况下。相比之下,ResNet-18模型主要集中于局部纹理特征,关注范围相对有限。该可视化结果直观地揭示了两种模型在判别肺结节良恶性时的特征关注差异,并进一步解释了ViT模型在整体预测性能上优于ResNet-18的原因。
(A) (B)
Figure 2. ROC curve evaluation of model predictive performance. (A) Training set; (B) External test set. The red line represents the radiomics model, while the blue line represents the deep learning model (Resnet-18)
图2. ROC曲线评价模型的预测表现。(A) 训练集;(B) 外部测试集。红色线条代表影像组学模型(Radiomics),蓝色线条代表深度学习模型(Resnet-18)
(A) (B)
Figure 3. DCA curve analysis of model predictions. (A) Training set; (B) External test set. Blue line represents the radiomics model, red line represents the deep learning model (ResNet-18), black line indicates the “all-treatment” strategy; gray dashed line represents the “no-treatment” strategy. DCA evaluates clinical utility by quantifying the net benefit of applying predictive models at different threshold probabilities. A curve positioned higher indicates greater clinical decision-making value within the corresponding threshold range.
图3. 模型预测的DCA曲线分析。(A) 训练集;(B) 外部测试集。蓝色线条代表影像组学模型(Radiomics),红色线条代表深度学习模型(Resnet-18),黑色线条表示“全部治疗”策略;灰色虚线代表“全部不治疗”策略。DCA通过量化不同阈值概率下应用预测模型的净获益来评估其临床效用,曲线越靠上表明模型在相应阈值范围内的临床决策价值越高
Figure 4. Visualization heatmaps of malignant lung nodule predictions generated by the ViT and ResNet-18 models. Red areas indicate regions of primary focus for the models, while cooler colors represent less relevant regions. The heatmaps show that both models are able to localize key regions associated with malignant features, with the ViT model tending to capture the global contextual information of the nodule, whereas ResNet-18 primarily emphasizes local texture patterns. These visualizations provide an intuitive illustration of the models’ decision-making rationale
图4. ViT模型与ResNet-18模型对恶性肺结节预测的可视化热图。红色区域表示模型关注的重点区域,而冷色区域表示相关性较低的区域。热图显示,两种模型均能够定位与恶性特征相关的关键区域,其中ViT模型倾向于捕捉结节的全局上下文信息,而ResNet-18主要关注局部纹理特征。这些可视化结果直观地揭示了模型的决策依据
4. 讨论
本研究基于患者术前CT影像,分别构建了ResNet-18卷积神经网络模型和Vision Transformer (ViT)模型,用于肺结节良恶性预测。结果显示,ViT模型在训练集及外部测试集均取得更高的AUC值、准确率及敏感性,表现出优于传统卷积网络的预测性能。同时,基于Grad-CAM的可视化结果显示,ViT模型能够更全面地捕捉结节的关键区域及全局上下文信息,而ResNet-18模型主要关注局部纹理特征。这一发现表明,Transformer架构在处理形态复杂或边界模糊的肺结节时具有更强的特征提取能力,能够为早期肺癌影像诊断提供更可靠的决策支持。DCA分析进一步验证了两种模型在多数阈值下的临床净效益均优于“全部治疗”或“全部不治疗”的策略,提示深度学习模型在肺结节良恶性判定中的潜在临床应用价值。
尽管CT已广泛用于肺结节筛查,但早期恶性肺结节的准确诊断仍面临诸多挑战。部分早期结节缺乏明显影像学特征,其边界不清、形态多样,且大小变化有限,使得放射科医生在常规影像分析中难以可靠区分良恶性结节。此外,结节的大小、位置、密度及生长速度等因素均可能影响诊断判断,而这些特征在临床实践中缺乏明确阈值或统一标准,容易因医生经验差异产生分歧,从而增加误诊和漏诊的风险。近年来,基于影像的分析方法在肺结节良恶性预测中得到了广泛关注,其中影像组学可以通过计算机提取到人眼无法发现的高维定量特征以表征肺结节的异质性,并通过支持向量机、随机森林等机器学习方法构建模型,以实现对良性、恶性肺结节的识别,达到了0.82~0.89的AUC值[14] [15],提示其在早期诊断和风险评估中具有潜在价值。然而,影像组学方法通常依赖人工精准勾画结节ROI,不仅耗时耗力,而且对操作医生的经验依赖性较高,这在实际临床环境中可能限制其推广应用。
相比之下,深度学习方法能够自动提取多层次影像特征,减少人工干预,同时整合局部与全局信息,为肺结节良恶性判定提供高效且可靠的辅助工具。多项对比研究表明,与影像组学模型相比,基于深度学习的预测模型在恶性肺结节识别中表现更为精准[16] [17]。ResNet-18是一种CNN的深度学习模型,通过引入残差连接,有效缓解了深层网络的梯度消失问题,并已在多种疾病的诊断、预测及预后评估中获得广泛应用[18]-[20]。然而,在本研究中,ViT模型在训练集及外部测试集均取得更高的AUC、准确率及敏感性,显示出优于传统卷积网络的预测性能。这可能归因于ViT模型通过将图像划分为多个patch并利用自注意力机制捕捉全局上下文信息,使其在处理边界模糊或形态复杂的肺结节时能够提取更全面的特征,从而在肺结节良恶性分类任务中表现出较传统CNN更优的性能。这项研究结果也提示,在肺结节良恶性早期鉴别中,关注全局信息对于提升诊断准确性具有重要意义。
与仅依赖局部纹理特征的卷积网络相比,ViT将图像划分为patch并通过全局自注意力机制同时建模结节与周围组织的整体结构,从而能更全面捕获边界模糊、形态变化复杂的恶性特征。此外,ViT在我们的实验中表现出更快的训练收敛速度和更高的推理效率,这可能与其高度并行化的注意力计算结构及较浅的前端patch embedding设计相关,而ResNet-18在提取局部特征时需依赖大量卷积与残差堆叠,导致整体计算开销更大。正因如此,ViT模型能够更全面地表征结节的潜在恶性信号,从而在良恶性分类任务中表现出更优的预测性能。基于Grad-CAM可视化结果进一步显示,ViT模型在关键区域的关注更集中、更全面,为模型决策提供了直观的解释,也增强了其在临床影像辅助诊断中的应用潜力。
近年来,3D-CNN与3D-ViT在医学影像分析中发展迅速,在其他疾病领域显示出更好的性能[18] [21]。其能够直接利用CT的三维结构信息,在理论上具有更强的特征表达能力和更高的潜在临床价值。本研究充分认可三维模型在肺结节诊断中的重要性。然而,在实际应用中,二维模型仍具有一定合理性:首先,临床诊断通常基于放射科医师逐层观察关键结节层面的形态、边界及纹理信息,二维切片能够直接对应这一判读过程;其次,结节的关键诊断特征(如毛刺、分叶、胸膜牵拉、血管集束)在最大截面层面表现最为典型,因此二维模型依然能够获得较高的判别能力。综上,尽管3D模型代表未来发展方向,但本研究中的2D-ViT在性能、效率与可解释性上均优于2D-ResNet-18,为肺结节良恶性识别提供了一个兼具实用性与临床可转化潜力的模型选择。
本研究仍存在若干局限性。首先,本研究为单中心回顾性研究,可能存在选择偏倚,未来需开展多中心、大样本的前瞻性研究以进一步验证结果的稳健性。其次,研究数据来源于不同型号的CT设备,成像参数和图像质量的差异可能导致影像异质性,从而对模型性能造成一定影响。此外,本研究模型仅基于CT影像构建,未整合临床信息或其他影像学特征,多模态数据的融合或可进一步提升预测能力与泛化性能。最后,本研究采用的为二维深度学习结构,未来可探索3D-CNN或3D-ViT等三维模型,以充分利用体积CT影像的空间信息,从而进一步提升模型的临床应用潜力。
综上所述,相较于传统卷积神经网络模型,基于术前CT构建的ViT深度学习模型能够更准确地识别肺结节的良性或恶性,提示在肺结节良恶性判定中关注全局信息具有重要意义。这一发现为早期肺癌的影像辅助诊断提供了新的思路,其端到端的特征提取与建模优势也使其具备更高的临床应用潜力,为肺癌早期筛查和个体化管理提供了潜在的参考价值。