1. 引言
自2010年开始,肺癌的死亡率每年大约以4%的比例减少 [1] 。这主要得益于CAD系统带来的早期诊断。但肺癌仍作为死亡率最高和发病率最高的癌症,每年夺去百万条的生命。为了进一步降低肺癌的死亡率,肺部良恶性结节的分类在肺癌的早期诊断中显得尤为重要。随着LIDC-IDRI (The Lung Image Database Consortium) [2] 的出现,基于肺CT图像的自动肺结节良恶性分类有重要的研究价值,成为了当前的研究热点。
肺结节分类方法主要分为传统机器学习方法和深度学习方法。
基于肺CT图像的肺小结节良恶性分类研究早期基于传统机器学习方法。最初在肺图像数据集和算力不足的情况下,研究人员使用传统机器学习通过手工特征对肺结节CT图像进行分类。Po-Whei Huang等人 [3] 在使用SVM支持向量机的基础上添加了使用分形维度(FD)的分形纹理特征来区分良恶性结节。Ayman El-Baz等人 [4] 将肺结节的形状复杂度用形状指数来表示,并将它用K-近邻算法进行良恶性分类。QiMao等人 [5] 提出了智能免疫克隆优化算法来分类肺结节。设计了一种新的高斯–柯西混合变异算子,结合了高斯变异算子(GMO)和大尺度柯西变异算子(CMO)的优点。该方法解决了免疫算法初始种群的单一性问题,具有全局收敛和局部收敛的特点。Hao Chen等人 [6] 提出进的窗口自适应灰度级共现矩阵,能够对实性肺结节纹理特征提取对肺结节分类有较好的作用,但是他们使用的数据集样本量太小,可能存在偏差。虽然传统的机器学习也可以完成肺结节分类任务,但是普遍需要耗费大量时间去制作手工特征,并且很大程度依赖于研究人员的主观判断,因此不能实现自动化的高精度分类。
当前主要运用深度学习对肺CT图像的肺结节良恶性分类展开研究。深度学习可以直接从数据中获取高级特征,而省去了传统机器学习对每一个特征手工制作特征提取器的任务,并且在肺结节分类任务中,可以实现高鲁棒性的计算机自动诊断。Yohei Momoki等人 [7] 针对CAD系统需要大量标记数据的问题,提出从患者放射学报告中进行标记,生成伪标签来构建肺结节图像分类器。他们针对不同数据集,分别设计了基于层次注意网络(HAN)的文本分类器,和基于VGG的图像分类器。Meenakshi Bharti等人 [8] 为解决原始CT的计算量过大的问题,提出在预处理后将CT图片切割成小块,再使用3DResNet进行结节分类。Amrita Naik等人 [9] 肺结节图像因CT机的硬件上限,通常分辨率过低,导致难以被卷积网络训练的问题,提出使用Fractalnet作为网络主干,同时在增加数据集和数据扩充的情况下表现得更好。Astaraki, M等人 [10] 提出双路径的深度CNN,双路径不但可以获取结节的纹理特征,同时可以捕捉在结节附近的可以代表病变的背景与组织。在最后添加了随机森林模型用来生成分类结果。双路径CNN比普通单路径CNN有着更好的特征辨别能力,并且性能也可以超过单路径CNN,但是在将来,还可以将深度学习抽象特征和手工制作的特征相结合。Ahmed Shaffie等人 [11] 提出一种新的肺结节诊断系统,结合了纹理和轮廓特征来预测结节生长速度,能够作为标准的临床诊断。他们使用深度神经网络增强这两个特征用以分类肺结节。Sakshiwala等人 [12] 利用迁移学习提取多尺度特征和权重初始化,同时提出一种新的多尺度卷积神经网络结构用于结节二值分类。Muhammad Muzamml等人 [13] 为解决个人学习方法容易陷入局部最小值导致结果不佳的问题,提出对AlexNet、VGG-16和VGG-19三个分布网络模型和的特征和多个DCNN学习器进行基于MAX-VOTE的融合。Apostolopoulos, Ioannis D.等人 [14] 提出三维成像相比于二维成像在深度学习中更能捕获孤立性肺结节(SPN)的深层特征,同时提出运用半监督方法生成弱标记SPN,但是因此数据库中存在大量不确定的数据,缺少鲁棒性。Xiaohang Fu等人 [15] 为解决现有方法对每张肺结节三维切片一视同仁,没有考虑相关性和异质性,提出了MTL模型,把多个注意力模块和CNN结合在一起,在一整个结节卷中用注意模块过滤掉不关键的切片,并得出了得出了每张切片可解释的权重。Alejandra Moreno [16] 等人提出肺结节的恶性程度和组织学和几何形态有关,提出一种多尺度自注意(MSA)网络从多尺度分解中挖掘非局部结节之间关系,同时精确生成结节的可解释纹理图。2022年Rukhmini Roy等人 [17] 提出attribute-driven Generative Adversarial Network (ADGAN)来解释肺结节图像的合成和多类分类。设计了自我注意属性模块(SaAM)来根据给定的肺结节属性来生成肺结节图像。Hong Huang等人 [18] 提出深度特征优化框架(DFOF)解决了传统CNN模型单输入策略特征提取能力不足,多输入CNN会造成维数诅咒的问题,采用双流网络提取结节周围和内部的高维特征。并设计了流形优化方法来增强嵌入特征的类内紧致性和类间可分离性。Weilin He等人 [19] 为解决高性能模型结构复杂,可解释性差的问题,提出一种基于ISHAP (modified SHapley Additive explained)可解释模型。该方法将利用医学先验知识对肺CT提取的特征进行引导得出最关键的特征,在临床中帮助医生识别使结节恶性的因素。Yaowei Li等人 [20] 提出使用DeepLabv3+作为重要性估计网络,将不相关的特征进行销毁,并可以为每一张肺结节图像生成视觉解释诊断。同时将ResNet作为分类网络。Hanliang Jiang等人 [21] 提出了NAS-lung模型,提出在肺结节分类上使用NAS搜索,在保持高精度的同时,使用了相较于其他模型1/40的参数。在他们的模型中,还结合了CBAM注意力机制,并能生成表示高低注意力值的肺结节注意力图。但此注意力图并不能确切的表示肺癌诊断中应该被高度关注的部分,这是造成分类精度难以提升的根本原因,同时不能作为临床诊断依据。
综上所述现有的研究虽然都取得了显著的成果但仍存在一些问题,研究人员们大都使用二维的肺结节图像作为训练,但是肺结节是三维的,二维图像不能训练得出三维特征,造成良恶性分类精度有待进一步提高,为了应对挑战本文构建了一个多特征融合的网络模型。我们的主要贡献如下:1) 提出总体框架结构3DCMFF,使用3DECABlock作为框架的主干,通过将通道维度上的3D特征进行自适应加权,来增强有用的特征,抑制无用的特征,能够在提高网络的表示能力。2) 提出3D高效金字塔注意力分割模块(3D PSA)能够建立通道关系,获取3D精细化特征图。3) 提出使用多尺度特征融合,将不同阶段网络层的输出结果进行拼接,使后面的网络层能获取网络模型前几层的特征,在不增加计算量的同时获得精度的提升。了应对挑战本文构建了一个多特征融合的网络模型。我们的主要贡献如下:1) 提出总体框架结构3DCMFF,使用3DECABlock作为框架的主干,通过将通道维度上的3D特征进行自适应加权,来增强有用的特征,抑制无用的特征,能够在提高网络的表示能力。2) 提出3D高效金字塔注意力分割模块(3D PSA)能够建立通道关系,获取3D精细化特征图。3) 提出使用多尺度特征融合,将不同阶段网络层的输出结果进行拼接,使后面的网络层能获取网络模型前几层的特征,在不增加计算量的同时获得精度的提升。
2. 本文方法

Figure 1. The architecture of 3DCMFF model
图1. 3DCMFF模型架构
如图1所示,三维多尺度特征融合网络模型(3DCMFF)主要分为五个阶段,将32*32*32的肺结节图像作为模型的输入。
阶段1有两个3D卷积块和一个3DPSA注意模块,同时可以生成可解释注意力图;阶段2~4有三个3DECA残差块,其中每个阶段的3DECA残差块数分别为L,M,N,其中阶段四的3DECA残差后有一个3DPSA注意力模块;在阶段1~4中,每个阶段的末尾都通过一个卷积层来进行降采样并升高通道数。阶段5使用全局平均池和全连接(FC)层生成最终预测。FC层输出一个二进制标签,表示输入结节是良性还是恶性。
2.1. 3DECA模块
ResNet [22] 提出跳跃连接,成功解决了梯度消失,网络退化的问题,同时可以保留原始特征,增加网络泛化能力。但是由于肺结节图像中结节形状,大小,纹理各不相同,ResNet难以从中提出最有效的特征。因此在我们的方法中引入3DECA模块 [23] 来代替普通的3D模块来作为网络框架的主干。
在3DCMFF中的阶段2~4中,我们引入3D高效通道注意力3DECA模块作为它们的主要构建,如图2所示。
3DECA模块能够通过增加少部分的参数,达到性能增益。该模块避免了降维,并且可以捕捉跨通道交互,如图所示适当的跨通道交互能够在降低模型参数的同时提升网络性能,3DECA模块在通过GAP模块后,再通过大小为k的快速一维卷积实现跨通道交互,见公式(1):
(1)
Odd代表取最小的奇数,在所有3D的ECA模块中,
和b分别被设置为2和1,通过非线性映射
,高纬度的通道有较大的相互作用,相反低纬度的通道的相互作用较小。
3D ECA ResNet将不降维的局部跨通道交互策略与选择一维卷积核大小的自适应方法相结合。它实现了复杂的注意力模块,提高了分类性能。通过动态有效地学习通道特征之间的相关性,极大地提高了网络的特征表达能力,能够从肺结节图像中获取最关键的特征。
2.2. 3DPSA模块

Figure 3. The architecture of 3DPSA block
图3. 3DPSA框架结构图
3DCMFF在2,4阶段都使用了3DPSA模块。3D金字塔挤压注意(PSA)模块如图3所示。该处理过程分为三个步骤:1) 32*32*32的图像通过挤压与连接SPC模块,获取通道上的3D多尺度特征图;2) 利用SEWeight模块提取不同比例特征图的3D注意向量,再利用Softmax函数对注意向量重新校准;3) 将3D多尺度特征图和重新校准的权值进行相乘,得到多尺度特征信息更丰富的3D精细化特征图作为输出。
3D卷积多尺度特征图获取
基于3D卷积多尺度特征图生成:为了能够在不增加过多参数的同时处理不同卷积核大小的输入张量,如图3所示,引入了3D群卷积,群的大小根据卷积核的大小自适应调整。生成多尺度特征图的函数如公式(2):
(2)
其中k是卷积核大小,G是群大小,如公式(3)、(4):
(3)
(4)
多尺度特征图拼接:将四个不同尺度,通道为C/4的特征图拼接得到融合多尺度特征图,如公式(5):
(5)
SEweight模块能够从不同尺度的输入特征图中获得不同注意力权重,再通过Softmax损失函数重新校准权重得到C × 1 × 1 × 1的atti,可以实现全局注意力的交互,在通过拼接,得到全部通道的注意力向量,如公式(6):
(6)
将不用尺度的注意力权重atti和相应尺度的特征图进行相乘,得到不同尺度通道关注权重的特征图Yi,如公式(7):
(7)
将不同尺度的特征图Yi进行拼接,得到最后的输出结果,能够完整地表示原始特征图的信息,如公式(8):
(8)
2.3. 多尺度特征融合
如图4所示,多尺度特征融合采用两个阶段(阶段1,阶段2)的特征图(16 × 16 × 16, 8 × 8 × 8),分别通过两个和一个平均池化层,得到两个不同的4 × 4 × 4的特征图,如公式(9)、(10):
(9)
(10)
因为肺结节的大小,形状都存在较大差异,很难找到一个统一固定的感受野。多尺度特征融合能够捕获在不同卷积层的特征,增强空间信息,增加模型的鲁棒性。将它们和同样为4×4×4,stage4的特征图进行通道上的拼接,再通过1 × 1 × 1的卷积层,获取三个不同感受野的信息,完成多尺度的特征融合,并把结果作为stage5的输入,如公式(11):
(11)
3. 实验结果与分析
3.1. 数据集
在实验中,LIDC-IDRI数据集和LUNA16的设置被采用,LIDC-IDRI它包括1018个低剂量的肺部CT影像。LIDC-IDRI删除了切片厚度大于3 mm和肺结节小于3 mm的CT影像,得到LUNA16数据集,包含888个低剂量肺部CT影像数据,含有1185个肺结节。在LUNA16数据集中删除切片间距不一致和切片缺失的CT数据,还剩下1005个结节。结节的注释信息由四位思维经验丰富的放射科专家评定,包括肺结节的三维坐标恶性程度评分(1~5分),其中评分越高代表恶性程度越高,评分在1~2被标记为良性结节,评分在4~5的被标记为恶性结节。在我们的工作中,我们去除了恶性程度评分在3左右的结节,还剩下933个结节作为我们的训练数据集。在模型训练中我们使用LUNA16的十倍交叉验证进行训练。
3.2. 数据预处理
将Luna16的原始数据被裁切为[−1200, 600],再将其通过线性变化变为[0, 1]。根据Luna16的地表真值标签信息从CT图像中裁切出32 × 32 × 32的结节立方块,填充成36 × 36 × 36,再随机裁剪成32 ×32 × 32。我们将结节水平翻转,垂直翻转和Z轴翻转进行数据增强。
3.3. 评价指标
为了评价肺结节的分类表现,四个广泛使用的指标,准确率,敏感性,特异性,F1分数如公式(12)、(13)、(14)、(15):
(12)
(13)
(14)
(15)
以上公式中,TP、FN、FP、TN依次为真阳性、假阴性、假阳性、真阴性。这些标准的值越大表明性能越好。F1评分评估敏感性和特异性之间的权衡。一般来说,F1分数越高,性能越好。
3.4. 与现有工作的比较
为了证明3DCMFF的优越性,与现有的先进方法进行比较,包括deeplung,NASlung,ADGAN。在这里,我们在表中报告了3DCMFF的性能。

Table 1. Comparison of classification indicators of different models
表1. 不同模型分类指标的对比
从表1中,3DCMFF达到了最高的精确度和F1评分,分别为93.53%和90.05%,精确度相比ADGAN高了0.73%。我们的方法同时能够在敏感性和特异性之间取得了很好的平衡,达到了90.20%和95.73%。换句话说,3DCMFF可以正确分类大多数结节,也很大程度上解决了假阳性的问题,这将大大减轻医生的负担。所有这些结果表明,3DCMFF通过使用ECAblock,3DPSA,和特征融合方法能够优于现有的先进模型。
3.5. 消融实验

Table 2. Results of ablation experiment
表2. 消融实验结果
我们使用消融实验来分析我们所提出的技术的影响,即3DECAblock,3DPSA和特征融合策略。我们首先从总体架构中依次去除特征融合策略,3DPSA block和ECAblock,来构建3个模型变体。表2报告了模型变体的准确度,敏感度,特异度和F1分数。结果表明3DPSA,ECAblock和特征融合在总体上,都提高了原始模型的准确性和鲁棒性。
4. 结论
在本文中,我们通过使用3DECAblock,3DPSA和特征融合策略,能够从肺结节图像中提取3D特征,并拥有良好准确的深度学习肺结节分类模型。本文中所有已提出使用的技术都被证明有效,并且模型的效果能够优于现有的优秀模型。
在未来的工作中,可以将网络模型可解释化,能够在保持高精度的同时,在临床中可以帮助医生识别到使结节恶性的因素。