1. 引言
肝脏是体内进行新陈代谢的中心站,在人体中承担着极为重要的使命,但是由于人们饮酒过度和作息不当等原因,肝脏疾病的发病率正在不断增高。为了治疗肝癌等肝脏疾病,医生通常喜欢根据医学影像做出初步判断。计算机断层扫描(CT)是医学专家的首选,因为它具有易于捕获、扫描快速、稳健性高等优点,并且具有更高的信噪比(SNR)和更好的空间分辨率[1]。因此,根据CT图像对肝脏部分进行分析是治疗肝脏疾病的重要手段。
由于深度学习方法的迅速发展,基于深度学习的图像分割算法在医学图像分割领域取得了显著的成就[2]。卷积神经网络(CNN)可以提取数据特定特征,这些特征的质量丰富且可有效地表示图像中所包含的信息,因此深度学习减少了从图像中提取手动特征的麻烦[3]。U-Net [4]在医学图像分割方面取得了重大突破,在编码器和解码器之间引入了跳过连接,防止信息的丢失,以提高分割的精度和质量。近年来,U-Net已成为几乎所有医学图像分割领先方法的支柱。之后提出了很多网络都是建立在U-Net架构之上[5]。U-Net++ [6]提出使用嵌套和密集的跳跃连接来进一步缩小编码器和解码器特征图之间的语义差距。UNet3+ [7]使用全尺度跳跃连接。3D U-Net [8]和V-Net [9]作为U-Net的扩展,用于3D医学图像扫描中的体素分割。在U-Net的其他扩展中,如Res-UNet [10]和Dense-UNet [11],编码器和解码器中的卷积块分别由残差连接和密集块组成。TransUNet [12]提供了一种分层转换器,通过结合卷积和注意力机制来捕捉全局和细粒度的局部上下文。尽管现有的算法已逐渐提高了肝脏以及肿瘤分割的准确性,但仍存在错误分割以及对通道信息和空间信息关注不足等问题。
针对肝脏形状由于其扁平的性质而不可预测、肝脏、肿瘤区域和邻近器官之间的像素强度差异很小、与相邻器官重叠导致肝脏形状对周围器官的依赖性、肝脏边界模糊且边界不连续等特点,本文在3D U-Net的基础上设计了新的网络模型,该模型在编码过程中添加了双分支多尺度特征融合模块,该模块可对不同尺度下的特征图中所包含的边缘信息进行融合,增强特征的表达能力。本文的主要内容包括:1) 在3D U-Net的基础上,针对肝脏CT图像特点对模型部分细节进行改进,减少模型参数的同时增大感受野,避免了肝脏CT图像中肿瘤部分信息的丢失,并在编码过程中添加双分支密集融合模块,对不同尺度下的特征图所包含的信息进行特征融合,增强网络性能。2) 在网络设计中加入深度监督,用来提高中间层的学习效果和网络的梯度传播,更好地解决了肝脏图像中类不平衡问题。3) 使用LiTS17数据集进行充分实验,证明方法的可靠性与有效性。
2. 相关工作
2.1. 分割网络
U-Net是肝脏分割网络中最有效的结构之一,它采用编码器来提取图像的特征信息,使用解码器恢复特征图至原始分辨率,引入跳跃连接融合上下文特征减少信息丢失,该网络现已成功应用于诸多图像分割任务中[13]。U-Net有效地减少了上采样过程中的像素细节损失,提高了分割精度。Oktay [14]等人提出了Attention U-Net网络,该网络使用了U-Net中的跳跃连接,并在其中加入了注意力机制模块,该模块可以通过生成门控信号来控制不同空间位置上的特征信息,从而使其更加关注目标区域,获得更好的分割结果。Cicek等人提出了一种3D U-Net网络可用于肝脏的自动分割,他们扩展了U-Net的架构,通过对应的3D操作替代了所有的2D操作。Li等人提出了一种双路径网络H-DenseUNet,包括2D DenseUNet和3D DenseUNet,分别用于提取切片内的特征和上下文信息。Jose [15]等人提出的KiU-Net则使用交叉残差融合策略有效地结合Ki-Net [16]和U-Net两个分支的特征。Devidas [17]等人采用特征融合的方法构建了轻量级的网络LiM-Net来提高计算效率。
2.2. 多尺度特征融合
在计算机视觉和图像处理领域,多尺度特征融合是一项关键技术,它允许模型在不同分辨率和尺度上捕捉并整合信息,从而显著提升目标检测、图像分割等任务的性能。其中,并行多分支结构作为一种经典且有效的多尺度表达方法,被广泛应用于各种视觉任务中。
Inception模块[18]的核心思想就是将不同的卷积层通过并联的方式结合在一起,经过不同卷积层处理的结果矩阵在深度这个维度拼接起来,形成一个更深的矩阵。Inception模块可以反复叠堆形成更大的网络,它可以对网络的深度和宽度进行高效的扩充,在提升深度学习网络准确率的同时防止过拟合现象的发生。Inception模块的优点是可以对尺寸较大的矩阵先进行降维处理的同时,在不同尺寸上对视觉信息进行聚合,方便从不同尺度对特征进行提取。Inception模块如图1所示:
Figure 1. Inception module
图1. Inception模块
此模块使用了3种不同尺寸的卷积核(1 × 1, 3 × 3, 5 × 5)和1个最大池化核(3 × 3),增加了网络对不同尺度的适应性,当感兴趣区域分布更全局时,倾向选择一个较大的核;当感兴趣区域分布得更局部时,倾向选择一个较小的核。
Inception模块中包含卷积操作,但是不同于传统卷积神经网络,此模块中可以设置多个通路,每个通路可以是不同的操作,相同的操作也可以设置不同的卷积核尺寸和步长。不同的卷积尺寸提供了不同的感受野,可以做不同级别上的特征提取,池化操作本身有提取特征的作用,而且因为没有参数不会产生过拟合,所以池化操作也作为此模块的一个通路。
2.3. 密集连接
密集连接(Dense Connection)作为DenseNet [19]的核心机制通过特征在通道上的连接来实现特征重用。DenseNet提出了一个更激进的密集连接机制:即互相连接所有的层,每个层都会接受其前面所有层作为其额外的输入。密集连接机制如图2所示:
Figure 2. Dense connection mechanism
图2. 密集连接机制
在DenseNet中,每个层都会与前面所有层在channel维度上连接在一起,并作为下一层的输入。对于一个L层的网络,DenseNet共包含L (L + 1)/2个连接,这可以实现特征重用,提升效率,其公式可表示为:
(1)
其中,上面的
代表是非线性转化函数,它是一个组合操作,其可能包括一系列的BN,ReLU,Pooling及Conv操作。
在网络中使用密集连接机制可以更好地减轻特征传递过程的梯度消失,并在一定程度上减少了参数的数量。
2.4. 深监督
随着网络深度加深,会逐渐出现神经网络难以训练的情况,其中就包括像梯度消失和梯度爆炸等现象。为了更好地训练深度网络,可以尝试给神经网络的某些层添加一些辅助的分支分类器,这种辅助的分支分类器能够判断隐藏层特征图质量好坏。深监督(Deep Supervision),就是在深度神经网络的某些中间隐藏层加入一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧,该方法用来解决深度神经网络训练梯度消失和收敛速度过慢等问题[20]。
3. 方法
3.1. 网络架构
本文基于3D U-Net的架构设计了一种新的可分割三维肝脏CT图像的编解码器网络DFU-Net,网络结构如图3所示,该网络利用并增强了3D U-Net的优点,可充分利用CT图像中的三维信息。
Figure 3. DFU-Net network architecture
图3. DFU-Net网络结构
该网络可分为三部分:编码器、解码器和跳跃连接。
编码器:该网络的编码器由四层组成。前两层使用3维卷积对输入图像进行特征提取,后两层将部分普通卷积替换为空洞卷积[21],由于肝脏CT图像中不同的部分所包含的细节不同,想提取更多细粒度的信息需要增大感受野,使用空洞卷积可以保证在增大感受野的同时不丢失特征图的分辨率,可以获得多尺度的信息。在下采样中,我们将常用的池化层替换成了卷积,尽管池化操作可以减少特征图中的参数个数和网络的计算量,但对于肝脏肿瘤这种小目标的分割,网络结构中大量使用池化层会损失掉了一些信息,在解码上采样重建分辨率时会对精确度产生影响。使用卷积作为下采样模块可以防止部分信息的丢失,并且使下采样的过程可训练,可以对特征图中的语义信息获得更大程度的保留。我们在每层编码过程中加入了密集融合模块(DFM),该模块可以对不同尺度下的特征图进行特征融合,更好地保留图像中的信息,提高分割的效果。
解码器:该网络的解码器由四层组成,该部分将网络中间过程的高级语义特征图恢复到原本的大小。每层解码层都是由卷积操作完成,上采样过程则使用转置卷积将特征图恢复为原始图像大小。我们在每层解码器中都添加了辅助网络分支来对主干网络进行监督,这种深监督方法在一定程度上可以提高网络的表征能力,有效地提高网络中间层的训练效果。深监督模块由卷积和线性插值来完成,其中卷积可以使特征图的通道数转变为原图像的通道数,线性插值可以使特征图恢复为原始图像大小,即该模块将不同解码器中的特征图恢复为原始图像尺寸,从而形成新的网络分支,每个分支分别计算损失,进而提升网络训练效果。最终损失计算公式为:
(2)
改进后的网络保留了3D U-Net的所有功能,并在此基础上增强了网络不同阶段的感受野,获得了更精细的多尺度特征表征能力,提高了网络的分割能力。
3.2. 密集融合模块
为了模型更好地利用不同尺度下的特征,我们改进了FCCDN [22]中的密集融合模块,将该模块应用于3D的CT图像分割中。
密集融合模块(Dense Fusion Module)结构如图4所示,DFM包括两个分支,和分支(Sum)和差分支(Diff)。和分支用于增强边缘信息,差分支用于生成差异特征。每个分支都由两个具有权重共享的密集连接流构建,所有的卷积操作都使用3 × 3的卷积核。此外,由于密集连接中丰富的残差连接,每个分支中的最后两个特征可以视为前一个特征的残差,从某种程度上是前一个特征的校正,使得新的特征图包含更丰富的信息。
Figure 4. Dense fusion module
图4. 密集融合模块
首先我们对网络上一层到来的特征图使用两种卷积核分别进行特征提取,该过程对应图中F1和F2。其中F1使用3 × 3的卷积,F2使用3 × 3空洞率为2的空洞卷积。使用不同卷积的目的是获得不同感受野下的特征图,并且使获得特征图的尺寸相同。之后将两种不同尺度下的特征图通过两个分支分别得到两种包含不同信息的特征图。
和分支(Sum Branch):通过加法操作融合来自两个不同感受野下的特征。这种方式有助于增强图像中的边缘信息。
差分支(Diff Branch):通过差分操作生成不同感受野下特征图的差异特征。直接反映不同感受野下特征图之间的差异。
这两个分支都采用了密集连接(Dense Connectivity)的策略,即每层的输出不仅连接到下一层,还与之前所有层的输出相连接,这样的结构有助于保留丰富的历史信息,并增强特征的表达能力。通过权重共享,减少了模型参数和避免了过拟合。
最后将两个分支得到的特征图相加,得到最终包含融合了边缘信息和差异信息的特征图。
DFM通过其密集连接还引入了一种自然的残差学习机制,后一层特征可以看作是对前一层特征的校正,从而在不断迭代中逐渐精化特征表示,最终产生更丰富的多个尺度融合后的特征。
4. 实验
4.1. 实验环境配置
实验平台的操作系统为64位Windows 10,python版本为3.8,编程软件为PyCharm,模型训练和测试基于深度学习框架PyTorch 2.0.1,所有模型从零开始训练,网络参数用随机值初始化,其中初始学习率设置为0.0001,训练周期数设置为200,批量大小设置为2,深监督衰减系数设置为0.4。
4.2. 数据说明与预处理
实验数据采用LiTS17数据集[23],该数据集包含腹部CT扫描以及肝脏和肝脏病变的注释,数据集中的131个CT图像分为训练集、验证集和测试集三部分,对于所有数据集将图像灰度值调整为[−200, 200]的范围,并对图像的横断面进行降采样,将所有数据z轴的间距调整到1 mm,并且根据肝脏所在位置,对CT图像进行截断,原始图像(a)与预处理后图像(b)如图5、图6所示:
Figure 5. Original image (a)
图5. 原始图像(a)
Figure 6. Preprocessed image (b)
图6. 预处理后的图像(b)
4.3. 损失函数
为了更好地训练网络,我们使用Tversky Loss [24]作为损失函数,这种方法可以有效解决类不平衡问题,对于CT图像中比例较低部分的分割更加有利,Tversky Loss的方法为:设P和G分别是预测值和真实值的集合,为了使得在训练过程中召回率的权重高于精确率,基于Tversky系数提出了一个损失层,Tversky Index定义如下:
(3)
其中
和
分别控制着精确率和召回率的惩罚大小。
Tversky Loss损失函数的定义为:
(4)
4.4. 评价指标
为了评估所提出方法的有效性,我们使用四种常见的评价指标评估了模型的分割性能,包括DSC、ASD、MSSD、RVD [25]。其中DSC为主要指标,该指标评估预测结果与真实结果之间的重叠程度,即:
(5)
平均对称表面距离(Average Symmetric Surface Distance, ASD),该指标通过计算分割边界与参考标准之间的距离来衡量模型准确性。设
表示
的表面体素集,定义任意体素
到
的最短距离为:
(6)
ASD公式为:
(7)
最大对称表面距离(Maximum Symmetric Surface Distance, MSSD),与ASD类似,其距离采用最大距离,其公式为:
(8)
相对体积差(Relative Volume Difference,RVD)表示分割结果与真实结果之间的差异,其公式为:
(9)
在这四种指标中,DSC评估指标的值越大表示结果越好,其他指标的值越小表示分割结果越好。
4.5. 实验结果分析
4.5.1. 肝脏分割结果
由DFU-Net生成的肝脏分割图与LiTS17的标签对比图如图7所示,其中从左到右分别表示包含肝脏区域的原始图像、肝脏部分标签图、网络生成分割图。从图像分析,模型分割肝脏的结果与真实结果十分接近。
Figure 7. Segmentation result example (from left to right: original image, label map, segmentation map)
图7. 分割结果示例(从左到右依次为原图、标签图、分割图)
为了进一步验证提出方法的性能,我们在同一数据集上进行了实验,并且与常用较好的肝脏分割网络进行比较,结果如图8所示。从图中可以看出,由DFU-Net生成的肝脏分割图与LiTS17的标签图大体一致,肝脏形状的不连续性被网络精确捕获。在肝脏与其他器官连接处,肝脏区域重叠和肝脏边界不明确的情况下,该网络也较好地对肝脏部分进行捕获。
我们还对几种目前先进的肝脏分割网络评价指标进行了对比,结果如表1所示。从数据中可以看出,较改进前的3D U-Net相比,网络有明显的提升,获得了更好的分割结果,并且与其他U-Net变体网络相比都有明显提升。其中Seg-Net的Dice值为0.8681,在几种常用网络中效果较差,H-DenseUNet与KiU-Net的Dice值分别为0.9331与0.9425,两者效果差异不明显,DFU-Net在该指标中效果均高于其他常用网络,我们的Dice值为0.9504,与改进前的3D U-Net相比提升了4%。在其他指标中,DFU-Net也具有出色的表现。
Table 1. Liver segmentation performance data
表1. 肝脏分割性能数据
Network |
DSC |
ASD |
MSSD |
RVD |
Seg-Net |
0.8681 |
6.45 |
58.66 |
0.51 |
3D U-Net |
0.9092 |
4.86 |
46.13 |
0.27 |
H-DenseUNet |
0.9331 |
1.93 |
33.76 |
0.087 |
KiU-Net |
0.9425 |
1.79 |
31.48 |
0.079 |
DFU-Net |
0.9504 |
1.75 |
29.55 |
0.072 |
Figure 8. Comparison of liver segmentation results
图8. 肝脏分割效果对比图
从图8中可以看出,通过在网络中加入密集融合模块可以更好地利用不同尺度下特征图所包含的信息,来提高网络的分割效果。
4.5.2. 肿瘤分割结果
由于数据中肿瘤部分占比较小,直接对肿瘤部分分割会导致分割效果不明显。因此我们采用先提取肝脏部分ROI再进行肿瘤部分分割的方法,由DFU-Net生成的肝脏肿瘤部分分割图与数据集的标签对比图如图9所示,其中从左到右分别表示包含病变区域的原始图像、病变部分标签图、网络生成分割图。
Figure 9. Example of tumor segmentation results
图9. 肿瘤分割结果示例
我们将DFU-Net生成的肿瘤分割结果与其他常用分割网络进行比较,评价指标如表2所示、对比结果如图10所示。从数据中可以看出,较改进前的3D U-Net相比网络有明显的提升,对于肿瘤部分的分割拥有更好的效果,并且与其他U-Net变体网络的分割效果相比都有明显提升。其中Seg-Net对肿瘤部分分割的Dice值为0.5541,在几种常用网络中效果较差,H-DenseUNet与KiU-Net的Dice值分别为0.6904与0.7012,DFU-Net在该指标中效果均高于其他常用网络,其Dice值为0.7046,与改进前的3D U-Net相比提升了6%。在其他指标中,DFU-Net也具有出色的表现。从分割效果图中可以看出,DFU-Net生成的肿瘤分割结果较为精确,并且优于其他常用网络。
Table 2. Tumor segmentation performance data
表2. 肿瘤分割性能数据
Network |
DSC |
ASD |
MSSD |
RVD |
Seg-Net |
0.5541 |
8.11 |
10.97 |
3.55 |
3D U-Net |
0.6397 |
5.36 |
9.41 |
0.48 |
H-DenseUNet |
0.6904 |
1.98 |
7.62 |
0.097 |
KiU-Net |
0.7012 |
1.89 |
7.54 |
0.074 |
DFU-Net |
0.7046 |
1.86 |
7.46 |
0.071 |
Figure 10. Comparison of tumor segmentation effects
图10. 肿瘤分割效果对比图
由于肿瘤部分较小,类不平衡问题导致对肿瘤部分分割较为困难,而DFU-Net很好地解决了肝脏CT图像中小物体的遗漏和边界不清晰等问题,与其他常用网络相比达到了更好的分割效果。
本研究主要关注肝脏CT图像在不同尺度下的特征融合问题。我们改进了一种可以应用于3D图像的密集融合模块,并将其应用于改进的3D U-Net网络。从上述实验的分割结果和评价指标可以看出,DFU-Net对肝脏及肿瘤部分有较好的分割能力,能更好地利用多尺度信息。
5. 结论
本文提出了使用DFU-Net对CT图像中肝脏及肿瘤部分分割的方法,改进了一种可以对不同尺度下的特征图进行边缘信息和差异信息进行特征融合的密集连接模块,并将其应用于改进的3D U-Net网络中,该密集融合模块通过增强有意义的特征和抑制不相关的特征,有效地利用了多尺度信息,并解决了语义差距问题,可以更好地利用CT图像中的三维信息。通过实验表明,改进后的网络对肝脏部分的分割平均Dice指标达到了0.95,相比于改进前提升了4%,对肿瘤部分的分割平均Dice指标达到了0.705,相比于改进前提升了6%,与其他常用网络相比也有较好的效果。然而在实际应用中,在网络中池化的改进以及模块的增加会导致模型参数增加,使得分割效率变低。未来我们的目标是在保证分割效率的同时提高分割精度。
NOTES
*通讯作者。