1. 引言
随着深度学习技术的快速发展,自从以卷积神经网络(CNN)为基础的全卷积网络(FCN) [1]被提出之后,医学图像分割技术有了更显著的进步。基于FCN的UNet [2]网络已经成为医学图像分割领域最具代表性的骨干之一。UNet网络及其改进的U-Net++ [3]、ResUNet [4]、ResUNet++ [5]已经直接引入息肉分割领域并且取得了一些可接受的效果[6]。此外为了进一步提高息肉分割的网络性能,一些只针对于息肉分割任务的网络也相继被提出,并且取得了更好的效果。例如,SFA [7]提出了一种新颖的选择性特征聚合网络,具有用于息肉分割的区域和边界约束。DCRNet [8]使用外部和内部上下文关系模块来分别估计相同和不同图像中每个位置与所有其他位置之间的相似性。SCR-Net [9]通过两个关键模块有效地校准和优化语义信息在训练过程中学习语义–空间关系,将高级层的语义信息传递到低级层,增强特征对目标的区分能力。
尽管上述网络在息肉图像分割领域取得了显著的成就,但仍面临如下挑战:
1) 编码阶段的卷积层感受野尺寸不足导致不能感知远距离信息[10]。
2) 解码阶段,上采样进行特征融合时由于融合方式过于简单,可能会引入背景噪声,影响特征的鲁棒性,并可能导致语义信息的不匹配[11]。
为了解决上述问题,如图1所示,我们提出了EEPSNet (Enhanced Feature Fusion and Enlarged Receptive Field Polyp Segmentation Net),一种改进的U-Net版本,它利用普通卷积和空洞卷积组合捕捉远距离的特征信息并且通过注意力集中于融合特征来减少浅层特征和深层特征之间的语义不匹配程度。
首先,在编码阶段,EEPSNet引入了感受野增强卷积块(Enlarged Receptive Field Block),它结合了普通卷积和空洞卷积,以增强模型对特征的提取能力。这种卷积块能够捕捉到更丰富的纹理和形状信息,为后续的特征融合和分类提供了坚实的基础。
然后,在解码阶段,EEPSNet采用了全局注意力特征融合模块(Global Attention Feature Fusion Module)。这个模块通过全局注意力机制来加强特征融合的过程,它能够识别并强化那些对于最终任务更为重要的特征,同时抑制那些可能由噪声引起的不相关特征。这种注意力机制的引入,不仅提高了模型对语义信息的匹配能力,还增强了模型对噪声的鲁棒性。
Figure 1. EEPSNet network architecture
图1. EEPSNet网络结构
2. EEPSNet模型
2.1. 感受野增强卷积块(Enlarged Receptive Field Block)
普通卷积在捕捉局部特征方面表现优异,而空洞卷积则能够扩大感受野,捕获更广泛的上下文信息。因此,如图2所示,我们将这两种卷积操作结合起来,以期达到1 + 1 > 2的效果。
具体来说,混合卷积块首先使用3 × 3的普通卷积对输入特征进行初步过滤,这一步骤有助于提取出图像的基本纹理和形状信息。紧接着,我们引入了空洞率为2的3 × 3卷积,这一操作能够在不增加计算复杂度的前提下,扩大感受野,捕获到更远距离的特征信息。这种设计使得模型能够同时关注到局部细节和全局上下文,从而更全面地理解图像内容。在每次卷积操作之后,我们都会进行批量归一化(Batch Normalization)和ReLU (Rectified Linear Unit)激活函数的处理。批量归一化有助于加速模型的收敛速度,同时减少内部协变量偏移的问题,而ReLU激活函数则能够引入非线性,增加模型的表达能力。
Figure 2. Enlarged receptive field block
图2. 感受野增强卷积块
混合卷积块公式表达如下:
(1)
其中,
表示输入特征图,
表示经过混合卷积块后的输出特征图。
与
分别表示普通卷积与空洞卷积,公式(1)表示特征图先进行普通卷积再进行空洞卷积。此外对于
与
用公式可以分别表示为:
(2)
(3)
BN表示批量归一化,ReLU则表示ReLU激活函数。对于
,I代表输入特征图,
表示卷积核的大小为3 × 3,
代表卷积核的滑动步长为1,
表示被卷积的特征图边界填充为1,
则说明空洞率为2,一般默认情况下为1。
2.2. 全局注意力特征融合模块(Global Attention Feature Fusion Module)
如图3所示,全局注意力特征融合模块GAFM (Global Attention Feature Fusion Module)由双线性插值上采样、全局注意机制GAM (Global Attention Mechanism)以及一个混合卷积块组成。具体操作为,将低一级别的特征在空间维度上双线性插值尺寸扩大一倍,在通道维度上降低通道数量为原来的一半。目的是在通道维度和空间维度上与高一级别的特征图对齐进而进行特征融合操作。对齐尺寸后,再将低级特征进行全局注意力和一个普通卷积处理与高一级的特征进行通道上的拼接。低级特征在与高级特征进行通道拼接前,对于高级特征则进行与经过尺寸对齐的低级特征的元素相乘的操作。在上述操作之后,将经过通道维度拼接的特征输入到混合卷积块中进行卷积操作。公式表达为:
(4)
其中,
、
分别表示高一级别的特征和低一级别的特征,
代表混合卷积快(Hybrid Convolutional Block)具体操作参考公式(1)~(3),
表示特征的双线性插值操作。
对于
我们有如下的进一步描述,全局注意机制(GAM)是一种减少信息减少和放大全局维度的机制–交互特征,此机制采用CBAM的顺序通道–空间注意机制,并重新设计了子模块。整个过程如图4、公式(5)、公式(6)所述。给定输入特征图
,定义中间状态
和输出
为:
(5)
(6)
公式(5)和(6)中,
和
分别为通道和空间注意图;
表示逐元素的乘法。通道注意子模块使用3D排列来保留跨三维的信息。然后,它用一个双层MLP (多层感知器)放大跨维通道空间依赖性。(MLP是一个与BAM结构相同并且带有放缩比r的编码器–解码器结构)
Figure 3. Global attention feature fusion module
图3. 全局注意力特征融合模块
Figure 4. Global attention mechanism
图4. 全局注意力机制
3. 实验
3.1. 数据集
为了全面评估我们提出的EEPSNet模型的性能,我们遵循了PraNet [12]的实验设置,在以下四个公开的结肠息肉图像数据集上进行了广泛的实验:Kvasir-SEG [13]、CVC-ClinicDB [14]、CVC-ColonDB [15]和ETIS [16]。这些数据集为我们提供了多样化的测试环境,以全面评估EEPSNet在不同类型和质量的结肠息肉图像上的表现。CVC-ClinicDB:也称为CVC-612,包含612张从25个结肠镜检查视频中获取的结肠息肉图像,图像分辨率为384 × 384像素。我们选取了550张图像用于训练,剩下的62张用于测试。CVC-ColonDB:一个小型数据库,包含380张图像。Kvasir-SEG:这是一个具有挑战性的数据集,包含1000张息肉图像,图像尺寸从332 × 487到1920 × 1072不等。通常,我们使用数据集的90%进行训练,剩余的10%用于测试。ETIS:一个较早发布的数据集,包含196张息肉图像,图像大小为1255 × 966像素。
3.2. 实验设置
我们的实验是在NVIDIA Quadro RTX 5000 GPU上进行的,该计算机配备了10.0版本的CU-DA和2.2.2版本的PyTorch。使用AdamW优化器和余弦退火学习率调整策略,学习率和权重衰减为1e-4,该模型总共训练了150个epoch。通过多尺度训练、随机旋转、随机翻转来增强数据。输入图像尺寸调整为352 × 352。
3.3. 评价指标
我们使用与PraNet [12]、Polyp-PVT [17]相同的七个评估指标来评估所提出方法中的模型性能。我们使用平均骰子(mDice)、平均交并比(mIoU)、平均绝对误差(MAE)、加权F度量(
)、S-measure (
)、平均和最大E-measure (
)作为评估指标来全面验证我们方法的性能。Dice和IoU是息肉分割最常用的两个指标。Dice系数是用于比较预测图和真实图之间的像素级分类结果的标准度量。IoU关注分割对象的内部一致性。Dice和IoU的取值范围在[0, 1]之间,值越接近1,分割效果越好。它们的定义如下:
(7)
(8)
将Dice方程定义为公式(7),将IoU方程定义为公式(8),A变量为预测的像素,B变量为掩码图的像素。其中,TP表示真阳性,FP表示假阳性,FN表示假阴性。
(9)
被定义为公式(9)。其中
是权衡Recall和Precision的参数。
表示加权精度,它是精确度的度量,
表示加权召回率,它是完整性的度量。
(10)
我们通过等式(10)计算MAE分数。P和Y表示预测图和真实图。其中W和H分别是图像的宽度和高度。
(11)
我们通过等式(11)计算
。其中,
和
表示区域感知和对象感知结构相似性,
默认设置为0.5。
(12)
方程定义为公式(12)。使用增强的对齐矩阵
捕获二值图的两个属性(像素级匹配和图像级统计)。
其中W和H分别是图像的宽度和高度。FM代表前景图。我们使用这些指标来验证性能。
3.4. 损失函数
我们的损失函数可以表示为等式(13):
(13)
和
是加权并集交集(IoU)损失和加权二元交叉熵(BCE)损失,它们在全局方面限制了预测图结构(对象级)和局部细节(像素级)视角。与平等对待所有像素的标准BCE损失函数不同,
考虑每个像素的重要性,并为硬像素分配更高的权重。此外,与标准IoU损失相比,
更关注硬像素。
4. 实验结果与分析
4.1. 定量分析
学习和泛化能力分析:我们评估了模型在四个数据集上的性能,其中Kvasir-SEG和CVC-ClinicDB用于评估模型的特征建模能力,其他两个未见过的数据集CVC-ColonDB和ETIS-LaribPolypDB来评估泛化能力。我们在表1~4中列出了比较结果,包括U-Net [2]、U-Net++ [3]、ResUNet [4]、ResUNet++ [5]、Attenton-Unet [18]、R2Unet [19]、SFANet [7]、SCR-Net [9]和DCRNet [8]。
此外,我们还展示了每个模型的可视化结果并分析了几个代表性案例,以说明我们的模型具有更好的分割性能。
在特征建模方面,我们的EEPSNet模型在CVC-ClinicDB数据集的七个评估指标中,除了
指标略低于DCRNet模型0.2%且在MAE指标上与DCRNet持平外,其他指标均优于其他模型。具体来说,我们的模型在mDice、mIoU、
、
和
五个指标上分别超越了次优模型DCRNet 1.5%、1.2%、0.5%、0.1%和0.5%。而在Kvasir-SEG数据集上,EEPSNet的表现与DCRNet相当,在mIoU、
、
三个指标上分别高出DCRNet 0.2%、0.1%和0.5%,而在mDice和MAE指标上与DCRNet持平。然而,在另外两个指标
和
上,我们的模型分别落后于DCRNet 0.4%和1.1%。上述数据指标可以说明我们的模型在空间特征捕捉上有很大的提升。在Kvasir-SEG数据集上
和
指标略低于DCRNet是因为Kvasir-SEG数据集中的图像数据尺寸方差较大,模型训练结果存在一定的误差可忽略不计。
此外,我们通过视觉对比分析了我们的模型与其他模型的分割效果,如图5所示。第一行和第二行分别展示了Kvasir-SEG和CVC-ClinicDB数据集的分割结果。从这些图像中可以明显看出,我们的模型在捕捉分割区域特征方面表现更佳,不仅能够减少分割信息的丢失,还能有效抑制非息肉区域的干扰,这进一步验证了我们模型的有效性。
在泛化能力方面,我们的模型在CVC-ColonDB和ETIS-LaribPolypDB这两个未见过的数据库上也展现出了显著的性能。在ETIS-LaribPolypDB数据集中,与其它模型相比,我们的模型在除了MAE指标略低于SFA方法0.18%之外的所有六个指标上均取得了最佳成绩,具体来说,在mDice、mIoU、
、
、
和
指标上分别超越了次优模型10.4%、8.9%、11.3%、7.2%、6.4%和5.6%。在CVC-ColonDB数据集中,我们的模型同样展现出了一定的优势,除了
与
两个指标分别低于DCRNet模型0.4%和0.1%,并且在mIoU指标上与DCRNet持平外,其他四个指标mDice、
、
和MAE分别比DCRNet高出0.4%、1.1%、2.3%和1.3%。
此外,我们在图5的第三行和第四行中,对CVC-ColonDB和ETIS-LaribPolypDB两个数据集的分割效果进行了可视化对比。结果明显显示我们的模型在泛化能力上也优于其他模型。
Table 1. Experimental comparison of different network models on the CVC-ClinicDB dataset
表1. 不同网络模型在CVC-ClinicDB数据集上的实验比较
CVC-ClinicDB |
Methods |
mDice |
mIoU |
|
|
|
|
MAE |
U-Net |
0.823 |
0.755 |
0.811 |
0.889 |
0.913 |
0.954 |
0.019 |
U-Net++ |
0.794 |
0.729 |
0.785 |
0.873 |
0.891 |
0.931 |
0.022 |
ResUNet |
0.732 |
0.621 |
0.690 |
0.814 |
0.868 |
0.878 |
0.036 |
ResUNet++ |
0.845 |
0.786 |
0.831 |
0.898 |
0.923 |
0.940 |
0.013 |
Attenton-Unet |
0.788 |
0.720 |
0.775 |
0.864 |
0.885 |
0.921 |
0.027 |
R2Unet |
0.696 |
0.610 |
0.668 |
0.798 |
0.823 |
0.849 |
0.035 |
SFA |
0.700 |
0.607 |
0.647 |
0.793 |
0.840 |
0.885 |
0.042 |
SCR-Net |
0.791 |
0.711 |
0.772 |
0.855 |
0.886 |
0.906 |
0.028 |
DCR-Net |
0.896 |
0.844 |
0.890 |
0.933 |
0.964 |
0.978 |
0.010 |
EEPS-Unet |
0.911 |
0.856 |
0.895 |
0.934 |
0.969 |
0.976 |
0.010 |
Table 2. Experimental comparison of different network models on the Kvasir-SEG dataset
表2. 不同网络模型在Kvasir-SEG数据集上的实验比较
Kvasir-SEG |
Methods |
mDice |
mIoU |
|
|
|
|
MAE |
U-Net |
0.818 |
0.746 |
0.794 |
0.858 |
0.881 |
0.893 |
0.055 |
U-Net++ |
0.821 |
0.743 |
0.808 |
0.862 |
0.886 |
0.909 |
0.048 |
ResUNet |
0.720 |
0.604 |
0.656 |
0.775 |
0.835 |
0.849 |
0.080 |
ResUNet++ |
0.826 |
0.750 |
0.796 |
0.861 |
0.888 |
0.893 |
0.051 |
Attenton-Unet |
0.843 |
0.771 |
0.823 |
0.875 |
0.903 |
0.909 |
0.045 |
R2Unet |
0.785 |
0.696 |
0.765 |
0.831 |
0.864 |
0.872 |
0.059 |
SFA |
0.723 |
0.611 |
0.670 |
0.782 |
0.834 |
0.849 |
0.075 |
SCRNet |
0.798 |
0.711 |
0.755 |
0.836 |
0.871 |
0.888 |
0.060 |
DCRNet |
0.886 |
0.825 |
0.868 |
0.911 |
0.941 |
0.933 |
0.035 |
EEPS-Unet |
0.886 |
0.827 |
0.869 |
0.907 |
0.930 |
0.938 |
0.035 |
Table 3. Experimental comparison of different network models on the ETIS dataset
表3. 不同网络模型在ETIS数据集上的实验比较
ETIS-LaribPolypDB |
Methods |
mDice |
mIoU |
|
|
|
|
MAE |
U-Net |
0.398 |
0.335 |
0.366 |
0.684 |
0.643 |
0.740 |
0.036 |
U-Net++ |
0.401 |
0.344 |
0.390 |
0.683 |
0.629 |
0.776 |
0.035 |
ResUNet |
0.411 |
0.315 |
0.364 |
0.656 |
0.678 |
0.685 |
0.044 |
ResUNet++ |
0.401 |
0.339 |
0.364 |
0.669 |
0.651 |
0.688 |
0.039 |
续表
Attenton-Unet |
0.539 |
0.470 |
0.510 |
0.739 |
0.722 |
0.772 |
0.029 |
R2Unet |
0.360 |
0.303 |
0.339 |
0.643 |
0.621 |
0.755 |
0.033 |
SFA |
0.297 |
0.217 |
0.231 |
0.557 |
0.531 |
0.632 |
0.109 |
SCRNet |
0.449 |
0.371 |
0.405 |
0.681 |
0.672 |
0.727 |
0.042 |
DCRNet |
0.556 |
0.496 |
0.506 |
0.736 |
0.742 |
0.773 |
0.096 |
EEPS-Unet |
0.660 |
0.585 |
0.619 |
0.808 |
0.806 |
0.829 |
0.037 |
Table 4. Experimental comparison of different network models on the CVC-ColonDB dataset
表4. 不同网络模型在CVC-ColonDB数据集上的实验比较
CVC-ColonDB |
Methods |
mDice |
mIoU |
|
|
|
|
MAE |
U-Net |
0.512 |
0.444 |
0.498 |
0.712 |
0.696 |
0.776 |
0.061 |
U-Net++ |
0.483 |
0.410 |
0.467 |
0.691 |
0.680 |
0.760 |
0.064 |
ResUNet |
0.528 |
0.416 |
0.489 |
0.690 |
0.755 |
0.761 |
0.060 |
ResUNet++ |
0.597 |
0.504 |
0.553 |
0.738 |
0.776 |
0.791 |
0.056 |
Attenton-Unet |
0.635 |
0.549 |
0.606 |
0.765 |
0.797 |
0.832 |
0.055 |
R2Unet |
0.629 |
0.537 |
0.597 |
0.767 |
0.793 |
0.823 |
0.046 |
SFA |
0.469 |
0.347 |
0.379 |
0.634 |
0.675 |
0.764 |
0.094 |
SCRNet |
0.616 |
0.527 |
0.579 |
0.752 |
0.788 |
0.832 |
0.049 |
DCRNet |
0.704 |
0.631 |
0.684 |
0.821 |
0.840 |
0.848 |
0.052 |
EEPS-Unet |
0.708 |
0.631 |
0.680 |
0.820 |
0.851 |
0.871 |
0.039 |
Figure 5. Comparison of the visual segmentation results for the different methods
图5. 不同方法的视觉分割结果比较
4.2. 消融实验
为了验证我们模型中各个模块的有效性,我们在Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB和ETIS-LaribPolypDB四个数据集上进行了消融实验,结果汇总在表5中。实验数据清晰地表明,无论是单独使用还是组合使用,我们的模块在这些数据集中都展现出了显著的效果。具体来说,混合卷积块(HCB)和全局注意力特征融合模块(GAFM)在单独加入网络时,就能显著提升性能,而当这两个模块联合使用时,性能提升更为显著。这一结果证明了混合卷积在空间特征捕捉方面的能力优于传统的双卷积块。
此外,混合卷积块与感受野增强模块的组合在ETIS-LaribPolypDB和CVC-ColonDB数据集上的mDice指标分别提升了26.2%和19.6%,这一提升幅度大于在Kvasir-SEG上的6.6%和CVC-ClinicDB上的8.8%。这一差异表明我们的模型不仅在特定数据集上表现优异,还具有良好的泛化能力,能够在不同的数据环境中保持高效的表现。
Table 5. Comparison table of the ablation experiments
表5. 消融实验对比表
|
Methods |
mDice |
相比baseline提升 |
Kvasir-SEG |
Baseline |
0.818 |
0 |
Baseline + HCB |
0.880 |
6.2% |
Baseline + GAFM |
0.882 |
6.4% |
Baseline + HCB + GAFM |
0.886 |
6.6% |
CVC-ClinicDB |
Baseline |
0.823 |
0 |
Baseline + HCB |
0.910 |
8.7% |
Baseline + GAFM |
0.905 |
8.2% |
Baseline + HCB + GAFM |
0.911 |
8.8% |
ETIS-LaribPolypDB |
Baseline |
0.398 |
0 |
Baseline + HCB |
0.579 |
18.1% |
Baseline + GAFM |
0.562 |
16.4% |
Baseline + HCB + GAFM |
0.660 |
26.2% |
CVC-ColonDB |
Baseline |
0.512 |
0 |
Baseline + HCB |
0.675 |
16.3% |
Baseline + GAFM |
0.690 |
17.8% |
Baseline + HCB + GAFM |
0.708 |
19.6% |
5. 结语
本研究提出了一种基于U-Net架构的肠道息肉分割算法,该算法整合了混合卷积块(HCB)和全局注意力特征融合模块(GAFM)。我们设计的EEPSNet模型能够精确地识别并分割出肠道息肉区域,并且在四个公开的数据集上与其他现有模型进行了比较。实验结果证实,EEPSNet在建模能力和泛化能力方面均有显著提升。
EEPSNet模型通过增强空间特征学习能力,有效避免了信息丢失,同时在特征融合过程中,它能够高效地利用关键信息并抑制噪声干扰,从而增强了模型的鲁棒性。该模型的高分割性能使其适用于临床肠道息肉图像的检测,并为肠道息肉分割领域的研究提供了新的方向。
基金项目
广东省普通高校重点领域专项项目(2021ZDZX1032);广东省国际及港澳台高端人才交流专项(2020A1313030021);五邑大学科研项目(2018GR003);江门市社会发展领域科技计划项目(2024)。