MFFNet：基于多尺度特征有效融合的息肉分割网络

doi:10.12677/pm.2025.151023

期刊菜单

MFFNet：基于多尺度特征有效融合的息肉分割网络
MFFNet: Multi-Scale Feature Effective Fusion Network for Polyp Segmentation

DOI: 10.12677/pm.2025.151023, PDF, HTML, XML,
作者: 杨虹霞, 祝汉灿^*：绍兴文理学院数理信息学院，浙江绍兴
关键词: 息肉分割；多尺度特征；特征融合；注意力机制；Polyp Segmentation； Multi-Scale Feature； Feature Fusion； Attention Mechanism

摘要: 息肉的准确分割对结直肠癌的治疗具有重要意义。虽然现有的方法已经取得了良好的分割效果，但仍然存在一些挑战。为此，我们提出了一个新的多尺度特征有效融合网络(MFFNet)，用于精确分割息肉。具体来说，考虑到息肉的尺寸差异，我们使用改进的Pvt-v2作为编码器(TC编码器，TC encoder)，提取丰富的多尺度特征。然后，应用通道–空间模块(Channel Spatial Module, CSM)来抑制背景信息，防止信息的冗余。为了使多尺度特征进行有效融合，我们提出了融合注意力模块(Fusion Attention Block, FAB)，该模块充分学习多层次特征之间的上下文相关性，以进一步精确定位息肉区域。在5个公共数据集上的实验表明，我们的MFFNet比其他方法具有更好的学习和泛化能力。

Abstract: Accurate segmentation of polyps is important in the management of colorectal cancer. Although existing methods have achieved good segmentation results, there are still some challenges. To this end, we propose a new Multi-Scale Feature Effective Fusion Network (MFFNet) for accurate polyp segmentation. Specifically, considering the size difference of polyps, we use the improved Pvt-v2 as an encoder (TC encoder) to extract rich multi-scale features. Then, the Channel-Spatial Module (CSM) is applied to minimize background interference and prevent the redundancy of information. To enable effective fusion of multi-scale features, we propose the Fusion Attention Block (FAB), which fully learns the contextual correlations between multi-level features to further pinpoint the polyp region. Experiments on five public datasets show that our MFFNet has better learning and generalization capabilities than other methods.

文章引用：杨虹霞, 祝汉灿. MFFNet：基于多尺度特征有效融合的息肉分割网络[J]. 理论数学, 2025, 15(1): 198-210. https://doi.org/10.12677/pm.2025.151023

1. 介绍

结直肠癌是世界上第三大最常见的癌症[1] [2]。结肠镜检查是结直肠病变的主要诊断方法，医生可以借助它手动标注并移除结直肠息肉。但手动标注通常耗时又费力，且存在一定的漏检率。因而希望通过计算机辅助定位息肉的位置，准确描述息肉区域，以便进一步诊断。许多基于深度学习的图像分割方法被用于息肉中，以提高分割的准确性和效率。在基于卷积神经网络(CNN)的方法中，具有encoder-decoder结构的U-Net [3]及其变体[4] [5]在医学图像分割中都表现出了良好的性能。然而，上述方法受局部感受野的限制，缺乏捕获长程依赖的能力。

最近，来自于自然语言处理领域(NLP)的transformer被引入计算机视觉领域(CV)，Dosovitskiy等人提出了vision transformer [6]，在图像分类任务中实现了卓越的性能。具体地，transformer依赖于自注意力模块，这使得它能够捕获长程依赖。因而，许多基于注意力机制的网络已被提出，用于整合上下文信息并捕获长程依赖。Qin等人[7]在金字塔分析层中加入了注意力模块，以获得更好的医学图像分割效果。Att-Unet [8]中提出了一种注意力机制，将其嵌套到U-Net结构中。它通过融合不同层之间的特征信息，抑制输入图像中的不相关区域，并强调有利于分割的区域，实现精确分割。Tang等人在DuAT [9]中提出了一个全局到局部的空间聚合模块，用于聚合全局和局部空间特征以及定位多尺度对象。Polyp-Pvt [10]通过级联融合模块(CFM)对深层特征进行充分融合，提取其语义信息和位置信息。此外，它还提出了伪装识别模块(CIM)捕获低级特征。

尽管上述方法在分割息肉方面已经取得了良好的效果，但这些方法仍面临一些挑战。第一，尺度变化是息肉分割中的主要挑战之一，因此有效融合多尺度特征是一个关键问题。然而，在现有的方法中，多尺度特征的融合大多侧重于学习息肉区域和边界线索之间的相关性，或者用于捕获边界特征，而很少关注跨层特征之间上下文信息的相关性。第二，transformer编码器捕捉图像中细粒度细节的能力很差，因而结合使用CNN与transformer的优势也是很值得探索的方向。

为此，本文提出了一个基于跨层特征有效融合的息肉分割网络MFFNet，主要包含TC Block和FAB两个模块。其中，TC Block是在transformer编码器的基础上简单结合了CNN的优势，以提取丰富的上下文信息。FAB (Fusion Attention Block)是为了融合多尺度特征而专门设计的。它基于注意力机制，让多尺度特征进行有效融合，进而捕获交互特征之间的上下文相关性。

本文的贡献如下：

1) 我们提出了一个新的多尺度特征有效融合网络MFFNet。基于Pvt-v2编码器，我们提出了一个新的TC encoder，它通过在transformer block上添加了一个卷积残差连接，充分结合了CNN捕获局部丰富语义信息与transformer建立全局依赖能力的优势，以提取更加鲁棒的特征。

2) 我们提出了一个多尺度特征融合模块FAB。该模块是一种基于注意力机制的特征融合模块，旨在有效地捕捉不同层之间的上下文相关性。FAB通过将不同层的信息进行加权和融合，避免了信息流的瓶颈，保证了信息能够从深层到浅层充分融合，尤其在复杂的网络架构中，能够改善特征表达和模型的泛化能力。

3) 我们在5个公共数据集上进行了广泛的实验，结果表明，MFFNet优于其他最先进的息肉分割方法。

2. 相关工作

2.1. 基于深度学习的息肉分割

由于息肉大小不一、形状各异，并且息肉与其周围黏膜之间的边界模糊，导致分割十分困难。近年来，深度学习广泛应用于医学图像分割领域，也包括息肉分割方面。用于息肉分割的深度学习方法主要是基于CNN的和基于transformer的方法。

在基于CNN的方法中，最经典的U-Net结构在医学图像分割领域中应用广泛。比如，U-Net的变体ResUNet++ [4]和UNet++ [5]，已经被提出用于息肉分割，这导致了有希望的前景。此外，ACSNet [11]将U-Net中的跳过链接修改为局部上下文提取模块，并增加了全局信息提取模块。EU-Net [12]是一个增强的U-Net框架，它增强了语义信息，并引入了自适应全局上下文模块来提取关键特征。它提高了每一层的特征质量，从而增强了最终的分割性能。然而，这些方法往往侧重于息肉的区域，而忽略了一些有价值的边界信息。Fan等人提出了PraNet [13]，它使用并行部分解码器聚合高级特征，使用反向注意力模块挖掘边界线索，并建立区域和边界线索之间的关系。Kim等人提出了UACANet [14]，其中包含不确定性增强上下文注意力模块，以提取丰富的语义特征。Qiu等人在BDG-Net [15]中提出了边界分布指导模块，以生成边界分布图，来指导精确分割息肉。虽然上述方法被用于捕获息肉边界线索，但在边界模糊的情况下，可能导致息肉区域定位不准确。Lin等人提出了BCSA-Net [16]，它从不同方面捕获多尺度的边界信息，以提高分割精度。

近年来，基于transformer的深度学习方法也被广泛应用于息肉分割中。Wang等人提出了SSFormer [17]，它将金字塔transformer (PVT) [18]结构作为编码器部分，在解码器中进行特征融合。这种融合强调局部特征，最终提高了分割性能。Zhang等人提出了TransFuse [19]，它采用了双分支并行的结构，通过将CNN分支和transformer分支相结合，捕获全局上下文和低级空间细节。还有一些工作[20]-[22]也是充分结合CNN和transformer的优点，既能聚合深层的全局上下文信息，又能捕获浅层的空间细节。上述方法大大提高了息肉分割的性能，但是这些方法并未整合不同层之间的语义信息，容易导致多层次之间的上下文信息丢失。Dong等人提出了Polyp-Pvt [10]，它通过级联融合模块(CFM)对深层特征进行充分融合，提取其语义信息和位置信息。Tang等人提出了DuAT [9]，是用于息肉分割的双聚合网络。它包括一个全局–局部的空间聚合模块(GLSA)，用于聚合全局和局部空间特征，并定位多尺度目标。Liu等人提出了MFBGR [23]，它通过跨尺度特征融合模块(CSFM)对特征进行交互与融合，以捕获多尺度特征之间的相关性，并解决分割对象的尺度变化问题。

现有的方法主要通过渐进式集成高级特征来探索息肉区域与边界之间的关系，或者对处理过的浅层特征与深层特征进行整合以生成最终的预测结果，而忽略了多尺度特征之间潜在的相关性，从而可能导致上下文细节的丢失。本文主要针对多尺度特征之间的相关性进行探讨，在融合多层次特征的同时，学习它们之间潜在的上下文关系。

2.2. 注意力机制

注意力模块的主要目的是将网络偏向于信息密集的区域。最近，基于注意力机制的图像特征提取方法对医学图像分割的准确性作出了重要贡献。Att-Unet [8]提出了一种注意力机制，并将其嵌套到U-Net结构中。它通过融合不同层之间的特征信息，抑制输入图像中的不相关区域，并强调有利于分割的区域，实现精确分割。Hu等人提出了一个挤压–激励模块(SE) [24]，它使用全局平均池化层来确定通道注意力。这里每个通道中的空间信息被压缩成单个通道。Woo等人引入卷积注意模块(CBAM) [25]，利用通道注意力和空间注意力这两个模块来捕获特征。Jin等人提出了一个三维混合深度注意力感知网络，将低级特征与高级特征相结合，首次使用注意力残差机制处理医学体积图像，并实现了良好的分割结果。注意力机制也被用于多视图信息的特征提取，比如Zhan等人提出的CFNet [26]，它是一种基于多视图注意力机制和自适应融合策略的医学图像分割网络。为了排除息肉颜色的影响，Wei等人提出了SANet [27]，它在预处理图像阶段设计了颜色交换技术，以关注息肉的形状信息。此外，应用注意力机制融合多尺度特征仍然是一个很好的研究方向。

在我们的工作中，提出了一个融合注意力模块(FAB)，它是基于注意力机制设计的多层特征融合模块，以提取到丰富的上下文信息，从而提高息肉的分割性能。

3. 方法

在这一节中，我们详细介绍了MFFNet的整个框架细节。首先在3.1节中我们描述了MFFNet的整体结构，然后在3.2~3.4节中分别介绍了TC编码器、融合注意力模块和通道–空间模块这三个模块。最后在3.5节中，描述了损失函数。

3.1. 框架图

Figure 1. Diagram of the proposed MFFNet architecture

图1. 所提出的MFFNet框架图

如图1所示，我们的网络结构主要包括3个模块：TC Block、通道–空间模块(CSM)和融合注意力模块(FAB)。具体地，我们使用4个TC Block构成网络的encoder部分，用于从输入图像中提取多尺度相关性特征。CSM被用来抑制不相关的特征，以防止信息冗余。FAB被用于多尺度特征的充分融合。

给定一个输入图像 $X \in R^{H \times W \times 3}$ ，我们先通过TC encoder来提取四层金字塔特征 $X_{i} \in R^{\frac{H}{2^{i + 1}} \times \frac{W}{2^{i + 1}} \times C_{i}}$ ，其中 $C_{i} \in$ {64, 128, 320, 512}，以及 $i \in$ {1, 2, 3, 4}。接下来，将特征图 $X_{i}$ (i = 1, 2, 3, 4)分别送到CSM，从浅层到深层依次得到 ${X^{'}}_{1}$ 、 ${X^{'}}_{2}$ 、 ${X^{'}}_{3}$ 和 ${X^{'}}_{4}$ 。然后，在将 ${X^{'}}_{3}$ 和 ${X^{'}}_{4}$ ( $X_{2}^{'}$ 和 ${X^{'}}_{3}$ )送到FAB中进行融合之前，先对 ${X^{'}}_{4}$ ( ${X^{'}}_{3}$ )上采样到与 $X_{3}^{'}$ ( ${X^{'}}_{2}$ )相同的分辨率，再将其通道数调整到与 ${X^{'}}_{3}$ ( ${X^{'}}_{2}$ )相同。在 $X_{2}^{'}$ 和 ${X^{'}}_{3}$ 、 ${X^{'}}_{3}$ 和 ${X^{'}}_{4}$ 经过FAB充分融合之后，得到特征图 $F_{1}$ 和 $F_{2}$ 。再分别将其与 ${X^{'}}_{1}$ 经过FAB进行融合，得到特征图 ${F^{'}}_{1}$ 和 ${F^{'}}_{2}$ 。最后，这两个特征图被分别送到一个1 × 1卷积层以生成预测图 $o u t 1$ 和 $o u t 2$ 。我们使用 $o u t 1$ 和 $o u t 2$ 的和作为最终的预测图 $o u t$ 。在训练期间，通过分别计算上述3个特征图与Ground Truth (GT)之间的损失来优化最终的分割结果。

3.2. TC编码器(TC Encoder)

我们的TC encoder是在Pvt-v2 [28]的基础之上进行改进的，它由4个TC Block组成。其中TC Block是一个结合了CNN和transformer优势的双分支结构，从而能够更好地捕获图像的上下文信息。具体地，TC Block是在每个transformer block上添加一个残差模块，该残差模块包含两个CBR block，其中CBR block是由卷积层，批归一化，以及激活函数ReLU构成的。

给定一个输入图像 $X_{i}$ $(i$ = 0, 1, 2, 3；当 $i$ = 0时， $X_{0} = X$ )，一个分支通过transformer block，得到 $Z_{i}^{'}$ ；另一个分支通过残差连接，得到 ${Z^{″}}_{i}$ ，然后二者相加得到 $X_{i + 1}$ 。上述操作用公式表示为：

${Z^{'}}_{i} = T (X_{i})$ ；

${Z^{″}}_{i} = σ_{2} (B_{2} (C_{2} (σ_{1} (B_{1} (C_{1} (X_{i})))$ ；

$X_{i + 1} = {Z^{'}}_{i} + {Z^{″}}_{i}$ 。

其中， $T$ 表示transformer模块， $C_{i}$ 表示卷积操作( $i$ = 1, 2)； $σ_{i}$ 表示激活函数ReLU ( $i$ = 1, 2)； $B_{i}$ 指的是Batch Normalization ( $i$ = 1, 2)。

3.3. 融合注意力模块(FAB)

Figure 2. Structure diagram of Fusion Attention Block

图2. 融合注意力模块的结构图

相邻层特征之间存在着紧密的相关性，因此有效融合多层次特征是非常重要的。为此我们提出了Fusion Attention Block (FAB)，该模块是基于注意力机制设计而成，它充分学习两个层之间上下文的相关性。

如图2所示，两个相邻的特征 ${X^{'}}_{i}$ 和 ${X^{'}}_{i + 1}$ ( $i$ = 2, 3)被送到FAB中进行充分融合，以捕获丰富的上下文信息。第一，在融合之前，对输入的特征图 ${X^{'}}_{i + 1}$ 分别进行如下处理：首先， ${X^{'}}_{i + 1}$ 先经过一个上采样和一个卷积操作，使其与 ${X^{'}}_{i}$ 具有相同的通道数和分辨率，记为 ${Y^{'}}_{i + 1}$ 。上述操作表示为： ${Y^{'}}_{i + 1} = C o n v (U p ({X^{'}}_{i + 1}))$ 。然后，对 ${X^{'}}_{i}$ 和 ${Y^{'}}_{i + 1}$ 分别按通道数均匀地分成两个特征，记为 $q_{i}$ 、 $k_{i}$ 和 $q_{i + 1}$ 、 $k_{i + 1}$ 。

第二，对 ${X^{'}}_{i}$ 和 ${Y^{'}}_{i + 1}$ ( $i$ = 2, 3)进行融合，由于融合模块FAB具有对称性，我们只介绍一个分支。首先，对 $Y_{i + 1}^{'}$ 在通道维度上应用softmax函数将其通道数变成1，再与 $k_{i}$ 相乘，得到特征 $S_{i}$ ，该操作用 $T (\cdot)$ 表示。然后，通过自适应池化层操作减少特征的位移，得到 $v_{i}$ 。接下来，对 $v_{i}$ 、 $q_{i}$ 、 $k_{i}$ 应用注意力机制。上述的操作表示如下：

$S_{i} = T (Y_{i + 1}^{'})$ ；

$v_{i} = A P (S_{i})$ ；

$Attn (v_{i}, k_{i}, q_{i}) = S o f t m a x (v_{i}^{T} \otimes k_{i}) \otimes q_{i}$ 。

此外，记 $S_{i}^{'} = S o f t m a x (v_{i}^{T} \otimes k_{i})$ ，其中 $\otimes$ 操作是指点积。然后，将所得注意力结果与 $S_{i}^{'}$ 进行相乘，得到特征图 ${S^{″}}_{i}$ 。另一个对称分支也执行上述相同的操作，得到特征图 ${S^{″}}_{i + 1}$ 。然后将这两个特征图进行级联，得到的结果记为 $S$ 。最后，将原始输入特征 ${X^{'}}_{i}$ 、 ${Y^{'}}_{i + 1}$ 与 $S$ 相加，得到特征图 $F_{i}$ 。上述过程的表达式如下：

${S^{″}}_{i} = {S^{'}}_{i} \otimes A t t n (v_{i}, k_{i}, q_{i})$ ；

$S = C o n c a t ({S^{″}}_{i}, {S^{″}}_{i + 1})$ ；

$F_{i} = {X^{'}}_{i} + {Y^{'}}_{i + 1} + S$ 。

对于 ${X^{'}}_{1}$ 与 $F_{i}$ ( $i$ = 2, 3)通过FAB进行融合的过程与上述操作相同。在融合之前，对 $F_{i}$ 上采样到与 ${X^{'}}_{1}$ 相同的分辨率，并通过卷积操作使其通道数与 ${X^{'}}_{1}$ 相同。

3.4. 通道–空间模块(CSM)

Figure 3. Structure diagram of Channel Spatial Module

图3. 通道–空间模块的结构图

我们使用Channel Spatial Module来抑制不相关的特征(见图3)。具体来说，CSM包含Channel Attention (CA( $\cdot$ ))和Spatial Attention (SA( $\cdot$ ))两个部分，其中CA( $\cdot$ )模块强调对当前任务更重要的特征通道(见图3(a)，具体的操作由公式(1)给出)。SA( $\cdot$ )模块的目的是在空间上强调更为关键的区域，然后增强这些特征(见图3(b)，具体的操作由公式(2)给出)。通过将两个模块相结合，能更精确地强化有用信息，抑制不必要的信息。

$C A (x) = σ_{2} (C_{2} (σ_{1} (C_{1} (P_{\max} (x)))) + C_{2} (σ_{1} (C_{1} (P_{a v g} (x))))) ⊙ x$ ， (1)

$S A (x) = σ_{2} (C_{3} (C_{\max} (x) + C_{a v g} (x)))$ ， (2)

$C S M (x) = x ⊙ (C A (x) ⊙ S A (x))$ ， (3)

其中， $σ_{1} (\cdot)$ 和 $σ_{2} (\cdot)$ 分别代表ReLU和Sigmoid激活函数。 $C_{1} (\cdot)$ 是一个核为1 × 1的卷积层，用来将通道数缩减为原来的16分之一； $C_{2} (\cdot)$ 是另一个核为1 × 1的卷积层，用来将通道数恢复到原来的大小； $C_{3} (\cdot)$ 是一个核为7 × 7且填充为3的卷积层，用来增强空间的上下文信息。 $P_{m a x} (\cdot)$ 和 $P_{a v g} (\cdot)$ 分别代表自适应最大池化层和平均池化层。 $C_{m a x}$ 和 $C_{a v g}$ 分别指的是沿通道维度获得的最大值和平均值。

3.5. 损失函数

我们的息肉分割损失函数定义如下：

$ℒ_{s e g} = ℒ_{I o U}^{ω} + ℒ_{B C E}^{ω}$

其中， $ℒ_{I o U}^{ω}$ 和 $ℒ_{B C E}^{ω}$ 分别表示全局和局部限制的加权IoU损失[29]和BCE损失[29]。

此外，三个分割图(out1、out2和out)被上采样到与GT相同的分辨率。总的损失函数表示为：

$ℒ_{t o t a l} = ℒ_{s e g} (G, o u t 1) + ℒ_{s e g} (G, o u t 2) + ℒ_{s e g} (G, o u t)$

4. 实验

4.1. 数据集与评估标准

为了验证我们所提出模型的有效性，我们在5个数据集上进行了实验。这5个数据集的细节如下：

Kvasir [30]：这个数据集包含1000张息肉图像，这些图像是从Kvasir-SEG数据集中的息肉类中收集的；
CVC-ClinicDB [31]：这个数据集包含612张息肉图像，分辨率为288 × 384；
CVC-300 [32]：这个数据集包含60张息肉图像，分辨率为500 × 574；
CVC-ColonDB [33]：这个数据集包含380张息肉图像，分辨率为500 × 570；
ETIS [34]：这个数据集包含196张息肉图像，分辨率为966 × 1225。

我们分别从Kvasir和CVC-ClinicDB数据集中选取900张和550张图像，一共1450张图像作为训练集，这两个数据集中剩余的100张和62张图像作为测试集。为了验证模型的泛化能力，我们在三个看不见的数据集上进行测试，即CVC-300、CVC-ColonDB和ETIS。

我们使用mean dice score (mDice)、mean intersection over union (mIoU)、S-measure ( $S_{α}$ ) [35]、F-measure ( $F_{β}^{w}$ ) [36]、E-measure $(E_{ϕ}^{m a x})$ [37]和mean absolute error (MAE) [38]这6个常用的指标来评估和比较不同分割方法的性能。

4.2. 实验细节

所有的实验使用PyTorch实现，我们在单个3090 GPU上训练模型。在训练期间，我们用已经在ImageNet上预训练好的Pvt-v2作为backbone。用AdamW作为优化器，学习率设置为1e−4，batch_size设置为16，以及训练了200个epoch。我们用了旋转和水平翻转进行数据增强。所有输入图像的大小调整为352 × 352。考虑到息肉图像大小和颜色的差异，我们采用多尺度策略{0.75, 1, 1.25} [39]和颜色交换[27]的方法。

4.3. 结果

我们将MFFNet与最近的先进模型进行了比较，包括U-Net [3]、UNet++ [5]、MSNet [40]、SANet [27]、DCRNet [41]、BSCA-Net [16]、SSFormer [17]和CFANet [42]。我们给出了定量和定性的测试数据集的结果。

4.3.1. 定量结果

Table 1. Comparation of polyp segmentation results on the Kvasir dataset using six metrics (the best results highlighted in bold)

表1. 使用6个指标在数据集Kvasir上进行息肉分割结果的比较(最好的结果用粗体进行了表示)

Methods	mDice	mIoU	$F_{β}^{w}$	$S_{α}$	$E_{ϕ}^{\max}$	MAE
U-Net	0.818	0.746	0.794	0.858	0.893	0.055
UNet++	0.821	0.743	0.808	0.862	0.909	0.048
MSNet	0.907	0.862	0.893	0.922	0.944	0.028
SANet	0.904	0.847	0.892	0.915	0.953	0.028
DCRNet	0.880	0.818	0.865	0.908	0.936	0.038
BSCA-Net	0.910	0.855	——	——	——	——
SSFormer	0.920	0.871	0.917	0.931	0.965	0.021
CFANet	0.915	0.862	0.903	0.924	0.962	0.023
Ours	0.923	0.875	0.919	0.927	0.963	0.024

Table 2. Comparation of polyp segmentation results on the CVC-ClinicDB dataset using six metrics (the best results highlighted in bold)

表2. 使用6个指标在数据集CVC-ClinicDB上进行息肉分割结果的比较(最好的结果用粗体进行了表示)

Methods	mDice	mIoU	$F_{β}^{w}$	$S_{α}$	$E_{ϕ}^{\max}$	MAE
U-Net	0.823	0.755	0.811	0.889	0.954	0.019
UNet++	0.794	0.729	0.785	0.873	0.931	0.022
MSNet	0.921	0.879	0.914	0.941	0.972	0.008
SANet	0.916	0.859	0.909	0.939	0.976	0.012
DCRNet	0.908	0.852	0.900	0.945	0.976	0.010
BSCA-Net	0.926	0.874	——	——	——	——
SSFormer	0.929	0.883	0.932	0.950	0.981	0.007
CFANet	0.932	0.883	0.924	0.951	0.989	0.006
Ours	0.931	0.884	0.929	0.949	0.985	0.006

我们在两个可见的数据集上进行训练和测试，结果如表1和表2所示。我们所对比的模型都是针对息肉设计的。在表1中可以看出，我们的方法比其他分割方法的性能更好。比如，我们MFFNet的mDice和mIoU在Kavsir数据集上的结果比MSNet高1.6%和1.3%，比CFANet高0.8%和1.3%。在表2中的CVC-ClinicDB数据集上，我们的方法也实现了非常好的分割性能。比如，我们MFFNet的mDice和mIoU比MSNet高1%和0.5%。

Table 3. Comparation of polyp segmentation results on the CVC-ColonDB dataset using six metrics (the best results highlighted in bold)

表3. 使用6个指标在数据集CVC-ColonDB上进行息肉分割结果的比较(最好的结果用粗体进行了表示)

Methods	mDice	mIoU	$F_{β}^{w}$	$S_{α}$	$E_{ϕ}^{\max}$	MAE
U-Net	0.512	0.444	0.498	0.712	0.776	0.061
UNet++	0.483	0.410	0.467	0.691	0.760	0.064
MSNet	0.755	0.678	0.737	0.836	0.883	0.041
SANet	0.752	0.669	0.725	0.837	0.875	0.043
DCRNet	0.727	0.648	0.699	0.825	0.852	0.066
BSCA-Net	0.783	0.720	——	——	——	——
SSFormer	0.772	0.693	0.762	0.846	0.890	0.038
CFANet	0.743	0.665	0.728	0.835	0.898	0.039
OURS	0.812	0.732	0.799	0.870	0.915	0.029

Table 4. Comparation of polyp segmentation results on the ETIS dataset using six metrics (the best results highlighted in bold)

表4. 使用6个指标在数据集ETIS上进行息肉分割结果的比较(最好的结果用粗体进行了表示)

Methods	mDice	mIoU	$F_{β}^{w}$	$S_{α}$	$E_{ϕ}^{\max}$	MAE
U-Net	0.398	0.335	0.366	0.684	0.740	0.036
UNet++	0.401	0.344	0.390	0.683	0.776	0.035
MSNet	0.719	0.664	0.678	0.840	0.830	0.020
SANet	0.750	0.654	0.685	0.849	0.897	0.015
DCRNet	0.542	0.475	0.488	0.707	0.777	0.131
BSCA-Net	0.768	0.714	——	——	——	——
SSFormer	0.770	0.699	0.735	0.871	0.905	0.018
CFANet	0.733	0.655	0.693	0.846	0.892	0.014
Ours	0.824	0.749	0.796	0.891	0.932	0.014

Table 5. Comparation of polyp segmentation results on the CVC-300 dataset using six metrics (the best results highlighted in bold)

表5. 使用6个指标在数据集CVC-300上进行息肉分割结果的比较(最好的结果用粗体进行了表示)

Methods	mDice	mIoU	$F_{β}^{w}$	$S_{α}$	$E_{ϕ}^{\max}$	MAE
U-Net	0.710	0.627	0.684	0.843	0.875	0.022
UNet++	0.707	0.624	0.687	0.839	0.898	0.018
MSNet	0.869	0.807	0.849	0.925	0.943	0.010
SANet	0.888	0.815	0.859	0.928	0.972	0.007
DCRNet	0.845	0.770	0.811	0.918	0.946	0.011
BSCA-Net	0.927	0.875	——	——	——	——
SSFormer	0.879	0.812	0.858	0.929	0.974	0.008
CFANet	0.893	0.827	0.875	0.938	0.978	0.008
Ours	0.887	0.818	0.867	0.930	0.965	0.008

我们的模型在三个不可见的数据集上进行测试，结果如表3~5中所示，可以看出我们模型的泛化能力很强。首先在表3中，我们MFFNet的mDice和mIoU比MSNet高5.7%和5.4%，甚至比SSFormer的mDice和mIoU也高4%和3.9%。在表4中的ETIS数据集上，我们MFFNet的性能达到了最好的效果。比如，MFFNet的mDice和mIoU比SSFormer高5.4%和5%。在表5中的数据集CVC-300上，我们MFFNet的性能良好，mDice和mIoU比MSNet高1.8%和1.1%。

通过以上的定量分析可得，MFFNet在息肉分割方面具有很强的竞争力，并且有广泛的应用前景。

4.3.2. 定性结果

图4显示了我们的模型与其他5种模型比较的可视化结果，其中BCSA-Net不参与比较，因为它的预测图没有得到。所比较的图像包括息肉大小变化与边界模糊的情况，具体地，前两行中的息肉尺寸较大，我们的分割结果与GT的相似性最高，而其他模型几乎都存在漏诊的情况。第三行中的息肉与背景颜色相似，且边界模糊，导致分割困难。其中，MSNet、SANet、CFANet和DCRNet可以粗略识别出息肉轮廓，但它们都将两块息肉连在一起；SSFormer虽然分割出两块息肉，但是我们的MFFNet的分割结果更为准确。最后两行中的息肉都很小，很难定位，容易导致漏诊。具体来说，在第四行中除了MFFNet和SSFormer以外，其他模型将背景作为息肉而导致分割错误的情况。第五行中，MSNet和SSFormer未检测到息肉，SANet、CFANet和DCRNet分割不准确。综上可视化结果可得，我们的模型具有很强的分割能力。

Figure 4. Visualization of polyp segmentation results compared to 5 state-of-the-art methods (including SANet, MSNet, CFANet, DCRNet, and SSFormer)

图4. 与5种最新方法比较的息肉分割结果可视化(包括SANet、MSNet、CFANet、DCRNet和SSFormer)

4.4. 消融实验

我们进一步进行消融研究，在数据集CVC-ClinicDB和ETIS上用mDice、mIoU评估所提出模块的有效性(见表6)。

FAB的有效性：为了分析FAB的有效性，我们训练了两组实验(在表6的第一行和第二行)。第一组实验是只有FAB (表6第一行)：encoder部分没有残差连接，输出特征没有经过CSM处理而是直接通过FAB进行融合。可以看出，在两个数据集上的mDice已经分别达到了92.41%和80.17%。第二组实验是没有FAB (表6第二行)：与标准的MFFNet框架相比，这里FAB被去掉且用CFANet [42]中的CFF模块来代替。与标准的结果相比，没有FAB的网络性能急剧下降，尤其是泛化能力。具体地，没有FAB的结构在两个数据集上的mDice和mIoU分别下降了0.19%、0.46%和2.67%、3.07%。

CSM的有效性：为了验证CSM的有效性，我们也在两个数据集上进行了实验(表6第三行)。可以发现，没有CSM的模型比标准MFFNet的性能要差。具体地，该结构在两个数据集上的mDice和mIoU分别下降了0.9%、0.59%和1.43%、1.49%。因此，CSM模块是不可或缺的，关键在于其中的通道注意力机制和空间注意力机制在抑制不相关信息的同时，提取到丰富的细粒度信息。

Table 6. Qualitative segmentation outcomes in the ablation study

表6. 消融实验的分割定性结果

CSM	FAB	residual	ClinicDB		ETIS
CSM	FAB	residual	mDice	mIoU	mDice	mIoU
—	√	—	0.9241	0.8761	0.8017	0.7207
√	—	√	0.9291	0.8795	0.7970	0.7184
—	√	√	0.9220	0.8782	0.8094	0.7342
√	√	√	0.9310	0.8841	0.8237	0.7491

5. 总结

在本文的研究中，我们提出了一种新的用于有效分割息肉的多尺度特征融合网络MFFNet。MFFNet通过结合transformer和CNN的优势，建立了一个TC encoder来提取丰富的语义特征。此外，CSM作为MFFNet中的一个关键模块，在最小化背景噪声和增强特征相关性方面起着重要作用。最后，我们新提出的模块FAB，它用于整合跨层特征，从而确保全面捕获多尺度特征之间的上下文相关性。我们在5个公开数据集上进行了广泛的实验，结果充分说明了MFFNet方法已经超过现有的先进方法，特别是展现了其特有的泛化能力，而且强调了其作为临床和诊断环境中可靠工具的潜力，为医学图像分析的深入研究和应用提供了方向。

NOTES

^*通讯作者。

参考文献

[1]	Bernal, J., Sánchez, J. and Vilariño, F. (2012) Towards Automatic Polyp Detection with a Polyp Appearance Model. Pattern Recognition, 45, 3166-3182. https://doi.org/10.1016/j.patcog.2012.03.002
[2]	Navarro, M., Nicolas, A., Ferrandez, A. and Lanas, A. (2017) Colorectal Cancer Population Screening Programs Worldwide in 2016: An Update. World Journal of Gastroenterology, 23, 3632-3642. https://doi.org/10.3748/wjg.v23.i20.3632
[3]	Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention—MICCAI 2015, Munich, 5-9 October 2015, 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
[4]	Jha, D., Smedsrud, P.H., Riegler, M.A., Johansen, D., Lange, T.D., Halvorsen, P., et al. (2019) Resunet++: An Advanced Architecture for Medical Image Segmentation. 2019 IEEE International Symposium on Multimedia (ISM), San Diego, 9-11 December 2019, 225-2255. https://doi.org/10.1109/ism46123.2019.00049
[5]	Zhou, Z., Siddiquee, M.M.R., Tajbakhsh, N. and Liang, J. (2020) UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation. IEEE Transactions on Medical Imaging, 39, 1856-1867. https://doi.org/10.1109/tmi.2019.2959609
[6]	Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020) An Image Is Worth 16 × 16 Words: Transformers for Image Recognition at Scale. arXiv: 2010.11929.
[7]	Qin, Y., Kamnitsas, K., Ancha, S., Nanavati, J., Cottrell, G., Criminisi, A., et al. (2018) Autofocus Layer for Semantic Segmentation. Medical Image Computing and Computer Assisted Intervention—MICCAI 2018, Granada, 16-20 September 2018, 603-611. https://doi.org/10.1007/978-3-030-00931-1_69
[8]	Oktay, O., Schlemper, J., Folgoc, L.L., et al. (2018) Attention U-Net: Learning Where to Look for the Pancreas. arXiv: 1804.03999.
[9]	Tang, F., Xu, Z., Huang, Q., Wang, J., Hou, X., Su, J., et al. (2023) Duat: Dual-Aggregation Transformer Network for Medical Image Segmentation. In: Lecture Notes in Computer Science, Granada, 16-20 September 2018, 343-356. https://doi.org/10.1007/978-981-99-8469-5_27
[10]	Dong, B., Wang, W., Fan, D.-P., et al. (2021) Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers. arXiv: 2108.06932.
[11]	Zhang, R., Li, G., Li, Z., Cui, S., Qian, D. and Yu, Y. (2020) Adaptive Context Selection for Polyp Segmentation. Medical Image Computing and Computer Assisted Intervention—MICCAI 2020, Lima, 4-8 October 2020, 253-262. https://doi.org/10.1007/978-3-030-59725-2_25
[12]	Patel, K., Bur, A.M. and Wang, G. (2021) Enhanced U-Net: A Feature Enhancement Network for Polyp Segmentation. 2021 18th Conference on Robots and Vision (CRV), Burnaby, 26-28 May 2021, 181-188. https://doi.org/10.1109/crv52889.2021.00032
[13]	Fan, D., Ji, G., Zhou, T., Chen, G., Fu, H., Shen, J., et al. (2020) PraNet: Parallel Reverse Attention Network for Polyp Segmentation. Medical Image Computing and Computer Assisted Intervention—MICCAI 2020, Lima, 4-8 October 2020, 263-273. https://doi.org/10.1007/978-3-030-59725-2_26
[14]	Kim, T., Lee, H. and Kim, D. (2021) UACANet: Uncertainty Augmented Context Attention for Polyp Segmentation. Proceedings of the 29th ACM International Conference on Multimedia, Virtual, 20-24 October 2021, 2167-2175. https://doi.org/10.1145/3474085.3475375
[15]	Qiu, Z., Wang, Z., Zhang, M., Xu, Z., Fan, J. and Xu, L. (2022) BDG-Net: Boundary Distribution Guided Network for Accurate Polyp Segmentation. Medical Imaging 2022: Image Processing, San Diego, 4 April 2022, Article ID: 1203230. https://doi.org/10.1117/12.2606785
[16]	Lin, Y., Wu, J., Xiao, G., Guo, J., Chen, G. and Ma, J. (2022) BSCA-Net: Bit Slicing Context Attention Network for Polyp Segmentation. Pattern Recognition, 132, Article ID: 108917. https://doi.org/10.1016/j.patcog.2022.108917
[17]	Wang, J., Huang, Q., Tang, F., Meng, J., Su, J. and Song, S. (2022) Stepwise Feature Fusion: Local Guides Global. Medical Image Computing and Computer Assisted Intervention—MICCAI 2022, Singapore, 18-22 September 2022, 110-120. https://doi.org/10.1007/978-3-031-16437-8_11
[18]	Wang, W., Xie, E., Li, X., et al. (2021) Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 548-558. https://doi.org/10.1109/ICCV48922.2021.00061
[19]	Zhang, Y., Liu, H. and Hu, Q. (2021) TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation. Medical Image Computing and Computer Assisted Intervention—MICCAI 2021, Strasbourg, 27 September-1 October 2021, 14-24. https://doi.org/10.1007/978-3-030-87193-2_2
[20]	Sanderson, E. and Matuszewski, B.J. (2022) FCN-Transformer Feature Fusion for Polyp Segmentation. Medical Image Understanding and Analysis, Cambridge, 27-29 July 2022, 892-907. https://doi.org/10.1007/978-3-031-12053-4_65
[21]	Fitzgerald, K. and Matuszewski, B. (2023) FCB-SwinV2 Transformer for Polyp Segmentation. arXiv: 2302.01027.
[22]	Wang, J., Tian, S., Yu, L., Zhou, Z., Wang, F. and Wang, Y. (2023) HIGF-Net: Hierarchical Information-Guided Fusion Network for Polyp Segmentation Based on Transformer and Convolution Feature Learning. Computers in Biology and Medicine, 161, Article ID: 107038. https://doi.org/10.1016/j.compbiomed.2023.107038
[23]	Liu, F., Hua, Z., Li, J. and Fan, L. (2023) MFBGR: Multi-Scale Feature Boundary Graph Reasoning Network for Polyp Segmentation. Engineering Applications of Artificial Intelligence, 123, Article ID: 106213. https://doi.org/10.1016/j.engappai.2023.106213
[24]	Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141.
[25]	Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. Computer Vision—ECCV 2018, Munich, 8-14 September 2018, 3-19. https://doi.org/10.1007/978-3-030-01234-2_1
[26]	Zhan, B., Song, E., Liu, H., Gong, Z., Ma, G. and Hung, C. (2023) CfNet: A Medical Image Segmentation Method Using the Multi-View Attention Mechanism and Adaptive Fusion Strategy. Biomedical Signal Processing and Control, 79, Article ID: 104112. https://doi.org/10.1016/j.bspc.2022.104112
[27]	Wei, J., Hu, Y., Zhang, R., Li, Z., Zhou, S.K. and Cui, S. (2021) Shallow Attention Network for Polyp Segmentation. Medical Image Computing and Computer Assisted Intervention—MICCAI 2021, Strasbourg, 27 September-1 October 2021, 699-708. https://doi.org/10.1007/978-3-030-87193-2_66
[28]	Wang, W., Xie, E., Li, X., Fan, D., Song, K., Liang, D., et al. (2022) PVT V2: Improved Baselines with Pyramid Vision Transformer. Computational Visual Media, 8, 415-424. https://doi.org/10.1007/s41095-022-0274-8
[29]	Wei, J., Wang, S. and Huang, Q. (2020) F³Net: Fusion, Feedback and Focus for Salient Object Detection. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 12321-12328. https://doi.org/10.1609/aaai.v34i07.6916
[30]	Jha, D., Smedsrud, P.H., Riegler, M.A., Halvorsen, P., de Lange, T., Johansen, D., et al. (2019) Kvasir-SEG: A Segmented Polyp Dataset. MultiMedia Modeling, Daejeon, 5-8 January 2020, 451-462. https://doi.org/10.1007/978-3-030-37734-2_37
[31]	Bernal, J., Sánchez, F.J., Fernández-Esparrach, G., Gil, D., Rodríguez, C. and Vilariño, F. (2015) WM-DOVA Maps for Accurate Polyp Highlighting in Colonoscopy: Validation vs. Saliency Maps from Physicians. Computerized Medical Imaging and Graphics, 43, 99-111. https://doi.org/10.1016/j.compmedimag.2015.02.007
[32]	Vázquez, D., Bernal, J., Sánchez, F.J., Fernández-Esparrach, G., López, A.M., Romero, A., et al. (2017) A Benchmark for Endoluminal Scene Segmentation of Colonoscopy Images. Journal of Healthcare Engineering, 2017, Article ID: 4037190. https://doi.org/10.1155/2017/4037190
[33]	Tajbakhsh, N., Gurudu, S.R. and Liang, J. (2016) Automated Polyp Detection in Colonoscopy Videos Using Shape and Context Information. IEEE Transactions on Medical Imaging, 35, 630-644. https://doi.org/10.1109/tmi.2015.2487997
[34]	Silva, J., Histace, A., Romain, O., Dray, X. and Granado, B. (2013) Toward Embedded Detection of Polyps in WCE Images for Early Diagnosis of Colorectal Cancer. International Journal of Computer Assisted Radiology and Surgery, 9, 283-293. https://doi.org/10.1007/s11548-013-0926-3
[35]	Cheng, M. and Fan, D. (2021) Structure-Measure: A New Way to Evaluate Foreground Maps. International Journal of Computer Vision, 129, 2622-2638. https://doi.org/10.1007/s11263-021-01490-8
[36]	Achanta, R., Hemami, S., Estrada, F. and Susstrunk, S. (2009) Frequency-Tuned Salient Region Detection. 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, 20-25 June 2009, 1597-1604. https://doi.org/10.1109/cvpr.2009.5206596
[37]	Fan, D., Gong, C., Cao, Y., Ren, B., Cheng, M. and Borji, A. (2018) Enhanced-Alignment Measure for Binary Foreground Map Evaluation. arXiv: 1805.10421.
[38]	Perazzi, F., Krahenbuhl, P., Pritch, Y. and Hornung, A. (2012) Saliency Filters: Contrast Based Filtering for Salient Region Detection. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, 16-21 June 2012, 733-740. https://doi.org/10.1109/cvpr.2012.6247743
[39]	Sun, W. and Wang, R. (2018) Fully Convolutional Networks for Semantic Segmentation of Very High Resolution Remotely Sensed Images Combined with DSM. IEEE Geoscience and Remote Sensing Letters, 15, 474-478. https://doi.org/10.1109/lgrs.2018.2795531
[40]	Zhao, X., Zhang, L. and Lu, H. (2021) Automatic Polyp Segmentation via Multi-Scale Subtraction Network. Medical Image Computing and Computer Assisted Intervention—MICCAI 2021, Strasbourg, 27 September-1 October 2021, 120-130. https://doi.org/10.1007/978-3-030-87193-2_12
[41]	Yin, Z., Liang, K., Ma, Z. and Guo, J. (2022) Duplex Contextual Relation Network for Polyp Segmentation. 2022 IEEE 19th International Symposium on Biomedical Imaging (ISBI), Kolkata, 28-31 March 2022, 1-5. https://doi.org/10.1109/isbi52829.2022.9761402
[42]	Zhou, T., Zhou, Y., He, K., Gong, C., Yang, J., Fu, H., et al. (2023) Cross-Level Feature Aggregation Network for Polyp Segmentation. Pattern Recognition, 140, Article ID: 109555. https://doi.org/10.1016/j.patcog.2023.109555

为你推荐

友情链接