1. 引言
医学图像分割是医学影像分析的核心技术,在疾病诊断、治疗规划和手术导航中发挥着关键作用。近年来,深度学习技术的突破显著提升了分割性能。2015年Ronneberger等人[1]提出的一种基于卷积神经网络(Convolutional Neural Network, CNN)的U-Net架构凭借其编码器–解码器架构和跳跃连接设计,有效提升了分割的精度与准确性,成为医学图像分割的经典模型。然而,U-Net的局部卷积操作限制了提取全局上下文信息的能力,编码器解码器的特征融合存在语义差距。后续改进方法,如ResUNet [2]和UNet++ [3],分别通过残差连接和嵌套结构提高了特征提取能力,缓解了冗余特征问题。TransUNet [4]通过结合Transformer和U-Net,利用自注意力机制增强了全局特征建模能力,提升了分割精度。然而,TransUNet面临跳跃连接冗余信息和高计算复杂度的问题。SwinUNet [5]结合了Swin Transformer [6]和U-Net结构,通过滑动窗口机制提升了全局上下文建模能力,但对小目标的分割效果有限。
尽管U-Net及其变体在医学图像分割领域取得了显著进展,但现有方法仍存在局限性。本文针对现有医学图像分割方法在参数量过大、编码器特征提取能力有限、跳跃连接冗余、编码器和解码器特征融合的语义差距等方面存在的不足[7],提出了一种权衡模型参数量大小与分割效果的轻量化医学图像分割网络结构HFF-UNet,在两个公开数据集上取得了良好的分割效果。本文主要工作如下:
1) 在编码器解码器中引入注意力机制,采用高效多尺度注意力(Efficient Multi-Scale Attention, EMA)模块[8],在保持较低的计算复杂度和参数量的同时,高效捕获通道和空间维度的交互信息。
2) 为缓解编码器与解码器的语义差距,在跳跃连接部分设计基于注意力的特征传递模块(Pyramid Pooling-based Excitation Module, PPEM)。对来自编码器的特征图进行筛选,动态调整特征权重。
3) 在解码器端与跳跃连接传递的特征图进行融合时,以传统的通道拼接为基础,提出一种新的以跳跃连接传递特征图引导的混合特征融合模块(Hybrid Feature Fusion Block, HFFB),利用传递而来的空间、语义信息指导解码器上采样逐步恢复分辨率,有效提升对目标细节信息的建模。
4) 在Glas和CVC-ClinicDB两个公开数据集上开展实验。实验结果表明本文提出的方法能够权衡参数量与分割精度,具有不错的分割性能。并通过消融实验验证了提出模块的有效性。
2. 相关工作
2.1. U-Net网络
Figure 1. U-Net network architecture
图1. Unet网络结构
U-Net自提出以来,就广泛应用于生物医学图像分割,整体模型呈U形结构,如图1所示。其独特的对称编码器–解码器架构和跳跃连接设计,使得网络能够有效地融合细粒度特征与高级语义特征[1]。然而,U-Net的局部卷积操作限制了提取全局上下文信息的能力。为了改进这些局限,后续基于U-Net的改进方法,如ResUNet [2]和MultiRes U-Net,引入残差连接提高了特征提取能力,缓解了冗余特征问题。UNet++进一步通过嵌套结构减少了编码器和解码器之间的语义差距,在不同层次上实现更有效的特征融合,显著提升了小目标分割精度,但增加了计算复杂度[3]。
近年来,为开发轻量化的网络模型,减少参数量和计算复杂度。Valanarasu等人[9]在U-Net的网络基础上,提出Tokenized MLP块和轴向移位操作,结合卷积和多层感知机的优点,设计了一种高效、快速且轻量级的分割网络UNeXt。其中两个MLP块之间利用了深度可分离卷积(Depthwise Separable Convolution)编码位置信息。深度可分离卷积最早于2017年由Google提出[10],在MobileNets[11]网络中得到广泛应用。Dinh等人[12]在2023年提出的ULite基于深度可分离卷积原理设计,进一步减少参数量,展现了轻量级CNN在医学图像分割领域的潜力。此外,Ruan等人[13]提出了Malunet,是一种用于皮肤病变分割的多注意力轻量化U-Net结构,该研究验证了将注意力机制与轻量化架构相结合的有效性。
2.2. 注意力机制
Wang等人[14]率先将自注意力机制引入计算机视觉任务中,提出了Non-Local模块,通过非局部操作捕获长距离依赖关系。注意力机制通过加权增强关键特征,在医学图像分割中得到广泛应用。在跳跃连接方面,Attention U-Net [15]在跳跃连接中引入注意力门控,利用解码器端的上采样特征作为门控信号,对编码器输出的特征进行重新校准和筛选,在腹部胰腺CT图像分割任务中获得优异结果。Schlemper等人[16]则设计了一种注意力门控网络,通过注意力门模块选择性地关注目标区域并过滤无关区域,在超声波扫描平面检测数据集上表现突出。这些工作主要聚焦于利用解码器信息对跳跃连接传递的编码器特征进行加权选择,但融合方式相对直接,且较少考虑特征图内部的多尺度上下文信息。在解码器特征利用方面,2021年,Petit等人[17]提出U-Transformer,采用基于自注意力和交叉注意力的Transformer结构,构建U形网络,克服了U-Net在建模长距离上下文交互和空间依赖方面的不足。此外,Sinha和Dolz [18]提出了一种多尺度自引导注意力机制,旨在解码过程中自适应地整合多尺度特征。Ruan等人[13]同样在皮肤病变分割的轻量化网络Malunet中集成了多注意力机制,验证了在轻量化架构中嵌入注意力模块(包括空间和通道注意力)以提升特征表示的有效性。
2.3. Transformer在医学图像分割中的应用
近年来,Dosovitskiy等人在2020年提出的视觉Transformer (Vision Transformer, ViT)通过将全局自注意力机制直接应用于全尺寸图像。随着Transformer [19]在计算机视觉领域的成功,许多研究者将Transformer引入医学图像分割任务。Chen等人提出的TransUNet是首个基于Transformer的医学图像分割框架,基于ViT设计,处理图像特征序列以建模全局依赖,弥补CNN局部感受野的不足。Valanarasu等人[20]提出门控轴向注意力模型MedT,并采用局部全局训练策略,同时考虑医学图像中的细节信息和远程依赖关系。Liu等人在2021年提出的基于滑动窗口自注意力机制的Swin transformer,引入层次化特征表示和移位窗口自注意力机制,解决ViT在图像分割任务中的限制。随后,Cao等人受到Swin Transformer的启发,首次提出纯Transformer的U形架构Swin-Unet,用Swin Transformer模块替代U-Net中的卷积块。这些方法确实能够建立起有效的长程依赖关系,并且取得了不错的效果。然而,仍然面临着冗余计算和过高算力消耗。为解决这些挑战,近期研究致力于将注意力机制与Transformer架构相融合。例如,Sun等人[21]提出的DA-TransUNet,通过将空间与通道双重注意力机制与Transformer U-Net架构相结合,聚焦空间和通道特征重要性。尽管这些Transformer方法在全局建模上表现出色,但其计算开销通常较大,且对跳跃连接和解码器融合策略的轻量化与精细化设计关注相对较少。
3. 本文方法
3.1. 整体架构
图2展示了本文的整体架构。该网络基于经典的编码器解码器架构,整体架构设计呈U形结构。将编解码器中普通的卷积替换为深度可分离卷积。编解码器加入轻量化的EMA模块,高效地捕获通道和空间维度的交互信息,增强模型特征提取能力。在跳跃连接部分,PPEM模块可以对来自编码器的特征图进行筛选,动态调整特征权重,抑制无关信息,缓解冗余特征问题。解码器部分加入的HFFB,该模块利用经过PPEM筛选后传递而来的空间、语义信息指导解码器上采样逐步恢复分辨率,能够减小解码器、编码器之间存在的语义差距。
Figure 2. Overall architecture of our method
图2. 本文整体架构
3.2. EMA注意力模块
高效多尺度注意力模块[8]是一种新型的注意力机制,用于增强卷积神经网络中的特征表示能力。该模块通过结合特征分组、并行子网络和跨空间学习,在不进行通道维度降维的情况下,高效地捕获通道和空间维度的交互信息,提升模型性能,同时保持较低的计算复杂度和参数量。具体结构如图3所示。
Figure 3. Structure of the EMA
图3. EMA模块结构
给定输入特征图
,其中
为通道数,
和
分别为空间高度和宽度,图3中,
表示将输入特征图
沿通道维度划分成
个子特征组,表示为:
(1)
通过将
个子特征组重塑到批次维度,此操作避免了通道降维,可以增强对特征的提取能力,同时降低了计算复杂度。EMA模块包含两个并行分支:1 × 1分支和3 × 3分支,分别处理不同尺度的特征信息。其中1 × 1分支,通过两个一维全局平均池化操作捕获空间方向的通道信息,生成水平和垂直方向的特征描述符,由公式(2)表示
,
(2)
其中,
和
表示第
个通道在空间位置
和
的像素值。两个向量进行拼接后通过1 × 1卷积处理,生成通道注意力权重,随后通过Sigmoid函数激活,得到通道注意力图:
(3)
其中
为Sigmoid函数,
表示1 × 1卷积。3 × 3分支通过3 × 3卷积核捕获多尺度空间信息,扩大感受野,增强局部跨通道交互。
EMA采用跨空间学习策略,通过矩阵点积操作捕获像素级别的空间关系,有效地增强了特征的聚合。对1 × 1分支的输出
进行二维全局平均池化,生成全局特征描述符:
(4)
然后将
重塑为
,3 × 3分支的输出
重塑为
,通过矩阵点积生成第一个空间注意力图。同样对3 × 3分支的输出进行二维全局平均池化,将1 × 1分支重塑后生成第二个注意力图,最后融合两个空间注意力图,通过Sigmoid函数生成最终特征图,具体公式如下:
(5)
3.3. 跳跃连接改进
受Attention U-Net的启发,设计了一种新型基于挤压激励(Squeeze and Excitation, SE)模块[22]与金字塔池化(Pyramid Pooling) [23]改进的跳跃连接特征传递模块PPEM。如图4所示。
Figure 4. Structure of the PPEM
图4. PPEM模块结构
该模块由金字塔池化和通道注意力两个核心组件构成,首先通过金字塔池化包括平均池化和最大池化提取空间上不同尺度的特征,捕获全局和局部上下文信息。通道注意力部分的实现通过降维和升维的1 × 1卷积操作,动态调整各通道的重要性。以实现同时在空间和通道上完成特征筛选。
给定输入特征图
,金字塔池化模块通过一组预定义的池化尺度
对输入特征图进行池化操作。对于每个池化尺度
,特征图被池化为
,然后通过双线性插值上采样恢复到原始尺寸
,之后将所有池化结果沿着通道维度拼接。表示为:
,
(6)
,
(7)
(8)
输出特征图
,
表示使用的池化尺度数量,
和
表示输入特征图使用池化尺度
,经过平均池化和最大池化得到的特征图,
表示双线性插值上采样。
,
分别表示上采样回原图大小后的空间特征图,
是经过拼接的结果。通道注意力权重
的生成过程对应着图4所示的激励(Excitation, Ex)过程,首先将线性变换矩阵
作用到
上降低通道维度,以减少参数量。再通过
将通道维度变换为初始特征图
的通道数,最终输出为输入特征图与通道权重的哈达玛积,可以由公式(9)表示:
(9)
其中,
表示Sigmoid函数,
表示ReLU激活函数,
,
,
表示降维比率,
表示哈达玛积。最终输出
,与原始特征图一致。本文除此以外还提出另两种基于SE模块的优化方案,在第4节实验部分开展实验进一步讨论。
3.4. 特征融合模块
Figure 5. Structure of the HFFB
图5. HFFB模块结构
在医学图像分割中,分割场景复杂多样。使用传统U-Net的简单通道拼接在面对复杂场景时往往得不到较好的分割效果,基于Transformer对建模长程依赖具有优势的认识,本文提出一种以跳跃连接特征图引导的混合特征融合模块HFFB (Hybrid Feature Fusion Block)旨在改善编码器与解码器的语义不匹配,提高模型的鲁棒性。该模块中主要包含了跳跃连接引导双注意力特征融合DAGSF (Dual-Attention Guided Skip Fusion)部分、包含跳跃连接与上采样特征图信息的捷径分支以及Transformer标准设计的层归一化(Layer Norm, LN)与多层感知机(Multilayer Perceptron, MLP),整体模块结构如图5所示。
DAGSF模块通过结合自注意力和跨注意力机制,利用跳跃连接传递的特征图作为先验知识,融合编码器与解码器特征,实现对语义差距的减小。具体地,给定特征图
、
,分别表示跳跃连接传递而来的特征图与上采样的特征图。先进行下采样率为
的平均池化,得到下采样后的特征图
,
,使用1 × 1卷积生成查询向量
,键向量
、
以及值向量
,之后进行Reshape操作进行多头拆分,上述过程的计算公式表示为:
,
(10)
其中
表示Reshape操作,
是注意力头数,
,
。
之后,为了让
向量能同时与上采样和跳跃连接特征交互。先把
、
双分支融合得到
。随后使用矩阵乘法计算
与融合后的
的缩放点积相似度并进行Softmax归一化,得到注意力分数后对值向量
施加权重,进一步得到下采样后的注意力输出。最后将注意力输出经过重塑、上采样操作,恢复原始特征图大小。
(11)
,
(12)
其中,
表示Reshape操作,
表示上采样操作。遵循标准Transformer设计,通过残差连接将输入的上采样特征图添加到注意力输出,保留原始信息。之后应用层归一化以稳定和归一化特征,输入到MLP中,增加非线性并进一步转换特征。MLP的结构包含两个线性层和一个ReLU激活函数。第二个残差连接从LN之前连接到MLP之后,经卷积后与包含跳跃连接与上采样特征的捷径分支相加,得到整个HFFB模块的输出,具体流程如图5的DAGSF模块所示。
4. 实验与结果分析
4.1. 数据集
本实验采用Glas [24] (gland segmentation)数据集和CVC-ClinicDB [25] (Colorectal Cancer-Clinic Dataset)数据集。Glas是MICCAI2015腺体分割挑战赛的公开数据集,该数据集包含165张图像,其中85张用于训练,80张用于测试。每张图像都标注了腺体的边界,以便进行分割任务。CVC-ClinicDB是一个公开可用的内窥镜图像数据集,该数据集包含31段结肠镜检查视频,从中提取了612张高质量的图像,分辨率为348 × 288像素。
4.2. 评估指标
为了评估模型的性能,使用Dice相似系数(DSC)和交并比(IoU)进行度量。Dice和IoU都用于评估标签与预测之间的相似程度。Dice和IoU的数学公式表示如下:
,
(13)
其中,
为真正类(被正确预测的前景像素个数),
为假正类(被错误预测为前景的像素个数),
为假负类(被错误预测为背景的像素个数)。对于Glas数据集,使用5折交叉验证进行实验,实验结果报告五折的均值和标准差。对于CVC-Clinic数据集,由于官方并没有划分数据集,将数据集划分成459张训练集、153张验证集,报告单折的实验结果。
4.3. 实验设置
本实验使用Python 3.11.8和Pytorch 2.2.1,CUDA版本12.1,硬件使用单个12 GB显存4070 GPU。对于Glas数据集,设置batch size大小为4,调整图像分辨率为224 × 224。对于CVC-Clinic数据集设置batch size大小为8,所有实验使用Adam优化器进行训练,其中初始学习率设置为0.001,采用余弦退火法进行学习率衰减。采用早停策略进行模型训练,设置最大训练轮次500,若在连续训练40轮后Dice系数没有提升,则结束训练。为避免模型训练过拟合,采用随机旋转、随机翻转策略进行数据增强。损失函数采用混合交叉熵损失和Dice损失函数,如下:
(14)
其中
表示交叉熵损失,
表示Dice损失。
4.4. 对比实验
本文在GlaS和CVC-ClinicDB两个医学图像分割基准数据集上进行了系统评测。如表1和表2所示,我们选取了七种代表性方法进行对比,包括四类经典模型(U-Net, U-Net++, AttU-Net, MultiResUnet)和三种先进轻量化模型(UNeXt, MedT, ULite)。
HFF-UNet在GlaS和CVC-ClinicDB数据集上均实现了更优的性能–效率平衡。完整版(1.347 M参数)在GlaS上达90.15%DSC和82.77%IoU,较U-Net提升1.80%/2.06%,同时参数量减少92.20%,计算量降低90.89%。在CVC-Clinic上提升2.05%DSC/1.89%IoU,参数量降82.45%,计算量降73.48%。参数量/计算量较Unet++、AttU-Net等均降低80%以上。相比更轻量的UNeXt (0.439GFLOPs),HFF-UNet (2.802GFLOPs)在GlaS上换取3.38%DSC和5.21%IoU提升。压缩版HFF-UNetS (0.766M参数,DSC87.92%)以更少参数较ULite (0.878M)提升2.29%DSC和3.39%IoU。
Table 1. Comparison of our method with other methods on the Glas dataset
表1. 本文方法在Glas数据集与其他方法的对比
模型 |
DSC/% |
IoU/% |
参数量/M |
FLOPs/G |
Unet |
88.35 ± 0.26 |
80.71 ± 0.24 |
17.263 |
30.768 |
Unet++ |
89.30 ± 0.64 |
81.52 ± 1.04 |
9.16 |
26.723 |
AttU_Net |
89.39 ± 1.07 |
81.81 ± 1.66 |
34.879 |
51.015 |
MultiResUnet |
88.99 ± 0.60 |
81.10 ± 1.02 |
7.238 |
14.281 |
UNeXt |
86.67 ± 1.00 |
77.56 ± 1.41 |
1.472 |
0.439 |
MedT |
78.55 ± 1.84 |
66.66 ± 2.39 |
1.371 |
1.950 |
HFF-UNet (OURS) |
90.15 ± 0.41 |
82.77 ± 0.64 |
1.347 |
2.802 |
ULite |
85.63 ± 1.27 |
76.11 ± 1.79 |
0.878 |
0.580 |
HFF-UNetS (OURS) |
87.92 ± 0.84 |
79.49 ± 1.21 |
0.766 |
1.707 |
Table 2. Comparison of our method with other methods on the CVC-ClinicDB dataset
表2. 本文方法在CVC-ClinicDB数据集与其他方法的对比
模型 |
DSC/% |
IoU/% |
参数量/M |
FLOPs/G |
Unet |
90.06 |
83.96 |
7.675 |
10.564 |
Unet++ |
91.39 |
85.14 |
9.163 |
26.723 |
AttU_Net |
91.44 |
85.25 |
34.879 |
51.015 |
MultiResUnet |
89.5 |
82.52 |
7.238 |
14.281 |
UNeXt |
85.36 |
77.17 |
1.472 |
0.439 |
MedT |
81.72 |
71.69 |
1.371 |
1.950 |
HFF-UNet (OURS) |
92.11 |
85.85 |
1.347 |
2.802 |
ULite |
86.08 |
77.86 |
0.878 |
0.580 |
HFF-UNetS (OURS) |
90.72 |
83.62 |
0.766 |
1.707 |
分割结果可视化分析如图6所示,结果表明:在GlaS数据集上,HFF-UNet对腺体复杂边界和多样结构的分割效果显著优于U-Net和UNeXt,边界清晰度更高。在CVC-ClinicDB数据集上,HFF-UNet能有效捕捉低对比度息肉区域细节,边缘平滑性优于AttU-Net和MultiResUnet。以GlaS数据集第二行图像为例,其他模型未能完全分割左下角两个腺体,而HFF-UNet分割完整。再如CVC-ClinicDB数据集最后一行,其他模型在左下角区域出现误分割,HFF-UNet结果准确。这些定性观察结果与定量分析一致,验证了HFF-UNet在复杂场景下的鲁棒分割性能。
Figure 6. Comparison of segmentation results of different models on the CVC-ClinicDB dataset
图6. 不同模型分别在GlaS和CVC-ClinicDB数据集上的分割结果对比
为了进一步研究PPEM模块在特征筛选与特征传递的优越性,本文基于SE模块提出两种改进版本,针对标准SE模块中全局平均池化(Global Average Pooling, GAP)的固有局限:过度压缩导致细粒度信息丢失及尺度敏感性不足。本研究引入多尺度特征增强策略:采用GAP与全局最大池化(GMP)并行的双路径池化机制,以增强多尺度上下文特征表达能力。其中,V1采用加性融合,V2采用通道拼接融合。
将两种改进方法应用于UNet跳跃连接并与SE对比,实验结果如表3所示,实验表明其DSC/IoU均优于SE,验证了多尺度特征增强的有效性,并为PPEM设计提供了依据。进一步地,PPEM在GlaS数据集上与先进注意力机制(ECA [26], SE, CBAM [27], CA [28])对比显示,在少量增加参数量的前提下,DSC/IoU均有显著提升。其中,PPEM较SE提升1.17%DSC和1.68%IoU。
Table 3. Comparison of PPEM with other different attention mechanisms on the GlaS dataset
表3. PPEM在GlaS数据集上与其他不同注意力机制的对比
模型 |
DSC/% |
IoU/% |
参数量/M |
FLOPs/G |
V1 |
87.49 ± 1.83 |
78.86 ± 2.56 |
0.5256 |
1.2487 |
V2 |
88.19 ± 0.77 |
79.90 ± 1.08 |
0.7001 |
1.2489 |
ECA |
87.92 ± 0.71 |
79.47 ± 0.95 |
0.5147 |
1.2487 |
SE |
87.13 ± 1.20 |
78.38 ± 1.72 |
0.5256 |
1.2487 |
CBAM |
88.14 ± 0.39 |
80.05 ± 0.58 |
0.5259 |
1.2553 |
CA |
87.51 ± 1.03 |
78.86 ± 1.55 |
0.5272 |
1.2527 |
PPEM (OURS) |
88.3 ± 0.27 |
80.06 ± 0.38 |
0.5418 |
1.3734 |
同时本文采用了Grad-CAM [29]作为不同注意力机制的可视化方法,可视化了表3中的注意机制方法,如图7所示。图7中每行展示一种方法的三重对比图(无注意力首层、有注意力首层、末层注意力图)。结果显示,本文提出的PPEM能更精准捕捉边缘和小目标信息,有效优化编码器–解码器特征传递,减少冗余信息干扰。
Figure 7. Grad-CAM visualization of attention maps
图7. Grad-CAM可视化注意力图
4.5. 消融实验
为验证各模块的贡献,我们在GlaS和CVC-ClinicDB数据集上进行了系统的消融实验,实验结果如表4和表5所示。
Table 4. Ablation study results on the Glas dataset
表4. 在Glas数据集上消融实验的结果
|
EMA |
PPEM |
HFFB |
Dice/% |
IoU/% |
1 |
|
|
|
84.84 |
74.80 |
2 |
√ |
|
|
87.18 |
78.35 |
3 |
|
√ |
|
86.31 |
77.19 |
4 |
|
|
√ |
88.11 |
79.78 |
5 |
√ |
√ |
|
88.3 |
80.06 |
6 |
√ |
√ |
√ |
90.15 |
82.77 |
Table 5. Ablation study results on the CVC-ClinicDB dataset
表5. 在CVC-ClinicDB数据集上消融实验的结果
|
EMA |
PPEM |
HFFB |
Dice/% |
IoU/% |
1 |
|
|
|
89.36 |
82.12 |
2 |
√ |
|
|
91.21 |
84.60 |
3 |
|
√ |
|
90.06 |
83.17 |
4 |
|
|
√ |
90.48 |
83.52 |
5 |
√ |
√ |
|
91.62 |
85.27 |
6 |
√ |
√ |
√ |
92.11 |
85.85 |
Table 6. Module computational cost analysis
表6. 模块计算成本分析
模块 |
参数量/M |
参数量占比 |
FLOPs/G |
FLOPs占比 |
EMA |
0.01 |
0.75% |
0.20 |
7.14% |
PPEM |
0.02 |
1.49% |
0.12 |
4.29% |
HFFB |
0.80 |
59.70% |
1.43 |
51.07% |
Baseline |
0.51 |
38.06% |
1.05 |
37.50% |
总计 |
1.34 |
100.00% |
2.80 |
100% |
在GlaS数据集上,EMA模块提升DSC至87.18% (+2.34%),IoU至78.35% (+3.55%),证明其增强特征表达的有效性;在CVC上EMA也提升DSC1.85%,IoU2.48%,表明普适性。PPEM单独提升DSC1.47%,与EMA组合达DSC88.3%,IoU80.06%,有效缓解语义差距。仅HFFB在GlaS提升DSC至88.11% (+3.27%),在CVC提升IoU至84.60% (+2.48%),验证跳跃引导融合。完整模型在两个数据集均达最优(GlaS:DSC90.15%, IoU82.77%; CVC:DSC92.11%, IoU85.85%),较双模块组合提升1.85%DSC,证明三模块互补性:EMA增强特征提取,PPEM优化特征传递,HFFB改善融合质量。
从表6可以看到设计的三个模块的计算成本的分布,EMA和PPEM以极低的计算开销显著提升了特征提取与传递效率,充分体现了其设计的轻量高效特性。HFFB作为负责高分辨率特征融合与细节恢复的核心模块,其设计的引导式融合操作需处理更大尺寸的数据,导致计算成本显著高于其他模块,虽然消耗主要计算资源,但是从消融实验的结果可以发现它对最终精度提升的显著贡献,证明该计算资源分配的合理性。三者协同工作,实现了性能与效率的优异平衡。
5. 结论
针对现有网络在全局建模、特征融合和轻量化上的不足,本文提出了一种轻量级医学图像分割网络HFF-UNet。其核心模块(EMA、PPEM、HFFB)有效提升特征提取与融合能力,在Glas和CVC-ClinicDB数据集上取得高精度与低复杂度的平衡,为精准医疗提供技术支持。
基金项目
武汉工程大学第十八期学生校长基金项目(XZJJ2024043)。
NOTES
*通讯作者。