1. 引言
医学图像分割在临床诊断、治疗规划及术后随访中发挥着至关重要的作用,能够为医生提供可靠的解剖学信息和定量指标。然而,医学影像通常具有模态差异大、对比度低、边界模糊以及结构复杂等特点,这对分割算法的精度和鲁棒性提出了极高要求。近年来,深度学习技术,尤其是基于卷积神经网络(Convolutional Neural Networks, CNN)的模型[1],在医学图像分割任务中取得了显著进展。典型的U-Net结构凭借其编码器——解码器对称架构和跳跃连接机制,成为医学图像分割的基础框架,并被广泛应用于不同模态和不同任务的分割研究中[2]。然而,传统U-Net及其改进模型往往依赖卷积操作进行局部特征提取,难以捕捉全局依赖关系,从而限制了对复杂器官结构的建模能力。
为了克服这一问题,近年来基于Transformer的网络结构逐渐引入医学图像分析领域[3]。Transformer最初在自然语言处理任务中取得成功,其核心优势在于自注意力机制能够建模长程依赖关系,从而捕捉全局上下文信息。Swin Transformer通过引入层次化的窗口划分策略,将全局建模与局部计算相结合,显著降低了计算复杂度并增强了特征表达能力[4]。在此基础上,SwinUNet将Swin Transformer嵌入到U-Net架构中,实现了对多尺度图像特征的高效建模,在多种医学图像分割任务中表现出优异性能[5]。然而,尽管SwinUNet在全局建模和分割精度方面优于传统卷积模型,仍存在一些不足:(1) 其注意力机制基于固定窗口,难以兼顾长距离依赖与局部细节;(2) 编码器末端缺乏针对复杂结构的多尺度语义聚合,导致分割边界易受局部模糊影响;(3) 跳跃连接仅进行特征拼接,未能充分考虑不同层次特征之间的交互关系,可能造成语义与空间信息融合不足。
针对上述问题,本文提出了一种基于改进SwinUNet的医学图像分割方法。首先,在Transformer结构选择上,采用Focal Transformer替换原始Swin Transformer [6]。与固定窗口注意力不同,Focal Transformer引入逐级扩展的感受野,将局部精细特征与远距离上下文信息结合起来,实现跨尺度的层次化注意力建模。这种机制使模型能够在保持计算效率的同时,更好地捕捉器官内部结构与周围组织之间的关联,有助于提高对边界模糊区域和小尺度目标的识别能力。其次,在编码器末端设计空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块[7]。ASPP利用并行的空洞卷积操作在不同扩张率下提取特征,通过多尺度上下文的聚合有效扩展感受野,弥补了单一尺度特征在处理复杂解剖结构时的不足。该模块的引入能够提升对腹部器官大小差异较大、器官结构层次复杂等情况的适应性。最后,在跳跃连接机制中加入Tokenized Interaction Fusion (TIF)模块[8],以显式建模跨层特征的交互关系。TIF通过对浅层空间细节和深层语义信息进行交互建模与动态融合,有效避免了传统简单拼接可能导致的冗余和信息不均衡问题,从而增强了分割边界的精细化表达。
本研究的创新性主要体现在以下三个方面:其一,将Focal Transformer应用于医学图像分割任务的编码器与解码器中,通过分层注意力机制兼顾局部和全局信息,提升模型对复杂器官形态的建模能力;其二,在SwinUNet的瓶颈层引入ASPP模块,实现多尺度上下文特征融合,增强模型对不同大小目标的适应性;其三,在跳跃连接中引入TIF模块,优化跨层特征融合策略,提高空间与语义信息的协同表达能力。这一系列改进使得模型能够在保持整体结构简洁的前提下,有效缓解多尺度建模不足、上下文信息利用有限以及跨层特征融合不充分等问题。
为了验证所提方法的有效性,本文采用的是Synapse多器官分割数据集。Synapse数据集中包含多种腹部器官,器官间存在明显的尺度差异和形态复杂性,是评估多器官分割性能的重要基准。实验结果表明,本文提出的改进方法在平均Dice系数和Hausdorff距离等主流评价指标上均显著优于基线模型SwinUNet和其他主流分割方法,证明了其在复杂器官分割任务中的有效性和鲁棒性。
综上所述,本文工作不仅在方法设计上兼顾了全局依赖、局部细节和跨层融合,而且在实验验证中展现了较强的泛化性与应用潜力。研究结果为基于Transformer的医学图像分割方法提供了新的改进思路,同时也为临床应用中高精度、自动化的器官分割提供了有价值的技术支持。
2. 本文方法
2.1. 整体网络架构
Figure 1. Improved SwinUNet model network architecture
图1. 改进型SwinUNet模型网络结构
针对医学图像分割中存在的多尺度表征不足与跨层信息交互不充分等问题,本文设计了一种改进型SwinUNet模型网络。整体结构如图1所示,模型由编码器、解码器、跳跃连接以及瓶颈层组成。在编码器浅层部分,保留了原始的Swin Transformer Block,以保证对局部结构信息的敏感性和低层细节特征的充分提取。随着网络深度的增加,局部窗口注意力难以有效捕获远程依赖关系,因此在瓶颈层阶段引入了Focal Transformer模块,通过逐层扩展注意力感受野以建模多尺度上下文关系,从而显著提升了对复杂器官边界与形态差异的建模能力。
此外,为了缓解U型结构中跳跃连接信息传递过程中出现的语义鸿沟问题,本文在各级跳跃连接处引入了TIF模块[8],以显式建模来自不同分辨率特征之间的交互关系,保证了低层空间细节与高层语义表征的充分融合。在瓶颈层之后,为进一步增强网络对目标区域的尺度鲁棒性,增加了空洞空间金字塔池化(ASPP)模块,通过并行的多尺度空洞卷积分支有效扩展感受野,从而提升对器官结构在不同尺度下的一致性建模能力。最后,解码器部分与编码器对称,逐层进行特征还原与重建,实现对输入医学图像的高精度分割。
2.2. 空洞卷积空间金字塔池化(ASPP)模块
在医学图像分割任务中,器官之间往往存在尺度差异显著、形态多样化的问题。传统卷积神经网络在感受野上具有局限性,难以同时兼顾局部边缘信息与全局上下文语义,导致在分割结果中出现边界模糊或小目标遗漏。为解决该问题,本研究在编码器末端引入Atrous Spatial Pyramid Pooling (ASPP)模块[9]。该模块通过多尺度空洞卷积与全局池化的结合,有效扩展了特征的感受野,并增强了模型的多尺度上下文捕获能力,从而提升对不同大小目标的分割表现,模块结构如图2所示。
Figure 2. ASPP module block diagram
图2. ASPP模块结构框图
(1) 多尺度空洞卷积
输入特征图
分别经过多个不同膨胀率(dilation rate)的空洞卷积操作,如
,得到不同尺度的上下文特征:
(1)
(2) 全局上下文池化:通过全局平均池化获得图像级全局特征:
(2)
随后将其通过1 × 1卷积和上采样恢复至
,以补充全局上下文信息。
(3) 并行融合:所有分支(包括1 × 1卷积支、多个空洞卷积分支及全局池化分支)的输出在通道维度上进行拼接:
(3)
(4) 维度还原:最终通过一个1 × 1卷积将通道数映射回原始维度:
(4)
ASPP模块的引入为Swin-UNet模型提供了更强的多尺度上下文建模能力。通过空洞卷积引入的多尺度感受野,模型能够同时感知小目标的精细边界与大目标的整体轮廓。与传统卷积相比,ASPP能在不显著增加计算量的情况下扩展感受野,从而有效提升模型在复杂医学图像场景下的分割精度与鲁棒性。
2.3. Tokenized Interaction Fusion模块
在SwinUNet结构中,跳跃连接主要采用简单的拼接或逐元素加和来融合不同层级的特征。然而,编码器与解码器之间的特征存在显著差异:浅层特征具备较强的空间细节表达能力,而深层特征则包含更多全局语义信息。若直接进行拼接,往往会导致浅层与深层特征的语义不一致,从而降低模型对边界细节和全局上下文的综合建模能力。为克服上述问题,本文引入Tokenized Interaction Fusion (TIF)模块,通过token化与Transformer编码器来实现多尺度特征间的高效交互和融合。
Figure 3. Detailed structure of the Tokenized Interaction Fusion Module
图3. Tokenized Interaction Fusion模块详细结构
TIF模块的结构如图3所示,由以下几个步骤组成:
(1) 特征输入:设来自编码器的低分辨率特征为
(5)
来自解码器的高分辨率特征为:
(6)
(2) 全局上下文补充:分别对
与
进行全局平均池化,得到全局token:
(7)
其中
。
(3) 序列化处理:将特征展平为token序列,并拼接对应的全局token:
(8)
(9)
(4) Transformer交互建模:分别将两路序列输入Transformer编码器,获得增强后的序列:
(10)
(5) 特征恢复与融合:将序列重投影回空间特征:
(11)
再在通道维度上拼接:
(12)
(6) 维度还原:通过1 × 1卷积映射回原始通道数:
(13)
TIF模块的优势在于能够在特征融合过程中显式建模浅层与深层特征之间的跨尺度交互关系,并结合全局token补充全局语义信息。相比于传统的跳跃连接,TIF模块不仅保证了浅层特征的空间细节不被弱化,还增强了深层特征对全局结构的建模能力,从而有效提升模型在医学图像分割中的边界刻画与目标识别能力。
3. 实验
3.1. 数据集
本文采用Synapse腹部多器官CT数据集作为实验对象。该数据集包含30例腹部临床CT扫描,共计3779张横断面切片。其中,18例样本被分配到训练集,其余12例作为测试集[10]。实验主要针对8种腹部器官(主动脉、脾脏、左右肾脏、胆囊、胰腺、肝脏以及胃)进行分割实验,以此来检验所提出改进模型的有效性。
3.2. 实验设置
3.2.1. 实验平台与参数设置
实验环境:采用Python 3.6作为开发语言,并基于Pytorch深度学习框架实现;训练平台配置为CUDA 11.7.0环境与NVIDIA RTX 4090 GPU (显存24 GB)。在具体训练过程中,采用如下策略:
(1) 输入预处理:对训练样本进行数据增强操作,包括随机旋转与镜像翻转,以提升模型的泛化能力。输入图像大小被统一为224 × 224,Patch大小设定为4。
(2) 参数初始化:模型权重通过在ImageNet数据集上训练得到的预训练参数进行初始化。
(3) 优化方法:采用SGD优化器,初始学习率设置为0.05,批量大小为24,动量系数为0.9。为缓解过拟合问题,在优化与反向传播过程中引入权重衰减项,其值设为1 × 10−4。
3.2.2. 损失函数与评价指标
为兼顾目标区域与边界信息,本研究采用Dice损失与交叉熵损失的加权组合作为优化目标[11],定义如下:
(14)
其中,
表示交叉熵损失,
表示Dice损失,
为平衡系数。
在模型性能评估中,采用Dice相似系数(DSC)与95% Hausdorff距离(HD95)作为指标[12]。DSC衡量预测结果与真实标注的重叠程度:
(15)
其中与分别为预测区域与真实区域。HD95用于反映预测边界与真实边界的空间偏差,能更直观地体现模型在边界刻画方面的能力。二者结合可以较为全面地评估模型在医学图像分割任务中的表现。
3.3. 实验分析
3.3.1. 对比实验
为全面评估所提出方法的有效性,本文在Synapse多器官CT数据集上与多种主流分割网络进行了对比,结果如表1所示。从整体性能来看,经典的U-Net与Att-UNet [13]分别获得76.85和77.77的平均DSC,但在HD指标上均超过36,说明其在器官边界刻画方面存在一定不足。基于Transformer的ViT与R50 ViT在捕获长距离依赖方面具备一定优势[14],但由于缺乏局部特征建模能力,其平均DSC均低于72,性能相对欠佳。相比之下,TransUNet与TransClaw U-Net在全局与局部特征融合上表现更为突出[15],DSC分别达到77.48和78.09,同时HD也得到明显改善。
Table 1. The segmentation result data of different algorithms on the dataset
表1. 不同算法在数据集上的分割结果数据
Method |
Average |
Aorta |
Left kidney |
Right kidney |
Gallbladder |
Pancreas |
Liver |
Spleen |
Stomach |
DSC↑ |
HD↓ |
U-Net |
76.85 |
39.70 |
89.07 |
77.77 |
68.60 |
69.72 |
53.98 |
93.43 |
86.67 |
75.58 |
R50 Att-UNet |
75.57 |
36.97 |
55.92 |
79.20 |
72.71 |
63.91 |
49.37 |
93.56 |
87.19 |
74.95 |
ViT |
67.86 |
36.11 |
70.19 |
74.70 |
67.40 |
45.10 |
45.99 |
91.51 |
81.99 |
73.95 |
R50 ViT |
71.29 |
32.87 |
73.73 |
75.80 |
72.20 |
55.13 |
45.99 |
91.51 |
81.99 |
73.95 |
Att-UNet |
77.77 |
36.02 |
89.55 |
77.98 |
71.11 |
68.88 |
58.04 |
93.57 |
87.30 |
75.75 |
TransUnet |
77.48 |
31.69 |
87.23 |
81.87 |
77.02 |
63.13 |
55.86 |
94.08 |
85.08 |
75.62 |
TransClaw U-Net |
78.09 |
26.38 |
85.87 |
84.83 |
79.36 |
61.38 |
57.65 |
94.28 |
87.74 |
73.55 |
SwinUNet |
79.13 |
21.55 |
85.47 |
83.28 |
79.61 |
66.53 |
56.58 |
94.29 |
90.66 |
76.60 |
Ours |
79.53 |
19.73 |
85.54 |
84.32 |
80.44 |
67.70 |
57.78 |
94.14 |
90.32 |
75.78 |
进一步比较可见,SwinUNet在平均DSC和HD上分别取得79.13和21.55,显著优于上述方法,验证了其基于层次化Transformer结构的有效性。最终,本文提出的改进模型(Ours)在平均DSC上达到79.89,并将HD进一步降低至19.73,综合性能优于所有对比方法。在器官级别的分割结果中,本方法在aorta、left kidney、right kidney、liver等多个器官上均取得了最佳精度,尤其在liver和spleen的分割上,DSC分别达到94.14和90.32,体现了模型在大器官与边界清晰结构中的优势。同时,在较难分割的pancreas与stomach等器官上,本方法仍保持与最佳模型相当的水平,说明其在复杂形态结构下具有良好的鲁棒性。不同算法在数据集上的分割可视化效果对比如图4所示。
综上所述,所提出的改进模型不仅在整体分割精度上超越现有方法,还在器官细粒度层面展现出更强的泛化能力与稳定性,充分证明了其在医学图像多器官分割任务中的应用潜力。
Figure 4. Visualization effect diagrams of different algorithm segmentation
图4. 不同算法分割可视化效果图
3.3.2. 消融实验
为验证各改进模块对整体模型性能的影响,本文在Synapse数据集上开展了消融实验,结果如表2所示。由表中结果可见,基础的SwinUNet模型在DSC和HD指标上分别达到79.13和21.55。首先,在SwinUNet中引入ASPP模块后,模型的DSC提升至79.56,说明多尺度空洞卷积能够有效增强模型对不同尺度器官边界的感知能力。然而,其HD指标上升至23.13,表明在部分结构细节的捕获上仍存在局限。进一步地,在SwinUNet + ASPP的基础上加入TIF模块,DSC略降至78.91,但HD显著下降至19.41,显示特征交互融合在提升边界预测精度方面具有优势。最后,综合引入多模块的改进模型(Ours)在DSC和HD上分别达到79.89和19.73,相较于基线方法均取得了更优的整体表现。这表明所提出的方法在保持分割精度的同时,有效提升了边界预测的稳定性与鲁棒性。
Table 2. Data from the melting experiment
表2. 消融实验结果数据
Methods |
DSC↑ |
HD↓ |
SwinUNet |
79.13 |
21.55 |
SwinUNet + ASPP |
79.56 |
23.13 |
SwinUNet + ASPP + TIF |
78.91 |
19.41 |
Ours |
79.53 |
19.73 |
4. 结语
本文针对医学图像分割中全局依赖建模不足与多尺度特征表达受限的问题,提出了一种改进型SwinUNet结构。方法上:一方面将Focal Transformer引入编码器,以增强局部细节与长程上下文的交互建模;另一方面在编码器末端集成ASPP (空洞空间金字塔池化)以扩展多尺度感受野,并通过TIF (Tokenized Interaction Fusion)模块实现跨层语义与细节特征的高效融合,从而提升整体特征表征能力。基于Synapse腹部多器官数据集的实验表明,本方法在分割精度与边界刻画上均优于基线,整体DSC = 79.89、HD = 19.73,验证了其在复杂器官分割场景中的有效性与一定鲁棒性。总体来看,该工作为对SwinUNet的结构性改进提供了可行思路,并为后续方法优化与临床推广奠定了基础。
基金项目
合肥综合性国家科学中心能源研究院(安徽省能源实验室)项目(21KZS202)。
NOTES
*通讯作者。