MSRGA-Net：用于3D医学图像分割的多尺度混合网络

doi:10.12677/csa.2025.1512344

期刊菜单

MSRGA-Net：用于3D医学图像分割的多尺度混合网络
MSRGA-Net: A Multi-Scale Hybrid Network for 3D Medical Image Segmentation

DOI: 10.12677/csa.2025.1512344, PDF, HTML, XML,
作者: 杨菲, 陈雪萍：新疆理工职业大学人工智能学院，新疆喀什
关键词: 医学图像分割；MLP；注意力机制；多轴特征混合；Medical Image Segmentation； MLP； Attention Mechanism； Multi-Axial Feature Mixing

摘要: 准确的自动化医学图像分割在自动化诊断和医疗中扮演着重要角色。尽管深度学习方法已经被广泛应用于医学图像分割并获得了成功，但卷积神经网络因其局部卷积特性难以有效捕获全局信息，对不同尺寸大小的组织器官缺乏多尺度特征融合；而基于Transformer的先进方法在捕获全局特征信息方面表现良好，但忽略了像素级空间细节，导致边界定位不够清晰。为了应对这些挑战，本文提出了MSRGA-Net，一个创新的分割框架，能够有效融合低级细节信息、长距离依赖关系和跨尺度信息特征。该网络设计中包含四个核心模块：MSConv，通过多尺度卷积提取细粒度特征；BGAFM，一种新颖的注意力融合模块，可动态赋权特征贡献，以线性复杂度感受全局空间信息；RHAM，用于优化多角度空间与语义信息，同时保留深度方向上的重要信息。此外，提出的MSRGB策略通过选择性地融合多尺度特征，增强了空间一致性，减少特征转换过程中的信息丢失。来自Synapse和医疗分割十项全能(MSD)脑肿瘤分割(BraTS)数据集的广泛实验表明，MSRGA-Net在视觉定量分析和客观评估方面优于最先进的方法。

Abstract: Accurate automated medical image segmentation is essential for computer-aided diagnosis and clinical decision-making, yet achieving both precise boundary localization and robust global understanding remains challenging. Although deep learning methods have achieved strong progress, convolutional neural networks still struggle to capture global context because their receptive fields are inherently local, and they often lack effective multi-scale feature fusion for organs and tissues with large variations in shape and size. Transformer-based approaches can model long-range dependencies more effectively, but they usually overlook pixel-level spatial details, which results in blurred boundaries and incomplete structural representations. To overcome these limitations, we propose MSRGA-Net, an efficient segmentation framework designed to integrate low-level spatial details, long-range contextual relations, and cross-scale features in a balanced manner. The network introduces four core components. MSConv extracts fine-grained representations using multi-scale convolution kernels. BGAFM, a block-grid attention fusion module, dynamically adjusts feature contributions and captures global spatial information with linear computational complexity. RHAM further enhances spatial and semantic cues from multiple perspectives and preserves crucial depth-wise information. In addition, the MSRGB strategy selectively aggregates multi-scale features to improve spatial coherence and reduce information loss during feature transitions. These modules work together to maintain detailed boundaries while ensuring strong global understanding. Extensive experiments on the Synapse dataset and the Medical Segmentation Decathlon (MSD) BraTS dataset demonstrate that MSRGA-Net outperforms state-of-the-art methods in both quantitative visual analysis and objective evaluation.

文章引用：杨菲, 陈雪萍. MSRGA-Net：用于3D医学图像分割的多尺度混合网络[J]. 计算机科学与应用, 2025, 15(12): 288-301. https://doi.org/10.12677/csa.2025.1512344

1. 引言

医学图像分割是医学图像分析中的一项关键任务，它有助于从复杂的3D影像数据中提取相关的解剖结构。精确和高效的分割在疾病的诊断、治疗计划和监测中起着至关重要的作用，尤其是在MRI、CT和超声等针对多种器官和组织的医学图像技术应用中。随着医学数据量的增加和复杂性的发展，传统的分割方法面临着巨大挑战，尤其是对于器官形状、大小和图像质量的高度变化，这些方法往往难以应对。在过去的几年里，利用深度学习强大的特征学习能力，出现了许多高级分割方法[1] [2]。卷积神经网络(CNN)一直是医学图像分割的基石，U-Net及其变体等架构因其编码器–解码器结构和多尺度特征聚合功能而取得了显著的成功。

然而，虽然基于CNN的方法[3]-[10]已被证明在2D医学图像分割中是有效的，但它们在捕获长期依赖关系和上下文信息时面临挑战，这对于复杂的3D图像数据至关重要。最近，基于Transformer的方法[13]-[21]在医学图像分割领域越来越受欢迎，因为它们能够通过自注意力机制对全局关系进行建模。然而，Transformer通常需要大量数据并且计算成本高昂，这使得它们不太适合样本有限的数据集，这是医学成像中的常见情况。与此同时，基于MLP的方法[22]-[34]已成为轻量级替代方案，专注于通过token混合进行全局交互。尽管具有潜力，但MLP通常难以有效地集成局部空间信息，这对于在分割任务中保留细粒度细节至关重要。

尽管现有的方法在医学图像分割领域取得了发展，但面对形状、大小差异较大的复杂3D医学图像时仍然存在挑战：(1) 多尺度特征融合不足，难以准确捕捉到不同尺度之间的关系。(2) 忽略了全局和局部之间的相关性，在性能和计算效率之间难以保持平衡。(3) 在处理小尺寸或复杂病变结构时无法精准地捕捉到物体边界，导致分割结果模糊或不准确。为了应对这些挑战，本文提出了一种新的网络架构，该架构集成了多尺度特征提取、混合注意力机制和互惠门控策略，实现了准确高效的3D医学图像分割。本文工作的主要贡献总结如下：

(1) 提出了多尺度残差注意力编码块(MRAEB, Multi-Scale Residual Attention Encoding Block)，有效地捕获不同分辨率的分层空间特征的同时融合局部和全局信息增强不同维度的空间特征表示。

(2) 设计了一个多尺度互通门控块(MSRGB, Multi-Scale Reciprocal Gating Block)，通过多尺度特征融合聚焦于判别信息，丰富了提取的特征以提高分割的性能。

(3) 在两个公共数据集上进行广泛实验并在多个评价指标上取得了最佳分割性能，实验结果验证了所提方法的有效性。

2. 相关工作

近年来，随着深度学习技术的快速发展，三维医学图像分割成为研究的热点。本文将从基于卷积神经网络(CNN)、基于Transformer，以及基于多层感知机(MLP)的三类方法进行回顾。尽管这些方法引入了重要创新，但仍面临着显著的局限性，而本文工作旨在克服这些问题。

卷积神经网络(CNN)是三维医学图像分割的核心基础，其中以U-Net及其衍生网络为代表的架构表现尤为突出。U-Net [3]通过编码–解码结构及跳跃连接实现了多尺度特征提取，并保留了空间信息。基于U-Net的扩展，例如V-Net [8]，通过将2D网络扩展到处理体积数据，解决了3D医学图像分割的挑战。此外，更为先进的nnU-Net [10]引入了自动化架构优化，使分割流程对不同数据集更具适应性。然而，基于CNN的方法[5]-[10]因其局部感受野的限制，在建模长程依赖性方面存在天然缺陷。这导致其在处理复杂解剖区域时可能难以充分利用全局上下文信息。

Vision Transformer [11]的出现通过自注意力机制建模全局关系，为图像分割带来了范式转变。基于此，TransUNet [14]首次提出一种混合架构，将Transformer和U-Net相结合，其中编码器使用Transformer模型来捕捉全局上下文，而解码器保留了U-Net的高效定位能力。这种混合方法在不同的医学图像数据集中取得了优异的表现。而Swin-Unet [16]完全使用基于Swin Transformer的U型编解码结构提升医学图像的分割性能。SwinUNETR [21]利用Swin Transformer编码器来计算自注意力，提高了3D MRI图像中的脑肿瘤分割精度。然而，这些方法通常需要大规模数据集才能有效学习注意力权重，而这在标注数据稀缺的医学成像领域是一大挑战。此外，基于Transformer的模型计算成本较高，在实时或资源受限的环境中应用受到限制。

MLP驱动的模型(如MLP-Mixer [22]及其后续多种变体[23 ]-[29])因其依赖令牌混合层来处理全局信息的能力而受到广泛关注。这类模型以结构简单、并行度高为特点，在图像建模任务中表现出良好的可扩展性。为了进一步探索MLP在医学图像分割领域的应用潜力，Unetxt [30]将MLP结构巧妙地引入U-Net框架，通过替换部分卷积操作显著提升了模型的推理速度，同时仍能保持较高的分割精度，展现了MLP在医学影像处理中的适用性。然而，现有基于MLP的方法[31 ]-[33]在结构上通常缺乏充分的空间位置信息表达机制，使其难以有效捕获局部空间细节与解剖结构特征，从而在处理复杂组织边界或细粒度区域时存在一定局限性。

前面所述的大部分工作使用简单的结构组合，未能充分发挥各自的优势，同时忽略了3D医学图像中深度维度上的特征融合。为克服上述方法的局限性，本文提出了一种结合CNN、Transformer和MLP优势的方法，实现了全局与局部信息的有效平衡，在保持计算效率的同时显著提升了分割精度。

Figure 1. The architecture of MSRGA-Net

图1. MSRGA-Net网络结构图

3. 方法

本文提出的网络架构如图1所示，遵循经典U-Net的设计思路，整体由编码器、解码器、瓶颈层以及跳跃连接组成。编码器部分包含四个阶段的多尺度残差注意力编码块(MRAEB)，每个阶段由三个创新设计的子模块组成：多尺度卷积(MSConv, Multi-Scale Convolution)、块–网格注意力融合模块(BGAFM, Block-Grid Attention Fusion Module)和残差混合注意力模块(RHAM, Residual Hybrid Attention Module)。这些模块通过多尺度分层特征提取和混合注意力机制，不仅增强了模型对细节特征的捕获能力，还提高了长距离依赖关系的建模能力。编码后的特征经过瓶颈层(MRAEB)进行压缩，提取得到高维上下文信息作为解码器的输入。在跳跃连接阶段，引入了基于gMLP的多尺度互通门控块(MSRGB)，通过内部交互门控机制，有效加强多尺度特征的融合，同时优化低层特征的利用。解码器部分通过反卷积操作和残差块(ResBlock)逐步上采样，恢复特征的空间分辨率，输出精细化的分割结果。

3.1. 多尺度残差注意力编码块

3.1.1. MSConv

MSConv模块包含多个不同卷积核大小的卷积层，能够有效提取多尺度特征并捕捉图像中的底层细节信息。具体地，如图1左上部分所示，MSConv由一个标准卷积层(Conv3 × 3)、两个并行深度可分离卷积层(DwConv5 × 5和DwConv7 × 7)以及一个多层感知机(MLP)组成。对于输入特征图 $x_{l} \in R^{C \times H \times W}, l \in {1, 2, \dots, L}$ ，其中C、H、W分别表示输入特征图的通道数，高度和宽度，L表示编码器的深度，该模块通过三个并行路径提取多尺度特征。标准卷积路径聚焦于捕获局部特征，而两个深度可分离卷积路径通过扩大感受野，从不同尺度获取上下文信息。这三条路径的输出通过级联组合，整体计算过程如公式(1)所示：

$Y_{c o n v} = C o n v 3 \times 3 (X) \oplus C o n c a t (D w C o n v 5 \times 5 (X), D w C o n v 7 \times 7 (X))$ (1)

随后，组合特征通过一个多层感知机模块进一步处理，激活通道之间的非线性关系：

$Y_{M L P} = L i n e a r (G E L U (L i n e a r (N o r m (Y_{c o n v}))))$ (2)

最后，模块通过残差连接将输入特征与MLP输出相加，计算结果表示为：

$Y = X + Y_{M L P}$ (3)

Figure 2. The architecture of Block-Grid Attention Fusion Module

图2. 块网格注意力融合模块(BGAFM)结构图

3.1.2. BGAFM

与CNN的局部卷积相比，全局交互是自注意力的核心优势之一。然而，将自注意力直接用于三维医疗图像会导致计算量急剧上升，使其难以满足实际应用对效率的需求。为了解决这个问题，本文提出了一种块–网格相对位置注意力模块BGAFM，通过对空间维度的多级分解，将全空间的注意力分解为两种形式：网格相对位置注意力(GRA)与块相对位置注意力(BRA)。设 $x_{l} \in R^{C \times H \times W \times D}, l \in {1, 2, \dots, L}$ 为输入特征图，本文没有直接将空间维度(H, W, D)直接展平为一维向量，而是参照Swin Transformer [13]的层次化策略，将特征分块为形状为(H/P × W/P × D/P, P × P × P, C)的不重叠的窗口，每个窗口的大小为P × P × P。随后，仅在每个窗口内部执行注意力运算，使整体计算量从原始的全局复杂度降至线性水平，形成块相对位置注意力。

Figure 3. The architecture of Residual Hybrid Attention Module

图3. 残差混合注意力模块(RHAM)结构图

虽然窗口内的局部注意力机制能够避免繁重的计算，但其有限的感受野会弱化长距离依赖建模能力。因此，在块相对位置注意力的基础上，本文提出了一种有效的方法来获取稀疏的全局注意力，称为网格相对位置注意力(GRA)。与分块相似，该策略使用固定的全局窗口数量(G × G × G)将特征张量均匀网格化为(G × G × G, H/G × W/G × D/G, C)，从而得到自适应大小为(H/G × W/G × D/G)的窗口。与空洞卷积[35]相似，网格相对位置注意力应用在稀疏的网格特征中，对应于扩大的全局空间标记混合。通过使用相同的窗口大小(P = G)，可在两类注意力之间建立一致操作，使模型在保持线性复杂度的同时兼顾局部细节与全局上下文。对于3D医学图像体素数量巨大的特点，该设计显著提升了注意力机制的效率。

参考Swin Transformer [13]，在局部–全局注意力计算中都引入了相对位置偏差 $B \in R^{M^{2} \times M^{2}}$ 到每个头：

$Relative Attention (Q, K, V) = SoftMax (Q K^{T} / \sqrt{d} + B) V$ (4)

这里的 $Q, K, V \in R^{M^{2} \times d}$ 分别对应查询矩阵、键矩阵和值矩阵，d是特征维度，M²为窗口的数量。

与绝对位置嵌入相比，相对位置偏差能够增强模型对相对位置信息的感知能力。对输入特征向量进行分块或网格化的过程中，标准的自注意力机制对输入序列的顺序并不敏感，因为它本质上是一个无序的全连接图，因此引入相对位置偏差后可以直接建模各个元素之间的相对距离，而不是绝对位置，使得模型能够学习到特定距离之间的模式(例如，距离较近的元素可能更相关)。

本模块按照并行的方式组合这两种类型的注意力，以在单个模块中同时获取局部和全局交互，如图2所示。模块内部采用Transformer的典型设计，包括了层归一化LayerNorm、前馈神经网络FFN与跳跃连接：

${X^{'}}_{l} = X_{l} + C o n v_{1 \times 1} (B R A (M L P (X_{l})) + G R A (M L P (X_{l})))$ (5)

$B (G) R A (X_{l}) = Relative Attention (X_{l}) + L a y e r N o r m (F F N (X_{l}))$ (6)

其中，MLP表示多层感知机， $C o n v_{1 \times 1}$ 表示1 × 1卷积，BRA表示块相对位置注意力，GRA表示网格相对位置注意力。

3.1.3. RHAM

在MRAEB的最后一个部分，本文引入了一个高效的残差混合注意力模块来强化不同维度的特征表示，具体结构如图3所示。RHAM由通道注意力(CA, Channel Attention)、空间注意力(SA, Spatial Attention)和一个深度注意力(DA, Depth Attention)组成，分别用于对通道进行动态加权，捕获上下文空间信息以及体积所有轴(例如CT或MRI中的切片)信息之间的交互。具体实现如公式(7)所示：

$R M H A (X) = D A (S A (C A (X_{l})))$ (7)

其中X_l是输入张量。由于在多个维度上使用注意力机制，本文所提出的RHAM比单独使用SE [34]更加有效捕捉数据中的关键信息，同时每个注意力内部的残差连接确保了深度网络中的梯度能够有效传播，避免梯度消失问题。

通道注意力(CA)通过为每个通道动态分配不同的权重，强调通道间的重要性，从而保留对分割结果有益的通道并抑制无效信息。借鉴SE模块[34]的设计，本文首先对H、W和D维度执行自适应最大池化和平均池化，提取每个通道中最具语义意义的特征。接着，将池化后的特征图相加，并通过逐点卷积和ReLU激活将通道数量减少至原始的1/r，其中r为通道缩放率。随后，使用另一个逐点卷积将通道数恢复至原始数量，并通过sigmoid激活函数生成注意力权重。最后，将生成的注意力权重图与输入特征相乘进行加权合成。公式(8)展示了CA模块的具体计算过程。

Figure 4. The architecture of Multi-Scale Reciprocal Gating Block

图4. 多尺度互通门控模块(MSRGB)结构图

$C A (x) = x + σ (C o n v_{2} (Re L U (C o n v_{1} (G A P (x) + G M P (x)))))$ (8)

本文采用空间注意力机制(SA)来关注特征图中的重要空间位置。具体操作是在特征图的D和C维度上进行最大池化，得到压缩后的特征图，然后通过大核卷积层增强特征之间的局部上下文关系。最后，应用Sigmoid激活函数计算注意力权重，并将其加权应用到输入特征上。计算过程如公式(9)所示。

$S A (x) = x + σ (C o n v_{7 \times 7} (G M P (x)))$ (9)

深度注意力(DA)旨在识别哪些切片包含与分割任务相关的重要信息，同时抑制无关的背景特征，从而提升模型的分割性能。与通道注意力(CA)类似，DA在H、W和C维度上进行平均池化和最大池化，池化后的特征图通过多层感知机(MLP)和sigmoid激活函数计算得到深度维度上的注意力权重图。最后，将加权后的特征图与输入特征进行融合：

$D A (x) = x + σ (M L P (G A P (x) + G M P (x)))$ (10)

3.2. 解码器部分

3.2.1. MSRGB

多尺度互通门控模块(MSRGB)旨在有效整合多尺度特征，并通过互通门控机制选择性地控制底层特征传播，可视为通用的增强型跳跃连接。如图4所示，具体地，MSRGB处理来自编码的三个不同分辨率的特征图(x₁, x₂, x₃)。以最后一个阶段对应的MSRGB为例， $x_{1} \in R^{\frac{H}{16} \times \frac{W}{16} \times \frac{D}{16} \times C_{l}}$ ， $x_{2} \in R^{\frac{H}{8} \times \frac{W}{8} \times \frac{D}{8} \times C_{l - 1}}$ ， $x_{3} \in R^{\frac{H}{4} \times \frac{W}{4} \times \frac{D}{4} \times C_{l - 2}}$ 分别对应Stage4，Stage3，Stage2的输出特征图；全局特征 $g l o b a l x$ 来自bottleneck的全局上下文表达。为了进一步融合细颗粒度特征以强化后续的跳跃连接，先将x₂，x₃分别下采样2倍与4倍，得到与x₁相同的分辨率大小，然后将对齐后的特征图在通道维度上进行拼接，形成融合特征表示 $x_{f u s e d}$ 。这种融合的特征既包含局部纹理信息，又包含广泛的上下文线索。

融合特征 $x_{f u s e d}$ 随后与反置卷积后的全局上下文特征 $g l o b a l x$ 通过互通门控模块(RGB, Reciprocal Gating Block)进一步处理，RGB采用互通门控单元(RGUs, Reciprocal Gating Units)实现特征的选择性增强。在RGB中， $x_{f u s e d}$ 与 $g l o b a l x$ 分别作为输入特征X和Y，经过投影生成特征 $X_{1}$ 与 $Y_{1}$ 并对两条并行流分别应用互通门控机制。门控机制根据另一条流的信息计算当前流的重要性，其具体公式如(11)~(13)所示。

$X' = M L P (C o n v_{1 \times 1} (X_{1})), Y' = M L P (C o n v_{1 \times 1} (Y_{1}))$ (11)

$G (x) = σ (N o r m (C o n v 1 d (X'))), G (Y) = σ (N o r m (C o n v 1 d (Y')))$ (12)

$X_{g a t e} = X ⊙ G (Y), Y_{g a t e} = Y ⊙ G (X),$ (13)

其中 $σ (\cdot)$ 表示激活函数， $N o r m$ 为归一化操作， $C o n v 1 d$ 表示轻量级一维卷积， $⊙$ 为逐元素相乘操作。这些处理后的特征随后被聚合，并引入残差连接以增强信息流动：

$X_{o u t} = X_{1} + L i n e a r (N o r m (X_{g a t e})), Y_{o u t} = Y_{1} + L i n e a r (N o r m (Y_{g a t e}))$ (14)

其中Linear表示线性投影，Norm为归一化操作。

3.2.2. 解码器

在解码器中，逐步恢复bottleneck特征的空间分辨率。首先，通过反卷积将特征图分辨率提高2倍，并与经过MSRGB优化后的特征进行连接。然后，将连接后的特征送入残差块，残差块由两个卷积层组成，卷积层通过实例归一化确保输出特征与输入特征的通道数相同。最后，使用反卷积和sigmoid激活函数生成最终的分割输出。

4. 实验方法与分析

4.1. 数据集及评价指标

本文在两个公开数据集上对所提出的方法进行了评估：Synapse多器官分割数据集和医学分割十项全能(MSD)脑肿瘤分割数据集。这两个数据集均被广泛用于评估医学图像分割算法的性能。Synapse数据集包含30例病人的3779张轴向对比增强腹部临床CT图像。每个CT体积由85~198个512 × 512像素切片组成，体素空间分辨率为([0.54~0.54] × [0.98~0.98] × [2.5~5.0]) mm³。数据集划分方式与Swin Transformer [14]保持一致，其中24个病例用于模型训练，6个病例用于模型测试。

MSD脑肿瘤数据集提供了多模态MRI扫描(T1、T1-Gd、T2和FLAIR)，用于胶质母细胞瘤的分割。目标区域包括GD增强肿瘤(ET)、肿瘤周围水肿(ED)和坏死/囊性核心(NCR)。预处理步骤包括去除颅骨、对所有模态进行强度归一化，以及重新采样至体素间距1.0 mm³。该数据集被划分为训练集和验证集，训练集包含484个样本，而验证集包含266个样本。

为了准确评估分割的性能，本文使用Dice相似系数(Dice Similarity Coefficient, DSC) [8]和豪斯多夫距离(Hausdorff Distance, HD)作为主要评价指标，定义如下：

$DSC = \frac{2 | A \cap B |}{| A | + | B |}$ (15)

其中，A表示预测的分割结果，B表示真实的分割标注， $| A \cap B |$ 表示预测结果与真实标注的交集面积， $| A |$ 和 $| B |$ 分别表示预测结果和真实标注的面积。DSC的取值范围在0到1之间，值越大表示预测结果与真实标注越接近。

Table 1. Segmentation results of different models on Synapse dataset

表1. 不同模型在Synapse数据集上的实验结果

网络模型	平均		DSC(%)
网络模型	DSC (%)↑	HD95 (mm)↓	主动脉	胆囊	左肾	右肾	肝脏	胰腺	脾脏	胃
UNet 3D	76.85	39.70	89.07	69.72	77.77	68.60	93.43	53.98	86.67	75.58
VNet	68.81	36.02	75.34	51.87	77.10	80.75	87.84	40.05	80.56	56.98
MT-UNet	78.59	26.59	87.92	64.99	81.47	77.29	93.06	59.46	87.75	76.81
TransUNet	77.48	31.69	87.23	63.13	81.87	77.02	94.08	55.86	85.08	75.62
SwinUNet	79.13	21.55	85.47	66.53	83.28	79.61	94.29	56.58	90.66	76.60
RMMLP	78.00	—	89.48	73.67	64.71	63.09	95.77	71.30	87.00	79.02
3D Ux-Net	85.03	12.56	86.85	91.89	89.59	74.06	95.63	85.38	79.54	77.61
UNETR	79.57	23.87	89.99	60.56	87.66	79.80	94.46	62.25	87.81	73.99
Swin UNETR	83.88	10.55	94.85	91.70	86.99	66.54	95.72	77.01	89.45	68.80
UNETR++	85.12	10.33	87.33	90.62	90.60	67.62	95.91	88.40	81.01	79.97
MSRGA-Net (ours)	88.80	8.93	95.50	92.59	90.89	80.91	96.64	86.01	91.43	76.46

Table 2. Segmentation results of different models on MSD BraTs dataset

表2. 不同模型在MSD BraTs数据集上的实验结果

网络模型	平均DSC↑	ET	WT	TC
UNet 3D	87.69	88.35	86.10	88.63
TransUNet	88.04	86.87	87.54	89.73
TransBTS	89.41	86.86	91.55	89.84
UNETR	88.08	88.92	85.98	89.36
Swin UNETR	91.03	89.11	93.34	90.65
MSRGA-Net (ours)	92.17	90.84	94.68	90.98

(16)

其中，d(a, b)表示点a和点b之间的欧氏距离，sup和inf分别表示上确界和下确界。HD衡量了预测结果和真实标注之间最远的误差距离，值越小表示预测结果与真实标注越接近。为排除一些离群点造成的不合理距离，保持整体数值的稳定性，本文使用HD95 (从小到大排名前95%的距离)进行性能评估。

4.2. 实验环境与参数设置

所有实验均在显存为32GB的NVIDIA Tesla V100 GPU上进行，使用PyTorch框架实现模型训练和测试，确保了高分辨率三维医学图像数据的计算效率。在模型优化过程中，采用AdamW优化器，初始学习率设定为0.005。为了确保稳定的收敛性，学习率采用余弦退火策略逐步衰减。训练阶段的批量大小设置为2，以在计算资源的限制和训练稳定性之间取得平衡。同时，应用随机裁剪、翻转和旋转等数据增强技术，以提高模型的泛化能力和鲁棒性。所提出的网络从头开始训练，权重通过Xavier初始化方法进行初始化。为了更好地融合不同尺度的全局与局部注意力，本文将块网格注意力融合模块中的局部窗口大小P和全局窗口大小G均设置为相同大小(4, 4, 2, 2)。在Synapse数据集上的总训练轮数设置为1500，而在MSD BraTS数据集上的总训练轮数设置为500。最佳模型通过验证集的性能进行选择。

Figure 5. Visualization of qualitative comparisons of different methods

图5. 不同方法定性比较的可视化结果

4.3. 实验结果与分析

在本研究中，本文对提出的MSRGA-Net在Synapse和MSD脑肿瘤数据集上的表现进行了全面评估，并将其与多种先进模型进行了对比，包括UNet 3D [3]、VNet [8]、MT-UNet [17]、TransUNet [14]、SwinUNet [16]、RMMLP [32]、TransBTS [15]、3D Ux-Net [18]、UNETR [19]、Swin UNETR [21]和UNETR++ [20]。表1展示了不同模型在Synapse数据集上的分割结果。

总体而言，基于体积数据的方法明显优于基于2D图像的方法，证明了通过在深度方向上实现特征交互，利用3D医学图像数据集可以有效提升模型性能。本文提出的方法在平均Dice相似系数(DSC)上达到了88.80%，95%分位数的Hausdorff距离(HD95)为8.93 mm，均显著优于其他方法。特别地，MSRGA-Net在几乎所有器官类别中实现了最高的DSC，包括主动脉95.50%、胆囊92.59%、左肾90.89%、右肾80.91%、肝脏96.64%和脾脏91.43%，展示了其卓越的多器官分割能力和鲁棒性。

与最先进的Swin UNETR相比，MSRGA-Net在平均DSC上提高了约4.92%，在HD95上减少了1.62 mm，表明本文提出的方法巧妙结合了多尺度特征提取、全局与局部特征交互及判别特征优化，达成了高效的特征传递与利用。此外，基于纯CNN或Transformer的模型，如3D Ux-Net和UNETR，在分割结果上表现不佳，这也间接证明了单一结构在多器官数据集上的泛化能力不足。这些结果进一步验证了本文的MSRGA-Net方法的有效性。

Table 3. Comparison of different encoders

表3. 不同编码器的比较

编码器	平均DSC (%)↑	HD95 (mm)↓
ResUNet [4]	75.26	29.86
ViT [12]	76.68	29.32
Swin Transformer [13]	83.49	11.25
MLP-Mixer [22]	76.49	45.53
R50-ViT [14]	78.79	17.94
MRAEB	88.80	8.93

Table 4. Comparison of different structures of MRAEB

表4. MRAEB不同结构的比较

不同模型结构			评价指标
MSConv	BGAFM	RHAM	平均DSC (%)↑	HD95 (mm)↓
×	×	×	83.26	18.43
√	×	×	86.46	13.22
√	√	×	87.93	12.88
√	√	√	88.80	8.93

在表2中，本文将MSRGA-Net与其他基于CNN和Transformer的方法在MSD脑肿瘤分割数据集上的性能进行了比较。结果表明，MSRGA-Net在总体平均Dice相似系数(DSC)上优于所有对比方法，并且在所有语义类别(ET、WT、TC)中的平均表现也达到了最佳。具体而言，MSRGA-Net在增强肿瘤(ET)、整体肿瘤(WT)和肿瘤核心(TC)分割任务上的Dice得分分别比排名第二的Swin UNETR高出1.34%、1.73%和0.33%，在所有类别中平均高出1.14%。MSRGA-Net的卓越性能主要得益于其高效融合了CNN、MLP和Transformer的优势，能够有效学习多尺度细节信息并高效建模长距离依赖关系。

4.4. 可视化结果及分析

为了进一步评估不同模型的分割性能，图5中提供了质化可视化结果。该图比较了肝脏、脾脏、肾脏和胰腺等关键器官和感兴趣区域的分割效果。如图所示，本文提出的MSRGA-Net在器官边界的准确划分上明显优于现有的基线模型(例如UNet 3D [3]、TransUNet [14]和Swin UNETR [21])。这种增强的精度在边界模糊且存在结构重叠的复杂区域(如胰腺和肾脏，红框所示)中尤为显著。尽管TransBTS和Swin UNETR等模型在分割结果上表现较好，但在形状复杂或对比度较低的区域中偶尔出现误分类。而MSRGA-Net的分割结果更加平滑，并且具有更高的解剖结构一致性。这归因于本文提出的多尺度特征优化和互通注意力机制，这两者在提升全局上下文理解的同时，保留了局部细节。通过可视化结果与定量指标的结合，进一步证明了MSRGA-Net在生成高质量分割结果中的卓越性。

4.5. 消融实验

为验证所提出网络架构中各组件的有效性，在Synapse数据集上设计了多个对比实验。

(1) 不同编码器的比较

本文比较了所提出的编码器与其他先进的Transformer和MLP方法对模型分割性能的影响。如表3所示，本文提出的MRAEB (MSConv + BGAFFM + RHAM)取得了最佳性能，平均DSC为88.80%，HD95为8.93 mm。这一结果超越了所有对比架构，突显了本文编码器在多尺度特征交互和层次化特征细化上的优势。在基线模型中，Swin Transformer [13]的表现相对较强(DSC: 83.49%, HD95: 11.25 mm)，这得益于其捕捉远程依赖关系的能力。然而，由于缺乏有效的多尺度特征融合，Swin Transformer的性能仍逊色于本文方法。同样，ViT [12]和MLP-Mixer [22]的结果较为中等(DSC: 76.68%和76.49%)，表明它们在处理密集型医学图像分割任务时存在特征提取不足的问题。

Table 5. Comparison of different fusion strategies

表5. 不同融合策略的比较

方法	平均DSC (%)↑	HD95 (mm)↓
Cross-Attention [11]	86.76	15.41
gMLP [23]	85.21	16.87
MSRGB (ours)	88.80	8.93

(2) MSConv、BGAFM及RHAM的有效性

如表4所示，为评估各模块在编码器中的作用，本文逐步移除MSConv、BGAFM和RHAM模块，并用简单卷积层替代进行对比实验。实验结果表明，MSConv是多尺度特征提取的重要组件，为模型提供了坚实的基础支持。引入BGAFM模块后，模型有效提取并融合长距离依赖关系和局部语义信息，从而改善了分割效果。结合RHAM模块后，模型通过多维度注意力加权机制进一步优化，在处理复杂解剖结构和边界细节时展现出更高的鲁棒性。最终，三个模块的协同整合使模型的分割性能达到了最优，充分验证了CNN在提取局部特征和自注意力机制在捕捉全局信息方面的优势互补性。

(3) MSRGB的有效性

表5展示了不同方法对编码器特征融合的影响。具体而言，引入Cross-Attention [11]方法后，模型的DSC达到了86.76%，HD95为15.41 mm，表明其在特征对齐和空间注意力建模方面具备一定的潜力。然而，较高的HD95值也表明该方法在捕捉精细边界信息方面仍存在不足。相比之下，Gmlp [23]方法的分割性能稍显不足，这可能与其在多尺度依赖关系建模方面的局限性有关。本文提出的MSRGB方法取得了最高的DSC (88.80%)和最低的HD95 (8.93 mm)，这一显著提升进一步验证了MSRGB在融合多尺度特征和增强判别性特征方面的优越性。

5. 结论与展望

为解决3D医学图像分割任务中面临的多尺度特征提取不足、编解码特征融合不充分以及边界细节处理能力有限的问题，本文提出了一个创新性框架——MSRGA-Net。具体而言，网络在编码器中引入了MSConv模块，有效捕捉多尺度特征，增强对不同尺度下解剖结构的感知能力；BGAFM模块通过高效集成全局和局部特征交互，平衡了模型的容量；而RHAM模块结合了语义、空间以及体积轴方向上的重要特征，强化了模型对复杂解剖结构和边界细节的处理能力。此外，MSRGB的引入进一步减轻了编码和解码过程中的语义差距，改善了空间一致性。这些模块的协同作用显著提升了分割性能。在Synapse数据集上，MSRGA-Net达到了平均DSC 88.80%、HD95 8.93 mm的最佳结果；同时在MSD脑肿瘤分割数据集上，平均DSC提升至92.17%，展现了其在多种形态医学图像数据上的卓越通用性。尽管MSRGA-Net在医学图像分割任务中表现优异，未来的研究仍需致力于探索该框架在多模态医学影像下的泛化能力，并进一步优化其轻量化设计，以满足实时应用需求。

参考文献

[1]	Qureshi, I., Yan, J.H., Abbas, Q., et al. (2023) Medical Image Segmentation Using Deep Semantic-Based Methods: A Review of Techniques, Applications and Emerging Trends. Information Fusion, 90, 316-352. [Google Scholar] [CrossRef]
[2]	石军, 王天同, 朱子琦, 等. 基于深度学习的医学图像分割方法综述[J]. 中国图象图形学报, 2025, 30(6): 2161-2186.
[3]	Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Lecture Notes in Computer Science, Springer, 234-241. [Google Scholar] [CrossRef]
[4]	Xiao, X., Lian, S., Luo, Z.M. and Li, S. (2018). Weighted Res-UNet for High-Quality Retina Vessel Segmentation. 2018 9th International Conference on Information Technology in Medicine and Education (ITME), Hangzhou, 19-21 October 2018, 327-331.[CrossRef]
[5]	Zhou, Z., Rahman Siddiquee, M.M., Tajbakhsh, N. and Liang, J. (2018) UNet++: A Nested U-Net Architecture for Medical Image Segmentation. In: Lecture Notes in Computer Science, Springer, 3-11. _1 [Google Scholar] [CrossRef]
[6]	Oktay, O., Schlemper, J., Folgoc, L.L., et al. (2018) Attention U-Net: Learning Where to Look for the Pancreas. Medical Imaging with Deep Learning (MIDL), 1-10.
[7]	Huang, H.M., Lin, L.F., Tong, R.F., et al. (2020) UNet 3+: A Full-Scale Connected UNet for Medical Image Segmentation. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, 4-8 May 2020, 1055-1059. [Google Scholar] [CrossRef]
[8]	Milletari, F., Navab, N. and Ahmadi, S. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 2016 4th International Conference on 3D Vision (3DV), Stanford, 25-28 October 2016, 565-571.[CrossRef]
[9]	Azad, R., Asadi-Aghbolaghi, M., Fathy, M. and Escalera, S. (2019) Bi-Directional ConvLSTM U-Net with Densley Connected Convolutions. 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), Seoul, 27-28 October 2019, 406-415. [Google Scholar] [CrossRef]
[10]	Isensee, F., Petersen, J., Klein, A., et al. (2018) NNU-Net: Self-Adapting Framework for U-Net-Based Medical Image Segmentation. Nature Methods, 18, 203-211.
[11]	Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Curran Associates Inc.
[12]	Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR), 1-22.
[13]	Liu, Z., Lin, Y.T., Cao, Y., et al. (2021) Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 9992-10002. [Google Scholar] [CrossRef]
[14]	Chen, J.N., Lu, Y.Y., Yu, Q.H., et al. (2021) TransuNet: Transformers Make Strong Encoders for Medical Image Segmentation. arXiv preprint arXiv:2102.04306.
[15]	Zhang, Y.D., Liu, H.Y., Hu, Q., Wang, W., et al. (2021) Transbts: Multimodal Brain Tumor Segmentation Using Transformer. In: Lecture Notes in Computer Science, Springer, 109-119. [Google Scholar] [CrossRef]
[16]	Cao, H., Wang, Y., Chen, J., Jiang, D., Zhang, X., Tian, Q., et al. (2023) Swin-UNet: Unet-Like Pure Transformer for Medical Image Segmentation. In: Lecture Notes in Computer Science, Springer, 205-218. [Google Scholar] [CrossRef]
[17]	Wang, H., Xie, S., Lin, L., Iwamoto, Y., Han, X., Chen, Y., et al. (2022). Mixed Transformer U-Net for Medical Image Segmentation. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Singapore, 23-27 May 2022, 2390-2394.[CrossRef]
[18]	Lee, H.H., Bao, S., Huo, Y., et al. (2022) 3d UX-Net: A Large Kernel Volumetric Convnet Modernizing Hierarchical Transformer for Medical Image Segmentation. International Conference on Learning Representations (ICLR), 1-15. https://iclr.cc/virtual/2023/poster/11340
[19]	Hatamizadeh, A., Tang, Y., Nath, V., Yang, D., Myronenko, A., Landman, B., et al. (2022) UNETR: Transformers for 3D Medical Image Segmentation. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 3-8 January 2022, 1748-1758. [Google Scholar] [CrossRef]
[20]	Shaker, A., Maaz, M., Rasheed, H., Khan, S., Yang, M. and Shahbaz Khan, F. (2024) UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation. IEEE Transactions on Medical Imaging, 43, 3377-3390. [Google Scholar] [CrossRef] [PubMed]
[21]	Hatamizadeh, A., Nath, V., Tang, Y., Yang, D., Roth, H.R. and Xu, D. (2021) Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images. In: Lecture Notes in Computer Science, Springer, 272-284. [Google Scholar] [CrossRef]
[22]	Tolstikhin, I.O., Houlsby, N., Kolesnikov, A., et al. (2021) MLP-Mixer: An ALL-MLP Architecture for Vision. Advances in Neural Information Processing Systems, 34, 24261-24272.
[23]	Liu, H.X., Dai, Z.H., So, D., et al. (2021) Pay Attention to MLPs. Advances in Neural Information Processing Systems, 34, 9204-9215.
[24]	Lian, D.Z., Yu, Z.H., Sun, X., et al. (2022) AS-MLP: An Axial Shifted MLP Architecture for Vision. International Conference on Learning Representations (ICLR), 1-19.
[25]	Touvron, H., Bojanowski, P., Caron, M., Cord, M., El-Nouby, A., Grave, E., et al. (2022) Resmlp: Feedforward Networks for Image Classification with Data-Efficient Training. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 5314-5321. [Google Scholar] [CrossRef] [PubMed]
[26]	Chen, S.F., Xie, E., Ge, C.J., et al. (2021) Cyclemlp: A MLP-Like Architecture for Dense Prediction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 14284-14300.
[27]	Tu, Z.Z., Talebi, H., Zhang, H., et al. (2022) MAXIM: Multi-Axis MLP for Image Processing. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 5769-5780. [Google Scholar] [CrossRef]
[28]	Hou, Q.B., Jiang, Z.H., Yuan, L., et al. (2022) Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 1328-1334. [Google Scholar] [CrossRef] [PubMed]
[29]	Yu, T., Li, X., Cai, Y., Sun, M. and Li, P. (2022) S2-MLP: Spatial-Shift MLP Architecture for Vision. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 3-8 January 2022, 297-306. [Google Scholar] [CrossRef]
[30]	Valanarasu, J.M.J. and Patel, V.M. (2022) UNext: MLP-Based Rapid Medical Image Segmentation Network. In: Lecture Notes in Computer Science, Springer, 23-33. [Google Scholar] [CrossRef]
[31]	Lv, J.K., Hu, Y.Y., Fu, Q.S., et al. (2022) CM-MLP: Cascade Multi-Scale MLP with Axial Context Relation Encoder for Edge Segmentation of Medical Image. 2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), Las Vegas, 6-8 December 2022, 1100-1107. [Google Scholar] [CrossRef]
[32]	Ji, C., Deng, Z.H., Ding, Y., et al. (2023) RMMLP: Rolling MLP and Matrix Decomposition for Skin Lesion Segmentation. Biomedical Signal Processing and Control, 84, Article 104825. [Google Scholar] [CrossRef]
[33]	Shao, Y.Q., Zhou, K.Y. and Zhang, L.C. (2024) CSSNet: Cascaded Spatial Shift Network for Multi-Organ Segmentation. Computers in Biology and Medicine, 170, Article 107955. [Google Scholar] [CrossRef] [PubMed]
[34]	Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141. [Google Scholar] [CrossRef]
[35]	Yu, F. and Koltun, V. (2015) Multi-Scale Context Aggregation by Dilated Convolutions. International Conference on Learning Representations (ICLR), 1-13.

为你推荐

友情链接