1. 引言
结直肠癌(Colorectal Cancer, CRC)在全球范围内的发病率和死亡率居高不下,新增病例和死亡人数在所有恶性肿瘤中位列前三[1]。在CRC的临床诊断中,病理切片分析是确诊和治疗计划制定的重要环节。通过病理切片图像的精确分割,医生能够更准确地识别肿瘤的边界、大小、形态等特征,从而为患者提供更为精确的治疗策略[2]。
传统的人工分割过程耗时且依赖医生的经验和主观判断,导致分割结果的一致性和可重复性受限[3]。随着医疗影像数据量的增加,医生的分析负担进一步加重,影响了诊断的准确性和临床效率[4]。随着医学图像技术的快速发展,自动化的医学图像分割方法在提高诊断效率和准确性方面显示出巨大的潜力[5]。自动化分割方法可以减少医生的主观判断误差,提高病理诊断的一致性和可重复性,对改善结直肠癌患者的预后和提高治疗效果具有重要的临床意义。
尽管传统的医学图像分割技术,如基于阈值的分割[6]、边缘检测[7]、区域生长[8]等方法,在某些情况下能够取得一定的分割效果,但它们通常依赖于图像的特定特征,在处理具有复杂背景和模糊边界的图像时,分割精度和鲁棒性往往不足[9]。随着深度学习技术的兴起,基于卷积神经网络(CNN)和Transformer模型的方法已经在医学图像分割领域取得了显著的进展,这些方法通过学习图像的深层特征,提高了分割的准确性[10]。然而,现有方法在处理长范围依赖和捕捉局部细节方面仍存在不足,特别是在面对肿瘤组织的微小变化和复杂的病理切片背景时,这些方法往往难以达到理想的分割效果[11]。
卷积神经网络(CNN)由于其直接从原始图像数据中学习层次化特征的能力,在医学图像分割领域取得了显著的进展,其中U-Net [12]是一个具有里程碑意义的模型,它采用编码器–解码器结构和跳跃连接来实现精确的定位和分割。U-Net的多个变体,如U-Net++ [13]、Attention U-Net [14]、Res-UNet [15]和U-Net3+ [16],通过引入更复杂的跳跃连接、注意力机制和残差连接网络,进一步提高了分割的准确性。尽管这些基于CNN的方法在图像分割领域取得了显著成就,但它们仍面临着局部感受野限制,难以捕捉图像中的长距离依赖和复杂上下文信息。
Transformer架构最初用于自然语言处理任务,但最近已被成功应用于医学图像分割,其自注意力机制有效地模拟了图像中的长距离依赖和上下文信息。例如,TransUNet [17]结合了CNN和Transformer的优势,利用CNN提取局部特征,同时使用Transformer编码器捕捉全局上下文。Swin-UNet [18]基于Swin Transformer,通过层次结构和滑动窗口平衡局部和全局特征提取。UCTransNet [19]重新思考了跳跃连接在U-Net结构中的作用,引入Channel Transformer (CTrans)模块来替换普通的跳跃连接。nnFormer [20]是专为医学图像分割设计的Transformer架构,利用自注意力机制建模长距离依赖。此外,ConvNext [21]是一种新一代CNN架构,旨在提高图像分割任务中的效率和性能。尽管基于Transformer的模型在分割性能上显示出显著的改进,但它们的计算复杂性较高,需要大量的计算资源和更长的训练时间。
状态空间序列模型(SSMs) [22]在长序列数据处理中表现出色,Mamba模型[23]通过选择机制进一步改进了SSMs,允许模型以依赖输入的方式选择相关信息。VMamba [24]在视觉任务中展现了显著优势,不仅保留了全局特征提取能力,还显著降低了Transformer的计算复杂度,凸显了其在长距离依赖建模中的潜力。
本文提出了一种基于VMamba与CNN融合的结直肠癌图像分割方法,旨在克服CNN和Transformer的局限性。通过整合VMamba的长距离依赖建模能力和CNN的局部特征提取优势,我们的模型在分割精度和计算效率上取得了平衡。此外,改进的ConvNext模块通过细节增强卷积进一步提升了细粒度特征提取能力,而专为跳跃连接设计的局部自注意力机制则优化了特征融合过程,在降低计算复杂度的同时保持了高分割精度。
为了解决这些挑战,我们提出了一种结合VMamba和CNN的混合架构VMDC-Unet。VMamba模型以其通过状态空间表示处理长距离依赖的效率而闻名,它补充了CNN的局部特征提取能力。这种混合方法旨在利用两种模型的优势,实现卓越的分割性能。
我们的贡献有三个方面:
1) 混合VMamba和CNN结构:在结直肠癌图像分割领域引入混合VMamba-CNN结构的研究。通过结合这两种强大的模型,我们旨在提高分割的准确性和效率,展示在医学图像分割任务中的强烈竞争力。
2) 改进的ConvNext模块:我们改进了ConvNext模块,通过结合细节增强卷积,允许上采样模块更好地提取和恢复图像中的细粒度特征,从而提升分割的精度。
3) 用于跳跃连接的自注意力机制:我们提出了一种专为跳跃连接设计的局部自注意力机制。这种机制在减少计算复杂性的同时,改善了编码器和解码器特征的融合。我们的实验表明,这种方法不仅保持了高分割准确性,还提高了模型的效率。
2. 方法
我们提出的VMDC-Unet如图1所示,采用U型架构,主要模块包括编码器、跳跃连接和解码器。
编码器将输入图像分割为4 × 4不重叠块,并通过线性嵌入层投影到特征维度C (默认96),转换后的块输入四个编码器模块中来生成特征提取,每个编码器模块包括两个VMamba层和一个下采样层。具体来说,Vmamaba负责进行提取图像全局特征,下采样层负责减少输入特征的高度和通道数。每个解码器也由两个DeConvNext层和上采样层组成,从而将提取的上下文特征与编码器的多尺度特征进行融合。其中,DeConvNext层负责提取图像局部特征,上采样层负责恢复特征的高度和宽度,经过四个解码器之后,使用最终投影层来恢复特征的大小,来匹配分割目标。
2.1. VSS块
VSS块是VMamba架构中的核心模块,用于捕获图像上下文信息并提取特征,其结构如图2所示。
Figure 1. VMDC-Unet overall structure diagram
图1. VMDC-Unet整体结构图
Figure 2. VSS block structure diagram
图2. VSS块结构图
VSS块由一个网络分支和两个残差连接组成,输入数据首先通过一个线性层进行特征变换。随后通过深度可分离卷积层,这种卷积层首先对每个输入通道进行空间卷积,然后所有通道共享一个1 × 1的卷积层来混合特征,这有助于减少计算量。并通过一个SiLU非线性激活函数来引入非线性特性,增强模型的表达能力。随后,由VSS块的核心SS2D执行选择性扫描操作,通过交叉扫描、选择扫描、交叉合并来提取图像的全局信息。最后,将特征通过线性层进行混合,并通过残差连接与输入相加,形成VSS块的输出。
SS2D模块的设计目的是将一维选择性扫描的概念扩展到二维视觉领域,主要包括交叉扫描、S6块、交叉合并。输入图像首先被沿四个不同的方向(从左上到右下、从右下到左上、从右上到左下、从左下到右上)展开成序列。这一步骤将图像分割成多个序列,使得每个序列都包含了图像在特定方向上的信息。
每个序列通过独立的S6块进行处理,S6块受Mamba模型中的选择性扫描机制启发,通过调整状态空间模型(SSM)的参数,根据输入动态选择性地保留相关信息,同时过滤掉不相关的信息。
经过S6块处理后的序列从四个方向重新合并,以恢复输出图像到与输入相同的尺寸。这一步骤确保了图像特征的完整性,并为后续的处理步骤提供了一个统一的特征表示。
2.2. DeConvNext块
DeConvNext块在ConvNextV2模块的基础上进行了创新,引入了差分增强卷积(DeConv),以显著提升局部特征提取能力。其核心思想在于利用多个并行卷积分支分别捕捉输入图像中的不同细节信息,并通过差分运算突出局部变化。具体来说,DeConv模块包括原始卷积(VC)、中心差异卷积(CDC)、角度差异卷积(ADC)、水平差异卷积(HDC)和垂直差异卷积(VDC)五个分支,每个分支侧重于提取图像中不同方向和尺度的高频信息,如边缘和轮廓。通过计算这些分支输出之间的差异,模块能够显式地编码先验信息,从而更敏感地捕捉局部细节。
为了将这些并行分支高效地整合到一个统一的卷积操作中,DeConv模块采用了重参数化技术。该技术在训练阶段保持多个并行卷积分支以充分利用它们各自的特征提取优势,而在推理阶段,通过对各分支相应位置的权重进行逐点相加,实现将多个卷积层“融合”为一个标准卷积层。这不仅简化了模型结构,降低了计算成本,同时避免了额外的参数开销,从而在保持高分割精度的同时提升了模型的运行效率。图3直观展示了这一过程:首先利用DeConv对输入数据进行预处理,通过重参数化后获得精细化的局部特征,为后续深层特征分析奠定坚实基础。随后,输入数据通过深度可分离卷积层,该层采用了7 × 7的大卷积核,代替了传统的3 × 3卷积核。这种设计选择使得网络能够在捕获更广阔范围的上下文信息的同时,减少参数数量和计算量,从而在保持高效性能的同时,降低模型的复杂性。
进一步地,特征图经过1 × 1的逐点卷积进行通道数的调整,这不仅有助于网络学习到更有效的特征表示,而且保持了计算的高效率。紧接着,LayerNorm提供了一种稳定的归一化机制,为深层网络训练提供了帮助。再次通过逐点卷积和GELU非线性激活函数,网络能够进一步学习复杂的特征映射,这对于提高分割精度至关重要。
最终,全局响应归一化层(GRN)的应用,为网络带来了全局归一化的能力,通过规范化整个特征图的响应,增强了特征之间的对比度,使得网络能够更清晰地区分不同的特征,从而进一步提升了模型的分割性能和泛化能力。
2.3. 跳跃连接
在卷积神经网络(CNN)的设计中,跳跃连接是一种常见的技术,用于缓解深层网络中的梯度消失问题,并增强特征的传递。传统上,跳跃连接通过两种方式实现:一种是concatenation,即将不同层的通道直接拼接起来;另一种是addition,即将特征图进行简单的相加。然而,concatenation可能会增加特征的冗余性,导致网络需要额外的努力来识别并忽略不重要的特征。而addition的方式虽然简单,但可能不足以有效地整合复杂的特征信息。
为了解决这些问题,本文提出了一种基于局部自注意力机制的改进方法,如图4所示。自注意力机制能够捕捉序列内部的长距离依赖关系,通过计算序列中每个元素对其他所有元素的注意力权重,实现
Figure 3. (a) DeConvNext block diagram; (b) DeConv structure diagram
图3. (a) DeConvNext块结构图;(b) DeConv结构图
上下文特征的有效融合。具体来说,模型为序列中的每个元素生成查询(Q)、键(K)和值(V),这些是通过不同的线性变换得到的。然后,模型计算查询与所有键的兼容性,通常采用点积操作来实现,并使用softmax函数对得到的注意力矩阵进行归一化,以获得每个元素对其他元素的注意力权重。最后,利用这些权重对值进行加权求和,得到加权的平均表示,这个表示将作为当前元素的更新。
在本文的方法中,我们采用了一种创新的策略:利用上采样层的局部特征来生成查询和键,而将下采样层的全局特征作为值。通过这种方式生成注意力矩阵,并且根据该注意力矩阵来提取下采样层传过来的全局特征。我们不仅能够保留局部特征的细节,还能够更好的融合全局上下文信息,提高模型对复杂特征的处理能力。
Figure 4. Skip connection structure diagram
图4. 跳跃连接结构图
3. 实验
3.1. 数据集
本文采用了两个不同的数据集,分别为上海交通大学附属第一人民医院胃肠外科提供的数据集(简称SJTU_GSFPH)以及一个公开的结直肠癌分割挑战数据集(简称Glas)。
SJTU_GSFPH数据集包含了2014年1月至2018年12月期间经术后病理证实的Ⅱ、Ⅲ期CRC患者的临床资料、术后病理和随访结果等。其中左半结肠和直肠癌共546例,黏液腺癌103例,腺癌717例。该数据集共有996张HE切片图像,图像尺寸为1276 × 689,标注图包括四个类别,其中,黑色表示肿瘤实质、蓝色表示间质细胞、红色表示间质中的胶原等(非细胞)成分、黄色表示间质中的坏死。每张图像被对半切分后。该数据集数量被扩充至1992张,随后被分为1400个训练图像和592个测试图像。
Glas数据集是一个专门针对结直肠癌组织切片图像的医学图像分割挑战数据集,它包含了165张来自16张不同患者H&E染色的全幻灯片图像(WSIs)。这些图像均采用MIRAXMIDI幻灯片扫描仪以20倍物镜放大和0.465微米像素分辨率进行扫描,以获取高清晰度的图像数据。数据集中的每张图像尺寸均为775 × 522像素,并提供了详细的实例分割标注,精确地标识出每个腺体的边界和流明区域。为了支持模型的训练与评估,这165张图像被划分为85张训练图像,80张测试图像。
3.2. 实现细节
输入图像被缩放至256 × 256分辨率,训练模型batch大小为8,采用AdamW优化器,初始学习率为1e−3。采用余弦退火学习率调节算法(Cosine Annealing Learning Rate)作为调度器,最大迭代次数为50次,最小学习率为1e−5。训练次数设置为300次。实验使用pytorch框架在单个NVIDIA RTX4070 GPU上进行,实验采用DICE、IOU和Hausdorff距离(HD95)作为我们的模型评估指标。
3.3. 实验结果及性能分析
3.3.1. SJTU_GSFPH数据集
为了全面评估所提出的VMDC-Unet模型在结直肠癌切片图像分割任务中的有效性,本文将其与多种基于CNN和Transformer的先进模型进行了比较,包括U-Net及其变体(如R34-U-Net、UNet++、Attention-Unet)以及基于Transformer的模型(如TransUnet, Swin-Unet、UCTransNet、nnFormer),同时以VMUnet作为基准模型。
实验结果显示,我们提出的CNN-VMamba混合方法(即VMDC-Unet)在两个关键的分割性能指标——平均交并比(MIOU)和Dice系数上均取得了最佳性能。具体来说,VMDC-Unet的MIOU达到了79.4%,Dice系数达到了88.51%,显著优于其他比较模型。这一结果表明,通过结合CNN和VMamba网络的优势,VMDC-Unet能够更准确地识别和分割结直肠组织切片中的腺体结构。
从表1的对比结果可以看出,经典的U-Net模型表现最弱,引入残差网络的R34-U-Net和多尺度连接的UNet++在性能上有所改进,但提升有限。Attention-Unet通过注意力机制显著增强了目标区域的分割能力。基于Transformer的模型(如TransUnet、Swin-Unet和UCTransNet)进一步提升了分割性能,其中TransUnet的MIOU达到78.14%,Dice系数为87.52%,展现了全局信息建模能力的重要性。相比之下,VMUnet使用VMamba模块,性能进一步提升至MIOU为78.42%,Dice系数为87.95%,HD95降至12.87。最终,提出的VMDC-Unet模型通过对网络结构的优化,实现了最佳分割性能,其MIOU和Dice系数分别提升了1%和1.6%,HD95降低至10.95。这一结果验证了VMDC-Unet在复杂腺体分割任务中的有效性和优越性。
图5展示了不同模型在SJTU_GSFPH数据集上的可视化分割结果。通过直观比较,我们可以观察到VMDC-Unet在细节处理和边界识别上的优势。在复杂的组织结构和腺体边界模糊的情况下,VMDC-Unet能够生成更加平滑和准确的分割边缘,减少了对肿瘤和间质的分割误差。
Table 1. Comparison results of different models on the SJTU_GSFPH dataset
表1. 不同模型在SJTU_GSFPH数据集上的对比结果
Method |
Avg MIOU↑ |
Avg DICE↑ |
Avg HD95↓ |
U-Net |
61.65 |
70.21 |
24.73 |
R34-U-Net |
63.30 |
72.83 |
23.58 |
UNet++ |
64.12 |
72.95 |
23.07 |
Attention-Unet |
68.61 |
75.36 |
20.51 |
TransUnet |
78.14 |
87.52 |
15.26 |
Swin-Unet |
77.82 |
86.73 |
16.71 |
UCTransNet |
78.03 |
87.23 |
15.82 |
nnFormer |
77.65 |
86.29 |
14.77 |
VMUnet |
78.42 |
87.95 |
12.87 |
VMDC-Unet |
79.40 |
89.51 |
10.95 |
Figure 5. Visualization of segmentation effects of different models on the SJTU_GSFPH dataset
图5. 不同模型在SJTU_GSFPH数据集上的分割效果可视化
3.3.2. Glas数据集
为了进一步验证所提出VMDC-Unet模型的泛化能力,我们在另一个公开的结直肠癌组织切片数据集——Glas数据集上进行了评估。实验结果如表2所示。与SJTU_GSFPH数据集的表现一致,VMDC-Unet在Glas数据集上依然展现了最优性能,其平均交并比(MIOU)和Dice系数分别达到了83.21%和91.63%,同时HD95指标进一步降低至6.74,充分体现了其在不同数据集上的优越性和出色的泛化能力。
从表2的对比结果可以看出,U-Net的基础性能较弱,而引入残差模块的R34-U-Net和多尺度设计的UNet++提升有限。Attention-Unet和基于Transformer的模型(如TransUnet和Swin-Unet)在捕获全局和局部特征方面表现优异,其中Swin-Unet达到MIOU 82.13%和Dice 89.62%。VMUnet通过全局采用VMamba模块进一步提升,MIOU和Dice分别为82.87%和91.09%。最终,VMDC-Unet获得了最佳性能,并验证了其卓越的泛化能力。
图6展示了不同模型在Glas数据集上的可视化分割结果。可视化结果与SJTU_GSFPH数据集相仿,VMDC-Unet生成了更好的分割结果,比其他基准模型的结果相比更接近真实值。可以很容易地看出,我们提出的方法不仅突出了正确的显著区域,消除了混淆的假阳性病灶,而且还产生了连贯的边界。这些观察表明,VMDC-Unet能够在保留细节形状信息的同时进行更精细的分割。
值得注意的是,在两个不同的数据集上,Swin-Unet和Transunet的表现不同。在SJTU_GSFPH数据集上,由于该数据集腺体结构复杂且背景干扰较多,全局注意力机制能够更好地捕捉全局语义上下文关系,因此TransUnet表现更优。而Glas数据集中腺体的边界更加规则、纹理较为清晰,因此Swin-Unet的局部特性提取能力得以充分发挥。而结合了特征提取和全局语义捕捉的VMDC-Unet则可以在两个数据集都有不错的效果。
综上所述,无论是在SJTU_GSFPH数据集还是Glas数据集上,VMDC-Unet都展现出了卓越的分割性能和泛化能力。这些结果表明,VMDC-Unet不仅适用于特定的数据集,而且能够很好地处理来自不同患者和不同染色条件下的图像。未来的工作将集中在进一步优化模型结构,探索新的训练策略,并在更多的数据集上进行评估,以实现更高的分割精度和更好的临床应用前景。
Table 2. Comparison results of different models on the Glas dataset
表2. 不同模型在Glas数据集上的对比结果
Method |
Avg MIOU↑ |
Avg DICE↑ |
Avg HD95↓ |
U-Net |
74.71 |
85.46 |
15.30 |
R34-U-Net |
76.22 |
87.15 |
10.27 |
UNet++ |
77.03 |
87.56 |
12.72 |
Attention-Unet |
80.63 |
88.80 |
9.10 |
TransUnet |
80.4 |
88.43 |
8.27 |
Swin-Unet |
82.13 |
89.62 |
9.00 |
UCTransNet |
82.25 |
90.18 |
7.52 |
VMUnet |
82.87 |
91.09 |
7.52 |
VMDC-Unet |
83.21 |
91.63 |
6.74 |
Figure 6. Visualization of segmentation effects of different models on the Glas dataset
图6. 不同模型在Glas数据集上的分割效果可视化
3.4. 消融实验
为了全面评估所提出的VMDC-Unet模型中各个组件的贡献,本文进行了一系列的消融实验。这些实验特别关注了对ConvNext模块的改进——DeConvNext模块,以及在跳跃连接中引入的自注意力机制(Self-Att)的有效性。通过这些实验,我们旨在验证这些技术是否真正增强了模型的分割性能,并探索它们在处理复杂生物医学图像时的潜力。
实验结果如表3所示,从中观察可得,将原始的ConvNext模块替换为DeConvNext模块,无论是否引入自注意力机制,模型的性能都有轻微提升,特别是在SJTU_GSFPH数据集上。DeConvNext模块在特征恢复阶段的表现更为突出,表明其在特征重建方面的效果可能更加显著。
进一步分析发现,在所有配置中,引入自注意力机制的模型均比简单的相加操作表现得更好,尤其在图像细节和上下文信息的处理上展现出了明显的优势。特别是,当DeConvNext模块和自注意力机制结合使用时,在MIOU和Dice系数上均达到了最佳性能,分别为79.4%和88.51% (SJTU_GSFPH数据集),以及83.21%和91.63% (Glas数据集)。这一结果进一步验证了DeConvNext模块和自注意力机制在提升分割精度方面的有效性与互补性。
表4展示了不同模型的参数量和浮点运算(Flops),为模型的计算复杂度和资源效率提供了直观对比。可以看出,VMDC-Unet模型拥有最高的参数量(197.47 M),但其FLOPS却是最低的(6.66亿次浮点运算),这得益于VMamba模块,它拥有与Transformer类似的全局特征提取能力的同时大幅降低了计算复杂度。通过将VMamba与CNN结合,VMDC-Unet在参数量与计算效率之间达成了最优折中,表现出了不错的性能和泛化能力。
Table 3. Ablation experiment results
表3. 消融实验结果
Method |
SJTU_GSFPH |
Glas |
BaseLine |
ConvNext |
DeConv |
Self-Att |
MIOU |
DICE |
MIOU |
DICE |
√ |
|
|
|
78.41 |
87.90 |
82.87 |
91.09 |
√ |
√ |
|
|
79.02 |
88.25 |
82.66 |
90.72 |
√ |
√ |
√ |
|
79.21 |
88.43 |
83.10 |
91.35 |
√ |
√ |
|
√ |
79.23 |
88.47 |
83.02 |
91.14 |
√ |
√ |
√ |
√ |
79.40 |
88.51 |
83.21 |
91.63 |
Table 4. Total model parameters and total number of floating point operations in one forward propagation
表4. 模型总参数量和一次向前传播的浮点运算总数
Method |
Params (M) |
Flops |
U-Net |
25.81 |
29.02 |
TransUnet |
105.32 |
32.25 |
Swin-Unet |
27.18 |
7.74 |
VMDC-Unet |
197.47 |
6.66 |
4. 结论
本文提出的VMDC-Unet模型在结直肠癌病理切片图像分割任务中展现了卓越的性能。通过结合VMamba和CNN的优势,该模型不仅提高了分割的准确性,还增强了对长距离依赖的处理能力。通过引入改进的ConvNext模块和自注意力机制,VMDC-Unet在细节恢复和特征融合方面表现出色,显著提升了分割精度。
实验结果表明,在SJTU_GSFPH和Glas两个数据集上,VMDC-Unet均取得了最佳的MIOU和DICE系数,同时HD95指标显著降低,充分验证了模型在不同数据集上的优异泛化能力和高效性。此外,通过消融实验评估了模型中各关键组件的作用,验证了DeConvNext模块和自注意力机制在提升局部特征提取能力和增强模型感知细节及上下文信息方面的重要性。实验结果表明,这些创新模块显著改善了分割精度,并且通过重参数化技术的应用,有效降低了计算开销,提高了整体模型的运行效率。
综上所述,VMDC-Unet在分割精度、模型泛化能力和计算效率之间实现了良好的平衡,为结直肠癌病理切片图像分割提供了一种创新而有效的解决方案。未来工作将集中在进一步优化网络结构、探索更高效的训练策略以及在更多临床数据集上的验证,力求为结直肠癌的精确诊疗提供更可靠的技术支持。
致 谢
本研究受到了国家自然科学基金项目(61572325);上海市重点科技项目(19DZ1208903)的资助,本文作者团队对上述项目的支持表示感谢。
基金项目
国家自然科学基金项目(61572325);上海市重点科技项目(19DZ1208903)。