1. 引言
乳腺肿瘤已然成为女性最常见的肿瘤之一,是如今女性健康的主要杀手[1]。根据数据统计,自2020年起,乳腺癌已经成为全球癌症发病率的主导原因,也是全球癌症死亡的第五大原因[2]。因此,乳腺癌的早期诊断及治疗对患者来说至关重要。而超声成像技术因其价格实惠、操作简便和无创性等特点,已经成为了乳腺癌早期诊断最常见的方法之一[3]。而人工筛选、诊断超声图像耗时大、效率低且带有一定的主观性,因此,使用计算机进行辅助诊断,能够为医生提供更加精确的病灶信息,从而辅助医生进行诊断治疗[4]。
乳腺超声图像分割主要方法可分为基于传统图像处理和基于深度学习的方法。而传统图像处理方法主要可分为区域增长算法以及阈值分割法。然而基于传统图像处理的方法仅适用于简单且成像质量较高的乳腺超声图像分割,而对于复杂的、噪声高的且存在大量伪影的超声图像分割效果较差。而随着深度学习的发展,各种基于深度学习的乳腺超声图像分割方法纷纷踊跃[5]。
深度学习发展迅速,呈现了许多经典的模型,例如卷积神经网络(CNN)、Transformer、Mamba等模型。其中,Ronneberger等人[6]提出的Unet最为经典。Shareef等人[7]利用行列式核来适应乳腺分割结构,并设计双编码器以融合不同尺度的信息来分割小乳腺肿瘤。Yap等人[8]研究了三种基于CNN的乳腺超声病变检测的方法。Hu等人[9]提出将扩张卷积网络与基于相位的活动轮廓模型相结合以自动分割乳腺病变区域。Chen等人[10]结合Transformer与Unet的优势,采用Transformer架构作为编码器,很好地提高了医学图像分割任务的性能。Cao等人[11]提出了一种具有Unet结构的纯Transformer网络模型,它使用具有移位窗口的分层自注意力机制即Swin Transformer [12]作为编码器和解码器。Mo等人[13]提出了Hover-Trans网络,在乳腺超声图像中使用Transformer进行乳腺肿瘤诊断。状态空间模型(State Space Model, SSM)的飞速发展为处理长序列提供了一种十分有前景的解决方案[14]。Mamba模型通过选择性机制和硬件优化增强了S4模型,在密集数据域中呈现出了卓越的性能[15]。在视觉Mamba模型(Visual Mamba, VMamba)中引入交叉扫描模块(Cross-Scan Module, CSM) [16],通过对空间域的遍历并将视觉图像转换为有序的补丁序列,进一步增强了Mamba对计算机视觉任务的适用性。后续还出现了采用Unet架构的纯视觉Mamba模型MambaUnet [17],大幅度提升了医学图像分割的精度。
受到以上启发,针对乳腺超声图像像素低、噪声大等问题,本文提出了一种基于深度学习的乳腺超声图像分割模型。该模型充分结合了Transformer和Mamba的优点,并对编码器和解码器的输出特征进行交互,获得更加精细化特征,大幅提升分割精度。本文的主要贡献如下:1) 设计了一个全新的网络,利用Mamba模块和自注意力机制捕获具有线性时间复杂度的长距离依赖关系;2) 设计了多注意力聚合MAA模块,通过空间注意力以及通道注意力对特征图进行特征选择,聚焦更为关键的区域和特征,更好的提取信息;3) 构建了特征交互门控FIG,将深层浅层特征图进行对比,聚合更加丰富的空间信息和语义信息,有效提高分割能力;4) 与多个主流的医学分割模型相比,在BUSI和UDIAT数据集上表现出更好的分割性能,为乳腺肿瘤的早期诊断提供了一定的应用价值。
2. 研究方法
2.1. 整体架构
视觉状态空间模型广泛运用于计算机视觉领域,本文模型将状态空间模型与Transformer相结合,显著的提高了分割的精度与效率。整体架构如图1所示。
Figure 1. Breast ultrasound image segmentation model based on deep learning
图1. 基于深度学习的乳腺超声图像分割模型
该模型由四个部分组成,即编码器(Mamba + Self-Attention)、特征交互门控(Feature Interactive Gating, FIG)、多注意力聚合模块(Multi-Attention Aggregation, MAA)和上采样模块(Upsample)。
首先,对于尺寸为
的输入图像,通过由两个步长为2的连续3 × 3卷积神经网络组成的主干网络,将维度调整为可用C表示的任意大小,即
。再经过卷积神经网络进行下采样,对特征进行提取,得到尺寸为
的特征图。编码器的第三部分第四部分由Mamba与Self-Attention组成,分别输出尺寸为
和
的特征图[18]。进入解码器部分后,先通过多注意力聚合模块MAA,将特征的空间信息与语义信息进行聚合,筛选出更为关键的特征。上采样部分采用双线性插值的方法,并通过深度可分离卷积加入可学习参数,再经过1 × 1卷积还原通道数,以匹配编码器部分的维度。再将相同维度的编码器和解码器特征通过特征交互门控FIG对特征进行精细化处理,同时提取深层的语义信息和浅层的空间信息,获得信息更加全面的特征图。
2.2. 编码器模块
编码器部分模块由视觉Mamba即VSS (Visual State Space)以及自注意力机制(Self-Attention Mechanism)组成。
自注意力机制是Transformer模型的核心组件,它通过计算序列中的每个元素与其他所有元素之间的关联权重,为每个元素生成一个融入全局上下文信息的新展示,从而有效捕捉序列中的长距离依赖关系。其计算过程如(1)所示。
(1)
其中
为查询向量,
为键向量,
为值向量,
为键向量的维度,softmax为激活函数。
视觉状态空间模型VSS起源于状态间模型SSM。具体来说,在SSM中,输入向量
的每个通道被映射到输出向量
,再通过一个高维的潜在状态
进行转换。这个过程由投影过程和选择机制共同实现。该模型可以描述为:
(2)
(3)
其中
,
,
。
,
,
,
,均为权重系数。
为了将SSM集成到深度学习模型中,必须对连续时间模型SSM进行离散化,给定时间尺度参数
,SSM的离散模型可以通过零阶保持器进行转换得到:
(4)
(5)
(6)
(7)
(8)
其中
,
。使用一阶泰勒级数对
进行近似,即。
在视觉Mamba模型中进一步引入交叉扫描模块(CSM),然后将卷积运算集成到VSS块中。视觉状态空间模块VSS结构如图2所示,其中,LN (Layer Norm)表示层归一化,Linear表示线性层,DWCNN (Depthwise convolution)表示深度卷积,SS2D则为2D选择性扫描。具体结构如图2所示。
Figure 2. Visual state space model VSS
图2. 视觉状态空间模型VSS
2.3. 多注意力聚合模块
由于乳腺超声图像像素模糊、噪声伪影多,难以精准捕捉目标,因此本文提出了一种新的多注意力聚合(MAA)模块,MAA接收来自上一级的输出特征,通过空间注意力[19]以及通道注意力[20]的有机结合,捕捉并筛选更为关键的区域和特征,增强网络对目标区域的捕获能力,提高分割的精确度。MAA包含通道注意力和空间注意力两个分支,具体结构如图3所示。
Figure 3. Multi-attention aggregation module MAA
图3. 多注意力聚合模块MAA
给定输入特征
,通过空间注意力计算得到一个混合注意力特征图
,再将其与输入特征进行加权得到最后的输出特征图
,其计算公式为:
(9)
其中
表示矩阵之间逐元素相乘。混合注意力特征图
是由通道注意力
和空间注意力
聚合而成,具体过程可以表示为:
(10)
其中
为Sigmoid激活函数。
通道注意力特征图
具体计算过程如(11)、(12)和(13)所示。
(11)
(12)
(13)
其中,AvgPool表示全局平局池化,MaxPool表示全局最大池化,
表示全局平均池化的输出特征,
表示全局最大池化的输出特征,
,
,
,
。
空间注意力特征图
具体计算过程如(14)、(15)所示。
,
,
(14)
(15)
其中Conv为卷积操作,BN为批归一化操作。
2.4. 特征交互门控
通常情况下,大多数的医学图像分割网络都是采用编码器-解码器的U型结构。一般来说编码器部分通过下采样逐步地降低分辨率以提取特征,但下采样会导致目标的空间细节信息丢失,从而影响分割性能。因此,跳跃连接是不可或缺的。本文在跳跃连接的基础上,结合门控单元[21],设计特征交互门控FIG,该模块以编码器输出的浅层特征与解码器输出的深层特征作为输入,将底层的空间细节信息和高层的语义信息进行有效地融合,可进一步提高模型分割结果的准确性和鲁棒性。FIG具体结构如图4所示。
Figure 4. Feature interactive gating FIG
图4. 特征交互门控FIG
特征交互门控首先接收分别来自编码器和解码器的同纬度输出特征
,
。再分别通过3 × 3的卷积块进行特征提取,随后对这些特征进行批归一化处理。然后将处理后的两个特征进行通道维度上的拼接,得到一个同时含有丰富语义信息和空间信息的特征图
,尺寸为
。最后通过一个1 × 1的卷积对拼接后的特征图进行降维,还原到输入时的特征维度,再经过Sigmoid函数进行激活得到门控系数。通过将门控系数与解码器特征
逐元素相乘得到特征交互门控的输出特征
,具体计算过程如(16)、(17)所示。
(16)
(17)
其中,Concat为拼接操作,
表示逐元素相乘,
表示sigmoid激活函数。
特征交互门控接收编码器特征以及上采样之后的解码器特征,保证二者一致,且FIG输出特征维度与输入保持一致。从编码器和解码器得到输入特征之后,通过FIG得到输出特征之后再进入MAA进行特征聚合。
2.5. 损失函数
在乳腺超声图像分割中,需要预测前景以及背景,这是一个逐像素的分类问题,最常见的损失函数为交叉熵损失函数,本文使用加权的二进制交叉熵损失函数,具体可以表示为:
(18)
交叉熵损失函数平等地计算每个像素的损失,当前景的像素的数量远小于背景像素时,背景的损失会占据主导地位,从而导致模型过于关注背景而忽略前景,因此本文将交叉熵损失函数以及Dice损失函数相结合,这将有效克服类别不平衡现象,还能提升空间的一致性。Dice损失函数具体可以表示为:
(19)
最后总损失由交叉熵损失以及Dice损失加权得到,即为:
(20)
其中
为像素总数,
为类别数,
表示预测值,
表示掩码真实值,
为被赋予的权重值。
Dice损失能够增强模型对于连续区域的推理能力,而交叉熵损失则确保每个像素的分类准确性。两者结合使用可以在保证像素级别分类准确性的同时,提升预测区域之间的空间一致性。
3. 实验分析
3.1. 环境配置
本文实验在Windows11操作系统上进行,实验所用设备CPU为Inter® Core™ i9-9900,显卡为NVIDIA GeForce RTX 2070 SUPER,GPU显存为8GB。模型编译平台为PyCharm,模型训练所用框架为深度学习框架Pytorch 2.5.0,并使用CUDA 12.4进行加速。在训练过程中,图片的输入大小统一设定为,模型部分超参数设置:初始学习率为0.01,动量为0.9,训练批次(batch size)为8,迭代次数为300,优化器为SGD。
3.2. 数据集
本文采用的数据集为两个乳腺超声图像分割数据集BUSI [22]和UDIAT [8]。BUSI数据集包含了780张女性患者的乳腺超声图像,这些图像被划分为三类:正常、良性肿瘤和恶性肿瘤,且数据集中均包含了对于肿瘤细胞的分割掩码图。而UDIAT数据集中包含了163张具有详细标注的乳腺超声图像,其中有53张为恶性肿瘤,其余110张则为良性肿瘤。
将数据集以8:2的比例划分为训练集和测试集,为了增加样本的多样性并提高模型的鲁棒性以应对更为复杂的环境,将训练集和测试集分别进行翻转、随机裁剪、对比度拉伸等数据增强操作,得到3000张乳腺超声图以及掩码图,数据集样式如图5所示。
Figure 5. Examples of experimental dataset
图5. 实验数据集样例
3.3. 评估指标
为了客观评价网络模型的分割性能,本文使用医学图像分割领域较为常见的性能指标,其中包括Dice系数(Dice Similarity Coefficient, Dice)、豪斯多夫距离(Hausdorff Distance, HD)、精确率(Precision, Pre)以及召回率(Recall, Rec)。上述指标计算过程如下所示。
(21)
(22)
(23)
(24)
其中TP (True Positive)表示模型判定结果与真实标签相同,均为正样本。TN (True Negative)表示模型判定结果与真实标签相同,均为负样本。FP (False Positive)表示模型判定结果为正样本,真实标签为负样本。FN (False Negative)表示模型判定结果为负样本,真实标签为正样本。对于豪斯多夫距离而言,一般不选取最大距离,而是将距离从小到大排序,再提取前5%作为目标,其目的也是为了排除部分不合理的距离,保持数据的稳定性,因此豪斯多夫距离也简写为HD95。
3.4. 对比实验
为了验证本文算法在乳腺超声图像分割上的有效性,在使用相同数据集、训练设备以及训练策略的前提下,将本文算法与当下主流的医学分割算法进行对比,其中包括经典的基于CNN的医学图像分割网络Unet、FPN以及DeepLabv3+,基于Transformer的分割模型Transunet、Swin-unet和HCTNet [23],以及基于Mamba的分割模型VMamba、MambaUNet。表1给出了各模型在实验数据集上的各项指标。
Table 1. Comparative experimental results
表1. 对比实验结果
Algorithm |
Dice↑/% |
HD95↓/mm |
Pre↑/% |
Rec↑/% |
Unet |
70.72 |
28.52 |
77.00 |
71.48 |
FPN |
71.26 |
26.15 |
78.51 |
72.58 |
DeepLabv3+ |
73.88 |
25.29 |
76.81 |
76.61 |
Transunet |
73.83 |
23.71 |
79.95 |
73.60 |
Swin-unet |
74.88 |
22.38 |
78.25 |
76.53 |
HCTNet |
75.01 |
22.21 |
81.16 |
74.30 |
VMamba |
73.02 |
23.77 |
80.13 |
72.44 |
MambaUnet |
75.19 |
22.04 |
81.22 |
75.47 |
Ours |
75.91 |
21.18 |
81.01 |
77.27 |
实验结果表明在Dice相似性系数和豪斯多夫距离HD95上,本文所提出算法在数据集上表现均为最优。这表明了本文算法在乳腺超声图像分割中所预测的结果图与原掩模图的相似性最高,即说明本文分割模型表现最为优异,分割效果最好。
在表1中,本文模型在Dice、HD95以及Rec三个指标均为最优,分别为75.91%、21.18 mm和77.27%,而Pre指标则达到第二。Dice系数及Rec指标较次优模型分别高出0.72%、1.80%,同时HD95较次优模型降低0.86 mm。具体来说,基于CNN的分割模型Unet和FPN的性能指标表现不佳,在数据集上的分割效果较差。对于CNN网络模型来说,其长距离依赖建模能力弱,且由于卷积的特性导致全局视野有限,故而分割效果不佳。Unet与FPN模型复杂度较低,难以捕捉图像的细节信息,应对复杂环境能力较差。Deeplabv3+模型较Unet与FPN模型性能上有较大提升,但仍然有所不足,由于其对边界细节恢复以及CNN对长距离依赖的处理不足导致该模型性能并未达到最优。
基于Transformer的三大分割网络Transunet、Swin-unet以及HCTNet较之传统的CNN医学分割网络性能有明显提升,在实验数据集上各项指标取得了不小的进步,但仍有不足之处。对于Transformer模型来说,其计算复杂度高、内存消耗大,且局部特征提取能力弱,对于一些图像的局部细节特征难以捕获。HCTNet结合残差网络以及Transformer,同时提升模型的全局和局部特征,使得网络的分割性能有较大提升,各项性能指标位列前三。然而该模型在应对噪声干扰以及伪影较多的复杂环境时,只能大致地分割病变区域,但在边界细节上是不够的,仍有改进空间。
相较于传统CNN和Transformer的分割模型来说,基于Mamba的医学分割模型在降低计算二次复杂度的前提下,兼顾了长距离依赖建模能力,显著地提升了乳腺超声图像分割的准确率,各项性能指标均有提升。MambaUnet使用VMmba作为特征提取,采用与Unet类似的对称结构以及跳跃连接,展现出了优秀的性能,其性能指标Dice以及HD95分别达到了75.19%和22.04 mm,位列第二,而Pre指标则是达到最优。但该模型并未对空间细节信息以及语义信息进行特殊关注,其跳跃连接仅为简单的特征拼接,因此其分割性能还未达到最优。综上所述,本文所提出算法在乳腺超声图像分割中表现出更好的效果,更高的性能,同时对病灶区域误判情况更少。
分割可视化结果如图6所示,第一列为输入的乳腺超声图像,第二列为真实的掩模标签,第三列至第十列依次为Unet、FPN、Deeplabv3+、Transunet、Swin-unet、HCTNet、VMamba、MambaUnet模型的分割结果,最后一列为本文模型的分割结果。可以明显看出,在图像边界模糊、噪声干扰大的复杂环境下,本文模型分割效果优于其他模型,无论是目标位置还是边缘细节都比较接近分割掩码图。其他模型如Unet和FPN模型在分割第三行图像时出现了比较大的误判。基于Transformer的模型能够比较准确地找出病灶区域,但其往往会忽略乳腺病变区域的一些细节,因此分割结果图的边缘细节并不准确,比如第一行以及第二行的输入图像分割只能大致定位病灶区域,对于边界轮廓分割并不准确。从图中可以看出本文模型分割结果图边界轮廓更为准确,本文模型通过FIG,对编码器以及解码器特征进行交互控制,结合浅层空间信息以及深层语义信息,加强模型对边界细节特征的提取,从而有效的改善了数据图像边界模糊的问题。同时,MAA模块通过空间注意力以及通道注意力的有效聚合,增强关键特征的表达并聚焦关键区域,使得模型能同时捕捉通道重要性和空间分布,提取更高质量的特征表征,因此图中可以明显看出本文模型分割图对于病灶区域的定位更加准确,受噪声干扰影响最小。从定性的观察结果和定性的数据分析均可验证本文提出的分割算法比其他算法分割结果更准确,分割性能更强。
Figure 6. Visual comparison of segmentation results of different algorithms
图6. 不同算法分割结果可视化对比
3.5. 消融实验
本文提出了多注意力聚合(MAA)模块以及特征交互门控(FIG),通过对关键区域的特别关注,以及浅层和深层特征的有效融合,提升了在像素模糊、噪声大等复杂环境下乳腺超声图像的分割性能。为了进一步验证本文所提出分割算法中各个模块的有效性,在实验数据集上进行消融实验。消融实验所采用的是控制变量法,分别在基础网络、仅添加多注意力聚合模块、仅添加特征交互门控以及完整模型的情况下进行实验。由于特征交互门控与跳跃连接类似,进而分别探究特征交互门控在深层以及浅层对模型性
能的不同影响。FIG-1代表仅在模型最深层以及最浅层的连接处即维度为
嵌入特征交互门控,
而FIG-3则表示在模型每一层的跳跃连接处均插入特征交互门控。实验结果如表2所示,其中对最优结果进行了加粗处理。
Table 2. Ablation test results
表2. 消融实验结果
Algorithm |
MAA |
FIG-1 |
FIG-3 |
Dice↑/% |
HD95↓/mm |
Pre↑/% |
Rec↑/% |
A |
|
|
|
74.02 |
23.01 |
78.63 |
75.74 |
B |
√ |
|
|
74.76 |
22.52 |
80.75 |
74.91 |
C |
|
√ |
√ |
74.96 |
22.34 |
81.04 |
74.69 |
D |
√ |
√ |
|
75.58 |
21.65 |
81.45 |
76.06 |
Ours |
√ |
√ |
√ |
75.91 |
21.18 |
81.01 |
77.27 |
在表2中,算法A表示由Mamba、Transformer以及上采样模块构成的基础网络模型,算法B表示在基础模型中仅引入MAA模块,算法C则表示在基础模型中引入FIG-1,算法D表示同时引入MAA模块和FIG-1,而完整模型则是在基础模型中引入HAEM和CFM-3。从表2中可以看出,算法A在Dice、Pre两个性能指标上均表现为最低,HD95也表现为最高。算法B相较于基础模型A,Dice、Pre两个指标有所提升,而HD95和Rec有小幅度下降。模型C相较于基础网络A除Rec其余三项性能指标均有所优化。网络D的Dice、Pre、Rec三项性能指标均有提升且HD95有所降低,总体性能达到次优。而完整模型Dice、HD95、Rec三项性能指标均达到最优,Pre指标则为次优,其中可以看出完整的模型的分割效果达到最佳,相较于基础模型有较大提升。总体来说,MAA模块与FIG同时作用于网络,充分利用特征图的语义信息和空间信息,对特征图细节信息进行精细化提取,较大提升了模型的分割精度。图7展示了消融实验结果可视化,其中红色框标注了不完整网络所误判的区域,对比来说,完整网络模型误判区域最少,最接近原分割掩码图。从图中可以清晰地看出MAA模块与FIG在模型中有着不可替代的作用,充分说明了本文所设计模块的有效性和合理性。
Figure 7. Visualization of ablation test results
图7. 消融实验结果可视化
4. 结论
针对乳腺超声图像成像模糊、噪声干扰大所导致分割性能不足等问题,本文提出了一种基于深度学习的乳腺超声图像分割模型。该模型首先结合了CNN、Transformer以及Mamba的优点,同时对局部和全局特征进行关注,提升了模型编码器特征提取能力。其次设计了多注意力聚合模块MAA,通过空间注意力和通道注意力的新型聚合,捕获更为关键的区域信息,精准的定位病灶区域。最后设计特征交互门控FIG,将深层特征与浅层空间交互,获得更为丰富的空间信息和语义信息,对特征进行精细化提取,有效提升了模型对边界细节的把控。通过在实验数据集上进行对比实验以及消融实验,验证了本文模型的有效性以及合理性,分割性能优于现有经典模型,对乳腺肿瘤的早期预防与诊断有着较高的应用价值。
基金项目
江西省教育厅科技计划项目(编号:GJJ210861)。
NOTES
*通讯作者。