1. 引言
医学图像分割,如CT或MRI等,是医学图像分析的重要基础。随着智能设备的普及使得居民用眼过度,视网膜血管形态的变化已被证实与多种临床症状有关,包括眼科疾病甚至全身性疾病。其中老年性黄斑变性、青光眼和糖尿病视网膜病变是主要的致盲疾病。然而,眼球区域分割过于依赖临床经验丰富的医生,要对视网膜血管进行客观和定量的分析依赖于精确的血管分割,这既耗时又耗力。综上原因,越来越多的学者引入深度学习,将CNN应用到眼球超声图像的语义分割中,如何将医学图像快速、准确地从背景中分割出重要特征成为一个重要的研究话题。
近年来,基于深度学习的语义分割算法被广泛使用。Serdar等人[1]使用UNet模型对结肠组织学图像进行了细胞核分割研究。通过执行多类语义分割,结肠组织学图像通过每个像素都被归类为6种类型。最后精确度达到了95.23%,交并比(IoU)的值为48.57%,取得了满意的分割效果。Yin等人[2]在UNet模型中引入跳跃连接(Skip-Connections)和图像滤波模块,以恢复下采样造成的空间损失和引导图像还原结构信息。实现了端到端的训练和快速推理,在不影响参数的情况下精确度仍然有0.7%的提升。Yang等人[3]提出了一种结合边缘感知和变换器结构的编码器——解码器网络,称为EPT-Net。有效解决了卷积运算的固有定位性在模拟远距离依赖性方面存在局限性。Ling等人[4]提出了一种单级多任务注意力网络(MTANet)。首先在分割任务中设计了一个反向加法注意力模块用于融合全局图中的区域和边界搜索;其次在分类任务中使用了一个注意力瓶颈模块用于图像特征和临床特征的融合。这可以有效地对图像中的对象进行分类,同时为每个医疗对象生成高质量的分割图像,最终的MIoU的值达到了71.07%。
针对以上研究都获得了不错的精确度,根据眼球超声图像的轮廓、灰度、颜色等特征,面对的仅是一个二分类的问题,需要从眼底图像中提取精细的血管。本文提出一种基于改进UNet的分割模型,用于获得更为精准的视网膜下血管图像。首先,我们在每个下采样和上采样中引入残差链接(ResNet),通过一个核为1的卷积操作实现维度匹配,以改善模型的训练效率和综合性能;其次,在编码器上引入一种高效多尺度注意力机制(EMA) [5]以增强模型捕捉特征的能力;最后,多项实验结果表明改进后的模型满足医学图像分割任务的需求。
2. UNet网络模型
UNet网络是2015年在MICCAI提出的语义分割算法[6],结构如图1所示。它基于FCN的思想[7],采用编码器–解码器结构。输入图像经过卷积和最大池化,生成五个特征层,之后进行特征融合得到一个有效特征层,最后对每个特征点进行分类,有效解决了生物医学图像问题。
Figure 1. Network structure of UNet
图1. UNet网络结构
3. 网络残差模块
Figure 2. Network structure of ResNet
图2. ResNet网络结构
ResNet在图像分类、目标检测、语义分割等多个领域都有广泛应用[8]。在语义分割任务中,ResNet可以作为编码器提取图像特征,并将特征传递给解码器进行像素级别的语义分割。
ResNet通过残差模块(Residual Module)和残差连接(Residual Connection)来构建网络,如图2所示,这使得它可以训练更深的网络而不会出现梯度消失的问题。在每个残差模块中增加一个跨层连接,让信息可以直接传递到后面的层次,从而保留原始特征,并避免特征逐层消失。其数学表达式为:
(1)
式中х表示捷径通道,F(х)表示求和前的特征映射通道,H(х)表示求和后的特征映射通道。使得网络的学习更加顺畅和稳定,进一步提高了模型的精度和泛化能力。
4. EMA注意力机制
EMA是一种新颖的高效多尺度注意力模块,在保留每个通道信息的同时减少计算开销。EMA模块通过编码全局信息来重新校准每个并行分支中的通道权重,并通过跨维度交互来捕捉像素级别的关系,从而提高模型处理特征和增强特征表示的能力。具体结构如图3所示。
Figure 3. EMA module network architecture
图3. EMA模块网络结构
在图3中,“G”表示输入通道被分成的组数。“X Avg Pool”和“Y Avg Pool”分别代表一维水平和垂直的全局池化操作。
为了使神经元巨大的局部感受野使神经元能够收集多尺度的空间信息。因此,EMA采用三个并行路线来提取分组特征图的注意力权重描述。其中两条平行路线位于1 × 1分支,第三条路线位于3 × 3分支。为了捕获所有通道的依赖关系并减轻计算开销,在1 × 1分支中采用两个一维全局平均池化操作分别沿两个空间方向对通道进行编码,并且在3 × 3分支中仅堆叠单个3 × 3的卷积以捕获多尺度特征表示。此外,EMA采用跨不同空间维度方向以聚合空间信息的方法,有效地增强了特征的聚合。首先引入了两个张量,一个是1 × 1分支的输出,另一个是3 × 3分支的输出。然后,利用二维全局平均池化对1 × 1支路的输出进行全局空间信息编码,在通道特征联合激活机制前,将最小支路的输出直接转化为对应的维度形状表示为R11 × C//G × R3C//G × HW。二维全局池化操作公式如下:
(2)
为了提高模型的计算效率,在二维全局平均池化的输出处采用Softmax来拟合上述的线性变换。通过将上述并行处理的输出与矩阵点积运算相乘得到了第一个空间注意力图。此外,同样利用二维全局平均池化对3 × 3分支编码全局空间信息,1 × 1分支在通道特征联合激活机制前直接转换为相应的维度形状表示为R31 × C//G × R1C//G × HW。在此基础上,导出了保留整个精确空间位置信息的第二空间注意力图。最后,将每组内的输出特征图计算为生成的两个空间注意力权重值的集合,然后使用Sigmoid函数捕获像素级的成对关系,输出特征映射以增强或减弱原始输入特征,从而得到最终输出。
5. 实验结果与分析
本次实验本文以Windows11为操作系统,Pytorch为深度学习框架搭建实验平台,实验环境具体配置见表1。
Table 1. Experimental environment and configuration
表1. 实验环境与配置
环境 |
配置 |
CPU |
Intel(R) Core (TM) i7-12700H |
GPU |
NVIDIA Geforce RTX-3060 6G |
深度学习框架 |
Pytorch1.8.1 |
编程语言 |
Python3.9 |
内存 |
32G |
实验参数主要是Adam优化器,初始学习率为0.01,100个epoch,batch的大小为2张。
5.1. 评价指标
本文实验采用Dice系数(Dice coefficient)和MIoU的指标大小来衡量模型的分割效果。其中,Dice系数是一种集合相似度度量函数,通常用于计算两个样本的相似度,取值范围在[0, 1]:
(3)
式中:|X∩Y|是X和Y之间的交集;|X|和|Y|分表表示X和Y的元素的个数,其中,分子的系数为2。
MIoU是分别对每个真实标签和预测结果的交并比计算,然后再对所有类别的IOU求均值。MIoU为:
(4)
式中:k为类别数;TP、FP和FN分别表示正确识别的正样本数、识别错误的正样本数和识别错误的负样本数。
5.2. 消融实验
本文实验采用来自荷兰的糖尿病视网膜病变的公开FIVES数据集[9],其包含20个训练集和20个测试集。为了验证残差网络模块、EMA注意力机制模块的有效性,与ECA、ELA注意力机制进行了一系列的消融实验。实验结果如表2所示。
Table 2. Results of the ablation experiment
表2. 消融实验结果
Model |
ResNet |
ECA |
ELA |
EMA |
Dice (%) |
MioU (%) |
0 |
|
|
|
|
80.9 |
81.4 |
1 |
√ |
|
|
|
81.8 |
81.9 |
2 |
|
√ |
|
|
81.3 |
81.7 |
3 |
|
|
√ |
|
81.9 |
82.0 |
4 |
|
|
|
√ |
82.1 |
82.3 |
5 |
√ |
|
|
√ |
82.3 |
82.5 |
根据表2所示,Model 0为未作出改进的UNet分割效果。通过引入上述不同的注意力机制可以看出,Dice和MIoU的值均有提升,其中Model 4引入EMA注意力机制模块提升最大,分别为1.2%和0.9%。最终本文将Model 5作为最终模型,在Model 4的基础上引入残差网络模块后分割性能提升最大,Dice和MIoU的值分别提升了1.4%和1.1%。改进后的UNet模型和原始模型的分割效果如图4所示。
Figure 4. Comparison of segmentation effect of UNet model before and after improvement
图4. 改进前后UNet模型分割效果对比
5.3. 对比实验
为了验证本文算法的优越性,本文将与图像分割领域主流的算法进行比较,即PSPNet [10]、SegNet [11]、DeeplabV3 [12]等。采用MIoU作为评价指标,实验结果如表3所示。
Table 3. Comparison of experimental results
表3. 对比实验结果
Model |
MioU (%) |
PSPNet |
80.2 |
SegNet |
79.8 |
DeeplabV3 |
80.9 |
UNet |
81.4 |
Ours |
82.5 |
结果表明,UNet算法相较于PSPNet、SegNet、DeeplabV3等模型,MIoU的值最高,更适用于医学图像分割的任务。同时,改进后的UNet模型所获得MIoU的值均高于其他目前主流的语义分割算法。本文算法与上述算法相比,MIoU的值分别提升了2.3%、2.7%、1.6%和1.1%。证实了改进算法的优越性和综合性能。
5.4. 曲线训练分析
为了进一步测试本文改进算法对于眼球超声图像分割性能的提升效果,图5展示了训练损失的对比结果。
Figure 5. Comparison of training loss curves of UNet model before and after improvement
图5. 改进前后UNet模型的训练损失曲线对比
从图5可以看出,在25个epoch之前,原始模型在训练集的损失函数有小阶段上升。相比之下,改进的模型训练误差在逐渐减小。在25个epoch之后,改进模型的曲线表现的更为稳定,加速了网络的收敛。这进一步地证实了ResNet和EMA模块的有效性。
5.5. 泛化性实验
为了验证本文提出的模型的泛化能力,将UNet改进前后的模型在RAVIR数据集上[13]进行对比实验,其包含左眼和右眼的图像。该研究筛选出200张超声眼球图像并按照8:2的比例划分为训练集和测试集,实验环境与表1相同,实验结果如表4所示。本文改进的Unet模型算法在Dice和MIoU的值分别达到了77.2%和80.2%,相比于未改进的UNet模型分别提升了1.9%和0.8%。两种模型的分割结果如图6所示,可以看出改进后的UNet在RAVIR数据集上有着更好的分割效果,证明了本文模型的泛化能力。
Table 4. Comparative experiments with the RAVIR dataset
表4. RAVIR数据集对比实验
Model |
Dice (%) |
MioU (%) |
UNet |
75.3 |
79.4 |
Ours |
77.2 |
80.2 |
Figure 6. Comparison of segmentation effect of UNet model on DAVIR dataset before and after improvement
图6. 改进前后的UNet模型在DAVIR数据集上的分割效果对比
6. 结论
本文针对眼球超声图像边缘模糊导致不易分割的问题,在UNet模型的基础上进行了改进。首先在UNet的每个编码阶段之后引入一个ResNet,以保留编码部分不同层丢失的信息。其次在每个卷积下采样的过程中引入EMA注意力机制模块,以减少计算开销的同时保留每个通道的关键信息,提高模型的整体分割性能。通过消融实验结果表明,本文改进的UNet模型Dice和MIoU的值达到了82.3%和82.5%,这些值相比原始模型提升了1.4%和1.1%,验证了本文改进模型提出模块和引入UNet的有效性。通过对比实验结果表明,本文改进的UNet模型的分割性能超过了PSPNet、SegNet、DeeplabV3等主流的语义分割算法,评价指标MIoU的值提升了1.1%至2.7%,验证了本文模型的优越性。为了进一步验证改进算法的分割能力,采用RAVIR数据集进行了泛化性实验,结果改进的UNet模型Dice和MIoU值达到了77.2%和80.2%,这表明本文模型卓越的泛化能力。综上实验结果,证实了本文算法在眼球区域血管分割方面的功效和实用性。因此,本文改进的UNet模型能够有效地对眼球区域进行分割,满足医学图像的分割要求。