1. 引言
脑肿瘤,作为中枢神经系统最常见的恶性肿瘤之一,其诊疗过程复杂,对患者的生存质量和生命预期产生重大影响[1],根据世界卫生组织(WHO)的报告[2],脑肿瘤在全球范围内的年发病率大约为每10万人中有7~8例,而且这一数字在逐年上升。在脑肿瘤的诊断和治疗过程中,关键一步就是在手术前,医生能够在脑肿瘤图像上精确地分割出肿瘤区域。目前,核磁共振成像(Magnetic Resonance Imaging, MRI)技术已广泛的应用在脑肿瘤的诊疗分割方面[3] [4]。MRI脑肿瘤影像主要有3块区域信息,分别为完整肿瘤(Whole Tumor, WT)、核心肿瘤(Core Tumor, TC)和肿瘤增强(Tumor Enhancement, ET)。WT是指整个肿瘤区域,包括肿瘤的核心部分、周围水肿区域以及其他异常组织,对于评估肿瘤的大小、位置及其对周围组织的影响非常重要。TC是指肿瘤的核心部分,通常包括增强区域和非增强的坏死区域,反映了肿瘤的活跃部分和坏死部分,对于评估肿瘤的侵袭性和治疗效果非常重要。ET通常代表肿瘤的活跃部分,可能包含高密度的肿瘤细胞。
人工分割脑肿瘤图像是通过手动操作来标注需要处理的病灶区域,这样的方式尽管可以获得准确的分割结果,不过也面临着需要花费大量的时间和精力,来处理庞大且多样的肿瘤信息数据。除此之外,还受医生的主观因素影响较大[5]。在早期,研究人员开发出一系列传统的脑肿瘤分割方法来辅助诊断,如基于阈值分割[6]、基于区域分割[7]和基于边缘分割[8]等方法。但是这些传统方法在处理高度异质性、不规则形状和大小不一的脑肿瘤时面临许多挑战,尤其是在自动化和准确性方面。深度学习(Deep Learning, DL),特别是卷积神经网络(Convolutional Neural Networks, CNN),已经在医学图像处理领域取得了巨大成就,与传统方法相比较,利用卷积神经网络构建的深度学习模型,能够借助不同尺度的卷积核通道,有效地提取出不同层次的特征信息,从而实现对像素的精准分类[9]。
UNet [10]是在FCN [11] (Fully Convolutional Network,全卷积网络)基础上发展而来的卷积神经网络模型,专为图像分割任务设计。在FCN结构中,卷积替代全连接层,以反卷积扩展特征图尺寸,实现了端到端的像素级预测。然而,FCN的解码器仅包含单一的反卷积过程,结构相对简单,导致分割精度和各项客观指标难以满足实际需求。相比之下,UNet在结构上进行了显著改进,其解码器与编码器之间通过矩阵拼接形式的跳跃连接(Skip Connection)实现特征融合。这种设计不仅增强了模型对不重要信息的抗干扰能力和辨识相似图像能力,还有效降低了过拟合风险,在一定程度上降低了任务的计算量。
近年来,基于改进UNet的MRI图像分割变得越来越热门。McHugh等人[12]提出了一种基于密集连接块的全自动图像分割模型DenseUNet,该结构通过层间密集连接增强特征复用,尤其适用于层级复杂的任务,有助于更精准地捕捉细粒度信息,提高小目标区域的分割精度。为充分利用2D与3D医学图像数据各自的优势,Isensee等人[13]设计了nnUNet,一个基于2D U-Net和3D U-Net的自适应框架,该模型能够针对不同的医学影像分割任务自动调整超参数,无需人工干预。随着注意力机制在U-Net网络中的应用逐渐深入,Liu等人[14]提出了一种级联策略,先进行肿瘤区域的粗分割,再进行细化,并在精细分割模块中引入注意力机制,以增强模型的关注能力,提高对小目标区域的分割精度。此外,Zhang等人[15]在U型结构的编码器和解码器中加入上下文残差解码器,利用残差学习计算相邻切片间的特征差异,从而提升网络的特征感知能力和分割精度。在此背景下,本文提出一种基于改进UNet的脑肿瘤图像分割算法,通过将注意力机制与残差连接结合,可以进一步提升网络的性能。该算法通过优化网络结构和特征融合机制,提升了分割性能,为脑肿瘤图像的精确分割提供了一种高效可靠的解决方案。本文主要工作:
1) 针对U-Net网络主干特征提取有限,容易丢失高层语义信息,采用ResNet50替换U-Net主干特征提取网络,ResNet50通过残差学习机制提升了网络特征表达能力,使深层网络的梯度传播更加稳定,使用残差连接,缓解梯度消失问题。同时针对原始网络在跳跃连接直接传递低层特征,信息冗余问题,引入SE-Net自动增强关键区域,弱化背景噪声,减少冗余信息。此外为了减少上采样过程中信息丢失,在上采样中也添加了SE-Net模块,SE-Net通过通道注意力机制增强了关键特征的提取能力,有效提高了模型的分割精度。该改进旨在增强U-Net在编码和解码过程中对不同尺度特征的关注,提高模型对脑肿瘤区域的敏感性。
2) U-Net及其变体通常采用CrossEntropy Loss或Dice Loss,但单一损失函数存在局限性,存在类别不均衡和小目标学习不稳定的问题,在此情况下,结合Dice Loss和Binary Cross Entropy (BCE) Loss,以提升模型在类别不均衡情况下的学习能力。Dice Loss能有效应对医学图像分割中目标区域占比较小的问题,提高模型对目标区域的关注度,而BCE Loss通过逐像素计算交叉熵,使模型更关注像素级分类,减少类别不均衡影响。二者的结合不仅改善了模型的训练稳定性,还有效缓解了Dice Loss在优化初期的不稳定性,从而提升分割性能。
3) 最后,在公开数据集BraTS2021上进行了大量实验,并与多种代表性方法(如标准U-Net, Dense-UNet [16], U-Net++ [17]等)进行了对比分析。实验结果表明,我们提出的方法在Dice系数指标上相较于其他模型有明显提升。
综上,本文通过引入ResNet50 + SE-Net结构优化U-Net,结合Dice Loss + BCE Loss进行损失优化,并在BraTS2021数据集上进行系统实验,验证了改进方法的有效性。
2. 基于深度学习的脑肿瘤图像分割方法研究
U-Net网络
U-Net是一种基于U形结构的全卷积神经网络,专为图像分割任务设计,尤其在医学影像处理领域表现卓越。其网络结构由对称分布的编码器和解码器组成:编码部分通过卷积和最大池化逐步提取图像特征同时降低特征图的空间分辨率,而解码部分则通过上采样操作逐步恢复特征图空间分辨率,并结合跳跃连接(Skip Connections)将编码器与解码器的对应层特征图拼接,从而保留更多的空间细节信息,显著提升分割精度。U-Net在小样本数据集上表现出色,具备像素级预测能力,同时通过跳跃连接有效缓解了深度网络中的梯度消失问题,实现了低层细节信息与高层语义信息的有机结合,极大地提升了医学图像分割的性能。正因如此,U-Net近年来在医学图像分割领域得到了广泛应用。
然而,U-Net网络仍存在一定的局限性,亟待进一步改进。例如,后续研究者提出了UNet++、Dense-UNet、以及ResUNett [18]等改进模型,以优化其性能。具体而言,U-Net的编码器部分通过卷积和下采样操作逐步提取特征,但随着网络深度的增加,其感受野有限,难以捕捉全局上下文信息;此外,U-Net的跳跃连接仅通过简单的特征图拼接实现编码器与解码器特征的融合,缺乏对特征的有效筛选和加权机制,限制了模型的性能提升。针对上述问题,本文将从全局上下文信息捕捉和特征融合优化两个方面入手,提出改进方案,以进一步提升U-Net在医学图像分割中的表现。
3. 改进U-Net网络模型结构
3.1. 改进后U-Net模型结构
基于U-Net网络模型进行改进,在原始U-Net结构中引入残差的思想,使用ResNet50的初始卷积层和四个残差阶段作为U-Net的编码器,有效提取深层图像特征信息,采用双线性插_1 × 1卷积以减少checkerboard artifacts。在原始U-Net网络跳跃连接和解码器上采样中引入了SE-Net (Squeeze-and-Excitation Network)注意力机制,SE-Net通过全局平均池化和全连接层学习每个通道的权重。在跳跃连接中,SE-Net对ResNet50提取的特征进行加权,使模型更关注重要的特征。在每次上采样后,通过SE-Net对特征图进行加权,增强重要特征。结合跳跃连接中的SE-Net,形成双重注意力机制,提升模型对细节的捕捉能力,网络结构如图1所示。
Figure 1. Structure of the improved U-Net model
图1. 改进后U-Net模型结构
3.2. Resnet50
随着深度学习的快速发展,研究者发现增加网络深度能够提取更加丰富的特征,因此网络结构逐渐向更深层次发展。然而,网络深度的增加也带来了新的挑战。在传统的卷积神经网络中,输入与输出之间是直接连接的,简单增加网络深度较易出现梯度爆炸或梯度消失问题,使模型不能很好收敛。为了解决这一问题,He [19]等人于2015年提出了残差网络(ResNet, Residual Network)。ResNet通过引入残差块(Residual Block),使实验中训练的层数更深,使网络性能发生极大提升。残差块的数学表达式可以表示为:
(1)
其中:
表示卷积层的输出;
是残差块的输入;
是残差块的输出。
ResNet50是ResNet系列中的一个经典模型,ResNet50由50层卷积层组成,包括一个初始卷积层、四个残差阶段和一个全局平均池化层。每个残差阶段由多个残差块构成,其中包含两种主要残差块结构:Conv Block和Identity Block,其结构如图2所示。Conv Block在残差阶段之间进行下采样和通道数调整,而Identity Block则用于在残差阶段内部进行特征提取,其输入和输出的尺寸(分辨率和通道数)保持一致,所以可以连续串联使用,这两种块的结合使ResNet50在深层网络中实现了高效的特征提取和优化。
Figure 2. ResNet50 and residual block structure diagram
图2. ResNet50和残差块结构图
ResNet50的优点在于其能训练极深的网络结构,解决了深层网络中的梯度消失和网络退化问题,使模型整体的表现力和性能得到提升。其内在的残差连接机制有效保留原始特征信息,且能有效提高模型的精度和泛化能力。在训练过程中,ResNet50通过残差结构的结合,直接学习残差映射,从而更高效地优化模型。凭借在性能与计算复杂度之间的良好平衡,ResNet50被广泛应用于图像分类等任务。因此,本文选取ResNet50作为主干网络,以充分利用其优势。
3.3. SE-Net
SE-Net (Squeeze-and-Excitation Network)是一种通道注意力机制,最早由Hu [20]等人在2018年提出。它的核心思想是自适应调整不同通道的权重,使模型着重关注对训练更有作用的通道信息,同时抑制无关或冗余的通道特征,从而提升模型的表达能力。在本文提出的改进U-Net网络中,跳跃连接和上采样部分引入了SENet模块,以增强网络的特征提取能力。具体而言,SE-Net主要有Squeeze (特征压缩)、Excitation (特征重标定)和Scale (通道加权)三个步骤,Squeeze步骤通过全局平均池化将每个通道的空间信息压缩为一个全局描述符,Excitation步骤则通过全连接层学习通道间的依赖关系[21],并生成通道权重,这些权重被用于重新校准特征图,使网络能够自适应地关注对分割任务更有用的特征;Scale步骤计算出的权重用于重新调整输入特征,使重要的通道得到增强,非重要通道被抑制。
Figure 3. SE-Net structure chart
图3. SE-Net结构图
SE-Net网络结构如图3所示,对于任意给定的变换,Ftr:X→R,
,
。
用作一个卷积算子。特征U通过Squeeze压缩操作,将跨空间维度H × W的特征映射进行聚合,生成一个通道描述符,H × W × C→1 × 1 × C;将全局空间信息压缩到上述通道描述符中,使来这些通道描述符可以被其输入的层利用[22],这里采用的是全局平均池化,表达式如公式2所示;Excitation通过两个全连接层(FC) + ReLU + Sigmoid生成通道注意力权重,计算式如公式3所示,W1、W2是两个全连接层权重,
是ReLU激活函数,
是Sigmoid激活函数,s是通道注意力权重,与原始特征通道相乘;Scale计算出的权重用于重新调整输入特征,使重要的通道得到增强,非重要通道被抑制。
(2)
(3)
相比于原始的U-Net网络,SE-Net通过通道注意力机制提升了网络对重要特征的关注能力,从而改善了分割精度,尤其是在复杂背景或小目标区域;SE-Net能够捕捉通道间的全局依赖关系,弥补了U-Net在上下文信息利用上的不足;通过动态调整特征权重,减少了噪声和冗余信息的干扰,使模型对输入数据的变化更具鲁棒性,优化模型的Dice。
3.4. 损失函数
在深度学习领域中,损失函数对模型性能和模型参数有重要影响。在本研究中,我们采用了Dice Loss与Binary Cross Entropy (BCE) Loss相结合的损失函数策略,旨在优化深度学习模型在脑肿瘤分割任务中的表现。这种组合损失函数的设计,不仅有效缓解了类别不均衡问题,还显著提高了分割的准确度。
Dice Loss是基于Dice系数(Dice Coefficient)的一种损失函数,它被广泛地应用于医学图像分割任务中。Dice系数是一种用于评估两个集合相似度的指标[23],其取值范围为[0, 1],数值越高表明分割结果与真实标签的重叠程度越大。Dice系数的计算公式如下:
(4)
相应的损失函数定义为:
(5)
BCE Loss (Binary Cross-Entropy Loss,二值交叉熵损失)是二分类任务中常用的损失函数,用于衡量模型预测的概率分布与真实标签之间的差异[24]。BCE Loss公式如下:
(6)
其中
表示真实标签值,
表示模型预测的值,N表示样本数量。本文结合这两个损失函数组
成一个新的损失函数,公式如下:
(7)
4. 数据集和评价指标
4.1. 数据集
在本文的研究中,我们选用BraTS2021 (Brain Tumor Segmentation 2021)数据集进行实验,用于评估自动脑肿瘤分割算法的性能。该数据集共1251例患者的MRI数据。将数据集按一定比例分成3个集合,分别为训练集、验证集和测试集进行试验。
每例患者的数据包括4种模态,分别为液体衰减反转恢复序列Flair、T1加权成像[25]、对比增强T1ce、T2加权成像以及真实分割(Ground Truth)的金标准文件,图像数据如图4所示。每个患者的MRI图像尺寸大小均为155 × 240 × 240。
Figure 4. BraTS data visualization example
图4. BraTS数据可视化示例
4.2. 评价指标
评价指标用来评估所提出的脑肿瘤分割模型的分割性能。为了准确评价网络模型的性能,本文用Dice相似系数、精确率和召回率这3个指标对模型分割效果定量分析。使用这三个指标以确保对模型性能能够进行全面而准确的分析。
Dice相似系数用于度量两个集合之间的相似程度[23]。1表示预测结果与真实标签完全一致。0表示预测结果与真实标签完全没有重叠。Dice相似系数的计算公式具体如下所示:
(8)
精确率(Precision)是衡量模型分割准确性的关键指标之一,它反映了在模型预测为脑肿瘤的像素点中,真正属于脑肿瘤的像素点所占的比例。其数学表达式如下:
(9)
召回率(Recall),也叫敏感度,是评估模型捕捉脑肿瘤像素点能力的另一重要指标,它表示在真实脑肿瘤像素点中,被模型正确识别的比例。召回率的计算公式为:
(10)
在上述公式中,TP (True Positive)代表真阳性,即模型正确预测为脑肿瘤的像素点;FP (False Positive)为假阳性,指模型错误地将非脑肿瘤区域预测为脑肿瘤的像素点;而FN (False Negative)则是假阴性,即模型未能识别出的真实脑肿瘤像素点。通过这两个指标,我们可以全面评估模型在脑肿瘤分割任务中的性能。
5. 实验
5.1. 实验环境
本研究构建的深度学习模型基于Windows 11操作系统,依托PyTorch 1.2这一强大的深度学习框架,并采用Python 3.9版本进行编程实现。实验的硬件配置中,搭载了高性能的NVIDIA GeForce RTX 4070显卡,确保了计算效率与处理速度。在模型训练过程中,我们设置了200个训练轮次(Epochs),每批次(Batch Size)的大小为16,以平衡训练速度与内存消耗。初始学习率定为0.001,采用Adam优化器来调整模型参数,以期达到更优的训练效果和收敛速度。
5.2. 消融实验
为了验证本文研究方法的效果和各模块的作用,本文在U-Net基础上不断引入新模块,并且在同一环境下进行消融实验,消融实验的结果如表1所示,其中Res50代表替换的主干特征提取网络ResNet50,SE代表引入的注意力机制模块SE-Net。
Table 1. The quantitative analysis results of the ablation experiment
表1. 消融实验的定量分析结果
模型 |
Precision |
Dice |
Recall |
U-net |
0.837 |
0.813 |
0.851 |
U-net + Res50 |
0.851 |
0.829 |
0.864 |
U-net + SE |
0.864 |
0.831 |
0.872 |
U-net + Res50 + SE |
0.873 |
0.856 |
0.878 |
由表1可以看出,分别引入ResNet50、SE-Net均对分割精度有提升效果,特别是在同时引入这两个改进之后,模型的Dice相似系数提升了4.3%,精确度P提升了3.6%、召回率R提升了2.7%,证明了每一种改进策略能够提高脑肿瘤图像分割任务的效果。
5.3. 对比实验
为进一步验证本文算法的优势,将本文方法与U-Net原始网络、U-Net++、Multires-UNet、Dense-UNet这4种常见网络在Brats2021数据集上进行训练,实验的评价指标如表2所示。从表中可得本文方法在Brats数据集上取得0.856的Dice值,精确率和召回率分别达到0.873和0.878,明显优于其他模型,具有优秀的分割效能。
Table 2. Comparative experimental analysis results
表2. 对比实验分析结果
模型 |
Precision |
Dice |
Recall |
U-Net |
0.837 |
0.813 |
0.851 |
Multires-UNet |
0.844 |
0.827 |
0.855 |
U-Net++ |
0.846 |
0.832 |
0.857 |
Dense-UNet |
0.861 |
0.825 |
0.869 |
本文方法 |
0.873 |
0.856 |
0.878 |
5.4. 可视化结果
为了直观展示模型在脑肿瘤分割任务中的效果,本文对测试集样本的分割结果进行了可视化分析。图5展示了本文模型在Brats2021数据集上的分割结果。图(a)为原始图片横断面,图(b)为本章方法分割结果,可以看出本文分割算法已经可以准确分割出肿瘤不同区域,在脑肿瘤多目标分割任务中展现了优秀的分割性能。
Figure 5. (a) Original test drawing; (b) Segmentation effect drawing
图5. (a) 原始测试图;(b) 分割效果图
6. 结果
传统的U-Net网络在编码器部分,随着网络深度的增加,其感受野存在局限,难以充分捕捉全局上下文信息,也容易出现梯度消失问题。同时,其跳跃连接部分虽然能够实现编码器与解码器之间的特征融合,但由于缺乏特征选择与加权机制,导致信息利用效率较低。针对这些问题,本文提出了一种改进型U-Net网络结构。实验结果表明,该方法在分割性能上相比原始模型具有明显优势。然而,该方法仍存在一定的不足之处,未来的优化方向主要包括以下两点:一是可在ResNet50模块中进一步引入SE-Net注意力机制,以提升关键特征的表达能力;二是考虑到脑肿瘤MRI图像本质上为三维结构,当前基于二维卷积的网络在处理过程中可能丢失部分空间信息,影响最终分割精度。因此,基于3D卷积神经网络的研究将成为后续提升分割效果的关键路径。