1. 引言
肝脏作为人体重要实质性器官之一,是机体新陈代谢最活跃的组织,承担营养物质的合成与分解、解毒及排泄等关键生理功能。近年来,肝脏疾病发病率持续上升[1],提高病灶诊断的准确性对临床治疗至关重要。超声(US)、计算机断层扫描(CT)与磁共振成像(MRI)等影像技术为肝癌诊疗提供了多维信息。然而,CT检查中通常包含大量切片,传统依赖人工勾画肿瘤区域的方法不仅耗时耗力,还高度依赖医师经验。特别是在肿瘤与正常组织对比度低、形态变化大的情况下,漏分或误分的情况常常发生,影响诊断效率与准确性。
近年来,深度学习技术[2]的兴起为医学影像分析带来突破,全卷积神经网络因其端到端的像素级预测能力,在肝脏及肿瘤等医学影像分割任务中取得了显著进展。其中,U-Net网络[3]凭借典型的编码器–解码器结构与跳跃连接设计,可在下采样过程中提取高层语义信息,并在上采样阶段融合浅层细节特征,从而更好地恢复目标边界与形态信息,目前已成为医学图像分割领域应用最广泛的基准模型之一。
为提升肝脏肿瘤分割精度,研究者围绕U-Net结构开展了多方面改进。张欢等[4]对U-Net在编码器、解码器与跳跃连接等结构改进进行了系统归纳,并总结其在肝脏肿瘤分割中的应用。李秀华等[5]提出融合混合空洞卷积、注意力机制及Focal Tversky损失的改进模型,LiTS2017实验显示其Dice系数提升3.56%~4.21%。莫亚霓等[6]通过级联网络将将肝脏分割与肿瘤分割结合,在提取肿瘤感兴趣区域(ROI)后,通过第二阶段进一步精细分割肿瘤,从而提高了分割精度。
上述深度学习在医学图像分割领域取得不错的分割效果,但肝脏肿瘤分割领域仍然存在肝脏肿瘤数据集较少,肝脏肿瘤与四周的正常组织之间边界模糊,从而影响病灶的边缘信息分割的准确性的问题。同时多数网络在对病灶区域进行分割时仅利用CNN (Convolutional Neural Network) [7],会导致图像信息在一定程度上被削弱,从而影响后续的边界轮廓信息的提取的问题。
为解决上述模型在分割形状复杂、边界模糊的肝脏肿瘤图像时存在分割结果精确率低的问题,本文提出了一种新的网络架构,以提升CT影像中对肝脏肿瘤的分割精度。本文的主要贡献总结如下:1) 提出了双分支多尺度残差卷积模块(Dual-branch Multi-scale Residual Convolution Block, DMRCB),通过多分支使用不同感受野的卷积核,从多个尺度提取肝脏肿瘤特征,增强了对不同尺寸肿瘤的表征能力;2) 在跳跃连接中嵌入了CBAM (Convolutional Block Attention Module)注意力机制,动态调整特征通道与空间权重,优化了浅层与深层语义信息的融合,避免了背景噪声干扰,使模型能够更精确地聚焦肝脏肿瘤区域;3) 设计了一种混合损失函数,结合了二元交叉熵损失与Dice损失,进一步提升了模型的稳定性与分割精度。
2. 方法
2.1. 整体网络架构
针对肝脏肿瘤图像分割任务中存在的肿瘤尺寸差异大、边界模糊以及特征融合粗糙等问题,本文提出了一种改进的U-Net网络架构——DMCAU-Net (Dual-branch Multi-scale Convolution and Attention U-Net),如图1所示。该网络在保持U-Net经典对称式编码–解码结构的基础上,通过引入双分支多尺度残差卷积模块(DMRCB)和通道–空间注意力机制(CBAM),有效提升了多尺度特征提取能力和空间上下文建模效果。
Figure 1. Architecture of DMCAU-Net
图1. DMCAU-Net网络结构图
DMCAU-Net的整体架构由编码器、解码器和跳跃连接三部分组成。编码器部分包含四级下采样结构,每级由一个DMRCB模块与一个2 × 2最大池化操作组成。DMRCB模块作为核心特征提取单元,采用双分支并行方式提取多尺度信息,能够同时捕获微小肿瘤的局部细节与大尺寸肿瘤的全局上下文信息。在下采样过程中,特征图尺寸逐级减半,而通道数逐级倍增,形成多尺度特征金字塔。
在跳跃连接路径中,本文在每条连接末端引入了CBAM模块。该模块包括通道注意力和空间注意力两个子模块,串联组成对浅层特征的注意力筛选机制。在与解码器特征融合前,CBAM对编码器传来的浅层语义信息进行自适应调节,强化目标区域的显著响应,有效抑制肝脏血管、胆管等解剖结构产生的背景噪声干扰。
解码器部分与编码器对称,同样包含四级上采样结构。每级首先通过转置卷积实现尺寸还原,然后将上采样特征与经CBAM调节后的编码器特征进行通道拼接,随后送入DMRCB模块进行特征融合与重建。该结构充分利用多尺度语义信息与跳跃连接细节,有效弥补了上采样过程中潜在的信息损失。最后一层采用1 × 1卷积将多通道特征图映射为单通道,配合Sigmoid激活函数输出肿瘤的二值掩膜图,实现像素级分割。
2.2. 双分支多尺度残差卷积模块(DMRCB)
传统U-Net编码器采用单一尺度的卷积核,难以同时捕获不同尺寸肿瘤的特征信息。肝脏肿瘤直径可从数毫米至数十厘米不等,而固定尺寸卷积操作对多尺度特征的适应性较差,易导致小肿瘤漏检或大肿瘤边缘分割不准确。为解决这一问题,本文设计了双分支多尺度残差卷积模块,如图2所示。
DMRCB模块的结构由两个分支组成,每个分支并行使用不同尺寸的卷积核来处理输入特征。第一分支包含1 × 1卷积和3 × 3卷积,用于提取通道间的关系和局部空间特征。第二分支则包含1 × 1、3 × 3和5 × 5卷积,分别用于捕捉不同尺度的特征信息。通过这种并行结构,DMRCB能够同时从多个尺度处理图像中的细节和全局特征,提升特征提取的多样性。
在每个卷积操作后,使用批量归一化(Batch Normalization)和ReLU激活函数,以增强网络的非线性表达能力。随后,模块通过残差连接将输入特征与卷积操作后的输出相加,确保信息的有效传递,并优化梯度的流动。这种残差结构解决了深层网络中的梯度消失问题,同时保留了输入特征中的高频细节信息,提升了网络训练的稳定性。
在多分支并行处理特征后,DMRCB通过拼接操作将两个分支的特征图沿通道维度进行合并,形成一个包含多尺度信息的特征图。拼接后的特征图经过1 × 1卷积融合,去除冗余特征并强化有效信息,最终输出优化后的特征图。这一过程确保了来自不同尺度的特征能够被充分融合,从而提升模型的表现力。
Figure 2. Structure of DMRCB module
图2. DMRCB模块结构图
2.3. CBAM
原始U-Net的跳跃连接直接拼接编码器的浅层特征与解码器的深层特征,忽视了不同尺度特征的差异以及通道与空间维度的权重分配。在肝脏肿瘤分割任务中,肝脏血管、胆管等解剖结构的干扰常使肿瘤区域的响应被背景噪声淹没。为此,本文在跳跃连接中嵌入了CBAM双注意力机制[8],通过动态特征选择优化编码器与解码器间的特征融合过程。
CBAM是一种轻量级注意力机制,通过通道和空间双重注意力权重动态调整特征重要性。其结构分为通道注意力子模块(Channel Attention Module, CAM)和空间注意力子模块(Spatial Attention Module, SAM)两部分,以串联方式组成通道–空间的注意力流程,如图3所示。通道注意力子模块通过计算各通道全局特征的重要性权重,突出重点关注的特征,增强特征在通道维度上的表现。空间注意力子模块则分析像素间关系,动态捕捉局部至全局的显著区域,识别空间维度上的重要信息。这两种机制可独立整合进CNN的不同层级,如通道注意力可放置在卷积层后进行初步特征增强,空间注意力用于最终的特征提纯阶段,这种灵活性使CBAM适应各类网络架构,尤其轻量化模型和复杂任务。通过双重注意力机制,CBAM可优化编码器与解码器间的特征融合过程:低级特征中的解剖结构信息和高级特征中的语义信息通过注意力加权后,能更精准地对齐和互补。
Figure 3. Structure of CBAM module
图3. CBAM模块结构图
通道注意力子模块通过全局空间信息压缩和通道间非线性交互,实现特征通道的权重分配。首先采用全局平均池化(GAP)和全局最大池化(GMP)对输入特征图进行双路径空间压缩,分别提取特征图的整体分布特征和局部显著特征。随后,通过共享权重的双层全连接网络(MLP)建立通道间的非线性依赖关系,最终通过Sigmoid函数生成归一化的通道权重向量,如图4所示。
Figure 4. Channel attention module
图4. 通道注意力子模块
空间注意力子模块侧重于特征图的空间维度优化,通过建立像素级的位置相关性模型,强化目标区域的响应强度。首先对通道注意力输出的特征图进行通道维度的全局平均池化和最大池化操作,将特征图压缩为空间描述符。接着采用卷积核进行空间卷积运算,通过扩大感受野捕捉长距离的空间依赖关系,最终生成的空间权重图能够精准定位肝脏肿瘤的边界区域,如图5所示。
2.4. 损失函数
在肝脏肿瘤图像分割任务中,由于肿瘤区域在整幅图像中占比较小,存在严重的类别不平衡问题。单一的损失函数难以有效平衡分类性能和分割精度。为此,本文设计了一种混合损失函数,结合二元交叉熵损失与Dice损失的优势,优化模型性能。
Figure 5. Spatial attention module
图5. 空间注意力子模块
二元交叉熵损失(Binary Cross-Entropy Loss, BCE)通常用于二分类任务,在肝脏肿瘤分割中,每个像素被分为前景(肿瘤)或背景(非肿瘤),该函数可以有效计算预测值与真实标签之间的差异。BCE损失对预测置信度敏感,能够提供稳定的梯度信号,但对类别不平衡问题较为敏感,计算公式如下:
,(1)
其中,N为样本数,p代表模型预测值,y表示真实标签。
Dice损失是基于Dice相似系数(DSC),常用于图像分割任务,直接优化预测区域与真实区域的重叠程度。Dice损失对类别不平衡不敏感,能够直接优化目标区域匹配度,但对预测置信度的绝对数值不敏感,训练初期梯度可能剧烈波动,计算公式如下:
。(2)
为了更准确地分割肿瘤区域,结合二元交叉熵和Dice两个损失函数,有效地平衡分类性能和分割精度,从而优化模型性能,定义如下:
,(3)
其中α和β是混合损失函数中的超参数,本文选择α = 0.4,β = 0.6,这种权重配置对各类肿瘤区域的分割结果在边界清晰度、内部填充完整性以及与真实病理切片对比的一致性等方面均达到较优水平。
3. 实验结果与分析
为验证本文所提出的DMCAU-Net模型在肝脏肿瘤分割任务中的有效性,本节在公开数据集LiTS2017上开展了系统性实验研究。首先介绍实验所用数据集及预处理方法,随后阐述实验环境配置与评估指标,最后通过对比实验和消融实验对模型性能进行全面分析。
3.1. 数据集及预处理
本研究采用LiTS2017 (Liver Tumor Segmentation Challenge 2017)数据集[9]进行模型训练与验证。该数据集由国际医学图像计算与计算机辅助干预会议(MICCAI)发起,整合了全球多家医学中心的临床增强CT影像数据,是医学影像领域权威的肝脏肿瘤分割基准数据集。
LiTS2017数据集包含131例训练样本(含76例男性与55例女性病例)及70例测试样本。每张CT图像及其对应标签的原始尺寸均为512 × 512像素,平面内分辨率为0.55 mm至1.0 mm,层间间距为0.45 mm至6.0 mm。所有病例均经病理学验证为肝细胞癌或转移性肝癌,肿瘤直径覆盖8 mm至185 mm范围,具有较高的临床代表性和数据多样性。
在数据预处理阶段,本研究采取以下策略:首先,为降低模型计算复杂度并提升对小目标的检测精度,将原始512 × 512分辨率的CT图像统一缩放至128 × 128像素。其次,为充分利用有限的训练数据并增强模型泛化能力,对训练样本及其对应标签实施数据增强操作,具体包括:随机旋转、水平翻转、平移缩放以及随机裁剪等。最后,将数据集依据病人层面(Patient-level)按照8:1:1的比例划分为训练集、验证集和测试集,严格确保同一病人的所有CT切片仅出现在同一子集中,避免因切片级划分导致的数据泄露问题。
3.2. 实验设置及评估指标
本实验的硬件平台配置如下:中央处理器为Intel Core i7-14650HX (主频2200 MHz,16核心24线程),系统内存为16 GB,图形处理器为NVIDIA GeForce RTX 4060 Laptop GPU (显存8 GB)。软件环境基于Python 3.11.7构建,深度学习框架采用TensorFlow 2.10.0,GPU加速库为CUDA 11.2。模型训练参数设置如表1所示。
Table 1. Model training parameter settings
表1. 模型训练参数设置
模型训练 |
参数 |
优化器 |
Adam |
初始学习率 |
0.0001 |
Batch Size |
4 |
Epoch |
50 |
同时为全面评估模型的图像分割性能,本研究采用三项定量评价指标:交并比(Intersection over Union, IoU)、Dice相似系数(Dice Similarity Coefficient, DSC)、准确率(Accuracy, Acc)。
IoU衡量的是预测与实际标签的重叠程度,值越大表示模型预测越准确,计算公式如下所示:
。(4)
DSC用于评估两个样本的相似度,值越接近于1,表示预测与实际标签越相似。通常在分割任务中,DSC被广泛用于衡量分割结果的准确性,计算公式如下所示:
。(5)
Accuracy衡量的是模型正确分类的样本占总样本的比例,通常用于评估分类任务的整体效果,计算公式如下所示:
,(6)
其中,TP为肿瘤像素被正确预测为肿瘤的数量,TN为非肿瘤像素被正确预测为非肿瘤的数量,FP为非肿瘤像素被错误预测为肿瘤的数量,FN为肿瘤像素被错误预测为非肿瘤的数量。
3.3. 对比实验与分析
为验证本文提出的DMCAU-Net模型的有效性,在LiTS2017数据集上选取U-Net [3]、U-Net++ [10]、TransUNet [11]作为基准模型进行对比实验,实验结果如表2所示。
从表2实验结果可以观察到,本文提出的DMCAU-Net在核心评价指标上均展现出显著优势。在肝脏肿瘤区域分割精度方面,IoU和DSC分别达到90.07%和94.78%,较经典U-Net提升18.73个百分点和11.51个百分点,较TransUNet提升4.43个百分点和5.86个百分点。这一改进归因于双分支多尺度残差卷积模块对肝脏肿瘤边缘细节的增强提取能力,以及CBAM注意力机制对特征通道与空间权重的动态校准,有效缓解了传统方法中因固定感受野导致的特征遗漏问题。从全局性能看,DMCAU-Net以99.65%的准确率领先所有对比模型,表明其在高复杂度的肝脏肿瘤CT图像中具有更强的整体判别能力。值得注意的是,U-Net++虽在IoU上表现优于基础U-Net,但其DSC显著下降,反映出密集跳连结构可能因特征冗余导致分割一致性降低。而TransUNet通过引入Transformer捕获长程依赖关系,在DSC取得优势,但其准确率略低于U-Net,提示全局注意力机制可能放大背景噪声干扰。
Table 2. Comparison experimental results
表2. 对比实验结果
Method |
IoU |
DSC |
Accuracy |
U-Net |
71.34% |
83.27% |
98.84% |
U-Net++ |
77.69% |
73.17% |
98.62% |
TransUNet |
85.64% |
88.92% |
98.03% |
Ours |
90.07% |
94.78% |
99.65% |
3.4. 可视化结果与分析
为直观展示各模型的分割效果差异,本研究选取具有代表性的测试样本进行可视化对比分析。从图6可视化结果可以观察到:U-Net模型在处理边界模糊的肝脏肿瘤区域时存在明显的欠分割现象,部分肿瘤边缘信息丢失严重;U-Net++模型虽然在整体轮廓捕获方面有所改善,但在肝脏肿瘤内部存在空洞和不连续区域,分割一致性欠佳;TransUNet模型借助Transformer的全局建模能力,在大尺寸肿瘤分割中表现较好,但对小尺寸肿瘤和复杂形态病灶的检测精度仍有不足。相比之下,DMCAU-Net在多形态肝脏肿瘤分割任务中展现出卓越性能。在边界清晰度方面,DMRCB模块通过多尺度卷积核的并行处理,能够同时捕获肿瘤边缘的精细纹理和整体轮廓信息,使预测边界与真实标注高度吻合。在内部填充完整性方面,CBAM注意力机制有效抑制了背景噪声干扰,使模型能够更准确地聚焦于肿瘤区域,避免了分割结果中的空洞和断裂现象。
Figure 6. Visualization results of comparison models
图6. 对比模型可视化结果
3.5. 消融实验与分析
为了验证提出的双分支多尺度残差卷积模块(DMRCB)与融合CBAM模块的有效性,本研究设计四组消融实验:U-Net、U-Net + CBAM、U-Net + DMRCB、完整模型(U-Net + DMRCB + CBAM),实验结果如表3所示。
由表3的消融实验结果可以看出,各模块对模型分割性能均产生了积极影响。基线模型U-Net在IoU、DSC和Accuracy指标上分别为71.34%、83.27%和98.84%,整体分割性能相对有限。在U-Net中引入CBAM注意力机制后,IoU和DSC分别提升至88.55%和90.44%,Accuracy提升至99.39%,表明CBAM能够通过通道与空间注意力增强模型对肝脏肿瘤区域的关注能力,从而有效改善分割效果。仅引入DMRCB模块的U-Net + DMRCB模型同样取得性能提升,其IoU和DSC分别达到86.45%和89.76%,说明多尺度残差卷积结构有助于增强模型对不同尺度肝脏肿瘤特征的表征能力。进一步将DMRCB与CBAM模块相结合后,完整模型在各项评价指标上均取得最优结果,IoU、DSC和Accuracy分别达到90.07%、94.78%和99.65%。上述结果表明,DMRCB与CBAM模块在特征提取与特征筛选方面具有良好的互补性,其协同作用能够显著提升肝脏肿瘤分割的精度与鲁棒性。
Table 3. Ablation experimental results
表3. 消融实验结果
Method |
IoU |
DSC |
Accuracy |
U-Net |
71.34% |
83.27% |
98.84% |
U-Net + CBAM |
88.55% |
90.44% |
99.39% |
U-Net + DMRCB |
86.45% |
89.76% |
98.96% |
U-Net + DMRCB + CBAM |
90.07% |
94.78% |
99.65% |
4. 结束语
本文针对肝脏肿瘤图像中肿瘤形态复杂、边界模糊以及多尺度特征难以有效建模等问题,提出了一种改进的U-Net分割模型DMCAU-Net。该模型通过引入双分支多尺度残差卷积模块增强了对不同尺度肿瘤特征的表征能力,并在跳跃连接中融合CBAM双注意力机制,有效提升了浅层与深层特征的融合质量。同时,设计了结合二元交叉熵损失与Dice损失的混合损失函数,以进一步提高模型训练的稳定性与分割精度。
在LiTS2017数据集上的实验结果表明,所提出的DMCAU-Net在IoU、DSC和Accuracy等评价指标上均优于基线模型U-Net及多种改进模型,消融实验进一步验证了多尺度残差模块与注意力机制的有效性及其协同作用。实验结果充分说明,所提出的方法能够在复杂肝脏肿瘤分割任务中取得更为准确和稳定的分割效果。
尽管本文方法取得了一定效果,但仍存在一些不足,例如对大规模多中心数据的泛化能力有待进一步验证。未来工作将考虑引入更丰富的数据集及轻量化网络设计,以提升模型在实际临床应用中的适用性与推广价值。