1. 引言
随着社会经济的发展与人们饮食生活水平的提升,肝脏疾病的发病率呈现持续上升趋势,其中肝脏肿瘤作为一类高发性、高致死率的恶性病变,已成为威胁人类健康的重大公共卫生问题。快速精准的肿瘤图像分割是临床诊断、治疗方案制定及预后评估的关键前提,不仅能显著提升医生的诊断效率、降低工作负荷,还能为肿瘤的精准治疗提供量化依据,为患者争取宝贵的治疗时间。因此,开发高效的肝脏肿瘤图像分割技术具有重要的临床价值与现实意义。
在深度学习技术广泛应用之前,肝脏图像分割算法主要依赖阈值法、区域增长法、分水岭法等传统算法[1]。然而,这类方法存在显著局限性:一方面对图像噪声、灰度不均匀性等因素高度敏感,鲁棒性不足;另一方面难以捕捉肝脏肿瘤复杂的形态特征与边界信息,导致分割精度偏低,难以满足临床实际需求。近年来深度学习技术迎来爆发式增长并在医学图像分割领域展现出卓越性能,一系列基于深度卷积神经网络的分割方法被相继提出。例如,朱闻韬等提出DA-Tran域自适应Transformer网络[2],用于从多相CT图像中实现肝肿瘤分割,铃木健司等研发出MHP-Net多尺度Hessian增强型基于块的神经网络[3],可在极小数据集下完成肝脏肿瘤的精准分割;夏栋等将深度学习进一步地应用在肝脏肿瘤CT图像分割领域中[4]。这些研究为肝脏肿瘤分割提供了新的思路与技术支撑,极大推动了该领域的发展,但如何进一步提升复杂场景下的分割精度与鲁棒性,仍是当前研究亟待突破的核心挑战。具体而言,临床肝脏影像中普遍存在肿瘤体积微小、边界模糊不清、与周围健康肝组织灰度值高度重叠等问题,传统改进模型往往难以精准捕捉这类低对比度、小目标病灶的特征信息;同时,不同患者的肿瘤形态、位置存在显著个体差异,部分病例还伴随肝硬化、血管侵犯等并发症,导致现有算法的泛化能力受限,在跨中心、跨设备的影像数据上易出现分割性能下降。此外,临床诊疗对分割结果的实时性要求日益提高,如何在保证分割精度的前提下,简化网络结构、降低计算开销,实现快速推理与临床部署,也成为制约技术落地的关键瓶颈。
2. 相关技术发展
U-Net网络发展
自2015年Ronneberger等人提出U-Net [5]以来,该网络凭借“编码–解码 + 跳连特征拼接”的核心架构,确立了医学图像分割领域的经典范式。其对称U型结构通过下采样提取语义、上采样恢复分辨率,并利用跳跃连接(Skip Connection)弥补了深层网络丢失的空间细节,成为生物医学分割任务的基石。
为了进一步强化网络对病灶区域的聚焦能力,Oktay等人提出了Attention U-Net [6]。该模型针对传统U-Net在处理形状多变、尺寸极小的目标时容易受背景噪声干扰的问题,创新性地在跳跃连接处引入了注意力门(Attention Gate, AG)机制。通过利用深层粗粒度特征作为门控信号,AG能够自适应地抑制背景区域的特征响应,同时增强目标区域的特征权重,在无需增加额外计算开销的前提下,显著提升了模型对胰腺等复杂器官的分割灵敏度。
在提升特征表征能力方面,Alom等人结合循环神经网络与残差网络的优势,提出了R2U-Net (Recurrent Residual U-Net) [7]。该架构利用循环残差卷积单元(RRCU)替代传统卷积模块,通过在离散时间步内进行特征累积,实际上增加了网络的有效深度。这种设计不仅通过残差连接促进了梯度的有效传播,还利用循环结构实现了同一层级内的特征复用,使得网络能够以更少的参数量提取出更丰富的多尺度特征,尤其适用于视网膜血管等精细结构的分割任务。
进入Transformer时代后,针对三维体数据的全局建模需求,Hatamizadeh等人提出了UNETR (UNet Transformers) [8]。不同于仅在瓶颈层引入Transformer,UNETR将3D体素块直接作为序列输入到纯Transformer编码器中,利用自注意力机制捕捉全图范围内的长距离依赖关系,并通过卷积解码器逐步恢复分辨率。该方法有效突破了3D CNN感受野局限,在脑肿瘤和脾脏等多器官分割任务中展现了对复杂解剖结构的强大建模能力。
3. 改进U-Net网络模型
3.1. EFF-UNet网络
在医学图像分割任务中,特征融合的有效性直接决定模型分割精度,传统U-Net及其变体通过跳跃连接实现编码器低层次特征与解码器高层次特征的融合,但存在三大核心问题:一是低层次特征与高层次特征相关性较弱时,直接融合易引入冗余信息;二是特征融合过程中未能针对性强化任务相关特征,导致特征可分辨性不足;三是传统融合机制计算复杂度较高,难以在参数受限场景下高效运行。
为解决上述问题,模型采用高效特征融合(Efficient Feature Fusion, EFF)模块。该模块以多注意力机制协同工作为核心设计理念,第一,通过增强注意力门控机制弱化无关区域特征的干扰,提升跨尺度特征的相关性;第二,结合通道注意力与空间注意力,实现特征维度与空间位置的双重优化;第三,在保证融合效果的前提下,控制计算复杂度,确保模型的高效性与实用性。模块整体结构如图1所示,主要由增强注意力门(Enhanced Attention Gate, EAG)、高效通道注意力(Efficient Channel Attention, ECA)和空间注意力(Spatial Attention, SA)三个子模块串联组成,形成“特征增强–维度优化–空间聚焦”的递进式融合流程。
Figure 1. EFF-UNet network architecture
图1. EFF-UNet网络结构
3.2. EFF模块
在医学图像分割任务中,特征融合的质量直接决定了分割精度的上限。尽管传统U-Net及其变体通过跳跃连接实现了编码器浅层特征与解码器深层特征的融合,但现有机制仍面临三大瓶颈:首先,浅层细节与深层语义之间存在显著的“语义鸿沟”,简单拼接易引入背景噪声与冗余信息;其次,特征融合过程缺乏对任务相关区域的针对性增强,导致边界模糊或特征辨别力不足;最后,传统复杂注意力机制往往伴随高昂的计算成本,难以满足临床实时性需求。
针对上述问题,本研究提出了一种高效特征融合(Efficient Feature Fusion, EFF)模块。该模块遵循“多注意力协同与轻量化设计”的核心理念,旨在实现高精度的特征重校准。如图2所示,EFF模块采用串联结构,依次由增强注意力门(Enhanced Attention Gate, EAG)、高效通道注意力(Efficient Channel Attention, ECA)和空间注意力(Spatial Attention, SA)构成,形成了一套“特征净化–维度加权–空间聚焦”的递进式优化流:EAG模块通过改进的门控机制,有效抑制无关背景区域的特征响应,显著提升跨尺度特征的语义一致性;ECA与SA模块分别从通道维度和空间维度对特征进行双重精细化校准,在强化关键特征表达的同时,捕捉细微的形态变化;整个模块在保证优异融合效果的同时,严格控制了参数量与计算复杂度,确保了模型在资源受限场景下的高效实用性。
EAG模块是EFF模块的前置特征增强单元,基于传统注意力门(AG)改进而来,核心解决传统AG计算复杂度高、数据依赖性强的问题。具体设计如下:采用分组卷积(GroupConv32)替代传统卷积进行组内特征融合,分组数设为32。分组卷积通过将特征图按通道分组并行计算,在保持特征表达能力的同时,显著降低计算复杂度。在特征处理流程中,对编码器通过跳跃连接传递的低层次特征(x)和解码器上采样得到的高层次语义特征(g)分别进行分组卷积、批量归一化(BN)和ReLU激活操作,得到处理后的特征Wx和Wg,计算过程如公式(1)和(2)所示:
公式(1)
公式(2)
Figure 2. EFF module
图2. EFF模块增强注意力门
相较于传统Attention Gate使用的1 × 1标准卷积,EAG采用分组数G = 32的分组卷积3。这种设计的核心动机在于:在处理512 × 512高分辨率CT图像时4,标准卷积的参数量随通道数平方级增长,而分组卷积能将计算开销降低至原来的1/G。这使得模型在嵌入三个连续注意力子模块时,仍能保持较快的推理速度,满足临床实时诊断的需求。
为缓解高低层次特征相关性较弱时的性能退化问题,引入残差连接机制,对低层次特征进行保护。通过Sigmoid激活函数生成注意力权重,对低层次特征进行自适应加权增强,最终输出增强后的特征,整体计算如公式(3)所示:
公式(3)
3.2.1. 高效通道注意力(ECA)
ECA模块旨在通过建立通道间的局部上下文关联,实现特征通道权重的自适应分配。与传统通道注意力机制不同,ECA摒弃了可能导致信息丢失的降维操作,转而采用更高效的直接处理策略。首先,模块对拼接后的特征图并行执行全局平均池化(GAP)与全局最大池化(GMP),在压缩空间维度的同时聚合全局通道统计特征;随后,利用一维卷积(Conv1d)在保持通道维度不变的前提下,精准捕捉通道间的局部邻域依赖关系;最终,经由Sigmoid函数激活生成的注意力权重向量对原始特征图进行逐通道乘法加权。这一过程实现了特征的重校准,有效凸显了对分割任务至关重要的关键通道,同时抑制了冗余特征的干扰。
3.2.2. 空间注意力
作为高效特征融合模块的末端环节,空间注意力(SA)模块旨在进一步捕捉特征图内的空间依赖关系,以强化目标区域的定位表达。该模块接收经ECA模块通道校准后的特征图作为输入,通过对空间维度进行深度统计建模,生成反映像素级重要性的空间注意力权重图。在生成的权重图中,高响应值精确对应医学图像中的病灶或目标器官区域(Region of Interest, ROI),而低响应值则有效抑制了背景噪声及非相关组织的干扰。通过将该权重图与输入特征进行逐元素相乘(Element-wise Multiplication),SA模块实现了对特征图的空间重构,显著提升了特征的空间分辨力,为后续分割网络提供了更精准的边界与位置信息。
4. 实验分析
4.1. 实验环境
实验通过PyTorch1.11.0框架实现,操作系统使用Ubuntu20.04,Python版本为3.8版本,CUDA为11.3版本,GPU采用一台NVIDIA GeForce RTX4090D。实验参数设置:epoch为100,batchsize为16,学习率为0.00001,采用Adam优化器。
4.2. 数据集
本实验数据集采用DIRCADb-01 (3D Image Reconstruction for Comparison of Algorithm Database)数据集由法国Rennes大学的研究人员创建,包含了来自不同医院的20个病例的CT体数据,厚度为1.0 mm~4.0 mm,横断面切片大小为512 × 512,数量在1到46之间。各图像均由专业影像医师对图像中的不同器官或组织进行了标注。为防止过拟合问题的出现以及增加训练数据、提高模型泛化能力,并提高模型对变形、旋转、尺度变化等因素的鲁棒性,本文对预处理后用作模型训练的样本以在线增强的方式进行了数据增强[9]。实验采用了随机裁剪、随机水平或垂直翻转、边缘填充和光度失真四种方法对即将输入网络的训练样本及其标注进行处理,并通过设定足够的迭代次数间接实现训练样本量的增加。最后得到1639张训练样本,并按照7:1:2的比例划分为训练集[10] (1147张),验证集(164张),测试集(328张)。
4.3. 损失函数
肝脏图像分割任务中,单一损失函数难以同时解决类别不平衡、边界分割不准确及特征区分度不足等问题。传统二分类交叉熵损失(BCELoss)虽能缓解梯度消失问题,但对医学图像中前景(肝脏区域)与背景(周围组织)的样本数量差异敏感,易导致模型偏向预测多数类;而Dice损失虽能通过计算预测区域与真实区域的重叠度强化边界匹配,但在训练初期易出现梯度震荡,影响模型收敛稳定性。为兼顾分割精度、边界完整性与训练稳定性,本文采用Dice损失与交叉熵损失加权融合的混合损失函数,充分发挥两种损失函数的互补优势,提升模型对肝脏区域的分割性能。混合损失函数的核心设计思路是:以Dice损失为主导,强化区域重叠度约束,提升边界分割准确性;以交叉熵损失为辅助,优化梯度传播特性,保证模型稳定收敛。同时,通过动态权重调整策略,适配训练不同阶段的优化需求。混合损失函数的表达式如公式(4)所示:
公式(4)
总混合损失(
)、权重系数(
)、Dice损失(
)、交叉熵损失(
),以及设定的权重值
,
,用于解释混合损失函数的构成及参数设置。
4.4. 评估函数
为了定量评估所提模型在肝脏图像分割任务中的性能,本研究选取了医学图像分割领域通用的Dice相似系数(Dice Similarity Coefficient, DSC)和平均交并比(mean Intersection over Union, mIoU)作为核心评价指标。其中,DSC主要用于度量模型预测分割掩膜与真实标签(Ground Truth)之间的集合相似度。DSC的计算公式定义如公式(5)所示:
其中,M表示预测值像素的集合,N表示标注金标准的像素的集合。DSC的取值范围为[0, 1],其数值越趋近于1,表明预测结果与金标准的重合度越高,反映出模型的分割性能越优越。
mIoU表示预测结果与标注金标准的交集与并集的比值,平均交并比的值越大表示预测结果与标注金标准的重合度越高,意味着模型分割性能越好。平均交并比的计算公式如公式(6)所示:
通过预测分割结果集合与真实标签集合的交集和并集的比值,衡量分割的准确性,值越接近1说明分割效果越好,是图像分割领域经典且核心的评价指标。
4.5. 实验结果分析
为了全面且客观地验证所提EFF-UNet模型在医学图像分割任务中的有效性与优越性,本研究设计了严谨的对比实验。实验选取了医学分割领域具有里程碑意义的经典架构作为基准(Baselines),具体包括:作为领域基石的U-Net、通过密集连接优化特征融合的U-Net++、引入残差学习机制以加深网络的ResUNet,以及利用门控机制增强特征筛选能力的Attention U-Net。通过与上述主流模型在同一实验环境下的横向对比,旨在量化评估EFF-UNet在特征提取与分割精度的性能提升。具体实验结果如表1所示。
Table 1. Comparison of segmentation performance of different models on liver tumor CT images
表1. 不同模型在肝脏肿瘤CT图像上的分割性能对比
Method |
Dice Score (%) |
MIoU (%) |
U-Net |
62.17 |
52.46 |
U-Net++ |
68.32 |
58.63 |
Attention-U-Net |
70.35 |
67.95 |
EFF-UNet (Ours) |
72.36 |
69.32 |
基础U-Net模型由于特征融合机制简单,Dice得分仅为62.17%。虽然U-Net++和ResUNet通过结构优化将Dice提升至68%~69%区间,但在处理肿瘤边缘细节时仍显不足。Attention U-Net利用注意力机制实现了70.35%的Dice得分和67.95%的mIoU。
相比之下,本文提出的EFF-UNet实现了72.36%的Dice得分和69.32%的mIoU。与次优模型Attention U-Net相比,Dice和mIoU分别提升了2.01%和1.37%;与基准U-Net相比,Dice提升幅度更是高达10.19%。这一结果有力地证明了EFF模块在多尺度特征融合与背景噪声抑制方面的优势,能够有效应对肝脏肿瘤分割中目标微小且形状不规则的挑战。
4.6. 模型分割结果分析
4.6.1. 实验结果可视化
为了直观且深入地评估模型在复杂解剖场景下的分割效能,本文在3D-IRCADb-01测试集上进行了可视化对比验证(如图3所示)。通过对比分割结果可以发现,本文所提方法在处理边缘模糊区域及微小肿瘤病灶时展现出显著优势,有效克服了传统方法难以应对复杂解剖结构的局限性。
4.6.2. 统计显著性分析
为了验证EFF-UNet模型性能提升的稳定性和科学性,本研究对测试集的所有切片结果进行了统计学处理。如图4所示,EFF-UNet在Dice相似系数和mIoU两个核心指标上均显著优于对比模型。与基准模型对比:相比于原始U-Net,EFF-UNet的Dice指标从62.17%大幅提升至72.36%,配对t检验显示
Figure 3. Segmentation results of the network model
图3. 网络模型分割结果
该提升具有极显著的统计学意义,这有力地证明了EFF模块通过增强特征聚合,克服了基础网络在复杂背景下的分割疲软问题。与次优模型对比:与引入了注意力机制的Attention-U-Net (Dice 70.35%, mIoU 67.95%)相比,EFF-UNet依然实现了2.01%的精度跨越。统计分析显示其p值小于0.05,这表明EFF模块中“特征净化–维度加权–空间聚焦”的递进式设计,比单一的注意力门控机制(AG)能更有效地识别微小肿瘤边界。结果稳定性:误差棒显示EFF-UNet的标准差(Standard Deviation)相对较小,反映了模型在处理3D-IRCADb-0数据集中不同病例时具有更强的鲁棒性。
Figure 4. Comparison of segmentation performance with statistical significance
图4. 统计显著性的分割性能比较
5. 局限性与讨论
分割失败案例分析:通过对测试集误差较大的案例进行追溯发现,模型在以下场景中表现尚不理想:极微小病灶丢失(如图5所示):当肿瘤体积微小且处于肝脏边缘时,即便有EFF模块增强空间关注度,由于下采样导致的细节丢失依然无法完全通过跳跃连接弥补,导致部分像素级别的欠分割。
Figure 5. Loss of extremely small lesions
图5. 极微小病灶丢失
针对上述局限性,未来研究将从以下两个方向展开:引入Transformer全局建模:参考UNETR等架构,探索在EFF模块中嵌入自注意力机制,以捕捉更长距离的依赖关系,提升对不规则大尺寸肿瘤的整体建模能力。动态损失函数调整:优化公式中的权重系数,尝试引入Focal Loss以增强模型对难分样本(如微小病灶)的关注度,进一步提升分割精度的上限。
6. 结语
本研究聚焦于医学影像领域肝脏肿瘤CT图像的精确分割难题,针对传统U-Net及其变体在跨尺度特征融合过程中存在的语义鸿沟、特征冗余以及有效特征关注度不足等问题,提出了一种嵌入高效特征融合(EFF)模块的改进型深度学习网络架构:EFF-UNet。
EFF-UNet的核心创新在于其跳跃连接中嵌入的EFF模块,该模块集成了增强注意力门控(EAG)、高效通道注意力(ECA)和空间注意力(SA)三种机制,构建了“特征净化–维度加权–空间聚焦”的递进式特征重校准流。EAG模块通过改进的门控机制,有效增强了跨尺度特征的语义一致性,而ECA与SA模块则从通道和空间维度对特征进行了双重精细化加权。
在DIRCADb-01数据集上的定量实验结果有力地证明了所提模型的有效性和优越性。EFF-UNet模型在核心评估指标上均超越了包括U-Net、U-Net++和Attention U-Net在内的经典分割基准。具体而言,EFF-UNet的Dice相似系数(DSC)达到了72.36%,平均交并比(mIoU)达到69.32%,相较于次优模型AttentionU-Net,DSC和mIoU分别实现了2.01%和1.37%的提升。研究结果证实,EFF-UNet架构能够显著提升复杂肝脏肿瘤CT图像的分割精度与鲁棒性,特别是对于边界模糊及微小病灶的识别具有显著优势。
NOTES
*通讯作者。