1. 引言
前列腺癌是男性中最常见的癌症之一,其发病率和死亡率在全球范围内持续上升。有效的早期诊断和准确的肿瘤分割对于制定个性化的治疗方案、改善患者预后至关重要[1] [2]。由于医学图像的复杂性以及对病变或器官进行精确分割的需求,区域增长、阈值、边缘检测、聚类和活动轮廓模型等传统分割技术无法满足临床要求。因此,采用深度学习技术对感兴趣区域进行分割来辅助医生进行诊断一直是研究重点[3] [4]。
近年来,深度学习技术在医学图像处理领域取得了显著进展,尤其是在图像分割任务中[5] [6]。Ronneberger等人提出U-Net网络[7],采用由编码路径和解码路径组成的对称的U型架构,并使用跳跃连接(skip connections)结合不同层次的信息,能够有效地提取医学图像语义特征。Zongwei Zhou等人提出了UNet2+ (UNet++)网络[8],采用了深度监督的编码器-解码器网络架构,其中编码器和解码器子网络通过一系列嵌套的密集跳跃路径连接,有效地减少了编码器和解码器子网络的特征图之间的语义差距,从而将学习任务变得更加容易。
然而,UNet2+缺乏从整个尺度获得的全面信息,这阻碍了其学习器官位置和边界的能力,特别是在前列腺肿瘤病理图像的分割任务中,肿瘤的边缘模糊和形态多样性使得分割变得更加困难。同样,由于其结构中的神经元数量有限,UNet3+ (UNet+++) [9]在使用少量样本进行训练时无法有效分割小物体。针对这些挑战,本研究提出了U-Net#网络,一种以“#”符号命名的新型网络拓扑,它结合了密集跳跃连接和全尺度跳跃连接。在解码器子网络中,U-Net#可以有效地整合不同尺度的特征图,并从整个尺度捕获细粒度特征和粗粒度语义。这种方法增强了对器官和病变位置的理解,并实现了准确的边界分割。
2. 实验方法
本研究的实验流程包含以下几个关键步骤,图像筛选及归一化、图像扩增、图像增强、U-Net#深度学习网络搭建、模型训练及测试、消融实验。算法模型的选择和设计是实验的关键环节,本实验以U-Net模型为基础,引入U-Net#网络进行深度学习模型的训练和测试。
2.1. 实验数据集和预处理
本研究的数据来源于上海交通大学医学院附属仁济医院泌尿科,涉及2021~2022年间的前列腺癌穿刺患者病理切片,共计594例。所有切片均由泌尿科医生手动标注,并提取为PNG格式的原始图像和掩码(mask)图像。在数据预处理过程中,我们排除了缺失或损坏、标注信息不全以及质量不佳的图像,经过筛选后剩余图像500例。
在研究设计中,数据集按照8:2的比例划分为训练集和测试集。为了提高模型的性能,我们对训练集图像进行了扩增,通过图像反转和直方图均衡等技术将训练集图像数量增加至1200张。这些扩增方法的选择旨在增加训练集的多样性,有助于模型更好地捕捉数据的特征,提高其性能和鲁棒性,从而使模型更具泛化能力[10]。
此外,使用OpenCV库对图像应用了线性变换并使用Pillow库调整了图像对比度因子对数据集图像的对比度进行了增强,以解决数据边缘模糊的问题。所有数据在输入网络之前均裁剪为1024 × 1024像素的大小,以确保输入图像的一致性。
2.2. 网络模型选择
在本实验中,选择采用U-Net网络作为基础,结合密集跳跃连接和全尺度跳跃连接进行分割模型的构建。跳跃连接在深度神经网络模型的性能上起着至关重要的作用。它们可以连接浅层和深层,保留低级特征,同时防止添加多层时性能下降。所提出的模型结构如图1(b)所示。
Figure 1. The model architecture comparison between UNet (a) and U-Net# (b)
图1. UNet (a)和U-Net# (b)的模型架构比较
本研究重新设计了模型的跳跃连接,使用密集跳跃连接块将来自同一层的特征图互连起来,此外还通过全尺寸跳跃连接来连接深层和浅层(在中间层和解码器子网络中)的特征图。与最先进的网络模型(UNet、UNet2+、UNet3+)相比,这种重新设计的跳跃连接方法提供了增强的全尺寸信息探索能力和各种大小的感受野,从而能够对不同尺寸的器官进行高精度分割。
为了更好地理解模型结构,我们使用一个由5行5列单元节点组成的矩阵(如图2所示)来抽象表示模型结构。矩阵的第一列节点对应模型的编码器,记为
,
。第二列单元模块的计算过程如下:首先,使用两尺度因子对较深层级的编码器特征进行上采样;然后沿通道与同层级的编码器进行拼接;最后通过卷积操作输出单元的最终结果。例如,编码器单元
是由同级层编码器
与更深层编码器
的2倍上采样后进行卷积计算得到的。
Figure 2. Node matrix for U-Net#
图2. U-Net#节点矩阵
矩阵的其他列节点从两个角度进行计算:一方面,通过密集跳跃连接(互连)充分获取同一级别的特征信息。另一方面,一系列中间层内和解码器内的跳跃连接(内部连接)从较小尺度层传递高级语义信息。例如,编码器
是通过
、
的密集跳跃互连、来自
的全尺度跳跃内部连接和对
的两尺度因子上采样获得的四个特征图的通道级联之后进行卷积运算得来的。
模型的最终输出,解码器
是通过八个特征图的通道连接实现的,这些特征图由来自
、
、
和
的密集跳跃互连,来自
、
和
的全尺寸跳跃内部连接以及
的两尺度因子上采样组成,然后进行卷积运算。与UNet2+和UNet3+相比,重新设计的跳跃连接使网络在语义层面上编码器和解码器特征之间更加相似。这种相似性为优化器在计算过程中提供了更容易优化的优势,并增强了从全尺度聚合特征图中进行全尺度特征信息探索的学习能力。
矩阵中各个模型单元的计算表示为式(1)。其中,
,
,为节点矩阵A的元素,表示各个模型单元的计算结果。当
时,第一个子公式定义了节点矩阵第一列的计算方法,具体为模型编码器
的计算方法,其中
。当
时,第二个子公式表示矩阵第二列的计算方法。当
且
时,第三个子公式描述了矩阵第3、4、5列的计算方法。
表示2 × 2的Maxpool2d操作,表示下采样。
表示2倍上采样,
表示2𝑛倍上采样。
表示每个单元的特征图在通道上连接在一起,而
表示单个顺序运算,包括Conv2d、BatchNorm2d和ReLU激活函数。最后,
表示n次顺序运算。
(1)
2.3. 实验配置
基于U-Net#网络的前列腺肿瘤病理图像分割模型搭建在64位windows系统上,处理器为12th Gen Intel(R) Core(TM) i5-12600KF,显卡为NVIDIA GeForce RTX 4060Ti 8GB,使用pytorch深度学习框架搭建训练模型,实验的硬件和软件配置如表1所示。
Table 1. Experimental hardware and software configuration
表1. 实验软硬件配置
类目 |
配置 |
操作系统 |
Windows 11 |
CPU |
Intel Core i5-12600KF |
显卡 |
GeForce RTX 4060Ti 8GB |
内存 |
32 GB |
开发语言 |
Python 3.9.19 |
深度学习框架 |
Pytorch2.3.1 |
工具库 |
matplotlib3.6.2,numpy1.23.5等 |
2.4. 模型参数
在本实验中,我们使用交叉熵损失函数(BCE Loss) [11]和dice损失函数(Dice Loss) [12]来衡量模型预测结果与真实值之间的差异。交叉熵损失函数主要用于分类任务,用来衡量模型预测的概率分布与真实分布之间的差异。对于二元分类任务,交叉熵损失函数的表达式为:
(2)
其中,
是样本数量,
是样本
的真实标签,
是模型对该样本的预测值。
Dice损失函数是一种专为分割任务设计的指标,用于衡量模型预测的分割结果与真实掩码之间的相似度。它特别适用于不平衡数据集,因为它注重预测结果与目标区域的重叠,适合用来处理医学图像分割等任务,该损失函数的表达式为:
(3)
其中
表示预测分割结果的像素集合,
表示真实标签的像素集合,
表示预测和真实分割区域的重叠像素数。总损失函数通过交叉熵损失函数和Dice损失函数的加权结合来构建,本实验总损失函数权重因子取0.5,总损失函数表达式为:
(4)
实验选择使用Adam(Adaptive Moment Estimation) [13]作为优化算法,它结合了RMSprop和动量法的优点,可以同时计算梯度的动量和梯度平方的自适应调整,因此在许多深度学习任务中表现优异。其更新规则由以下公式表示:
步骤 |
公式 |
梯度计算 |
|
一阶矩更新 |
|
二阶矩更新 |
|
续表
一阶矩偏差校正 |
|
二阶矩偏差校正 |
|
模型参数更新 |
|
其中
表示当前的模型参数。
是学习率,控制参数更新的步长,
是梯度向量,表示目标函数对参数的梯度。
控制一阶矩更新(动量)的衰减率,通常取0.9,
控制二阶矩更新(梯度平方的移动平均)的衰减率,通常取0.999。Adam优化算法将动量法和自适应学习率结合起来,在计算一阶和二阶矩的同时,通过偏差校正确保参数更新的准确性。这使得它非常适合于深度学习中复杂和大规模的优化任务。
通过观察模型在训练集和验证集上的表现,设置初始学习率为0.001,使用Adam优化函数计算权重梯度更新,权重衰减为0.0001,具体参数设置如表2所示。
Table 2. Model parameters
表2. 模型参数
参数 |
取值 |
学习率 |
0.001 |
权重衰减 |
0.0001 |
Batch Size |
4 |
Epoch |
5 |
优化器 |
Adam |
损失函数 |
BCE + Dice |
2.5. 评估方法
本实验采用Dice相关系数(Dice Similarity Coefficient, DSC)和IoU值(Intersection over Union)作为模型评估指标。Dice评分是医学图像分割任务中常用的指标,用于评估模型的分割结果与真实标注之间的重叠程度。尤其适合处理不平衡数据集和小目标分割任务。它是一种衡量集合相似度的指标,值在0到1之间,越接近1表示预测的分割结果与真实标签的重叠越大,分割效果越好。IoU值也称为交并比,是一种衡量模型的分割结果与真实标注区域重叠度的评估指标,数值范围从0到1,越接近1表示模型的分割效果越好。它广泛应用于二分类和多分类的图像分割任务中,与Dice系数一起使用时,可以全面评估模型的分割性能对于二分类问题(前景和背景的分割任务),各评分指标的表达式如下:
(5)
(6)
其中
表示模型预测的前景区域(预测掩码中前景像素的集合),
表示真实的前景区域(真实掩码中的前景像素集合),
表示预测掩码中前景像素的数量,
表示真实掩码中前景像素的数量,
表示预测前景区域和真实前景区域的重叠像素数。
表示预测前景区域和真实前景区域的并集像素数。
3. 结果
3.1. 实验结果比较
本节在上文提到的前列腺肿瘤病理图像数据集上对提出的U-Net#与UNet、UNet2+和UNet3+的语义分割性能进行了比较。结果如表3所示:
Table 3. DSC coefficients and IoU of different models
表3. 不同模型的DSC系数和IoU值
模型 |
DSC (%) |
IoU (%) |
UNet |
79.80 |
66.36 |
UNet2+ |
82.79 |
70.73 |
UNet3+ |
83.54 |
71.53 |
U-Net# |
85.43 |
74.27 |
重新设计跳跃连接的U-Net#模型在前列腺肿瘤病理图像分割任务上,所得到的DSC和IoU分别为85.43%和74.27%。相较于基线UNet模型,DSC和IoU分别提升了5.63%和7.91%。相较于UNet2+,DSC和IoU分别提升了2.64%和3.54%。同时相较于当前最为先进的UNet3+,DSC和IoU也有1.89%和2.74%的提升。结果反映出模型结构的改进在此数据集上对分割性能具有显著的提升。
3.2. 分割结果
本节使用了不同的模型对前列腺肿瘤病理图像的分割结果和数据集样本图像以及样本真值进行了比较,可视化分割结果如图3所示。
Figure 3. Segmentation results of different models on pathological images of prostate tumors
图3. 不同模型在前列腺肿瘤病理图像上的分割结果
从分割效果来看,原始UNet模型由于对局部特征关注较少,导致对病变器官的定位和识别上出现错误。UNet2+缺乏整个尺度的上下文信息,导致分割边界的不平滑,而UNet3+由于神经元数量的限制使得无法准确分割小病变区域。重新设计跳跃连接的U-Net#模型能够有效地从全尺度上捕获上下文信息,缓解了上述问题,分割结果更接近样本真值。显然,U-Net#在对前列腺肿瘤病理图像数据集病变器官的定位和分割方面能够取得高性能结果。
3.3. 消融实验
本文所提出的U-Net#是由基线UNet衍生而来的模型,我们对其重构了跳跃连接。U-Net#在模型中同时包含密集跳跃连接(水平跳跃连接)和全尺寸跳跃连接(垂直跳跃连接)。通过在下采样和上采样过程的每个阶段引入密集跳跃连接和全尺寸跳跃连接,通过连接全尺度的特征实现更全面的特征传播和信息融合。为了量化这两个连接在模型中的重要性,我们使用普通UNet+作为基线重新设计了两个模型结构。一个只有垂直全尺寸跳跃连接的模型UNet#_F,和一个只有水平密集跳跃连接的模型UNet#_D。两种连接方式的消融实验Dice评分如表4所示。
Table 4. DSC results of ablation experiments with different connection methods
表4. 不同连接方式的消融实验DSC结果
模型 |
DSC (%) |
UNet+ |
81.66 |
UNet#_F |
83.96 |
UNet#_D |
83.74 |
UNet# |
85.43 |
可以看出在UNet+模型中,无论是密集跳跃连接还是全尺寸跳跃连接,单独使用都能提升原模型的分割性能。此外,将两种跳跃连接整合到模型中,分割能力能够进一步提升。由此可见,重新设计的跳跃连接方法有效地引导网络学习更丰富的特征表示,提升了模型的感知能力和分割精度,特别适合处理复杂的医学图像。
4. 结论
在成功改进跳跃连接的UNet2+和UNet3+模型基础上,提出了一种新的模型结构U-Net#。该模型通过密集的跳跃连接将来自编码器、中间层和解码器层的特征图的语义信息以相同的尺度聚合起来,并利用全尺度连接最大限度地融合多尺度特征图中的高级语义和低级细节,从而实现器官或病变的精确位置感知和分割。在前列腺肿瘤病理图像数据集上进行实例分割的实验表明,所提出的模型优于目前现有的先进方法。综上所述,U-Net#模型在现有U-Net改进基础上进一步提升了前列腺肿瘤图像分割的精度,为医学图像分割领域提供了新的技术路径和更强的模型架构,具备广泛的应用潜力。