1. 引言
一直以来,皮肤病变都是一个严峻的全球性健康问题。根据美国癌症协会的预测,恶性黑色素瘤等皮肤病的发病率每年都呈现增长态势[1]。因此,为了有效应对这一挑战,开发计算机辅助自动诊断系统以确保精准识别皮肤病变具有重要意义。皮肤病变区域的语义分割是实现这一目标的关键方法,在大量标签数据的支持下,面向皮肤病变分割任务的深度学习模型取得了显著进展[2]。然而,从医学皮肤图像中获取像素级标签数据是一项十分艰难的任务,这项任务不仅成本高昂,还需要具有专业医学知识的工作人员进行精准标注[3]。为了应对上述挑战,利用少量有标签数据和大量无标签数据的半监督学习已成为解决标签稀缺问题的重要策略方法。
半监督学习的一个方法分支是基于一致性正则化的半监督学习,Mean Teacher作为经典的一致性正则化方法,虽然在很多关于图像分割相关任务中性能表现出色[4],但是该方法在模型上也存在一定的限制。在模型的训练过程中,教师模型的权重通过指数移动平均(Exponential Moving Average, EMA)由单一学生模型进行迭代更新,教师模型的参数将在训练进程不断推进的过程中逐渐接近学生模型,甚至会出现两者的权重高度耦合,使其难以提供更具分割意义的知识信息[5]。当学生模型在特定样本上产生错误预测时,高度耦合的教师模型可能会积累这些误差,并进一步引导学生模型沿错误方向学习[6]。尽管在整个模型框架中,每个网络的结构是相同的,但是模型参数的初始化却是随机的,因此通过引入额外的学生网络,能够避免不同模型之间参数耦合的问题,同时能够降低模型陷入局部最优的概率。伪标签是另一种半监督学习的方法,该方法主要利用熵最小化的原理鼓励网络对未标记的图像进行更加自信的预测[7]。尽管基于伪标签的半监督学习方法不存在模型间参数耦合的风险,但是模型的分割性能很大程度上依赖于伪标签的质量。因此本文考虑在一致性正则化的基础上,同时引入伪标签,目前已经有科研人员将这两种方法结合起来应用到不同的分割任务中[8] [9],本文提出的方法也是对这个研究方向的探索。
本文通过向传统的一致性正则化方法中引入额外的学生网络,提出了DSST (Dual-Student Single-Teacher)网络框架,能够有效降低模型陷入局部最优的风险,同时避免模型参数的耦合。与此同时,引入的UMIX (Uncertainty-Guided Mix)能够通过移除模型预测结果中不确定性最高的部分,生成高质量的伪标签。经实验证明,所提出的方法在皮肤病变分割任务中表现良好。
综上所述,本文的主要贡献可以概括为以下三点:
1) 基于一致性正则化的方式,本文提出一种新型的双学生单教师网络半监督学习语义分割框架,该框架具有两个学生网络和一个教师网络,额外的学生网络能够有效避免模型间参数耦合的风险。
2) 在双学生单教师网络的基础上引入用于生成高质量伪标签的UMIX模块,实现一致性正则化与伪标签两种半监督学习方法的结合。
3) 将提出的方法在公开数据集ISIC 2017与ISIC 2018上进行验证,实验结果显示,本文提出的方法表现出了优秀的分割性能。
2. 相关工作
在半监督学习方法中,主要包含基于一致性正则化的半监督学习与基于伪标签的半监督学习,同时也有研究尝试将两者结合应用到各种不同的领域中。
一致性正则化的核心思想是模型在对同一输入样本的不同扰动版本进行预测时,输出结果应保持一致。如果对未标注数据添加噪声、数据增强或其他扰动后,模型仍能给出稳定的预测,则说明模型具备良好的泛化能力。Fan等人在他们的半监督单标签图像分类研究中重新审视了这一概念,并提出了FeatDistLoss,通过减少特征距离以实现预测的稳定性和增加特征距离以实现不变性,在多个基准测试中取得了十分优异的成绩[10]。同样,Wang等人在深度人脸防伪领域探索了一致性正则化,引入了嵌入级和预测级一致性正则化,在无需额外注释的情况下,通过强制执行密集相似性和预测一致性来改进监督和半监督任务[11]。对于医学图像分割,Xu等人在平均教师框架内引入了一种模糊选择性一致性正则化,主要针对无标签数据中的模糊区域,从而实现提升分割性能的目的,该方法在左心房和脑肿瘤分割等数据集上实现了优秀的分割效果[12]。Lu等人提出了一种相互辅助的双重一致性正则化方法,结合不确定性意识和循环损失来细化伪标签,并增强学生模型和教师模型之间的一致性,在公共医学图像数据集上展示了卓越的结果[13]。
伪标签方法的核心思想是用模型自身的预测结果来生成“伪标签”,并将其作为额外的训练数据进行监督学习。这种方法将无标签数据转化为“有标签数据”,从而扩充数据集,提高模型性能。Basak等人提出了一种伪标签引导的对比学习框架,用于医学图像分割,该框架整合了来自半监督学习的伪标签,无需显式的预文本任务,通过增强类间可分性和类内紧凑性,在多模态数据集上实现了卓越性能[14]。同样,Chaitanya等人引入了一种基于伪标签的局部对比损失,利用从无标签数据中得出的伪标签,在有限的有标签数据基础上强制执行像素级一致性,在心脏和前列腺分割中,仅用最少的有标签数据就取得了显著的性能提升[15]。Hu等人针对半监督实例分割提出了伪标签对齐实例分割(PAIS)框架,引入动态对齐损失,根据类别和掩码质量细化伪标签,在COCO和Cityscapes数据集上,仅用1%的有标签数据就取得了显著成果[16]。Su等人专注于医学图像分割中可靠的伪标签,采用互学习结合置信度和类内相似性指标来过滤不可靠的伪标签,在多个数据集上实现了最先进的结果[17]。
也有部分学者将一致性正则化与伪标签的方法结合起来。Wang等人将基于一致性的正则化与伪标签结合应用于射频指纹识别,设计了一种针对无线信号的复合数据增强方案,即使在有限的有标签数据情况下也能实现接近全监督学习的性能[18]。总之,基于一致性正则化的半监督学习与基于伪标签的半监督学习在医学图像语义分割领域都已经显示出了较好的成果。
3. 问题建模
本文提出的DSST双学生单教师网络半监督语义分割方法,通过额外引入一个学生网络,有效避免了模型之间参数耦合的风险,同时引入UMIX模块,能够生成高置信度的伪标签,实现提高网络模型分割性能的目的。
3.1. 方法概述
本文提出的方法主要由两部分组成,分别是DSST网络框架与UMIX模块。如图1所示,DSST包括一个教师网络和两个学生网络,并且在每次迭代中执行两个训练阶段,分别是生成高质量的伪标签与利用伪标签更新模型参数。在第一阶段中,将两个学生网络的预测结果与教师网络的预测进行比较,计算学生网络预测的不确定性,生成置信度图。随后,根据置信度图对输入数据应用UMIX。这包括将原始图像中不确定性最高的k个小块替换为不确定性最低的k个小块,从而创建新的样本数据。在第二阶段中,分别将新生成的样本数据作为输入、新生成的预测结果作为伪标签,更新学生网络与教师网络的参数。
Figure 1. The overview of DSST
图1. DSST方法的概述
具体而言,在第一阶段,对输入图像X进行数据增强:
(1)
其中,Aug是数据增强操作,包括水平翻转、垂直翻转和随机翻转。随后分别用两个学生网络和一个教师网络对数据增强后的输入图像进行预测:
(2)
(3)
其中,
和
是教师网络的预测结果与参数,
和
是两个学生网络的预测结果和参数。分别计算两个学生网络与教师网络之间的不确定性,生成不确定性图:
(4)
其中,
是两个学生网络的不确定性图,uncertain用于计算学生网络与教师网络之间的不确定性,随后根据
生成新的图片样本数据和伪标签:
(5)
(6)
其中,
表示新生成的图片样本数据,
表示新生成图片样本数据的伪标签,
表示要替换的区域数量,
指定每个替换区域的大小。值得一提的是,对于有标签的数据使用其真实标签
代替
生成
。
在第二个阶段,将得到的图片样本数据作为输入图片,让两个学生网络进行预测:
(7)
根据预测结果计算损失Loss:
(8)
(9)
(10)
其中,
是有标签数据的损失,
是无标签数据的损失,
是Dice损失函数。最后,两个学生网络利用梯度下降方式更新网络参数,教师网络利用EMA方式更新网络参数。
3.2. DSST
在医学领域的半监督语义分割任务中,由于可用于训练模型的有标签数据获取困难且成本高昂,只占全部数据的小部分,为了有效利用有标签数据与无标签数据,提高模型的泛化能力与分割性能,我们提出了DSST方法来解决这个问题:在DSST中,两个学生网络具有相同的架构但采用不同的权重进行网络的初始化。具体而言,传统的Mean Teacher方法为教师网络通过EMA指数平均移动,利用单一学生网络进行参数更新,即:
(11)
而DSST增加了一个额外的学生网络,可以表示为:
(12)
其中,
代表当前迭代阶段,
是EMA的衰减率,
是DSST学生网络更新权重,
是教师网络的参数,
和
分别是两个学生网络的参数。
对于有标签数据,利用两个学生网络模型通过有监督学习进行训练;对于无标签数据,输入图像经两次随机数据增强后分别由两个学生网络进行预测,教师网络对输入图像进行预测并将预测结果作为伪标签监督两个学生网络。随后教师网络根据两个学生网络的参数来更新自身网络的参数。
在传统的Mean Teacher框架中,教师网络仅依赖单一学生模型的参数更新,这往往导致教师与学生网络在训练过程中参数高度耦合,一旦学生网络在某些样本上出现误差,教师模型也会同步沿着错误方向优化,进而强化错误信息。DSST引入第二个学生网络后,两位学生网络从不同的初始权重和数据增强视角出发,各自独立学习。教师网络在每次更新时,综合考虑两位学生的反馈,相当于对多次梯度估计进行“加权平均”。这种做法能够平滑训练过程中的随机噪声,减少单一学生网络误差对教师网络的过度影响,从而降低陷入局部最优的风险。同时,多样化的监督信号还能为教师网络提供更全面的知识,提升模型的稳定性和泛化能力。
3.3. UMIX
为了充分利用无标签数据,提升伪标签的质量,我们引入了UMIX模块[9]。UMIX的主要思想是:丢弃半监督语义分割模型产生的非理想预测结果区域,对于丢弃掉的部分,选用预测结果最理想的区域进行填充,从而来构建高质量的伪标签。首先,UMIX将输入图像与三个网络的预测结果划分为n × n个小分块,分别将两个学生网络的预测结果与教师网络的预测结果进行对比,计算每个小分块预测结果的可信度并生成置信图。将输入图像中可信度最低的k个小分块替换为可信度最高的k个小分块,形成一个新的图片样本。同时,对该输入图片的预测结果也做同步替换,这样就得到了一个具有高置信度伪标签的新样本。
Figure 2. The overview of UMIX
图2. UMIX方法的概述
UMIX不同于随机的区域擦除或交换,而是根据分割模型预测结果的不确定性来将原始图像及其对应伪标签中不确定性最高的几个区域替换为不确定性最低的区域。如图2所示,Pre (S1)中置信度得分最低的k个区域被Pre (S2)中置信度得分最高的区域所替代。在这种情况下,Pre (S1)中的深蓝色区域被Pre (S2)中的浅灰色区域所取代。同样,Pre (S2)中的低置信度区域与Pre (S1)中的相应高置信度区域交换,从而产生新的样本。UMIX模块通过对模型在无标签数据上的预测置信度进行分析,将那些最不可靠的区域用最可靠的区域进行替换,从而生成高质量的伪标签。与随机区域交换或直接使用教师预测相比,UMIX能显著提升整体伪标签的平均置信度,减少错误标签的比例。这种“有针对性”的区域重组,不仅让学生网络获得更清晰、更可信的监督信号,也加快了模型收敛速度,进一步提升了最终的分割精度。
4. 实验数据与分析
4.1. 数据集
在数据集的选择上,本文采用了ISIC 2017 [19]和ISIC 2018 [20]来评估模型的有效性。ISIC作为公开可用的数据集,不仅能够确保实验的可靠性与说服力,同时能够尽可能代表真实的临床成像环境。ISIC数据集包括.jpg格式的皮肤病变图像,并附有.png格式的相应分割真值标签。具体来说,ISIC 2017包含2,150张图像,而ISIC 2018包含2,594张图像。根据以往的研究方法和实验设置,我们将数据集分为训练集和测试集,比例为7:3 [9]。
4.2. 评估方法与实验细节
为了评估所提出方法的有效性,参考文献[21]中提出的方法:使用两个分割性能评估指标,即Dice相似系数(DSC)和平均交并比(mIoU)。所有这些指标的范围设置为0到1,值越高表示模型的分割性能越好。因此,理想的分割模型应该具有更高的mIoU、DSC。这些评估指标的定义为:
(13)
(14)
其中,TP、TN、FP和FN分别是True Positive、True Negative、False Positive和False Negative。
在整个实验过程中,采用NVIDIA GeForce RTX 3090 GPU作为实验的硬件,采用PyTorch框架实现。为了提高实验的稳健性,对输入图片也采用了各种数据增强技术,包括水平翻转、垂直翻转和随机旋转。初始学习率配置为0.0001,并使用AdamW作为优化器,将CosineAnnealingLR作为学习率调度器。在数据处理方面,将有标签数据的比例设置为10%,batch size设置为8,epoch设置为50。为了确保结果的可靠性,每个实验数据是由五次相同实验的结果取平均值得到。
4.3. 实验结果分析
4.3.1. 与其他方法模型的对比
在这一部分,我们将本文提出的方法与其他的方法进行了比较。对于实验配置相同的方法模型,采用其原始论文中的实验数据。对于其他实验结果,在确保相关实验配置都相同的前提下根据原始论文中提到的方法进行复现。
在表1中,我们与其他语义分割方法进行了比较,从表中的实验结果可以看出,本文提出的方法具有更加出色的分割性能。此外,如图3所示,将分割结果与几种常见模型进行可视化比较,其中(a) 是输入图像、(b) 是真实标签、(c) 是本文提出的方法、(d) 是UCMT、(e) 是DSBD、(f) 是DAN、(g) 是UA-MT、(h) 是CPS、(i) 是BFFC,所有可视化均在ISIC 2018数据集上进行,使用10%的标记数据进行半监督学习训练。显然,由于额外增加了一个学生网络,并引入了UMIX模块,使得模型具有更加优秀的分割性能。
Table 1. Comparisons with other semantic segmentation methods on different datasets
表1. 在不同数据集上与其他语义分割方法进行的比较
Datasets |
Method |
DSC (%) |
mIoU (%) |
ISIC 2017 |
UTNetV2 [22] |
87.23 |
79.98 |
TransFuse [23] |
88.40 |
77.35 |
MobileViTv2 [24] |
88.09 |
78.72 |
MobileNetv3 [25] |
87.44 |
77.69 |
UCMT [9] |
88.11 |
80.53 |
Ours |
88.48 |
81.27 |
ISIC 2018 |
DAN [26] |
84.26 |
75.15 |
UA-MT [27] |
84.80 |
78.02 |
CPS [28] |
84.72 |
76.81 |
TCSM [21] |
84.71 |
75.55 |
MC-Net [29] |
84.81 |
76.64 |
ASE-Net [30] |
85.19 |
78.80 |
BFFC [31] |
87.41 |
79.50 |
DSBD [32] |
86.31 |
78.05 |
UCMT [9] |
83.33 |
80.67 |
Ours |
88.65 |
81.63 |
Figure 3. Visualization of segmentation results from different models on the ISIC 2018 dataset
图3. ISIC 2018数据集上不同模型分割结果的可视化
4.3.2. 消融实验
为了体现研究的科学性与严谨性,本文也进行了消融实验,以研究每个组件的有效性。表2和图4展示了不同组件组合模型的分割效果。显然,在ISIC 2018数据集上,将Mean Teacher替换成DSST后,DSC提高了2.43%,mIoU提高了7.53%,模型整体的分割性能得到了改善,并且再次证实了避免模型之间参数耦合的必要性。此外,我们比较了仅使用DSST框架与在此基础上加入UMIX模块后模型性能的差异,通过有针对性地用高置信度区域替换低置信度区域,UMIX显著减少了伪标签中的错误噪声,提供了更可靠的监督信号。以mIoU为例,UMIX在两套数据集上分别带来了约2.7% (ISIC 2017)和2.3% (ISIC 2018)的相对提升,这直接反映了伪标签平均置信度和准确率的提升,从而加速了模型收敛并提高了最终分割精度。
Table 2. Ablation study on different components
表2. 不同组件的消融实验
Method |
ISIC 2017 |
ISIC 2018 |
DSC (%) |
mIoU (%) |
DSC (%) |
mIoU (%) |
Mean Teacher |
85.94 |
74.52 |
84.86 |
72.05 |
DSST |
87.10 |
79.10 |
87.29 |
79.58 |
DSST + UMIX (Ours) |
88.48 |
81.27 |
88.76 |
81.44 |
Figure 4. Comparison of segmentation performance among different components
图4. 不同组件的分割性能对比
5. 结论
本文介绍了一种名叫DSST的双学生单教师网络的半监督语义分割方法,主要针对于皮肤病变的分割任务。该方法有效地结合了一致性正则化与伪标签两种半监督学习方法,通过引入一个额外的学生子网络,能够有效防止训练过程中模型之间的参数耦合,并且能够降低模型陷入局部最优解的风险,同时利用UMIX产生的高质量伪标签能够进一步有效利用大量的无标签数据,从而提高模型整体的分割性能。最后在ISIC 2017和ISIC 2018数据集上对DSST方法进行了全面的评估,经实验证明,提出的DSST方法的性能表现超越了传统的与先进的半监督语义分割方法。
但DSST方法目前仅在皮肤数据集上进行了实验验证,在其他医学类型数据集中,由于数据在纹理、颜色和上下文方面的特征差异,可能会使模型的分割性能具有显著差异。未来的工作将优先扩大DSST的实验范围,以适配不同医学影像领域的各种数据集。