1. 引言
指代视频目标分割(RVOS)建立在视频目标分割(Video Object Segmentation, VOS) [1] [2]的基础之上,它利用指代表达作为引导,通过理解给定指代表达的语义来对视频片段中的目标区域进行分割。作为理解视频中场景语义的一项重要任务,指代视频目标分割可广泛应用于视频编辑、视频检索、增强现实以及人机交互[3]。
与其他与指代表达式相关的多模态任务(例如指代表达定位[4] [5]和指代表达分割[6] [7])类似,在指代视频目标分割中,指代表达在分割视频序列所有帧中的目标区域时起着至关重要的作用。Khoreva等人[8]探索了一种识别目标对象的替代方法,除了作为一种指出目标对象的更实用且更自然的方式之外,使用语言描述有助于避免偏差,还能使系统对复杂的动态变化和外观差异更具鲁棒性。Seo等人[9]将视频和指称表达式作为输入,并估算出给定语言表达式在整个视频帧中所指代的目标掩码,恰当地结合两种注意力模型,联合执行基于语言的目标分割和掩码传播,以此来学习指代视频目标分割中的跨模态对应关系。虽然这些模型取得了不错的成果,但它们忽略了视频帧中区域候选的长时间关系。
与用于指代表达定位和指代表达分割的图像区域表达注释相比,在每个视频帧上收集目标掩码表达标签是一项耗时且昂贵的任务。为了减轻模型训练阶段繁琐的手动注释并减少工作量,方法[10]提出了一种两阶段、自上而下的指称视频目标分割解决方案,相关工作[11]采用一种新颖的多层次表示学习方法法探究视频内容的内在结构,以提供一组具有区分性的视觉嵌入,从而实现更有效的视觉–语言语义对齐,但都是以半监督的方式训练模型,该方式仅利用视频级多模态对应或第一帧注释上的真实值。半监督设置的核心挑战是如何有效地利用未标记样本中的有用信息。为了探索隐藏在未标记数据中的有用知识,本文借鉴了半监督学习方法[12]-[14]来解决RVOS问题。
伪标签[12]旨在借助预训练教师模型的引导,为未标注样本生成伪标签,生成的伪标签被用作训练数据的辅助部分,用于监督学生模型的训练。作为伪标签法的一种特定方案,自训练[15] [16]在训练阶段将自身作为教师来生成伪标签。受伪标签和自训练显著特性的启发,本文将在线伪标签法引入指代视频目标分割中,以提升模型的分割性能。值得注意的是,这项工作是首次尝试通过伪标签来改进RVOS。
本文为指代视频目标分割提出了一个基于在线伪标签法的框架。考虑到在视频帧上直接使用伪标签会加剧由类别间不平衡导致的模型偏差,本文提出了一种不确定性感知策略,以自适应地校正生成的伪标签。具体而言,首先将之前训练轮次中即时学习到的检查点用作教师,以便为未标注的视频帧生成伪标签。然后采用分割置信度作为指标,对预测置信度进行排序,并选择置信度较高的伪标签来扩充训练数据,用于监督后续的模型训练。通过自适应伪标签筛选,能够避免将不确定的标签引入模型训练中,并确保通过伪标签法提升模型性能。
这项工作的主要贡献总结如下:
(1) 本文通过在线伪标签提出了一个新颖的框架来解决视频目标分割(RVOS)问题,并且本项工作是首次尝试将伪标签引入视频目标分割领域。
(2) 本文提出了一种不确定性感知策略,该策略能够基于分割预测的不确定性自适应地校正生成的伪标签。
(3) 本文在广泛使用的基准数据集Refer-YouTube-VOS [9]和Refer-DAVIS17 [8]上对所提出的方法进行了验证。实验结果证明了所提方法的有效性。
2. 实验方法
本文提出了一种具备不确定性感知的伪标签方法,以提升RVOS的效果。具体而言,将先前训练轮次所学到的检查点用作教师模型,为未标注的视频片段生成伪标签。为避免引入因预测确定性较低的伪标签所造成的噪声,本文提出了一种具备不确定性感知的伪标签优化策略,用以校正生成的伪标签。本文所提出的框架结构如图1所示。
Figure 1. Overview of the adaptive pseudo-labeling
图1. 自适应伪标签方法概述
2.1. 准备工作
RVOS任务旨在通过理解给定的指代表达式
(包含N个单词)的语义,使用二值分割掩码
,在包含M帧的视频片段
上对目标区域进行分割。
在实践中,对每个视频帧进行掩码到表达映射的注释并不容易,因此本文以半监督的方式分割目标区域,即利用每个视频的三个帧上的掩码表达注释进行模型训练。
最近发布的模型的主要策略是使用Transformer来提高模型性能。尽管这些模型取得了有希望的结果,但它们需要更强大的计算资源和更长的训练阶段。与基于Transformer的模型不同,本文采用联合指代视频目标分割(Unified referring video object segmentation, URVOS) [9]中引入的基线模型作为骨干,对视频帧中目标区域和指代表达之间的跨模态对应关系进行建模。URVOS首先采用自注意层来获得视频帧和表达的联合特征表示,然后将联合特征表示馈送到跨模态注意模块中以获得跨模态注意特征FC。为了捕获当前帧和前一帧的视觉表示之间的时间对齐信息,URVOS开发了一个记忆注意力模块,以产生记忆注意力特征图
。此外,
、
和原始视频帧视觉特征图
是由特征金字塔解码器D处理以预测目标掩模。URVOS通过D最小化定位真值掩码和解码logit之间的交叉熵(CrossEntropy)来训练模型。URVOS的训练目标定义为:
(1)
(2)
2.2. 在线伪标签
传统的伪标签利用静态教师模型在未标记的数据上生成伪标签,这需要一个预训练过程来获取教师模型。相比之下,本文的目标是在一个更完整的过程中,利用伪标签的未标记样本中的有用信息,在这个过程中,教师模型是在动态训练阶段学习的,而不是单独的训练程序。具体来说,本文使用在之前的训练周期中学习到的检查点作为教师来生成伪标签。随着模型训练的进行,可以基于更强大的教师模型逐步生成更好的伪标签。
给定一个包含K个标签对的训练集
和U个未标签样本
,使用在之前训练周期中学到的检查点C作为教师,为
生成伪掩码
。计算无监督损失
如下:
(3)
(4)
其中,
,
,
分别是获得的跨模态注意力特征、记忆注意力特征和选定的视频帧特征。使用生成的伪标签训练模型的最终损失定义为:
(5)
其中λ是一个超参数,用于平衡模型训练中
和
的贡献。
2.3. 不确定性感知伪标签细化
伪标签的原始假设是预训练的教师模型可以在未标记的数据上生成具有高预测置信度的伪标签,以增强原始训练数据。在此基础上,选择具有前k个最高预测样本的未标记数据作为后续训练阶段的辅助标记数据。另一方面,如果在所有未标签的帧上使用相同的置信度细化阈值过滤伪标签,则不可避免地会扩大模型对简单视频帧表达样本的偏差,或者带来新的噪声来降低模型性能。为了避免这个问题,本文提出了一种不确定性感知的伪标签细化策略,根据模型的预测不确定性自适应地校正生成的标签。
为了选择信息量最大的伪标签,本文建议根据掩模预测的不确定性自适应地校正生成的标签。受主动学习[17]的启发,主动学习采用模型预测的熵来衡量模型预测的不确定性。因此,可以通过以下方式计算模型预测不确定性来纠正标签:
(6)
其中,
是softmax函数,用于将logit向量映射到概率分布。
基于获得的不确定性感知阈值,本文选择预测的
,
,其熵值大于
的作为精细化伪标签,以增强训练数据。因此,最终的训练损失由下式给出:
(7)
(8)
3. 实验
3.1. 数据集和评估指标
数据集:本文在两个基准数据集上进行了广泛的实验,即Refer-YouTube-VOS和Refer-DAVIS17,以验证本文提出的方法。Refer-YouTube-VOS为从YouTube-VOS [2]中选择的3978个视频收集了15009个相应的指代表达,并提供了两种类型的注释,即完整视频表达式和第一帧表达式。遵循其他RVOS模型,本文采用两种类型注释进行模型训练和验证。此外,Refer-YouTube-VOS只发布训练集和验证集,因此也在验证分割上测试了本文的模型。Refer-DAVIS17包括来自DAVIS17 [18]的90个视频,其中包含1500多个相应的指代表达。Refer-DAVIS17包括60个视频的训练集,以及30个视频的验证集。
评估指标:与其它模型类似,遵循标准评估指标[19]来评估本文提出的方法。采用区域相似度(J) (%)来计算真实标签与预测分割之间的平均交并比(mean Intersection over Union,mIoU),使用轮廓准确度(F) (%)来评估真实标签与预测之间的边界相似度,并使用它们的平均值(J&F) (%)同时评估区域相似度和轮廓准确度。
3.2. 实现细节
在视频帧中,通过随机采样选择五帧作为滑动窗口,以确保这五帧分布在视频帧的不同位置。在特定的训练周期后,只给出第一帧的真值,允许模型在完整的视频帧长度数据中传播和预测,并获得所有帧的伪标签。然后,选择前三个伪标签来替换原始随机采样的三帧作为训练数据。
本文采用ResNet-50 [20]作为骨干网络来提取视频片段的深度特征表示。使用Adam优化器和初始学习率1e-4训练了总共20个epoch的模型,学习率在第十和第十五epoch衰减了0.1。此外,采用EMA [21]来提高模型的训练效率。
3.3. 与最先进的方法比较
为了评估所提出方法的性能,将本文的模型与采用ResNet-50作为主干网络并在Refer-YouTube-VOS和Refer-DAVIS17上训练模型的最优方法上进行了比较。
在Refer-YouTube-VOS上的比较:在Refer-YouTube-VOS数据集上,本文的模型与包括RefVOS [22]、URVOS、CMPC-V [23]、YOFO [19]、LBDT [24]、VLIDE [25]、MLRLSA [11]和Locator [26]在内的SOTA方法进行了比较。结果总结在表1中。
从表1中可以看出,本文的模型在三个指标上的性能优于其他模型。具体来说,本文的模型比基线模型URVOS [19]分别提高了8.55%、5.93%和7.24%,并且超过了之前SOTA模型Locator分别提高了5.02%、4.02%和4.47%。根据比较结果,所提出的方法在Refer-YouTube-VOS数据集上比其他模型更有效。
在Refer-DAVIS17上的比较:在Refer-DAVIS17上,本文的方法与Khoreava等人[8]、URVOS、RefVOS、VLIDE、LBDT-4和MLRLSA (仅预训练)进行了比较。本文将结果列在表2中。
如表2所示,本文的模型在Refer-DAVIS17上实现了最佳的分割性能。所提出的方法在J、F和J&F指标上分别超越了基线模型Khoreava等人13.55%、15.57%和14.56%,并且在与MLRLSA相比时分别提高了0.78%、1.48%和1.13%。从表1和表2中列出的比较结果来看,很明显本文的模型提高了分割性能,并且在两个基准测试上表现更稳健。
Table 1. Performance (Acc%) on Refer-Youtube-VOS val set
表1. 在Refer-Youtube-VOS验证集上的结果(准确率)
方法 |
来源 |
J |
F |
J&F |
RefVOS |
MTA 2023 |
39.50 |
- |
- |
URVOS |
ECCV 2020 |
45.27 |
49.19 |
47.23 |
CMPC-V |
TPAMI 2021 |
45.64 |
48.32 |
48.59 |
YOFO |
AAAI 2022 |
47.50 |
49.68 |
48.59 |
LBDT |
CVPR 2022 |
48.18 |
50.57 |
49.38 |
VLIDE |
CVPR 2022 |
48.44 |
50.67 |
49.56 |
MLRLSA |
CVPR 2022 |
48.43 |
50.96 |
49.70 |
Locator |
TPAMI 2023 |
48.80 |
51.10 |
50.00 |
本文 |
- |
53.82 |
55.12 |
54.47 |
Table 2. Performance (Acc%) on Refer-DAVIS17 val set
表2. 在Refer-DAVIS17验证集上的结果(准确率)
方法 |
来源 |
J |
F |
J&F |
Khoreava et al. |
ACCV 2018 |
37.30 |
41.30 |
39.30 |
URVOS |
ECCV 2020 |
41.23 |
47.01 |
44.12 |
RefVOS |
MTA 2023 |
- |
- |
44.50 |
VLIDE |
CVPR 2022 |
47.71 |
52.33 |
50.02 |
LBDT-4 |
CVPR 2022 |
- |
- |
54.08 |
MLRLSA |
CVPR 2022 |
50.07 |
55.39 |
52.73 |
本文 |
- |
50.85 |
56.87 |
53.86 |
本文在图2中列出了一些可视化结果,其中带有相关指称表达的正确分割样本位于虚线之上,而不正确的分割则列在虚线之下。
Figure 2. Qualitative visualization results acquire by the proposed approach on Refer-YouTube-VOS
图2. 本文方法在Refer-YouTube-VOS上的定性可视化结果
3.4. 消融实验
为了验证所提出方法的好处,本文采用了三种不同的方式生成伪标签,即基于平均交并比(mIoU)、基于熵和不确定性感知的自适应伪标签。本文在两个基准数据集上进行了消融实验,并分别在表3和表4中总结了结果。
Table 3. Performance (Acc%) with different pseudo-label generation strategies on Refer-DAVIS17
表3. 在Refer-DAVIS17上使用不同伪标签生成策略的性能(准确率)
模式 |
J |
F |
J&F |
mIoU |
53.51 |
52.30 |
52.91 |
Entropy |
50.16 |
48.39 |
49.28 |
Adaptive |
53.45 |
52.95 |
53.20 |
基于mIoU的伪标签:本文首先使用mIoU作为生成伪标签的标准,并选择mIoU大于0.5的样本作为伪标签来扩充训练数据。
基于熵的伪标签:然后计算预测logits的熵,并选择熵值最小的三个样本作为伪标签。
不确定性感知的自适应伪标签:最后,本文学习一个自适应阈值来细化基于熵的伪标签,以提高模型的预测不确定性。本文采用λ = 1时得到的结果与其他策略进行比较。
从表3可以看出,具有不确定性意识的自适应伪标签在F和J&F上分别超过了基于mIoU的策略0.65%和0.29%。从表4可以看出,具有不确定性意识的策略在三个指标上都优于其他策略。这些比较结果表明,所提出的具有不确定性意识的自适应伪标签在基准测试上更有效和稳健。
Table 4. Performance (Acc%) with different values of λ on Refer-YouTube-VOS
表4. 在Refer-YouTube-VOS上使用不同λ值的性能(准确率)
模式 |
微调 |
J |
F |
J&F |
mIoU |
× |
46.69 |
50.70 |
48.69 |
√ |
47.42 |
52.31 |
49.86 |
Entropy |
× |
41.69 |
46.03 |
43.86 |
√ |
45.10 |
50.51 |
47.80 |
Adaptive |
× |
47.11 |
52.85 |
51.11 |
√ |
50.85 |
56.87 |
53.86 |
3.5. 超参数设置
在本节中,本文通过设置方程(8)中权衡超参数µ的不同值来分析所提出的自适应伪标签方法的贡献。本文将µ设定为{0.05, 0.1, 0.5, 1.0, 5.0, 10.0},并将获得的结果总结在表5中。
Table 5. Performance (Acc%) with different pseudo-label generation strategies on Refer-YouTuBe-VOS
表5. 在Refer-YouTuBe-VOS上使用不同伪标签生成策略的性能(准确率)
µ |
J |
F |
J&F |
0.05 |
32.97 |
23.67 |
28.32 |
0.1 |
36.82 |
26.69 |
31.75 |
续表
0.5 |
52.96 |
52.44 |
52.70 |
1.0 |
53.45 |
52.95 |
53.20 |
5.0 |
53.09 |
53.97 |
53.53 |
10.0 |
53.82 |
55.12 |
54.47 |
从表5可以看出,分割性能随着µ的变化而变化。当将µ设定为较小的值,例如,
时,分割性能比
时更差。当使用
时,模型在三个指标上的分割性能优于
。因此,本文采用
获得的结果作为最佳结果,并在表1中与SOTA方法进行比较。
4. 结论
本文提出了一种基于不确定性感知的自适应伪标签方法来解决指代视频目标分割问题。所提出的架构利用在线伪标签来挖掘未标记样本中有用的信息,并使用模型预测置信度作为代理来改进生成的伪标签,以提高模型性能。具体来说,本文采用之前训练周期中学习到的检查点作为教师模型,在未标记样本上预测伪标签,然后使用生成的伪标签作为有标签训练数据的增强,以监督后续的训练过程。为了减轻伪标签引起的噪声影响,本文提出了一种模型预测不确定性感知策略来自适应地过滤生成的伪标签。此外,本文在基准数据集上进行了广泛的实验,实验结果证明了本文提出的方法对于指代视频目标分割的有效性。总而言之,基于模型不确定性的伪标签生成能促使模型开发更多有用的样本,而这些样本可以增强原始的数据,使得模型能学习到更多有益的知识,进而提升模型性能,为指代视频目标分割领域带来重要价值。
基金项目
国家自然科学基金(62106026, 62272170, 42130112),上海市自然科学基金面上项目(23ZR1419300)。
NOTES
*通讯作者。