1. 引言
深度神经网络在许多计算机视觉任务中取得了令人印象深刻的性能。然而,这些方法成功通常依赖于大量标记的数据,而获取这些数据非常的耗时并且获取成本高昂,此外,由于计算机视觉中光照、背景、天气条件等因素的影响,也经常会出现训练数据和测试数据之间的特征分布不匹配。因此推动了无监督域适应(UDA)的研究,UDA任务旨在存在域偏移的情况下,将知识从标记的源域转移到不同的未标记目标域。
大多数当前的方法 [1] [2] [3] [4] 试图通过对齐两个域的特征分布来学习域不变表示。利用生成对抗网络(GAN)的思想是一种常见的技术 [5] 。通过生成器和判别器之间的极小极大博弈进行模型训练。然而,如果强制将两个域中特征的全局边缘分布对齐,可能会忽略每个类别的局部联合分布。这种忽略会导致目标域中原本已经对齐的类别经过训练后映射到错误的类别,如图1所示。另一种流行的方法旨在进行类别级的对齐来学习目标域的区分特征 [6] - [11] 。基于类级对齐的主要方法是生成与目标样本概率匹配的伪标签,并使用这些伪标签来训练模型。然而,这些伪标签通常噪声太大,无法进行精确的域对齐导致模型性能下降 [10] 。同时没有强制不同类别的特征很好的分离。
总之,域级对齐可以对齐源域和目标域的全局特征分布,以学习可迁移特征。而类别级对齐可以学习有区别的目标特征。理想的方法是结合这两种方法的优点,同时强制不同类别的特征分离。为了实现这一目标,我们提出了一种新的UDA解决方案,即SwinUDA (基于Swin Transformer的无监督域自适应)。首先,通过将Swin Transformer与简单的对抗性域适应相结合,以对齐源域和目标域的全局特征分布。实验结果表明,Swin Transformer具有很强的可迁移性。为了更好地区分不同类别的样本,我们同时考虑类别级的对齐。引入了正交投影损失(OPL),并使用伪标签辅助计算该损失。OPL可以强制将相同的类特征很好地聚类,将不同的类特征很好地分离。为了保持目标域的内在结构,引入了互信息最大化损失(IML),以保留更多的目标域信息,并进一步提高模型性能。

Figure 1. (Best viewed in color) Contrast our suggested approach with earlier research. Left: Trained using only data from the source domain, applied directly to the target domain. Middle: Globally aligns the data distributions of the two domains, regardless of class information. Right: Our proposed method considers class-level domain alignment, reducing conditional distribution differences
图1. (最好用彩色观看)将我们的方法与早期的研究进行对比。左图:仅使用源域中的数据进行训练,直接应用于目标域。中间:全局对齐两个域的数据分布,而不考虑类信息。右图:我们提出的方法考虑了类级别的域对齐,减少了条件分布的差异
本文的主要贡献是:1) 我们提出的SwinUDA,是第一次将Swin Transformer作为无监督跨域图像分类的主干网络,为了保护目标域的内在结构,我们引入互信息最大化损失,以减轻对抗域适应中的目标域区分破坏。2) 为了使同类特征接近,不同类特征分离,我们引入OPL损失,同时学习可迁移特征和可区分特征。3) 在Office Home、Office-31和VisDA-2017三个公开数据集上的实验表明,我们的OPST都展现了最佳的性能,其中,Office Home为87.17%,office-31为94.6%,VisDA-2017为88.46%。
2. 相关知识
2.1. 问题设置
无监督域适应的目标是处理来自
的有标记的源域数据
和来自
的未标记的目标域数据
之间的域偏移问题,其中
是输入空间,
是标签空间,
和
分别为源域和
目标域的样本数量。假设它们假设特征空间、标签空间与条件概率分布都相同,即
,
,
。但这两个域的边缘分布不同,即
。UDA的任务是利用有标签的源域数据学习一个分类器
来预测目标域数据
的标签
,其中
表示特征提取器,
表示类别预测器,
表示特征空间。
2.2. Swin Transformer模型
目前,transformer在计算机视觉领域的应用面临两个局限:第一,视觉目标大,视觉transformer在不同场景下的性能较差;第二,当图像分辨率高时,transformer的计算量大。为了解决上述两个问题,Swin transformer [11] 提出了一种滑动窗口操作,该操作以分层方式构建transformer,并将注意力计算限制在一个窗口内,这大大减少了计算量。
Swin transformer模型如图2所示。首先,根据
个相邻像素将输入图像划分为一个patch,并通过patch划分将每个patch在通道方向上展平。其次,堆叠4个stage来构建不同大小的特征图,用于注意力计算。每个stage代表一个层次。第一个stage通过线性嵌入改变特征维度,最后三个stage通过patch merging进行下采样并重复堆叠Swin transformer block。多层感知机、窗口多头自注意层、滑动窗口多头自注意力层和标准化层构成了Swin transformer块的大部分,如图2右侧所示。其中,自注意力层是transformer的关键组件,其计算方法如下式所示:
(1)
其中Q,K,V分别为query、key、value,d为查询维度。Transformer中的注意力机制对噪声输入具有鲁棒性,可以更好地提取信息全局特征。

Figure 2. Swin Transformer architecture
图2. Swin Transformer网络架构
3. 方法
3.1. 网络架构
提出的网络结构如图3所示。它由三部分组成:特征提取器(SwinT)、标签分类器(Label Classifier)和领域判别器(Domain Discriminator)。对于每个源域和目标域图像,通过一系列transformer blocks提取特征。域判别器判断输入图像是源样本还是目标样本。域判别器的训练目标是将输入尽量分到正确的域,而特征提取器所提取的特征目的是使域判别器不能正确的判断出信息来自哪一个域。以这种对抗性的方式训练域鉴别器和特征提取器以进行域对齐。标签分类器获得类标记并输出标签预测,通过计算目标样本的互信息最大化损失(IML)来减轻对抗性学习中目标样本的结构损坏。同时,正交投影损失(OPL)可以使样本在特征空间中实施正交约束,实现类内特征聚类和类间特征分离。
3.2. Swin Transformer对抗域适应
遵循典型的对抗性自适应方法来实现领域自适应。旨在利用有标签的源域数据
学习一个分类器
来预测目标域数据
的标签
。其中
表示特征提取
器,本章使用Swin Transformer作为特征提取器f,
表示类别预测器,
表示特征空间。采用对抗学习的思想,添加一个域判别器
,其中d指示输入样本来自源域或者目标域。形式上,我们的对抗学习的目标是优化公式(2)来共同优化目标分类损失
和域对抗损失
:
(2)
其中,
是源域数据的标准交叉熵损失,
是域对抗损失,定义为:
(3)
3.3. 损失函数
对于UDA中的域对齐问题,在对齐两域的全局分布的同时,还要尽可能的减轻目标域内在结构的破坏,因此要考虑一个问题,理想的目标输出是什么样子?我们认为完美的目标输出应该满足以下几点:1) 决策边界位于低密度区域,也称为聚类假设 [12] 。2) 防止所有目标数据被分类到同一类中。在许多领域自适应工作中,信息熵被用来最小化学习目标数据的区别特征。信息熵可以估计模型预测的不确定性程度。预测结果的准确性随着信息熵的减小而增加。标准信息熵计算方法为:
(4)
经过分析发现,标准的交叉熵计算方法无法准确评估样本伪标签在决策边界处的不确定性。而互信息最大化损失可以避免将所有目标样本分配给同一类,这满足了理想的目标输出。互信息最大化损失被证明比先前领域自适应工作中常用的信息熵最小化更有效 [13] 。
为此,采用互信息最大化损失:
(5)
其中,
,
表示整个目标样本的平均输出嵌入,
表示目标样本的期望。最小化第二项可以导致目标预测接近一个热编码,而最大化第一项可以防止所有目标数据被放在同一类中。使用互信息最大化损失鼓励模型学习均匀分布的紧密的目标特征以便保留关于目标数据的更多判别信息。
目标是在全局对齐期间执行更好的域自适应并确保准确的类级对齐,同时在不同类的特征远离时保持同一类的特征接近。因此,在特征空间中实现了正交约束。给定来自数据集D的标记样本
,
是网络提取的特征,通过聚类
,使得不同类别的特征应尽可能正交,同一类的特征应尽可能相接近。因此,我们通过引入正交投影损失(OPL) [14] ,以确保类内聚类和类间正交性:
(6)
其中:
(7)
(8)
其中
表示两个向量的余弦相似函数,
是取其绝对值,要注意的是公式(7)和公式(8)中的余弦相似函数涉及特征归一化:
(9)
公式(7)和公式(8)定义了两个类差异,s测量类内特征差异,d测量类间特征差异。通过使s接近1,d接近0来最小化公式(6),以实现最小化类内特征差异和最大化类间特征间距,无论样本来自哪个域。由于OPL的计算需要获得目标样本的标签,因此这里我们使用一种简单有效的方法来获得带伪标签的目标样本。我们根据分类器的预测概率来选择目标样本,让
表示分类器的softmax层的输出,其中
表示样本
属于第c类的概率,C是类别总数。
然后可以得到目标样本的伪标签
,称
为分类置信度得分。通过选择分类置信度得分高于阈值
的目标样本,获得一个带有伪标签的目标样本集
,可以由标记的源域样本集
和带伪标签的目标域样本集
得到有标签的样本集
,其中
。
简单地最大化类边界可能会导致类之间的负相关性,从而导致过分地关注分离良好的类,不好区分的困难样本被忽视。而正交投影损失倾向于确保不同类特征之间的独立性,以成功地分离类特定特征。尽管目标域的伪标签估计可能有噪声,但正交投影损失在一定程度上对噪声有鲁棒性,能够减少伪标记的错误影响。
因此训练总目标为:
(10)
其中
和
是超参数。
4. 实验结果与分析
4.1. 实验设置
一个bottleneck模块(Linear → BatchNorm1d → ReLU → Dropout(0.5))和标签预测器(Linear → ReLU → Dropout(0.5) → Linear)组成分类器头部。除了具有单个输出之外,域判别器还与标签预测器共享相同的网络结构。在训练过程中,首先将图像大小调整为256 × 256,然后随机水平翻转,然后随机裁剪并调整图像大小至254 × 254,唯一的变化是,在VisDA-2017 [15] 数据集中,使用了大小为254 × 254的中心裁剪。在测试过程中,首先将图像的大小调整为256 × 256,然后中心裁剪到254 × 254像素。为了训练模型,使用动量为0.9的小批量随机梯度下降(SGD)。学习率设置为
,其中
表示初始学习率,并且i是训练步骤。特征提取器骨干参数的学习率被设置为
的1/10。在所有的实验中设置
。
比较的方法包括基于CNN的方法ALDA [16] 、TADA [17] 、SHOT [18] 、MCD [19] 、CaCo [20] 、STAR [21] 和基于transformer的方法CDTrans [11] 、TVT [22] 、SSRT [23] 。对于所有上述方法,在其原始论文中总结了报告的结果。“Baseline”是具有对抗性适应的SwinT-B,“SwinUDA”是本文提出的方法。
4.2. 实验结果与分析
将对抗性适应的Swin Transformer作为基准模型(Baseline),与基于CNN的域适应技术相比,优点表现在三个方面:首先,注意力权重和图像内容依赖于内容进行交互,这些交互可以被认为是空间变化的卷积。其次,通过滑动窗口机制实现了长程依赖建模。最后,它结合了CNN和transformer的优势,展现了卓越的潜力。如表1、表2和表3所示,基准模型的绝对精度可以实现与现有技术的基于CNN的方法相当的性能。与目前性能最好的SHOT相比,它在Office-Home数据集 [24] 上提升了11.2%,在Office-31数据集 [25] 上提高了5.0%。这一结果表明了Swin Transformer的强大的可迁移性,并表明注意力机制和视觉内容之间的交互可以更好地收集特征信息。然而,在具有显著领域差异的VisDA-2017数据集 [15] 上,基准模型还有待改进,其一是该模型在确保全局分布一致的同时,不能保证边缘分布的一致性。其二是对抗性学习会忽略目标样本的固有信息,将不同类别的样本混合在一起,导致分类错误。

Table 1. Accuracies (%) on Office-Home. CDTrans* uses DeiT-base backbone. TVT* uses ViT-base backbone
表1. Office-Home数据集的精度(%)。CDTrans*使用DeiT基础骨干网。TVT*使用ViT基本骨干网
我们在中等规模的Office-Home数据集上进行了对比实验,其结果如表1所示,提出的方法大大优于基于CNN的顶级无监督域适应技术SHOT (87.17% vs. 71.8%)。可以观察到:当基于CNN的无监督域适应方法TADA仅考虑域对齐时,模型的性能相对较差。相比之下,SHOT的类级对齐模型显示了显著的改进,证明了类级对齐对领域自适应至关重要。并且与基于CNN的无监督域适应方法相比,基于transformer的无监督域适应方法有了进一步的改进。与SHOT相比,考虑类级对齐的CDtrans方法有了显著的改进(从80.5%提高到71.8%),这表明transformer在特征提取方面是强大的。此外,提出的方法使用Swin Transformer进行特征提取,考虑域级别和类级别的对齐,并产生最佳结果。同时,在具有显著的域偏移的Ar → Rw和Cr → Rw任务方面的表现优于SHOT,表明SwinUDA在从具有挑战性的域移动到简单域时具有出色的鲁棒性和泛化能力。

Table 2. Accuracies (%) on Office-31
表2. Office-31数据集的精度(%)
为了进一步验证模型的有效性,我们在Office-31数据集上进行了对比实验,其结果如表2所示。提出的SwinUDA总体上优于所有对比的方法,并将最先进的结果平均从93.5%提高到94.6%。尤其是在具有挑战性的转移任务(如A → W和A → D),SwinUDA也显示出显著的改善。与类级对齐方法ALDA和SHOT、域对齐方法TADA、、基于注意力机制的方法TADA相比,所提出的方法优于它们的性能可以表明SwinUDA的每个组件的有效性。上述结果证明,IML的使用可以减轻对目标域内在结构的破坏,而OPL的伪标签辅助计算的使用进一步加强了类内特征的聚类和类间特征之间的分离。实验表明可以在域对齐的同时加强类别对齐,从而提供更好的性能。

Table 3. Accuracies (%) on VisDA-2017
表3. VisDA-2017数据集的精度(%)
为了证明模型具有广泛应用性,使用具有挑战性的VisDA-2017数据集,因为152397幅合成图像和55388幅真实图像之间存在显著的域偏移,示例图像如图4所示。评估了从合成图像到真实图像作为源域到目标域的方法。

Figure 4. Example images of VisDA-2017 dataset
图4. VisDA-2017数据集的示例图像
大规模VisDA-2017数据集的结果如表3所示,实验结果表明,与依赖伪标签的ALDA和SHOT相比,提出的方法实现了更高的平均精度和进一步的改进。仔细观察结果,对于该数据集中的“人”,基线非常低,这表明基准模型在这一类别中的分类能力较差,这也说明了提出的方法的两个组件OPL和IML的有效性。相比之下,提出的方法对标签噪声具有一定的鲁棒性,这大大提高了实验结果。
为了了解IML和OPL两个组件的作用,进行的消融研究如表4所示。对于Baseline,IML持续提高分类精度,这表明捕获可转移和判别特征的重要性。引入OPL进一步提高了性能,证明了类内特征聚类的必要性。提出方法为真实的VisDA-2017数据集带来了大规模合成数据的最大改进。我们怀疑VisDA-2017中存在较大的域间隙是主要原因,因为简单地将两个域与较大的域偏移对齐会导致混乱的分布式特征空间。然而,IML可以解决这一挑战,它可以保留有区别的信息。同时OPL从类别级角度出发从特征空间进行约束,可以更好地聚类相似特征。可以观察到,IML和OPL是互补的,当移除任何一个组件时,性能都会下降。

Table 4. Ablation study of each module
表4. 各模块的消融研究
(a) Baseline (b) SwinUDA
Figure 5. t-SNE of Pr → Cl task in the Office-31 dataset, where red and blue points indicate the source (synthetic rendering) and the target (real images) domain, respectively
图5. Office-31数据集中的Pr → Cl任务的t-SNE,其中红色和蓝色点分别表示源(合成渲染)和目标(真实图像)域
5. 结论
本文提出了一种新的无监督域适应解决方案,即基于Swin Transformer的无监督域自适应(SwinUDA)。将Swin Transformer与简单的对抗性域自适应相结合进行域对齐,结果表明Swin Transformer具有强大的可迁移性。还考虑类级对齐,引入正交投影损失,并使用伪标签来计算该损失。这可以强制相同类特征的良好聚类和不同类特征的分离,导致来自相同类别的样本(无论来自源域或目标域)被拉近,而来自不同类别的样本被推开。为了保留目标域的内在结构,引入了互信息最大化损失来保留更多的目标域信息,并进一步提高模型性能。所提出的方法在进行域对齐的同时保证了精确了类别对齐。大量实验表明,提出的方法优于现有方法。
基金项目
北京市自然科学基金(No. 8202013);2022年北京建筑大学研究生创新项目(NO. PG2022145)。
参考文献
NOTES
*通讯作者。