1. 引言
随着信息技术和数据采集手段的快速发展,各类图像、文本和传感数据在实际应用中呈现爆发式增长。如何从这些高维、复杂且含噪的数据中挖掘有效信息,成为当前机器学习领域的重要挑战[1] [2]。传统监督学习方法通常假设训练样本与测试样本满足相同分布。然而在实际场景中,受环境变化、采集设备差异等因素影响,源域与目标域数据往往存在显著的分布差异,即“领域偏移”,这将严重影响模型在目标域的性能表现。
迁移学习作为一种缓解领域不一致性的有效手段,通过引入源域的知识辅助目标域学习,在图像识别、自然语言处理等任务中取得了广泛成功[3] [4]。然而,现有方法多聚焦于特征分布对齐,较少考虑原始数据中普遍存在的噪声干扰问题。而在实际跨域任务中,数据往往存在异常样本、标签缺失等问题,这些噪声信息极易导致“负迁移”现象,降低模型的泛化能力。
考虑到跨域图像识别任务中源域与目标域之间可能存在严重的结构不一致性和特征空间冗余问题,研究者们已提出多种方法以提升迁移效果,例如,主动迁移学习[5]和判别不变对齐方法[6]。我们的工作旨在通过一个增强低秩表示框架,缓解跨域图像识别中因源域与目标域间特征分布差异与标签结构不一致所带来的识别退化问题。我们的方法通过引入低秩建模框架来学习潜在的共享子空间,同时结合图正则化保持数据的局部几何结构并增强源域与目标域之间的表示一致性。此外,我们在特征选择过程中引入稀疏正则化策略,以有效抑制噪声干扰并提高对异常样本的鲁棒性。我们的主要贡献包括:提出了一种新的基于迁移学习和增强低秩表示的模型;融合图正则化以保持局部结构与域间一致性;引入稀疏正则化机制提升鲁棒性;并开发了一种高效的优化算法用于求解所提模型。在多个标准跨域图像识别数据集上的实验结果表明,所提方法在跨域适应性及分类性能方面均优于现有先进方法。
2. 模型建立
在跨域图像识别任务中,由于源域与目标域在特征分布和标签结构上存在显著差异,常规的监督模型难以直接迁移。为缓解这一问题,低秩表示(LRR)被广泛用于提取数据的全局结构信息[7],其基本思想是通过学习一个在共享子空间中的低秩重构系数矩阵来揭示数据之间的潜在关联。在此基础上,我们假设目标域样本可由源域样本在共享子空间中线性重构。设源域和目标域样本分别为
、
,学习一个投影矩阵
和重构系数矩阵
,使得目标域样本在低维子空间中可由源域样本重建,即满足关系
,由此得到我们经典的低秩表示模型如下:
(1)
由于稀疏表示能够有效捕捉局部流形信息,因此在重构系数矩阵Z中添加一个稀疏正则化项,使得目标域中的每个样本能够通过少量的源域数据进行有效地重构:
(2)
该模型通过联合低秩与稀疏表示,在保持全局结构信息的同时增强局部几何表达能力,提升跨域子空间对齐效果与异常样本容忍度。通过将判别回归子空间学习函数[8]引入问题(2),可以将其改写为:
(3)
其中,
是源域样本的二元标签矩阵,
是标签松弛矩阵,
是常数矩阵。为了确保语义一致的跨域数据在投影到子空间后能够保留其局部结构,在问题(3)中引入了一个图正则化项,该项迫使相似的样本最小化它们在投影空间中的距离,从而增强跨域比对的几何一致性,得到最终的模型TLELRR:
(4)
其中,
是图拉普拉斯矩阵,
是亲和矩阵,表示样本之间的相似性,D是度矩阵,定义为
。
在我们的方法中,图拉普拉斯矩阵L被构建以捕捉样本之间的局部几何结构。首先,我们通过高斯核函数度量样本对之间的相似性,其中带宽参数
控制相邻样本之间的敏感性。随后,我们构建一个k-近邻图(k-NN),即每个样本仅与其最相似的k个邻居建立连接,从而保证图结构的稀疏性与鲁棒性。在实验中,k的取值通常在5∼20之间,而
可通过样本距离统计或网格搜索进行设定。在获得相似性矩阵S之后,拉普拉斯矩阵通过
构造。此外,我们可选用标准化拉普拉斯形式(如
),以增强图结构的谱稳定性与正则能力。
3. 优化算法
本节中我们展示如何求解提出的模型,由于优化问题(4)不是凸的。求解时,我们需要通过固定其他变量来迭代更新每个变量。我们可以将(4)转化为:
(5)
我们通过最小化以下增广拉格朗日函数L来解决问题(5):
(6)
其中Y1、Y2和Y3为拉格朗日乘数,
为惩罚参数。上述问题可以通过不精确增广拉格朗日乘数(IALM)算法求解[9]。IALM算法是一种迭代方法,以坐标下降的方式求解每个变量。求解(6)式的主要步骤如下,所有步骤均有闭式解。
步骤1 (更新P):通过求解以下子问题可以更新P。

可以得到:
其中,
,
,
。
步骤2 (更新Z):通过求解以下子问题来更新Z。
可以得到:
其中,
,
,
。
步骤3 (更新Z1):更新Z1应该解决以下子问题。
闭式解为:
,
其中,
是关于奇异值
的阈值算子;
是软阈值算子;
是X的奇异值分解。
步骤4 (更新Z2):通过求解以下子问题来更新Z2
闭式解为:
步骤5 (更新E):通过求解以下子问题来更新E。
,
闭式解为:
步骤6 (更新M):通过解决以下问题来更新M。
令
。考虑矩阵M中的第(i, j)个元素
,我们有如下优化问题:
该问题的最优解为:
因此,矩阵M的整体最优解可表示为:
步骤7:最后更新乘数Y1、Y2和Y3以及迭代步长
(
)。
停止标准定义为:
,
,
。
4. 实验
4.1. 数据处理和实验设置
在本节中,我们将所提出的方法与以下七种相关的最先进的基线方法进行了比较,包括GFK [10]、TCA [11]、TSL [12]、LTSL [13]、RDALR [14]和PCA。具体而言,TSL采用Bregman散度而不是最大平均差异(MMD)作为比较分布的距离。选择两种经典分类器,包括1-最近邻(NN)分类器和支持向量机 (SVM)作为基线分类器。对于SVM,所有参数,即惩罚项C、RBF核的带宽σ,均通过网格搜索策略选择。实验在Office和Caltech-256数据集[15]上进行。请注意,部分实验结果引用自[16]。我们还给出了NN和SVM基线分类器的实验结果,分别记为NN*和SVM*。
Office是视觉领域自适应基准数据,包含来自三个不同领域的常见物体类别,即Amazon,DSLR和Webcam。在该数据集中,每个领域包含31个物体类别,例如笔记本电脑、键盘、显示器、自行车等,总图像数量为4652张。在亚马逊领域,每个类别平均有90幅图像,而在数码单反相机或网络摄像头领域,每个类别平均有30幅图像。Caltech-256是用于物体识别的标准数据集,包含30607幅图像和256个类别。图1展示了这四个子集中的部分图像。本实验采用Gong等人发布的公开Office + Caltech数据集。提取SURF特征,并使用k均值算法对来自Amazon的图像子集计算码本,将其量化为800个bin的直方图。然后使用Z分数对直方图进行标准化。总而言之,我们有四个域:A (Amazon)、D (DSLR)、W (Webcam)和C (Caltech-256)。
Figure 1. Partial images of the Office and Caltech-256 datasets
图1. Office和Caltech-256数据集的部分图像
4.2. 实验结果
通过随机选择两个不同的域分别作为源域和目标域,我们构建了12个跨域对象数据集,例如A→D,A→W,A→C,…,C→W。实验结果如表1所示。我们的方法获得了最佳平均分类准确率。
Table 1. Classification accuracies (%) of different methods on the office and caltech-256 data sets
表1. 不同方法在office和caltech-256数据集上的分类准确率(%)
Data set |
The classification accuracy by NN |
The classification accuracy by SVM |
NN* |
PCA |
GFK |
TSL |
TCA |
RDALR |
LTSL |
Our |
SVM* |
TSL |
RDALR |
LTSL |
Our |
C→A |
23.70 |
36.95 |
41.02 |
44.47 |
37.89 |
38.20 |
25.26 |
51.25 |
50.09 |
52.30 |
52.51 |
24.11 |
53.34 |
C→W |
25.76 |
32.54 |
40.68 |
34.24 |
26.78 |
38.64 |
19.32 |
38.64 |
43.05 |
40.34 |
40.68 |
22.93 |
45.76 |
C→D |
25.48 |
38.22 |
38.85 |
43.31 |
39.49 |
41.40 |
21.02 |
47.13 |
47.77 |
49.04 |
45.22 |
14.58 |
50.96 |
A→C |
26.00 |
34.73 |
40.25 |
37.58 |
34.73 |
37.76 |
16.92 |
43.37 |
42.79 |
43.28 |
43.63 |
21.36 |
44.70 |
A→W |
29.83 |
35.59 |
38.98 |
33.90 |
28.47 |
37.63 |
14.58 |
36.61 |
37.03 |
34.58 |
35.93 |
18.17 |
38.31 |
A→D |
25.48 |
27.39 |
36.31 |
26.11 |
34.39 |
33.12 |
21.02 |
38.85 |
37.22 |
38.85 |
36.94 |
22.29 |
39.49 |
W→C |
19.86 |
26.36 |
30.72 |
29.83 |
26.36 |
29.30 |
34.64 |
29.83 |
29.47 |
31.43 |
28.05 |
34.64 |
30.28 |
W→A |
22.96 |
31.00 |
29.75 |
30.27 |
31.00 |
30.06 |
39.56 |
34.13 |
34.15 |
34.66 |
31.21 |
39.46 |
34.66 |
W→D |
59.24 |
77.07 |
80.89 |
87.26 |
83.44 |
87.26 |
72.61 |
82.80 |
80.62 |
79.62 |
83.44 |
72.61 |
82.80 |
D→C |
26.27 |
29.65 |
30.28 |
28.50 |
30.28 |
31.70 |
35.08 |
31.61 |
30.11 |
33.13 |
32.32 |
35.35 |
30.72 |
D→A |
28.50 |
32.05 |
32.05 |
27.56 |
30.90 |
32.15 |
39.67 |
33.19 |
32.05 |
32.57 |
33.72 |
39.35 |
33.19 |
D→W |
63.39 |
75.93 |
75.59 |
85.42 |
73.22 |
86.10 |
74.92 |
77.29 |
72.20 |
72.54 |
72.54 |
74.92 |
76.61 |
Average |
31.37 |
39.79 |
42.95 |
42.37 |
39.75 |
43.61 |
34.55 |
45.39 |
44.70 |
45.20 |
44.68 |
34.98 |
46.73 |
为了评估不同方法的分类性能,我们在Office和Caltech 256数据集上进行了多源域与单目标域的实验。我们随机选择两个子集作为源域,并选择一个数据集作为目标域。因此,我们还构建了12个跨域对象数据集,例如AC→D,AC→W,…,DW→C。实验结果如表2所示。我们的方法也获得了良好的分类精度。
Table 2. Classification accuracies (%) of multiple source domains vs single target domain
表2. 多源域vs单目标域的分类准确率(%)
Data set |
The classification accuracy by NN |
The classification accuracy by SVM |
NN* |
PCA |
GFK |
TSL |
RDALR |
LTSL |
Our |
SVM* |
TSL |
RDALR |
LTSL |
Our |
A,C→D |
33.76 |
40.13 |
45.86 |
46.50 |
35.67 |
34.39 |
49.05 |
50.78 |
53.50 |
24.84 |
43.31 |
47.13 |
A,C→W |
31.19 |
37.97 |
39.32 |
33.56 |
28.47 |
27.46 |
37.97 |
41.44 |
48.47 |
19.32 |
29.83 |
37.29 |
A,D→C |
28.50 |
37.22 |
39.89 |
41.67 |
36.33 |
21.73 |
45.24 |
44.09 |
44.26 |
17.28 |
22.89 |
45.68 |
A,D→W |
49.15 |
55.25 |
66.78 |
54.24 |
66.78 |
26.78 |
62.71 |
57.03 |
56.95 |
17.29 |
27.46 |
58.98 |
A,W→C |
27.60 |
35.62 |
37.40 |
42.03 |
36.60 |
26.98 |
45.06 |
42.98 |
46.66 |
16.38 |
26.80 |
45.33 |
A,W→D |
64.33 |
73.25 |
81.53 |
63.06 |
77.07 |
41.40 |
74.52 |
70.98 |
71.34 |
20.38 |
38.22 |
71.97 |
C,D→A |
24.32 |
34.55 |
37.27 |
45.20 |
39.56 |
26.30 |
51.78 |
53.64 |
53.86 |
18.16 |
28.39 |
50.73 |
C,D→W |
34.92 |
48.14 |
65.76 |
50.85 |
60.34 |
29.83 |
59.32 |
59.03 |
60.68 |
22.37 |
30.17 |
59.32 |
C,W→A |
24.43 |
35.70 |
39.25 |
45.20 |
41.02 |
30.06 |
50.63 |
51.59 |
54.70 |
15.76 |
30.90 |
52.19 |
C,W→D |
47.13 |
66.24 |
78.98 |
52.23 |
73.89 |
38.22 |
67.52 |
67.94 |
66.24 |
18.47 |
40.13 |
69.43 |
D,W→A |
29.23 |
35.80 |
38.10 |
34.24 |
32.99 |
37.89 |
36.43 |
31.33 |
37.06 |
15.55 |
37.79 |
35.07 |
D,W→C |
25.47 |
28.58 |
30.45 |
31.26 |
29.92 |
33.57 |
31.61 |
30.77 |
34.46 |
15.23 |
33.57 |
31.52 |
Average |
34.97 |
44.04 |
50.05 |
45.00 |
46.55 |
31.22 |
50.99 |
50.19 |
52.35 |
18.42 |
32.46 |
50.39 |
4.3. 消融实验
我们进行了消融研究,以评估模型中不同组件的作用。我们将设计三个实验来比较所提出的方法及其三种变体。前两个实验旨在评估联合低秩和稀疏表示是否确实提升了分类性能。为此,第一个实验专门测试稀疏表示,第二个实验则专门测试低秩表示。第三个实验旨在评估松弛变量是否真的比标准线性回归更有效。因此,在此实验中,我们用线性回归替代了松弛变量。
实验结果见表3,其中“稀疏”对应第一次实验,“低秩”对应第二次实验,“无松弛”对应第三次实验。图2展示了分类准确性的平均值。可以看出,我们的方法表现最佳。这表明:1) 联合低秩和稀疏表示可以提高分类准确性;2) 使用松弛变量可以进一步提升分类准确性。图3展示了不同实验中学习到的矩阵Z的可视化结果。显然,第一次和第二次实验中学习到的矩阵Z分别是稀疏和低秩的。而我们方法学习到的矩阵Z则是低秩且稀疏的,这意味着尽管我们在方法中使用了两个辅助变量Z1和Z2,但最终算法在收敛后满足了Z1 = Z和Z2 = Z的约束条件。这与我们方法的初衷一致。换句话说,通过施加联合低秩和稀疏约束,我们最终得到了一个低秩且稀疏的重构系数矩阵,进一步验证了我们优化算法的有效性。
Table 3. Classification accuracies (%) of different methods on the office, caltech-256 data sets
表3. 不同方法在office、caltech-256数据集上的分类准确率(%)
Dataset |
Sparse |
Low-rank |
No-slack |
Our |
C→A |
51.16 |
51.25 |
49.16 |
51.25 |
C→W |
37.63 |
36.95 |
38.58 |
38.64 |
C→D |
47.13 |
45.86 |
45.86 |
47.13 |
A→C |
43.19 |
43.37 |
42.39 |
43.37 |
A→W |
35.93 |
34.58 |
36.27 |
36.61 |
A→D |
38.85 |
38.22 |
38.85 |
38.85 |
W→C |
29.30 |
29.39 |
29.30 |
29.83 |
W→A |
34.13 |
34.03 |
34.13 |
34.13 |
W→D |
82.17 |
82.17 |
80.25 |
82.80 |
D→C |
31.52 |
31.08 |
31.61 |
31.61 |
D→A |
33.40 |
33.46 |
32.67 |
33.19 |
D→W |
77.17 |
76.61 |
75.93 |
77.29 |
Figure 2. Mean classification accuracies (%) of different methods on the Office, Caltech-256 data sets
图2. 不同方法在Office、Caltech-256数据集上的平均分类准确率(%)
Figure 3. Visualization of obtained reconstruction coefficient matrices Z in different experiments
图3. 不同实验中获得的重建系数矩阵Z的可视化
5. 结论
在本文中,我们提出了一种基于迁移学习和增强低秩表示的跨域图像识别模型(TLELRR),旨在解决跨域图像识别任务中源域与目标域之间显著的特征分布差异与标签结构不一致所带来的性能退化问题。通过引入新的建模策略,TLELRR能够有效对源域知识进行迁移,并提升目标域的分类性能与适应能力。我们贡献是多方面的。首先,我们在经典低秩表示框架的基础上,引入了稀疏正则化约束,从而通过局部重构机制捕捉目标域样本与源域样本之间的结构对应关系。其次,我们结合图正则化设计,构建基于样本相似性的图结构,引导模型在共享子空间中保持样本的局部几何结构一致性。第三,通过稀疏性与图嵌入的协同作用,TLELRR显著增强了对跨域异构性的鲁棒性,并提升了子空间表示的判别性。最后,通过在多个标准跨域图像识别数据集上的对比实验,我们验证了TLELRR在识别准确性和迁移能力方面均优于现有最先进的方法,突出了其在跨域视觉理解任务中的实际应用潜力。