面向通用异构域适应的部分最优传输模型
Partial Optimal Transport for Universal Heterogeneous Domain Adaptation
DOI: 10.12677/sa.2026.153056, PDF, HTML, XML,    科研立项经费支持
作者: 艾诗琪, 马丽涛*:河北工程大学数理科学与工程学院,河北 邯郸
关键词: 通用域适应异构域适应部分最优传输正则化Universal Domain Adaptation Heterogeneous Domain Adaptation Partial Optimal Transport Regularization
摘要: 通用异构域适应指在源域和目标域的数据分布不同且标签集部分重叠时,通过迁移学习的方法,将源域的知识迁移到目标域。然而现有方法大多依赖同构特征空间假设或全局对齐,难以在通用异构域场景下实现精确的语义匹配与私有类拒绝。为此,本文提出一种面向通用异构域适应的部分融合最优传输模型。首先,针对异构空间中跨域距离难以直接度量问题,引入关键点引导机制,构建具有语义一致性的跨域关系代价函数。在此基础上,引入Gromov-Wasserstein距离保持域内几何结构,实现异构特征空间的分布匹配,引导跨域样本结构上的几何对齐。其次,为在共享部分标签情况下精准对齐公共类别并拒绝私有类别,将模型扩展为部分最优传输形式,通过限制总传输质量,仅对公共类别进行选择性匹配,从而有效拒绝目标域中的私有类样本。此外,引入了一种基于标签的组稀疏正则项,以诱导传输计划在类别维度呈现群稀疏性,进一步抑制私有类样本的误匹配。最终,本文构建了一个融合几何结构对齐、语义引导匹配与私有类拒绝的统一优化模型,并设计了一种结合Majorization-Minimization框架与Frank-Wolfe方法的高效求解算法。在三个跨域数据集上的实验结果表明,所提模型在公共类分类和私有类检测上均优于主流对比方法,验证了其在处理通用异构域适应问题上的有效性。
Abstract: Universal heterogeneous domain adaptation aims to transfer knowledge from a source domain to a target domain with distinct data distributions and partially overlapping label sets. However, most existing methods rely on homogeneous feature space assumptions or global alignment, making it difficult to achieve precise semantic matching and private class rejection under universal heterogeneous domain scenarios. To address these issues, this paper proposes a partial fused optimal transport model for universal heterogeneous domain adaptation. First, to directly measure cross-domain distances in heterogeneous spaces, a keypoint-guided mechanism is introduced to construct a semantically consistent cross-domain relational cost function. Building on this, the Gromov-Wasserstein distance is incorporated to preserve intra-domain geometric structures, enabling distribution matching across heterogeneous feature spaces and guiding geometric alignment of cross-domain samples at the structural level. Second, to accurately align common classes and reject private classes under partially shared labels, a partial optimal transport formulation is adopted, which restricts the total transported mass to selectively match only common categories, thereby effectively rejecting private-class samples in the target domain. Third, we introduce a label-based group-sparsity regularization, inducing structured sparsity in the transport plan at the category level to further suppress private-class mismatches. Finally, we formulate a unified optimization model that integrates geometric structure alignment, semantically guided matching, and private-class rejection. Then an efficient solver based on the Majorization-Minimization framework combined with the Frank-Wolfe method is designed. Experiments on three cross-domain datasets show that the proposed model outperforms competing methods in both public-class classification and private-class detection, demonstrating its effectiveness for general heterogeneous domain adaptation.
文章引用:艾诗琪, 马丽涛. 面向通用异构域适应的部分最优传输模型[J]. 统计学与应用, 2026, 15(3): 66-80. https://doi.org/10.12677/sa.2026.153056

1. 引言

域适应(Domain Adaptation, DA)旨在通过学习源域与目标域间的可迁移特征表示,将在源域上训练的模型有效泛化至目标域,从而实现跨域知识迁移[1]。根据源域与目标域标签集合的差异,当前域适应场景可分为四大类:闭集域适应、开集域适应、部分域适应和通用域适应[2]-[4],如图1所示。其中,通用域适应在实际应用中最为常见,其定义为源域与目标域标签集合存在非空交集,且双方均可包含各自的私有类别。该场景下的核心任务是:在准确识别源域与目标域间的公共类别的同时,有效检测目标域中属于私有类别的样本[5]

此外,现有大多数域适应方法基于源域与目标域共享相同的特征空间的假设。然而在实际应用中,源域与目标域往往来源于不同设备或模态,导致其特征维度、语义表示甚至数据结构存在本质差异,即处于异构特征空间中[6]。因此,如何在通用异构域适应框架下,同时实现异构特征空间中跨域语义对齐与目标域未知类的有效检测,成为一个亟待解决的关键问题。

目前,研究人员已经提出了大量异构域适应方法,其核心思路大多是通过学习一个特征映射函数,将源域和目标域样本转换到一个共同的特征空间。如Tsai等[7]创新性地在公共子空间中引入“跨域地标”机制,通过选择具有代表性的源域和目标域样本来指导类条件分布的匹配,提升适应效率。Wang等[8]提出跨域结构保持投影方法,在实现分布对齐的同时保持数据的原始流形结构和类一致性。Yao等[9]提出一个统一框架,在公共子空间中联合优化分类器适应、分布对齐和判别性嵌入。Wu等[10]则强调在分布对齐的同时最小化信息损失,通过引入局部结构保持和重构正则化来保留原始数据知识,并结合MMD和CMMD实现分布对齐。

Figure 1. Domain adaptation types

1. 域适应类型

在此基础上,为避免传统硬标签分配引入虚假伪标签,Zhou等[11]通过少量标注目标域样本引导跨域映射学习,并在共享子空间中联合对齐边缘分布与条件分布。然而上述基于特征映射的主流方法普遍依赖于显式或隐式的特征空间变换,在域间差异较大时容易导致判别性信息损失,且大多采用如MMD等全局统计矩匹配准则,难以刻画样本间细粒度对应关系,同时未考虑源域及目标域存在私有类别的情况。

为摆脱对共享特征空间的依赖,近年来学者尝试从最优传输(Optimal Transport, OT)视角出发,对异构域间的分布关系进行建模[12]-[14]。例如,Yan等[12]通过引入熵正则化的Gromov-Wasserstein (GW)距离来度量异构空间样本的分布差异,从而避免显式的特征映射,为跨域对齐提供了新思路。此外,最优传输理论通过约束传输质量,也可用于处理通用域适应等更具现实复杂性的场景。

与此同时,针对通用域适应(universal domain adaptation, UniDA)场景,研究者们从多个角度提出了解决方案。早期代表性工作You等[15]通过量化样本级可迁移性来自动发现公共类别并拒绝私有样本。后续研究进一步从不同角度优化这一框架,Yin等[16]提出基于伪边缘的跨域方法,通过构建伪边缘向量和寄存器,实现对公共类别的高效识别与加权。Saito等[17]则另辟蹊径,通过训练一对多分类器学习源域内的最小类间距离,并以此自适应地确定目标域的“已知/未知”判别阈值,避免了人工设定阈值的不稳定性。另一条技术路线聚焦于不确定性建模与开放集识别,Fu等[18]指出,准确检测开放类是UniDA的核心任务,并提出利用校准后的多不确定性(熵、置信度、一致性)度量来量化样本倾向开放类的程度。Chen等[19]则通过几何锚点引导的对抗与对比学习,结合能量不确定性建模,自适应地学习“未知”阈值。

此外,研究者们也广泛探索自监督与聚类方法,以减少对源域标签结构的依赖。Saito等[20]结合自监督邻域聚类与熵优化,在不预设类别重叠模式的情况下,通过聚类学习目标域内在结构,并基于熵值对齐或拒绝样本。Li等[2]则更进一步,利用域共识知识来区分公共类与多个私有类,并对它们分别进行对齐与正则化,从而获得更紧凑的特征表示。Ma等[21]引入主动学习范式,通过对抗多样课程学习和非可迁移梯度嵌入聚类策略,在有限标注预算下联合优化域适应与私有类推断。值得注意的是,上述大多数方法均在同构特征空间中操作,且其匹配过程往往未显式利用源域的监督标签信息进行语义引导。当面对异构域适应时,直接对齐特征分布变得尤为困难。虽然近期有研究[22]开始探索在开放世界多模态事件检测中应用最优传输框架来处理此类问题,但标准的OT方法及其变体在UniDA场景中面临两大关键挑战:首先,它们往往忽略源域的类别标签结构,这可能导致目标域样本被错误对齐到语义无关的源域类别;其次,当目标域存在大量私有类别样本时,保质量传输机制会强制将“未知”样本映射到已知源类别上,从而违背了UniDA的基本任务目标。

为此,本文在OT理论框架下提出一种面向通用异构域适应的部分最优传输模型,该模型在异构空间下同时实现公共类别的精准对齐与私有类别的有效识别。具体而言,针对异构空间难以定义跨域距离的问题,引入Gromov-Wasserstein距离[23]。与Wasserstein距离[24] (W距离)不同,GW距离通过比较域内样本间的结构关系相似性,能够有效处理特征空间异构的对齐任务。针对UniDA中源域与目标域仅共享部分类别的特性,将传输模型扩展为部分最优传输[25] [26],通过限制总传输质量,仅对两个域之间的公共类别进行选择性对齐,从而实现对目标域私有类样本的拒绝。此外,为解决标准OT忽略监督标签的问题,引入基于标签的组正则项,将源域类别信息显式融入传输优化过程中,引导每个目标样本主要接收来自单一源类别的质量,有效抑制跨类别错配。

综上,本文主要贡献如下:

(1) 结合Gromov-Wasserstein距离与关键点引导的关系保持代价函数,构建融合的传输代价矩阵,用于解决异构域适应问题中存在的跨域度量问题。

(2) 引入基于标签的组正则化项,诱导传输计划在源域类别维度上呈现群稀疏性,从而抑制私有类样本的误匹配。

(3) 通过引入传输质量约束将标准模型扩展为部分最优传输问题,从而有效实现了通用域适应问题中目标域中公共类别及私有类别样本的准确识别。

(4) 设计了融合Majorization-Minimization框架与Frank-Wolfe算法的求解策略,在Office-31等三个数据集中验证了模型对处理通用异构域适应问题的有效性。

2. 预备知识

2.1. Wasserstein距离

考虑两组数据点,即源域数据 X= { x i } i=1 m 和目标域数据 Y= { y j } j=1 n ,假设在 X Y 上有两个经验分布 ( p,q ) m × n ,其中 p= i=1 m p i δ x i q= j=1 n q j δ y j ,这里的 m n 分别是具有 | p |=m | q |=n 个区间的直方图。在这些直方图之间所有可容许的耦合集 ( p,q ) 定义为:

( p,q )={ π + m×n |π 1 n =p,π 1 m =q } (1)

其中, π 是一个耦合矩阵。

定义点集XY之间的成本矩阵为 C=( C ij ) m×n ,其中 C ij =c( x i , y j ) ,这里 c 是一个代价函数,设置为 x i y j 之间的平方 L 2 距离。最优传输旨在解决如何以最小的成本,将一个概率分布 p 转化为另一个概率分布 q 的问题。 p q 间的最小成本为Wasserstein距离,定义为:

W( p,q )= min π( p,q ) C,π F = min π( p,q ) i=1 m j=1 n C ij π ij (2)

这里 , F 表示Frobenius内积。

2.2. Gromov-Wasserstein距离

当数据点 x i y j 位于不同的特征空间时,直接计算它们之间的距离通常缺乏有效依据,为此,Gromov-Wasserstein (GW)距离被引入作为经典Wasserstein距离的一种扩展形式。它不依赖于跨域点对之间的直接距离,而是通过比较源域和目标域内部各自的距离结构(即距离矩阵)来实现分布间的语义对齐。具体来说,设源域的内部距离 C s =( C i,k s ) + m×m ,其中 C i,k s 表示源域数据点 x i x k 之间的距离,以及目标域的内部距离矩阵 C t =( C j,l t ) + n×n ,其中 C j,l t 表示目标域数据点 y j y l 之间的距离,则GW距离[27]定义如下:

GW( p,q )= min π( p,q ) i,k=1 m j,l=1 n π i,j π k,l | C i,k s C j,l t | 2 (3)

2.3. 部分最优传输

部分最优传输旨在通过约束传输的总质量 s (其中 0smin( p 1 , q 1 ) ),在两个分布 p q 之间实现不超过给定质量上限的传输,并使传输总代价最小化。其数学形式为:

PO T s ( p,q )= min π s ( p,q ) C,π F (4)

其中C为成本矩阵,可行集 s ( p,q ) 定义为:

s ( p,q )={ π + m×n |π 1 n p, π T 1 m q, 1 m T π 1 n =s } (5)

为求解部分最优传输问题,常引入虚拟点[28] [29]策略将其转化为标准最优传输问题。具体而言,在源域和目标域中分别添加一个虚拟点 x m+1 y n+1 ,质量分别为 q 1 s p 1 s 。定义其与任意真实节点的距离为 C ¯ m+1,j = C ¯ i,n+1 =ξ ( i=1,,m;j=1,,n ) C ¯ m+1,n+1 =2ξ+A ,其中 ξ>0 A 是一个充分大的数,用于阻止虚拟点间的不合理传输。扩展后的成本矩阵为:

C ¯ =[ C ξ 1 n ξ 1 m T 2ξ+A ] (6)

扩展后的分布记为 p ¯ = [ p T , q 1 s ] T q ¯ = [ q T , p 1 s ] T ,在此基础上,原部分最优传输问题(4)可转化为如下标准最优传输问题:

min π ¯ ( p ¯ , q ¯ ) C ¯ , π ¯ F (7)

其最优解满足:源域真实样本向目标虚拟点传输 p 1 s 单位质量,源虚拟点向目标真实样本传输 q 1 s 单位质量。

3. 方法

本文将提出一种融合的正则部分最优传输模型,该模型融合基于掩码约束的关系保留代价函数和基于GW距离的代价函数用于构建传输代价,并引入基于标签的组正则项来构建目标函数。同时为适用于通用域适应,模型引入传输质量限制,将问题扩展为部分最优传输,并设计相应求解算法。

3.1. 融合最优传输代价矩阵

3.1.1. 关键点匹配保持

为处理异构域适应问题,本文引入跨域关键点对引导最优传输模型[29]。首先定义一组关键点索引对 K= { i u , j u } u=1 U ,其中U表示配对关键点的数量。分别用 I= { i u } u=1 U J= { j u } u=1 U 表示源域和目标域关键点的索引集。若一对关键点 ( i,j )K 被匹配,则源域关键点 x i 的所有质量必须传输到目标域关键点 y j ,且 y j 只能接收从 x i 传输的质量。

为在传输过程中保持关键点的匹配关系,引入二元掩码矩阵 M { 0,1 } m×n 。掩码矩阵 M 具体构造如下:

M i,j ={ 1, ( i,j )K 0, iI( i,j )K 0, jJ( i,j )K 1, (8)

基于此,传输计划 π ˜ i,j 被建模为掩码矩阵 M=( M i,j ) + m×n 与矩阵 π + m×n 的Hadamard乘积,即 π ˜ =Mπ ,其中, π ˜ i,j = M i,j π i,j 。由此带有关键点引导的最优传输问题的可行传输计划集合可定义为:

( p,q;M )={ π + m×n |( Mπ ) 1 n =p, ( Mπ ) T 1 m =q } (9)

3.1.2. 关系保持代价函数

进一步利用关键点来保留每个点与关键点集合之间的关系。对于源域数据点 x k X ,其与源域关键点 x i u 的关系分数定义[29]为:

R k, i u s = e C k, i u s /τ u=1 U e C k, i u s /τ , i u I (10)

其中 C k, i u s x k x i u 之间的 L 2 距离,温度参数 τ=ρ× max i,k { C i,k s } 。类似地,目标域数据点 y l Y ,其与目标域关键点 y j u 的关系分数定义为:

R l, j u s = e C l, j u t / τ u=1 U e C l, j u t / τ , j u I (11)

其中, C l, j u t y l y j u 之间的 L 2 距离, τ =ρ× max j,l { C j,l t }

R k s =( R k, i 1 s , R k, i 2 s ,, R k, i u s ) 表示源域数据 x k 与关键点的关系向量, R l t =( R l, j 1 t , R l, j 2 t ,, R l, j u t ) 表示目标域数据点 y l 与关键点的关系向量。根据关系的定义,跨域点如果接近一对配对的关键点,则 R k s R l t 应相似。据此,构建引导矩阵 V=( V k,l ) + m×n ,其中 V k,l =d( R k s , R l t ) d 取Jensen-Shannon散度衡量不相似度。

综上,定义基于掩码约束的关系保留代价函数 L kpg ( π )

L kpg ( π ) Mπ,V F (12)

3.1.3. 基于GW距离的代价函数

由于源域数据点 x i 和目标域数据点 y j 位于不同空间,引入GW模型。根据GW距离的定义,引入如下代价函数 L gw ( π )

L gw ( π )= i,k=1 m j,l=1 n π i,j π k,l | C i,k s C j,l t | 2 (13)

3.2. 基于标签的组正则项

传统的最优传输仅依赖样本间的度量距离,忽略了样本的类别标签,可能将目标样本错误地对齐到语义不相关的源类别,从而损害域自适应性能。为此,本文进一步引入基于标签的组稀疏正则项[30],具体形式如下:

Ω( π )= j h π( I h ,j ) 1 θ (14)

其中 H 为源域类别总数, I h { 1,,m } 表示源域中类别 h 的样本索引集合, π( I h ,j ) 是传输计划矩阵 π j 列中对应类别 h 的子向量(即由所有属于类别 h 的源样本向第 j 个目标样本传输的质量构成), 1 l 1 范数。该正则项采用 θ=1/2 的非凸形式,利用平方根函数在零点的非光滑性,有效促进组稀疏性,使得每个目标样本主要由单一源类别主导传输,从而增强传输的语义一致性。

3.3. 面向通用域适应的部分最优传输模型

为适用于通用域适应场景,将问题扩展为部分最优传输,对源域与目标域共有的公共类别进行对齐。在此设定下,最终建立如下融合正则部分最优传输模型:

minF( π )= min π s ( p,q;M ) α L gw ( π )+( 1α ) L kpg ( π )+λΩ( π ) (15)

满足约束:

s ( p,q;M )={ π + m×n |( Mπ ) 1 n p, ( Mπ ) T 1 m q, 1 m T ( Mπ ) 1 n =s } (16)

其中参数 α λ 分别代表GW距离在融合最优传输模型中所占比例以及组正则项系数, s 表示公共类别所占的比例,限制了可传输的样本质量。

对于(16)式,需引入虚拟点策略处理部分传输约束。注意到当应用于GW距离时,需在各域内部定义域内代价矩阵 C s m×m C t n×n ,并扩展域内成本矩阵以支持部分传输。与2.3节方式类似,在源域和目标域各添加一个虚拟点 x m+1 y n+1 ,定义其与任意真实节点的内部距离为 C ¯ i,m+1 s = C ¯ j,n+1 t =ξ ( i=1,,m;j=1,,n ) ,其中 ξ>0 ,虚拟点与自身的距离定义为0,扩展后的源域和目标域内代价矩阵分别为:

C ¯ s =[ C s ξ 1 m ξ 1 m T 0 ] C ¯ t =[ C t ξ 1 n ξ 1 n T 0 ] (17)

然而,在实际应用时发现,由于GW距离依赖于成对距离的计算,会导致目标函数中出现复杂的交叉项,无法像部分W距离一样通过扩展成本矩阵的方式来达到限制虚拟点与真实点之间传输的目的[28]。因此,为便于求解(16),本文接下来将采用Frank-Wolfe优化框架,在每次迭代中,将原问题线性化为一个部分W距离子问题,进而再通过虚拟点扩展成本矩阵,实现虚拟点与真实点之间限制传输的目的。

3.4. 算法求解模型

注意到由于组正则项的存在,模型(16)为非凸优化问题。为求解此问题,本文将使用Majorization-Minimization (MM)算法[31]处理非凸组正则项,并结合Frank-Wolfe方法和虚拟点策略处理部分传输约束。具体而言,令 g( s )= s θ ,则组正则项可表示为:

Ω( π )= j h g( π( I h ,j ) 1 ) (18)

f( π )= π 1 ,本文采用 θ=1/2 。此时由于 g 为凹函数, f 为凸函数, g( f( π ) ) 的凹凸性无法保证。因此无法直接找到一个 g( f( π ) ) 函数的线性函数上界。但利用 g 的凹性,可以得到:

g( s )g( s ^ )+g( s ^ )( s s ^ ) (19)

s= π( I h ,j ) 1 s ^ = π ^ ( I h ,j ) 1 ,根据 g( s ^ )=θ s ^ θ1 ,有:

g( π( I h ,j ) 1 )g( π ^ ( I h ,j ) 1 )+θ π ^ ( I h ,j ) 1 θ1 ( π( I h ,j ) 1 π ^ ( I h ,j ) 1 ) (20)

G( I h ,j )=θ ( π ^ ( I h ,j ) 1 +ε ) θ1 ,则:

min π s ( p,q;M ) Ω( π )= j h g( π( I h ,j ) 1 ) (21)

可放松为求解如下优化问题的最小值:

min π s ( p,q;M ) j h G( I h ,j ) π( I h ,j ) 1 (22)

对任意 i I h ,令 G ¯ ( i,j )=G( I h ,j ) ,则问题(21)等价为

min π s ( p,q;M ) G ¯ ,| π | F (23)

注意到在约束 π0 下, | π |=π 。事实上,(22)可进一步等价于:

min π s ( p,q;M ) G ¯ ,π F (24)

依据的命题如下:

命题1 C 为给定传输矩阵,则优化问题(1): min π s ( p,q;M ) C,| π | F 与优化问题(2): min π s ( p,q;M ) C,π F 具有相同的最优解集。

证明: π * 为问题(1)的最优解, π ¯ 为问题(2)的最优解,由约束条件知 π * 0 π ¯ 0

一方面,对任意 π 满足 π0 ,有 C,| π * | F C,| π | F ,即 C, π * F C,π F ,故 π * 也是问题(2)的最优解。

另一方面,对任意可行解 π0 ,有 C, π ¯ F C,π F ,由于 π ¯ 0 π0 ,有 C,| π ¯ | F C,| π | F ,因此 π ¯ 也是问题(1)的最优解。

综上,问题(1)与问题(2)的最优解集等价,命题得证。

根据命题1可得,(22)与(23)式等价。因此,原优化问题可通过以下迭代求解:

(1) 固定当前传输计划 π k ,构造扩展后的权重矩阵 G ¯ k

(2) 求解上界函数的最小化问题:

min π s ( p,q;M ) α L gw ( π )+( 1α ) L kpg ( π )+λ π, G ¯ k F (25)

定义4阶张量 L=( L i,j,k,l ) m×n ×m×n ,其中 L i,j,k,l = ( C i,k s C j,l t ) 2 ,定义张量矩阵乘积 Lπ=( ( Lπ ) i,j ) m×n ,其中 ( Lπ ) i,j = k,l L i,j,k,l π k,l 。则 L gw ( π )= Lπ,π F 。由此最小化问题可写为以下形式:

min π s ( p,q;M ) α Lπ,π F +( 1α ) Mπ,V F +λ π, G ¯ k F = min π s ( p,q;M ) α Lπ,π F + π,( 1α )MV+λ G ¯ k F = min π s ( p,q;M ) α Lπ,π F + C ( k ) ,π F (26)

其中 C k =( 1α )MV+λ G ¯ k 。对于(25)式,采用Frank-Wolfe算法进行求解。该算法通过求解线性子问题寻找下降方向,并结合线搜索更新传输矩阵。其中,每个线性子问题通过虚拟点策略转化为标准最优传输问题,进而可采用高效Sinkhorn算法求解,有效处理部分传输约束。步长选取采用经典递减策略[32]

算法1展示了MM-FW算法的具体过程:

算法1:MM-FW算法

输入:边缘分布 p,q ;源域类别标签 { I h } h=1 H ;参数 α,λ,θ=1/2 ,ε ;外层收敛参数 Δ_outer ;内层收敛容差 Δ_inter ;外层最大迭代次数 K max ;内层最大迭代次数 l max

输出:最优传输矩阵 π *

1) 初始化传输矩阵: π k =p q T ,外层迭代 k=0

2) while k< K max

a. 构造扩展后的权重矩阵 G ¯ k

对每个类别 h=1,,H 和每个目标样本 j=1,,n

计算 s h,j k = i I h π i,j k , w h,j k =θ ( s h,j k +ε ) θ1

对所有 i I h ,令 G ¯ i,j k = w h,j k

b. 构建有效线性成本矩阵:

C k =( 1α )MV+λ G ¯ k

c. 用Frank-Wolfe算法最小化如下目标函数: F( π )=α Lπ,π F + C ( k ) ,π F

初始化内层变量 π l k π k ,内层迭代 l=0

while l< l max

计算第l次迭代的目标函数 F( π l k ) 以及目标函数梯度 F( π l k )

求解线性最小化算子: π ¯ l k arg min π( p ¯ , q ¯ ; M ¯ ) ¯ F( π l k ),π F

π ¯ l k 去掉最后一行最后一列,得到 π ˜ l k

更新步长: γ l = 2 l+2

更新: π l+1 k =( 1 γ l ) π l k + γ l π ˜ l k

检查收敛:若 | F( π l+1 k )F( π l k ) |Δ_inter ,break;

l=l+1

end

d. π k+1 = π l+1 k

e. 检查外层收敛:若 π k+1 π k F Δ_outer | F( π k+1 )F( π k ) |Δ_outer ,break;

f. k=k+1

end

3) 返回 π * = π k+1

4. 实验

本文实验在Python环境下进行,电脑配备Intel(R) Core(TM) i5-8250U CPU。为全面评估所提模型在通用异构域自适应任务中的性能,在多个真实数据集上进行实验验证,并与多种方法进行了对比分析。

4.1. 数据集介绍及实验设置

实验采用以下三个基准数据集:

(1) Office-31:包含Amazon (A)、DSLR (D)和Webcam (W)三个域,共31类图像。为适应通用域适应情况,设定11个公共类别,源域及目标域分别包含10个私有类别。源域使用4096维DeCAF6特征,目标域使用2048维ResNet-50特征,构建9个跨域任务。

(2) NUS-WIDE与ImageNet:用于文本到图像的跨域适应。选取8个重叠类别[33],使用NUS-WIDE的64维特征表示的标签信息作为源域,ImageNet图像的4096维DeCAF6特征作为目标域,设定4个公共类别,源域及目标域分别包含2个私有类别。

(3) MNIST与USPS:由10类数字组成。使用Mnist的784维特征表示的标签信息作为源域,Usps图像的256维特征作为目标域,设定4个公共类别,源域及目标域分别包含3个私有类别。

具体实验配置详见表1

通用域适应目的在于正确分类公共类样本,并检测目标域私有类样本。实验中使用三个评价指标[34],包括目标域公共类样本分类准确率( OS ),未知类样本分类准确率( UNK ),以及它们的调和均值 HOS=2× OS×UNK OS+UNK

Table 1. Dataset description

1. 数据集描述

数据集

Office-31

NUS-ImageNet

MNIST-USPS

源域特征维度

4096

64

784

目标域特征维度

2048

4096

256

公共类别数

11

4

4

源域私有类别数

10

2

3

目标域私有类别数

10

2

3

GW距离比例 α

0.1

0.1

0.6

群熵正则项系数 λ

8.0

8.0

0.5

4.2. 实验结果

为全面评估所提方法的有效性,本文在三个数据集上与多种方法进行了对比。表2~4分别报告了 OS UNK HOS 结果。基线方法(Baseline)通过剔除距离最远的 1s 比例样本作为私有类,并在已标记目标域数据上训练一个核SVM对公共类数据进行分类。对比方法包括经典异构域算法CDLS [7]、CDSPP [8]、DDA [9]和KPDA [10],其私有类识别均通过拒绝预测置信度最低的 1s 比例未标记样本作为私有类别计算准确率指标进行对比。

Table 2. Classification accuracy of target domain common class samples

2. 目标域公共类样本分类准确率OS

Method

Baseline

CDLS

CDSPP

DDA

KPDA

Ours

Office-31

A→A

34.63

46.28

53.18

52.89

57.85

57.58

A→D

50.65

50.41

66.40

57.38

69.42

65.37

A→W

45.02

45.46

64.73

52.89

75.21

62.34

D→A

34.63

48.76

53.77

60.33

58.68

63.64

D→D

50.65

47.11

51.44

69.42

70.25

78.79

D→W

45.02

53.72

53.66

48.36

74.38

75.76

W→A

34.63

40.50

55.90

58.68

57.02

66.67

W→D

50.65

47.93

67.11

73.55

71.07

76.19

W→W

45.02

47.93

61.23

62.81

75.21

75.32

Avg

43.43

47.57

58.60

59.59

67.68

69.07

NUS-ImageNet

49.67

50.88

61.69

58.50

58.50

51.00

MNIST-USPS

46.29

54.94

65.37

63.00

65.50

68.57

Table 3. Classification accuracy of target domain private classes

3. 目标域私有类别分类准确率UNK

Method

Baseline

CDLS

CDSPP

DDA

KPDA

Ours

Office-31

A→A

58.18

56.36

58.00

74.55

62.73

72.73

A→D

81.82

50.91

64.91

61.47

67.27

80.00

Office-31

A→W

80.91

40.91

61.45

77.27

77.27

78.18

D→A

58.18

50.91

57.27

68.18

63.64

80.91

D→D

81.82

43.64

62.00

74.55

67.27

92.73

D→W

80.91

50.00

57.45

59.63

77.27

90.00

W→A

58.18

50.91

61.09

65.45

60.91

81.82

W→D

81.82

44.55

64.36

78.18

68.18

90.91

W→W

80.91

44.55

57.45

62.73

78.18

89.09

Avg

73.64

48.08

60.44

69.11

69.19

84.04

NUS-ImageNet

64.00

37.98

49.00

30.00

41.00

67.00

MNIST-USPS

51.33

52.14

56.67

65.33

62.00

71.33

Table 4. Harmonic mean

4. 调和平均值HOS

Method

Baseline

CDLS

CDSPP

DDA

KPDA

Ours

Office-31

A→A

43.42

50.83

55.47

61.88

60.19

64.27

A→D

62.57

50.66

65.57

59.35

68.33

71.95

A→W

57.85

43.06

63.00

62.8

76.23

69.37

D→A

43.42

49.81

55.44

64.02

61.06

71.24

D→D

62.57

45.31

55.96

71.89

68.73

85.19

D→W

57.85

51.79

55.42

53.41

75.80

82.27

W→A

43.42

45.11

58.37

61.88

58.90

73.47

W→D

62.57

46.18

65.64

75.80

69.60

82.90

W→W

57.85

46.18

59.22

62.77

76.67

81.63

Avg

54.61

47.66

59.34

63.76

68.39

75.81

NUS-ImageNet

55.93

43.50

54.62

39.66

48.21

57.92

MNIST-USPS

48.70

53.50

60.53

64.15

63.70

69.93

从整体性能来看,本文方法在三个数据集上均取得最优的调和准确率( HOS ),在Office-31数据集上,平均 HOS 达到75.81%,较次优方法KPDA (68.39%)提升7.42个百分点;在NUS-ImageNet的文本到图像数据集与MNIST-USPS手写数字数据集上, HOS 分别为57.92%和69.93%,同样显著优于现有方法。这主要源于模型对公共类与私有类的联合优化能力,在保持较高公共类分类准确率( OS )的同时,大幅提升了私有类检测准确率( UNK )。具体而言,在Office-31上,本文方法的平均 UNK 为84.04%,远超KPDA (70.04%)和DDA (65.23%);在NUS-WIDE-ImageNet中,尽管 OS (51.00%)低于KPDA (58.50%),但 UNK (67.00%)显著高于KPDA (41.00%),从而在 HOS 上取得最优,表明方法在通用异构场景下对未知类具有更强的判别鲁棒性。在经典数字识别任务MNIST-USPS上,本文方法在 OS UNK HOS 三项指标上均全面领先,进一步验证了模型的有效性。

为评估各算法在通用异构域适应任务中性能差异的统计显著性,采用Friedman检验结合Conover事后检验的统计评估框架[35]。在11个跨域任务上对6种算法的性能表现进行综合分析,显著性水平设为0.05。Friedman检验用于判断算法在多任务上的平均性能是否存在显著差异,对于 K 个算法在 N 个数据集上的排名结果,Friedman统计量定义为:

χ F 2 = 12N K( K+1 ) ( i=1 K R i 2 K ( K+1 ) 2 4 ) (27)

其中 R i 表示第 i 个算法在 N 个数据集上性能的平均排名。考虑到模型间表现出显著的差异,进一步采用Conover-Iman事后检验进行两两比较。对于任意两个算法 i j,计算 t 统计量:

t ij = | R i R j | 2N( K1 ) S 2 NKKN+1 ( 1 χ F 2 N( K1 ) ) (28)

其中 S 2 为排名方差。

为控制多重比较误差,采用Holm-Bonferroni逐步校正方法。将比较的 p 值按升序排列为 p ( 1 ) p ( 2 ) p ( 15 ) ,逐步判断:若 p ( i ) 0.05/ ( mi+1 ) ,其中 m= C 6 2 =15 为总比较次数,则拒绝相应的原假设。通过此校正后仍满足 p0.05 的比较被视为存在统计显著差异。统计显著性结果通过图2热力图呈现,其中矩阵元素值为1表示对应算法对之间存在显著差异,0表示无显著差异。结果显示,本文提出的方法在三种设置下均与多个基线算法存在显著差异,验证了其统计意义上的优越性。

Figure 2. Significance test heatmap for three metrics

2. 三项指标的显著性检验热力图

为探究模型关键参数对性能的影响,本文在Office-31数据集上分析了GW距离占比 α 与正则项系数 λ 对调和平均值 HOS 的影响。参数 α λ 分别在一定范围内进行取值( α 从0.1以步长0.1取至0.5, λ 从0以步长1取至10),通过网格搜索评估不同参数组合下的模型表现。如图3,模型对 α 参数较为敏感。当 α 为0.1~0.2时, HOS 达到峰值(70~75%),当 α>0.3 时, HOS 显著下降,说明适度的几何结构对齐能有效提升性能。相比之下, λ 参数在2~10范围内表现出较好的鲁棒性,在 λ=8 时达到最优。最优参数组合为 α=0.1,λ=8 ,此时 HOS 达到75.81%。

为分析各组件影响,在Office-31的A→W任务上进行了消融实验,结果如表5所示。

仅使用关键点引导时, HOS 为59.73%,引入群熵正则后, UNK 从63.64%提升至74.55%, HOS 升至67.64%;进一步融合GW结构约束, OS 增至62.34%, UNK 升至78.18%,最终 HOS 达69.37%。这表明,关键点引导提供了可靠的局部对齐基础,组正则有效抑制了私有类的误匹配,而GW距离则通过保留几何结构进一步提升了公共类的判别力,三者协同优化了已知类识别与未知类检测。

Figure 3. Parameter sensitivity analysis

3. 参数敏感性分析

Table 5. Ablation study on A→W

5. A→W消融实验

GW

KPG

Ω( π )

OS

UNK

HOS

32.90

47.27

38.80

36.80

60.91

45.88

56.28

63.64

59.73

58.44

67.27

62.55

61.90

74.55

67.64

62.34

78.18

69.37

5. 结论

本文针对通用异构域适应中异构空间对齐与已知类和未知类判别难题,提出了一种面向通用异构域适应的部分最优传输模型。该模型融合GW距离以保留域内几何结构,通过部分最优传输实现公共类别的选择性对齐,并引入关键点引导与组稀疏正则化,有效提升语义一致性与未知类识别能力。实验部分表明,模型在公共类分类准确率、私有类检测性能及其调和平均值上均优于现有主流方法,尤其在未知类别识别方面展现出显著的性能提升。消融实验进一步证实了关键点引导、组稀疏正则与GW距离三者协同作用的重要性,验证了模型的有效性。

基金项目

河北省中央引导地方科技专项项目(246Z1825G)。

NOTES

*通讯作者。

参考文献

[1] 杨鹰, 李宁, 唐守伟, 等. 基于域适应的巡检场景跨域智能分析技术研究[J]. 电子元器件与信息技术, 2025, 9(9): 141-143, 147.
[2] Li, G., Kang, G., Zhu, Y., Wei, Y. and Yang, Y. (2021) Domain Consensus Clustering for Universal Domain Adaptation. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 9752-9761. [Google Scholar] [CrossRef
[3] Saito, K., Yamamoto, S., Ushiku, Y. and Harada, T. (2018) Open Set Domain Adaptation by Backpropagation. In: Ferrari, V., Hebert, M., Sminchisescu, C. and Weiss, Y., Eds., Computer VisionECCV 2018, Springer, 156-171. [Google Scholar] [CrossRef
[4] Zhang, J., Ding, Z., Li, W. and Ogunbona, P. (2018) Importance Weighted Adversarial Nets for Partial Domain Adaptation. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 8156-8164. [Google Scholar] [CrossRef
[5] 何秋妍, 邓明华. 通用域适应综述[J]. 计算机研究与发展, 2024, 61(1): 120-144.
[6] 吴兰, 崔全龙. 基于伪标签细化和语义对齐的异构域自适应[J]. 浙江大学学报(工学版), 2023, 57(9): 1876-1884, 1902.
[7] Tsai, Y.H., Yeh, Y. and Wang, Y.F. (2016) Learning Cross-Domain Landmarks for Heterogeneous Domain Adaptation. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 5081-5090. [Google Scholar] [CrossRef
[8] Wang, Q. and Breckon, T.P. (2022) Cross-Domain Structure Preserving Projection for Heterogeneous Domain Adaptation. Pattern Recognition, 123, Article ID: 108362. [Google Scholar] [CrossRef
[9] Yao, Y., Zhang, Y., Li, X. and Ye, Y. (2020) Discriminative Distribution Alignment: A Unified Framework for Heterogeneous Domain Adaptation. Pattern Recognition, 101, Article ID: 107165. [Google Scholar] [CrossRef
[10] Wu, H., Wu, Q. and Ng, M.K. (2021) Knowledge Preserving and Distribution Alignment for Heterogeneous Domain Adaptation. ACM Transactions on Information Systems, 40, 1-29. [Google Scholar] [CrossRef
[11] Zhou, Z., Wang, Y., Niu, C. and Shang, J. (2022) Label-guided Heterogeneous Domain Adaptation. Multimedia Tools and Applications, 81, 20105-20126. [Google Scholar] [CrossRef
[12] Yan, Y., Li, W., Wu, H., Min, H., Tan, M. and Wu, Q. (2018) Semi-Supervised Optimal Transport for Heterogeneous Domain Adaptation. Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, Stockholm, 13-19 July 2018, 2969-2975. [Google Scholar] [CrossRef
[13] 王碧琳. 基于最优传输的无监督领域自适应方法研究[D]: [博士学位论文]. 长春: 吉林大学, 2023.
[14] Yang, Y., Gu, X. and Sun, J. (2023) Prototypical Partial Optimal Transport for Universal Domain Adaptation. Proceedings of the AAAI Conference on Artificial Intelligence, 37, 10852-10860. [Google Scholar] [CrossRef
[15] You, K., Long, M., Cao, Z., Wang, J. and Jordan, M.I. (2019) Universal Domain Adaptation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 2715-2724. [Google Scholar] [CrossRef
[16] Yin, Y., Yang, Z., Wu, X. and Hu, H. (2021) Pseudo-Margin-Based Universal Domain Adaptation. Knowledge-Based Systems, 229, Article ID: 107315. [Google Scholar] [CrossRef
[17] Saito, K. and Saenko, K. (2021) OVANet: One-Vs-All Network for Universal Domain Adaptation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 8980-8989. [Google Scholar] [CrossRef
[18] Fu, B., Cao, Z., Long, M. and Wang, J. (2020) Learning to Detect Open Classes for Universal Domain Adaptation. In: Vedaldi, A., Bischof, H., Brox, T. and Frahm, J.M., Eds., Computer VisionECCV 2020, Springer, 567-583. [Google Scholar] [CrossRef
[19] Chen, L., Lou, Y., He, J., Bai, T. and Deng, M. (2022) Geometric Anchor Correspondence Mining with Uncertainty Modeling for Universal Domain Adaptation. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 16113-16122. [Google Scholar] [CrossRef
[20] Saito, K., Kim, D., Sclaroff, S. and Saenko, K. (2020) Universal Domain Adaptation through Self Supervision. Advances in Neural Information Processing Systems, 33, 16282-16292.
[21] Ma, X., Gao, J. and Xu, C. (2021) Active Universal Domain Adaptation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 8948-8957. [Google Scholar] [CrossRef
[22] 陈庚彪. 基于通用域自适应的开放世界多模态社会媒体事件检测研究[D]: [硕士学位论文]. 南京: 南京信息工程大学, 2025.
[23] 陈汇. 基于Gromov-Wasserstein距离的3D对称图形匹配新方法[D]: [硕士学位论文]. 长春: 吉林大学, 2023.
[24] del Barrio, E., González Sanz, A. and Loubes, J. (2024) Central Limit Theorems for Semi-Discrete Wasserstein Distances. Bernoulli, 30, 554-580. [Google Scholar] [CrossRef
[25] Nguyen, K., Nguyen, D., Pham, T. and Ho, N. (2022) Improving Mini-Batch Optimal Transport via Partial Transportation. International Conference on Machine Learning, Baltimore, 17-23 July 2022, 16656-16690.
[26] 王碧琳, 王生生, 张哲. 面向领域自适应的部分最优传输高光谱图像分类[J]. 光学精密工程, 2023, 31(17): 2555-2563.
[27] Xu, H., Liu, J., Luo, D. and Carin, L. (2023) Representing Graphs via Gromov-Wasserstein Factorization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 999-1016. [Google Scholar] [CrossRef] [PubMed]
[28] Chapel, L., Alaya, M.Z. and Gasso, G. (2020) Partial Optimal Transport with Applications on Positive-Unlabeled Learning. Advances in Neural Information Processing Systems, 33, 2903-2913.
[29] Gu, X., Sun, J., Xu, Z., Yang, Y. and Zeng, W. (2022) Keypoint-Guided Optimal Transport with Applications in Heterogeneous Domain Adaptation. Advances in Neural Information Processing Systems 35, New Orleans, 28 November-9 December 2022, 14972-14985. [Google Scholar] [CrossRef
[30] Courty, N., Flamary, R. and Tuia, D. (2014) Domain Adaptation with Regularized Optimal Transport. In: Calders, T., Esposito, F., Hüllermeier, E. and Meo, R., Eds., Machine Learning and Knowledge Discovery in Databases, Springer, 274-289. [Google Scholar] [CrossRef
[31] 仝灿. 基于Majorization-Minimization算法的机器学习算法研究[D]: [博士学位论文]. 沈阳: 东北大学, 2022.
[32] Jaggi, M. (2013) Revisiting Frank-Wolfe: Projection-Free Sparse Convex Optimization. International Conference on Machine Learning, Atlanta, 16-21 June 2013, 427-435.
[33] Chen, W., Hsu, T.H., Tsai, Y.H., Wang, Y.F. and Chen, M. (2016) Transfer Neural Trees for Heterogeneous Domain Adaptation. In: Leibe, B., Matas, J., Sebe, N. and Welling, M., Eds., Computer VisionECCV 2016, Springer, 399-414. [Google Scholar] [CrossRef
[34] Bucci, S., Loghmani, M.R. and Tommasi, T. (2020) On the Effectiveness of Image Rotation for Open Set Domain Adaptation. In: Vedaldi, A., Bischof, H., Brox, T. and Frahm, J.M., Eds., Computer VisionECCV 2020, Springer, 422-438. [Google Scholar] [CrossRef
[35] Conover, W.J. (1999) Practical Nonparametric Statistics. John Wiley & Sons.