基于相对熵最优传输的长尾分类分布对齐方法

doi:10.12677/sa.2025.149273

期刊菜单

基于相对熵最优传输的长尾分类分布对齐方法
Relative Entropy Optimal Transport for Distribution Alignment in Long-Tailed Classification

DOI: 10.12677/sa.2025.149273, PDF, HTML, XML,
作者: 庄雅萍：福建师范大学数学与统计学院，福建福州
关键词: 长尾分类；最优传输；神经崩溃；Long-Tailed Classification； Optimal Transport； Neural Collapse

摘要: 现实世界中的多分类任务普遍面临严重的类别不平衡问题，尤其是在长尾分布下的传统深度学习方法往往容易在多数类上出现过拟合，却对少数类的识别能力不足，导致整体分类性能下降。为缓解这一问题，本文在分布对齐优化方法的基础上，提出一种基于相对熵最优传输的分布对齐优化方法。该方法通过引入相对熵正则化项，结合指定先验分布，使得分布匹配更具泛化能力。与原始方法对比，新方法能够根据数据集的类别分布特性自适应调整匹配策略，并促进神经崩溃现象的形成，增强特征的判别性。将新方法作为正则化项能与多种监督损失函数进行结合，在多个长尾数据集上进行评估时，结果表明新方法可促进分类模型在不同评价指标上的性能提升，验证了该方法在长尾分类场景中的有效性。

Abstract: In real-world multi-class classification tasks, severe class imbalance is a common challenge, especially under long-tailed distributions. Traditional deep learning methods tend to overfit majority classes while exhibiting poor recognition performance on minority classes, leading to an overall decline in classification performance. To mitigate this issue, this paper proposes a distribution alignment optimization method based on relative entropy optimal transport, extending conventional distribution alignment approaches. By introducing a relative entropy regularization term and incorporating a specified prior distribution, the proposed method improves the generalization ability of distribution matching. Compared with the original method, it adaptively adjusts the matching strategy according to the dataset’s class distribution characteristics, effectively promoting the formation of neural collapse, thereby enhancing feature discriminability. When integrated as a regularization term into various supervised loss functions and evaluated on multiple long-tailed datasets, the proposed method consistently improves classification performance across different evaluation metrics, validating its effectiveness in long-tailed classification scenarios.

文章引用：庄雅萍. 基于相对熵最优传输的长尾分类分布对齐方法[J]. 统计学与应用, 2025, 14(9): 249-261. https://doi.org/10.12677/sa.2025.149273

1. 引言

传统的机器学习方法在类别分布均衡的数据集上展现出优异的性能表现，但大多数现实世界的数据集却存在显著的不平衡性，具体表现为少量的多数类拥有大部分的样本数据，而大量的少数类却只拥有小部分的样本数据，各类别之间的样本数量差异较大[1]。长尾分布是在多分类任务中最常见的不平衡分布，广泛存在于各种分类任务中，例如物种分类、人脸识别、医学影像诊断等。为了处理分类模型对长尾不平衡数据集的多数类过度学习，而导致对少数类的预测能力不足的问题，众多研究者已经从数据重采样、损失函数重加权、模型集成学习等角度提出相当多的方法进行处理。

研究表明，在平衡数据集的分类任务中，利用交叉熵损失实现训练状态良好的深度神经网络模型通常会表现出神经崩溃(NC)的特性[2]。该特性使得神经网络模型在最后一层的特征分解为类内均值，且分类器权重向量收敛到单纯形等角紧框架(ETF)结构中，这是一种理想的训练状态。然而在数据分布的不平衡的长尾数据集上使用相同的方法进行训练很难实现NC现象，此时类均值特征向量偏离原有的等间距结构，不再满足类内聚集、类间分离的理想几何关系，分类器权重在少数类上收敛到相似的方向，出现“少数类崩溃”的现象[3]。由于NC特性体现出分类器的理想特征，部分研究者通过在长尾数据集上诱导NC现象的发生，使分类器能够获得更好的性能。Yang等人[4]将神经网络的分类器随机初始化为ETF并在训练过程中固定不变，通过实验得出在不平衡数据集中使用固定ETF分类器进行特征学习也会自然导致NC状态。Gao等人[5]基于此，提出了分布对齐优化(DisA)损失函数作为正则化，利用最优传输(OT)从分布的角度缩小不平衡学习的特征向量和平衡ETF结构之间的差距。本研究将基于DisA损失函数，进一步优化该损失在利用OT进行分布匹配时的普遍适用性，通过将相对熵正则化引入该损失中，与指定先验进行学习匹配，以促进该方法在不平衡数据集上的分类性能。

DisA损失函数可作为正则化项与其他监督损失函数进行结合，但考虑到在采用OT进行分布匹配时的传统熵正则化并不具有普遍性，容易在长尾不平衡数据集中引入不适当的偏差，因此提出基于相对熵最优传输(RE-OT)的分布齐次优化损失函数，并记为ReDisA。新方法中的相对熵正则化相比于传统熵正则化项更具有普遍适用性，可根据不同数据集的类别分布进行定制，使其更贴合长尾不平衡的分布结构。当新方法同样作为正则化项与其他监督损失函数结合时，不仅能在特征空间中形成更合理的判别边界，提升尾部类的判别能力，也能在整体结构上促进了NC特性的形成，进一步提升深度神经网络模型的分类性能。因此，本次研究的贡献可进行以下总结。首先，针对DisA使用最优传输进行分布匹配时的普适性问题，提出基于相对熵的分布对齐优化损失函数ReDisA，使其更适用于同类别分布场景。其次，ReDisA可与任意监督损失函数联合使用，作为正则项提升各类别特征的判别性，并更易诱导NC现象的发生。最后，在CIFAR10-LT和CIFAR100-LT数据集中分别设置训练集不平衡率为200和100，选用Top1准确率和F₁得分作为分类评价指标进行训练和测试，验证新方法的有效性。

2. 相关工作

2.1. 长尾学习

长尾分布是不平衡数据集在多分类任务中最常见的一种分布形式，数据重采样和损失函数重加权是在数据级和算法级中最常用的方法。数据重采样技术是通过促进各类别样本数量形成平衡的趋势，可分为欠采样、过采样或二者结合。欠采样技术容易丢失重要样本信息使分类结果不稳定，过采样技术所生成的新样本缺乏原始数据的复杂性，生成的样本无法动态适应模型训练的信息需求[6]。为了克服这一缺点，生成对抗网络(GAN)模型[7]的提出与发展，通过促进生成器去试图捕获真实数据分布以生成更真实的伪样本。损失函数重加权是通过在训练过程中增强尾部类的权重并减弱头部类的权重，从而促进尾部类的分类性能。在交叉熵(CE)损失的基础上，众多学者提出各种损失函数动态重加权方法，以符合不同长尾数据集和优化目标的需求，例如焦点损失[8]在CE损失中加入两个权重参数以动态调整每类样本的权重，使得模型训练过程中能够更加关注难以分类的样本；标签分布感知边际(LDAM)损失函数[9]通过最小化基于边际的泛化界限，以鼓励少数类获得更大的边际。本次研究旨在提高所提出新方法可作为正则化项与各种监督损失函数进行结合。

2.2. 神经崩溃

在平衡数据集上训练的线性分类模型在训练误差达到零时，深度分类器神经网络就进入了训练的终结阶段，此时倾向于表现出NC特性，即最终隐藏层输出的类内变异性非常小，并且其类均值形成了一个ETF结构[10]。部分研究者致力于在自然语言处理、视觉识别等领域从理论层面探究这一现象。但在长尾数据集上以相同的训练方式进行训练，却很难实现NC现象，此时神经崩溃定律不再成立，出现了“少数类崩溃”现象，即NC的最优结构被少数类的分类器向量和类别均值所破坏。Zhang等人[11]提出一个统一的全方位神经崩溃框架(AllNC)，旨在从单个激活、类均值和分类器向量多个方面全面恢复神经崩溃。Yang等人[4]将神经网络的分类器随机初始化为ETF并在训练过程中固定不变，基于分层剥离模型的分析工作表明，在不平衡数据集中使用固定ETF分类器进行特征学习也会自然导致神经崩溃状态。Xie等人[12]指出少数类崩溃的根本原因是来自不同类别的吸引梯度和排斥梯度成分之间的不平衡，并提出了吸引–排斥平衡损失(ARB-Loss)平衡来自不同类别的梯度，以缓解分布不平衡下的“少数类崩溃”现象。在本次研究中，从分布匹配的角度诱导不平衡学习中的NC现象发生，基于最优传输方法缩小不平衡学习表征和平衡ETF结构之间的差距。

2.3. 最优传输

最优传输的最初目的是研究如何以最小的成本将货物运输到指定地点，为了有效解决最优运输中涉及的优化问题，Sinkhorn [13]等快速数值算法相继被提出。现如今，最优传输已被广泛应用于生成模型、计算机视觉识别等领域中，但在与不平衡分类问题进行结合的研究仍较为有限。在目前的相关研究中，主要是将最优传输的思想融合进数据增强和损失函数重加权技术中，从而对不平衡分类问题进行处理。在将最优传输与数据增强技术进行结合的工作中，Yan等人[14]基于最优传输思想提出了过采样最优传输(OTOS)方法，将先验分布中的随机点移动到少数类别的样本先验分布中，利用数据的全局几何信息使合成样本遵循与少数类样本相似的分布，以平衡不同类别的数量。Salimans等人[15]提出最优传输生成式对抗网络(OT-GAN)，将原始形式的最优传输与对抗学习特征空间中定义的能量距离相结合，产生了一个具有无偏小批量梯度的高判别距离函数，在最大限度上减少了生成器分布与数据分布之间的距离。在将最优传输与损失函数重加权进行结合的工作中，Guo等人[16]从分布的角度出发，提出一种基于最优传输的新型重加权方法，将训练集视为样本的不平衡分布，通过最优传输方法将其传输到从元集获得的平衡分布，最终通过最小化两个分布之间的最优传输距离进行学习。Shi等人[17]提出相对熵最优传输(RE-OT)，该方法用最优传输公式研究样本和标签之间的匹配概率，并将耦合解导向已知的先验信息矩阵，以寻求适用于长尾不平衡数据集的平滑方向。Gao等人[5]利用最优传输实现分布匹配，诱导不平衡学习实现神经崩溃现象，通过强制最后一层表征的分布对齐ETF结构的理想分布，并提出分布对齐优化(DisA)损失函数。在本次研究中，将DisA损失函数作为基础损失函数，通过在最优传输中引入相对熵正则化实现分布匹配，利用已知的先验信息矩阵为长尾不平衡数据集寻找合适的平滑解。

3. 分布齐次优化方法

3.1. 不平衡分类定义

设 $D = {(x_{i}, y_{i})}_{i = 1}^{N}$ 为 $K$ 类不平衡分类问题的训练集，其中 $K$ 为总类别数， $x_{i} \in ℝ^{d}$ 为维度为 $d$ 的输入特征， $y_{i}$ 为对应的独热编码(one-hot编码)类别标签， $N = \sum_{k = 1}^{K} n_{k}$ 为总样本量， $n_{k}$ 为类别 $k$ 的样本量，并假设各类别样本按降序排列，即 $n_{1} \geq n_{2} \geq \dots \geq n_{K}$ 。将深度学习模型表述为带有参数化 $θ$ 的特征提取器 $f$ ，即 $h_{i} = f (x_{i}; θ) \in ℝ^{d}$ ， $h_{i}$ 表示 $x_{i}$ 通过模型得到的特征向量， $d$ 为特征向量的维数，该提取器将特征 $x_{i}$ 映射到特征空间。此时令 $h_{i}$ 为第 $i$ 个样本在深度学习模型的最后一层得到的特征，所有样本所得到的特征为 $H : = {h_{1}, h_{2}, \dots, h_{N}} \in ℝ^{d \times N}$ ；将分类器表示为 $W : = {w_{1}, w_{2}, \dots, w_{K}} \in ℝ^{d \times K}$ ，其中 $w_{k}$ 为第 $k$ 个类别的权重向量。偏移量 $b \in ℝ^{K}$ ，则全连接层的计算过程为：

$z = W^{⊤} h_{i} + b,$ (1)

其中分类器的输出 $z \in ℝ^{K}$ ， $z = {[z_{1}, z_{2}, \dots, z_{K}]}^{⊤}$ 。

3.2. 神经崩溃现象

在平衡数据集上训练良好的神经网络模型通常会发生NC现象，使得模型最后一层的特征分解为类内均值，并且分类器的权重向量会收敛到ETF几何结构中。一般的ETF矩阵 $Μ \in ℝ^{d \times K}$ 可由以下向量集合进行表示：

$M = \sqrt{\frac{K}{K - 1}} U (I - \frac{1}{K - 1} 1_{K} 1_{K}^{⊤}) .$ (2)

其中 $I \in ℝ^{K \times K}$ 为单位矩阵； $1 \in ℝ^{K \times 1}$ 为全1向量； $U \in ℝ^{d \times K} (d \geq K)$ 为旋转正交矩阵，满足 $U^{⊤} U = I$ ； $M : = {m_{1}, m_{2}, m_{3}, \dots, m_{K}} \in ℝ^{d \times K}$ 包含 $K$ 个权值为 $m_{k}$ 的类。令模型最后一层的类均值特征为，全局均值特征为 $μ_{G} = 1 / K \sum_{k = 1}^{K} μ_{k}$ ，此时 $\forall k \neq k^{'}$ ，有 $‖ μ_{k} - μ_{G} ‖ - ‖ μ_{k^{'}} - μ_{G} ‖ \to 0$ ，即任意类均值向量收敛到相同的 $l_{2}$ 范数，所有类的均值特征到全局均值特征的距离逐渐相等；定义归一化后的方向向量为 ${\tilde{μ}}_{k} = (μ_{k} - μ_{G}) / {‖ μ_{k} - μ_{G} ‖}_{2}$ ，则在ETF结构中对于 $\forall k \neq k^{'}$ ，有 $〈 {\tilde{μ}}_{k}, {\tilde{μ}}_{k^{'}} 〉 = - 1 / (K - 1)$ ，表示任意两个类均值向量之间的夹角余弦值相同，即这些向量在球面上构成一个等角单纯形。因此ETF结构是一种理想的分布结构，对每个类别都是自然平衡的，但在平衡数据集上训练良好的神经网络模型在不平衡数据集上实现神经崩溃现象却是很困难。

3.3. 最优传输

最优运输(OT)问题被用于测量成本最小化时分布之间的传输概率矩阵，在机器学习和相关领域被广泛应用。在进行最优传输的具体讨论时，将定义两个离散概率分布 $p = \sum_{i = 1}^{N} a_{i} δ_{x_{i}}$ 和 $p = \sum_{k = 1}^{K} b_{k} δ_{y_{k}}$ ，其中 $x_{i}$ 和 $y_{k}$ 位于任意同一空间， $a \in Δ^{N}$ 和 $b \in Δ^{K}$ 分别为定义在 $ℝ^{N}$ 和 $ℝ^{K}$ 上的概率单纯形中的概率向量， $δ$ 为狄拉克函数。此时可将最优传输距离定义为：

(3)

其中成本矩阵 $C \in ℝ_{+}^{N \times K}$ ，由 $C_{i j} = C (x_{i}, y_{k})$ 进行构造，用于反映 $x_{i}$ 和 $y_{k}$ 之间的成本；概率传输矩阵 $Τ \in ℝ_{+}^{N \times K}$ 满足 $Π (p, q) : = {T | \sum_{i = 1}^{N} T_{i k} = b_{k}, \sum_{k = 1}^{K} T_{i k} = a_{i}}$ ，并通过最小化 $Ο Τ (p, q)$ 来学习。然而直接优化公式(3)往往需要大量的计算量，因此大部分研究选择应用Sinkhorn算法，引入熵正则化约束，在足够平滑的条件下以较小的计算成本进行优化。

3.4. 分布对齐优化损失

分布对齐优化(DisA)损失函数基于OT的思想，强制长尾不平衡数据集在模型最后一层所表征的分布与理想分布ETF结构实现对齐，从而转化为两个分布之间的匹配问题。将训练集中 $N$ 个数据样本在模型最后一层的表征视为离散的 $N$ 维分布 $P$ ，将平衡的 $K$ 类ETF结构 $M$ 表示为另一个 $K$ 维分布 $Q$ ，即：

(4)

其中 $h_{i} = f (x_{i}; θ) \in ℝ^{d}$ 为输入样本 $x_{i}$ 时在模型最后一层得到的特征， $m_{k}$ 为(2)中平衡EFT结构 $M$ 的第 $k$ 个权重向量， $δ$ 为狄拉克函数。由于训练数据集是长尾不平衡的，因此 $P$ 是不平衡分布；而ETF矩阵 $M$ 的一个向量可视为对应类别的完美原型，即 $Q$ 为一个平衡且分离良好的分布。为了在模型最后一层的表征上强制待学习的分布 $P$ 与ETF结构上的平衡分布 $Q$ 保持接近，以促进 $θ$ 参数化的特征提取器在不平衡分类任务中学习到高质量的表征，DisA方法通过最小化分布 $P$ 和 $Q$ 之间的OT距离进行分布对齐优化：

(5)

其中成本矩阵 $C \in ℝ_{+}^{N \times K}$ 中的元素 $C_{i k}$ 表示特征 $h_{i}$ 与权重 $m_{k}$ 之间的距离，本研究选用余弦距离将其定义为 $C_{i k} = 1 - \cos (h_{i}, m_{k})$ ；运输概率矩阵 $T$ 满足 $Π (P, Q) : = {T \in ℝ_{+}^{N \times K} | \sum_{i = 1}^{N} T_{i k} = 1 / N, \sum_{k = 1}^{K} T_{i k} = 1 / K}$ ，即约束运输矩阵 $T$ 每行的和为 $1 / N$ ，每列的和为 $1 / K$ 。然而优化公式(5)需要消耗大量的时间开销，因此采用熵正则化OT损失进行优化，将公式(5)重新表述为：

$\begin{matrix} \min_{θ} ℒ_{D i s A} = < Τ^{*}, C >, \\ subject to Τ^{*} = \underset{T \in \prod (P, Q)}{\arg \min} < T, C > - ε H (T), \end{matrix}$ (6)

其中 $ε > 0$ 是用于控制熵正则化权重的超参数，熵正则化约束。通过优化熵正则化OT损失对传输概率矩阵 $T^{*}$ 进行学习，从而进一步基于最小化DisA损失学习特征提取器 $f$ 的最佳参数 $θ$ 。

通过在模型最后一层最小化表征分布 $P$ 和ETF分布 $Q$ 之间的OT距离，DisA损失鼓励特征提取器去学习到更加平衡的表征。该损失函数可与线性分类器的监督损失函数相结合，并在模型倒数第二层的嵌入过程中起着正则化作用，因此不平衡分类损失的总损失函数可表述为：

$ℒ_{t o t a l} = ℒ_{s u p} + λ ℒ_{D i s A}$ (7)

其中 $ℒ_{s u p}$ 表示监督损失函数， $λ$ 为用于平衡监督损失和正则化损失 $ℒ_{D i s A}$ 的超参数。

4. 基于RE-OT的分布齐次优化方法

在OT方法中，引入熵正则化项 $H (T)$ 可将原始的线性规划问题解推离硬边界，使目标函数变成强凸函数，从而获得更加平滑且易于优化的解。然而，这种统一的平滑策略并不一定适用于所有实际场景，例如在长尾不平衡问题中可能会引入不适当的偏差。本文对DisA损失函数引入相对熵正则化项，相比于传统的熵正则化项更具普遍适用性，可根据不同数据集的类别分布进行定制，实现更精细化的正则控制。

算法1 基于相对熵最优传输的分布齐次优化

输入：源分布 $P$ ，目标分布 $Q$ ，超参数 $ε$ ，迭代步数 $E$ ，先验矩阵 $R$

输出：损失 $ℒ_{ReDisA} (P, Q)$

1. 计算表征 $H$ 和ETF结构 $M$ 的距离矩阵 $C$ ；

2. 设置标度向量 $a \leftarrow (1 / N) \times 1_{N}$ ， $b \leftarrow (1 / K) \times 1_{K}$ ；

3. 构造带有先验分布的核矩阵 $Z = R ⊙ \exp (- C / ε)$ ；

4. 初始化 $u^{(0)} \leftarrow 1_{N}$ ， $v^{(0)} \leftarrow 1_{K}$ ；

5. $for i = 1, 2, \dots, E do$

6. $u^{(i)} \leftarrow a / (Z \cdot v^{(i - 1)});$

7. $v^{(i)} \leftarrow b / (Z^{T} \cdot u^{(i - 1)});$

8. end for

9. 计算最终的最优传输矩阵 $T = diag (u^{(E)}) \cdot Z \cdot diag (v^{(E)})$

10. 传输损失为 $ℒ_{ReDisA} (P, Q) = < T, C >$ 。

本节所提出的新方法将公式(6)表述为基于相对熵最优传输的分布齐次优化损失函数，并记为ReDisA：

$\begin{matrix} \min_{θ} ℒ_{Re D i s A} = < Τ^{*}, C >, \\ subject to Τ^{*} = \underset{T \in \prod (P, Q)}{\arg \min} < T, C > - ε H_{R} (T) . \end{matrix}$ (8)

相对熵约束 $H_{R} (T) = - \sum_{i j} T_{i j} (\log (T_{i j} / R_{i j}) - 1$ ，正平滑引导矩阵 $R$ 为自定义的常数先验矩阵用于指导平滑。在长尾学习中可利用训练集中各类别标签分布情况对 $R$ 进行设置，使其随训练周期的改变而发生变化：

$R = (1 - η (t)) Uniform + η (t) r$ (9)

在公式(9)中 $t$ 为训练周期； $η (t)$ 是一个根据训练周期进行变化的权重，当 $t$ 很小时， $η (t)$ 接近于0， $R$ 接近于均匀分布，此时为模型提供的先验信息较少，当 $t$ 接近最终训练周期数时， $η (t)$ 接近于1，矩阵 $R$ 接近于先验概率矩阵 $r$ ，此时模型得到了完整的先验信息。对于 $η (t)$ 和先验概率矩阵 $r$ 的具体设置为：

$η (t) = {\begin{cases} 0, t < t_{1} \\ \frac{t - t_{1}}{t_{2} - t}, t_{1} < t < t_{2} \\ 1, t_{2} < t < t_{3} \end{cases}$ (10)

$r = γ \times \frac{n_{j}}{\sum_{k} n_{k}} + (1 - γ) \times \frac{n_{j}^{b}}{n^{b}}$ (11)

在公式(10)中， $t_{1}, t_{2}, t_{3}$ 为自定义的超参数；在公式(11)中 $n_{j}$ 为类别 $j$ 的样本数， $n_{j}^{b}$ 为当前训练所提取的批量样本中第 $j$ 个类别的样本数， $n^{b}$ 为数据加载器所加载的样本批量大小， $γ$ 为平滑超参数，用于衡量训练集的整体类别分布与当前训练批量样本的类别分布二者之间的混合程度。

为了更加直观的表述ReDisA损失函数的计算过程，在算法1中以伪代码的形式进行呈现。在获得ReDisA损失函数后，同样也能与线性分类器的监督损失函数进行结合，总损失函数为公式(12)， $ℒ_{ReDisA}$ 作为正则化项对不同监督损失函数进行改进，可有效提升监督损失函数在测试集的泛化能力。

$ℒ_{t o t a l} = ℒ_{s u p} + λ ℒ_{R e D i s A}$ (12)

5. 实验设置与结果分析

5.1. 数据集与实验细节

为了评估新方法的有效性，选择长尾数据集CIFAR10-LT和CIFAR100-LT作为实验数据集，由原始的开源数据集CIFAR-10和CIFAR-100经过长尾不平衡处理形成。原始数据集CIFAR-10 [18]和CIFAR-100 [18]在训练数据集共有50,000张图片，测试数据集共有10,000张图片；其中CIFAR-10在每个类别分别有5000张训练图片和1000张测试图片，CIFAR-100在每个类别分别有500张训练图片和100张测试图片。不平衡率表示训练集中最频繁的类别与最少的类别之间的样本数之比，即 $µ = N_{\max} / N_{\min}$ ，在实验中设置 $µ = {200, 100}$ 。为了调整超参数为最优状态，将测试集中每个类别的样本划分50%作为验证集，其余仍为测试集。对数据训练集采用随机裁剪和水平翻转等数据增强的操作，并进行标准化处理；对验证集和测试集也进行相同的标准化处理。

对于所有的实验均在RTX4090D GPU上使用Python3.8和TensorFlow2.9.0的框架进行实现，选用深度神经网络分类模型ResNet-32作为主干模型，以批量大小为128对分类模型训练200个周期；采用动量为0.9的SGD作为基础优化器，权重衰减因子为2e-4，并将初始学习率设置为0.1，且在训练周期为120和160时调整至0.01和0.001。对于先验概率矩阵的权重变化周期的设置中，分别设置 $t_{1} = 100, t_{2} = 180, t_{3} = 195$ ，从而在训练中后期从均匀分布平滑过渡到样本加权的伪先验分布，避免在训练初期因模型输出不稳定而带来干扰；在训练期间使用混合学习(mixup)方法[19]对训练集进行数据增强，并将mixup中设置beta分布的采样组合比的超参数为1.0。

为了评估本次研究所提出的ReDisA损失函数在与不同监督损失函数进行结合时，对原损失带来的分类性能改变，在不同长尾数据集中分别与以下方法进行实验对比：(a) 交叉熵(CE)损失，(b) 延迟重加权交叉熵(CE-DRW)损失，(c) 延迟重加权标签分布感知边距(LDAM-DRW)损失函数。

5.2. 超参数调整

在进行超参数 $γ$ 和 $λ$ 的选取中，选取验证集的Top1准确率作为评估指标，在CIFAR10-LT和CIFAR100-LT数据集中分别以不平衡率为200和100的训练集进行模型的训练，通过逐步调整超参数的取值，确立最优超参数并应用于后续的模型测试中。在CIFAR10-LT数据集中，通过对比验证集在取值范围为 $γ = (0, 1)$ 的Top1准确率，最终确定不平衡率为200和100时 $γ$ 取值均为0.7，对比折线图如图1所示；在固定 $γ$ 后，对比 $λ$ 在不同取值下的Top1准确率，最终确定在不平衡率为200时 $λ$ 取值为0.06，不平衡率为100时 $λ$ 取值为0.09，对比折线图如图2所示。在CIFAR100-LT数据集中，通过同样的方式选取超参数，最终确定当不平衡率为200和100时， $γ$ 值分别取0.9和0.3，对比折线图如图3所示； $λ$ 值分别取0.06和0.09，对比折线图如图4所示。

Figure 1. Selection of $γ$ under different imbalance ratios on the CIFAR10-LT dataset

图1. CIFAR10-LT数据集在不同不平衡率下 $γ$ 的选取

Figure 2. Selection of $γ$ under different imbalance ratios on the CIFAR10-LT dataset

图2. CIFAR10-LT数据集在不同不平衡率下 $λ$ 的选取

Figure 3. Selection of $γ$ under different imbalance ratios on the CIFAR100-LT dataset

图3. CIFAR100-LT数据集在不同不平衡率下 $γ$ 的选取

Figure 4. Selection of $λ$ under different imbalance ratios on the CIFAR100-LT dataset

图4. CIFAR100-LT数据集在不同不平衡率下 $λ$ 的选取

5.3. 对比试验和结果分析

为确保不同方法在ResNet-32模型中的实验结果具有可重复性与可靠性，在实验过程中采用Top-1准确率和 $F_{1}$ 得分作为主要分类性能评估指标，并对每种损失函数方法设置相同的随机种子组，独立运行三次实验以减小随机波动带来的影响。最终结果取三次实验的平均值，并分别在表1和表2中进行报告。

由表1所示的CIFAR10-LT数据集对比实验结果可知：当不平衡率为200时，所提出的新方法ReDisA作为正则化项，相较于原始的DisA方法，在结合多种监督损失函数时，在Top-1准确率和 $F_{1}$ 得分方面均取得了显著提升，尤其是在使用CE和LDAM-DRW 损失时，整体性能提升约1%。当不平衡率为100时，ReDisA依然在大多数监督损失函数设定下表现出性能优势，尽管在CE-DRW情况下略逊于原始方法，但两者差距较小，整体实验结果表明ReDisA在不同设置下更具有良好的稳健性。综合分析表明，在CIFAR10-LT数据集上，当数据分布的不平衡程度越高，ReDisA所带来的性能改进也越明显，进一步验证了其在处理严重长尾分布时的有效性。表2展示了在CIFAR100-LT数据集上的实验结果。可以得出，无论是不平衡率为200还是100，ReDisA相较于DisA在作为正则项融合不同监督损失函数后，所获得的测试集Top-1准确率均得到了有效提升。在不平衡率为100的情况下，尽管与LDAM-DRW结合时ReDisA的 $F_{1}$ 得分略低于DisA，但Top1准确率性能依旧更好，这可能是因为 $F_{1}$ 得分是由精确率和召回率决定，而此时的召回率Top1准确率均为47.14%，表明其对目标类别的识别能力尚可，而较低的精确率意味着其在正类预测中引入了更多假阳性，从而拉低了 $F_{1}$ 得分。综合分析表明同样也得，在CIFAR100-LT数据集上，当数据分布的不平衡程度越高，ReDisA所带来的性能提升越高。通过在以上两个数据集中进行实验，进一步验证了ReDisA在类别严重不平衡场景中的通用性与有效性。

Table 1. Test performance (%) of different methods on CIFAR-10LT under varying imbalance ratios

表1. CIFAR-10LT数据集在不同不平衡率下各方法的测试结果比较(%)

方法	200		100
方法	Top1 Accuracy	$F_{1}$ -score	Top1 Accuracy	$F_{1}$ -score
CE	66.30	65.12	71.36	70.83
CE + DisA	66.15	64.52	73.14	72.71
CE + ReDisA	67.28	65.99	73.97	73.84
CE-DRW	71.39	71.17	76.25	76.22
CE-DRW + DisA	77.30	77.20	81.14	81.15
CE-DRW + ReDisA	77.77	77.75	81.05	81.02
LDAM-DRW	73.40	73.27	77.25	77.20
LDAM-DRW + DisA	76.27	76.22	80.16	80.07
LDAM-DRW + ReDisA	77.16	77.06	80.20	80.17

为进一步验证ReDisA方法在诱导神经崩溃现象中的有效性，本研究通过在CIFAR10-LT与CIFAR100-LT数据集中引入类内方差与ETF偏差作为评估指标。其中，当类内方差越小，表示同一类别样本特征分布越紧凑；当ETF偏差越小，说明高维空间中类别均值矩阵的几何结构与理想的ETF结构更为接近。在不平衡率为200的严重类别不平衡场景下，与多种现有方法进行对比，实验结果如表3所示。可得出，ReDisA在大多数情况下取得了更低的类内方差和ETF偏差，表明该方法不仅能够增强类内特征的紧凑性，还能促使类别均值分布更接近理想的ETF结构。由此可见，ReDisA方法能够有效诱导神经崩溃现象的形成，从而提升模型在长尾分布下的判别能力。

Table 2. Test performance (%) of different methods on CIFAR-100LT under varying imbalance ratios

表2. CIFAR-100LT数据集在不同不平衡率下各方法的测试结果比较(%)

方法	200		100
方法	Top1 Accuracy	$F_{1}$ -score	Top1 Accuracy	$F_{1}$ -score
CE	36.73	31.11	39.85	35.07
CE + DisA	38.32	31.98	42.88	37.58
CE + ReDisA	38.44	32.29	43.15	37.78
CE-DRW	37.89	33.14	42.00	38.02
CE-DRW + DisA	42.80	38.77	47.42	44.24
CE-DRW + ReDisA	43.23	39.09	48.18	44.98
LDAM-DRW	39.48	36.44	44.13	41.86
LDAM-DRW + DisA	42.54	39.74	46.85	44.81
LDAM-DRW + ReDisA	43.30	40.23	47.14	44.33

Table 3. Comparison of NC Evaluation Results Across Methods on CIFAR-10LT and CIFAR-100LT Datasets

表3. CIFAR-10LT和CIFAR-100LT数据集在各方法下的NC现象评估结果比较

方法	CIFAR10-LT		CIFAR100-LT
方法	类内方差	ETF偏差	类内方差	ETF偏差
CE	0.14	0.97	0.23	0.99
CE + DisA	0.13	1.03	0.15	1.00
CE + ReDisA	0.09	0.94	0.13	0.99
CE-DRW	0.15	1.00	0.25	0.99
CE-DRW + DisA	0.13	1.01	0.21	1.00
CE-DRW + ReDisA	0.11	0.99	0.17	0.99
LDAM-DRW	0.27	0.98	0.41	1.01
LDAM-DRW + DisA	0.21	1.02	0.35	1.01
LDAM-DRW + ReDisA	0.18	0.98	0.36	0.99

为了进一步分析新方法在特征表示学习方面的优势，图5分别给出了基于CE + DisA与CE + ReDisA的深度神经网络分类模型在CIFAR10-LT数据集上所学习到的特征进行t-SNE降维可视化的结果。从图中可以观察到，在引入ReDisA作为正则化项后，模型学习到的类内特征表示更为紧凑，类间边界更为清晰，显示出更好的可分性。这一现象说明ReDisA有效增强了模型对特征空间中类别结构的感知能力，从而有助于提升长尾数据中的分类性能和泛化能力。

Figure 5. t-SNE feature visualizations of different methods

图5. 不同方法的t-SNE特征可视化结果

6. 结论

在本次研究中，提出基于相对熵最优传输的分布齐次优化损失函数，该损失函数在基于最优传输实现分布匹配的过程中引入相对熵正则化方法，利用不同长尾数据集已知的先验信息矩阵寻找合适的平滑解，促进在最优传输过程中更好地诱导神经崩溃现象的发生。当新方法作为正则化项与其他监督损失函数结合时，通过在多个长尾数据集上进行实验可表明，新方法显著提高了分类模型在多个评估指标上的性能，从而验证该方法的有效性。

参考文献

[1]	Aggarwal, U., Popescu, A. and Hudelot, C. (2020) Active Learning for Imbalanced Datasets. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, Snowmass, 1-5 March 2020, 1428-1437. [Google Scholar] [CrossRef]
[2]	Rangamani, A., Lindegaard, M., Galanti, T. and Poggio, T.A. (2023) Feature Learning in Deep Classifiers through Intermediate Neural Collapse. International Conference on Machine Learning, Honolulu, 23-29 July 2023, 28729-28745.
[3]	Fang, C., He, H., Long, Q. and Su, W.J. (2021) Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse in Imbalanced Training. Proceedings of the National Academy of Sciences, 118, e2103091118. [Google Scholar] [CrossRef] [PubMed]
[4]	Yang, Y., Chen, S., Li, X., Xie, L., Lin, Z. and Tao, D. (2022) Inducing Neural Collapse in Imbalanced Learning: Do We Really Need a Learnable Classifier at the End of Deep Neural Network? Proceedings of the 36th International Conference on Neural Information Processing Systems, New Orleans, 28 November-9 December 2022, 37991-38002.
[5]	Gao, J., Zhao, H., dan Guo, D. and Zha, H. (2024) Distribution Alignment Optimization through Neural Collapse for Long-Tailed Classification. Proceedings of the 41st International Conference on Machine Learning, Vienna, 21-27 July 2024, 14969-14987.
[6]	Wang, L., Han, M., Li, X., Zhang, N. and Cheng, H. (2021) Review of Classification Methods on Unbalanced Data Sets. IEEE Access, 9, 64606-64628. [Google Scholar] [CrossRef]
[7]	Goodfellow, I.J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y. (2014) Generative Adversarial Networks. Communications of the ACM, 63, 139-144.
[8]	Lin, T., Goyal, P., Girshick, R., He, K. and Dollar, P. (2017) Focal Loss for Dense Object Detection. Proceedings of the IEEE International Conference on Computer Vision, Venice, 22-29 October 2017, 2980-2988. [Google Scholar] [CrossRef]
[9]	Cao, K., Wei, C., Gaidon, A., Arechiga, N. and Ma, T. (2019) Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss. Proceedings of the 33rd International Conference on Neural Information Processing Systems, Vancouver, 8-14 December 2019, 1567-1578.
[10]	Yan, H., Qian, Y., Peng, F., Luo, J. and Li, F. (2024) Neural Collapse to Multiple Centers for Imbalanced Data. Advances in Neural Information Processing Systems, 37, 65583-65617.
[11]	Zhang, E., Li, C., Geng, C. and Chen, S. (2025) All-Around Neural Collapse for Imbalanced Classification. IEEE Transactions on Knowledge and Data Engineering, 37, 4460-4470. [Google Scholar] [CrossRef]
[12]	Xie, L., Yang, Y., Cai, D. and He, X. (2023) Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for Imbalanced Learning. Neurocomputing, 527, 60-70. [Google Scholar] [CrossRef]
[13]	Cuturi, M. (2013) Lightspeed Computation of Optimal Transportation Distances. Advances in Neural Information Processing Systems, 26, 2292-2300.
[14]	Yan, Y., Tan, M., Xu, Y., Cao, J., Ng, M., Min, H., et al. (2019) Oversampling for Imbalanced Data via Optimal Transport. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 5605-5612. [Google Scholar] [CrossRef]
[15]	Salimans, T., Zhang, H., Radford, A. and Metaxas, D. (2018) Improving GANs Using Optimal Transport. International Conference on Learning Representations, Vancouver, 30 April-3 May 2018, 1-13.
[16]	Guo, D., Li, Z., Zhao, H., Zhou, M. and Zha, H. (2022) Learning to Re-Weight Examples with Optimal Transport for Imbalanced Classification. Proceedings of the 36th International Conference on Neural Information Processing Systems, New Orleans, 28 November-9 December 2022, 25517-25530.
[17]	Shi, L., Zhen, H., Zhang, G. and Yan, J. (2023) Relative Entropic Optimal Transport: A (Prior-Aware) Matching Perspective to (Unbalanced) Classification. Proceedings of the 37th International Conference on Neural Information Processing Systems, New Orleans, 10-16 December 2023, 22085-22098.
[18]	Krizhevsky, A. and Hinton, G. (2009) Learning Multiple Layers of Features from Tiny Images.
[19]	Zhang, H., Cisse, M., Dauphin, Y.N. and Lopez-Paz, D. (2018) mixup: Beyond Empirical Risk Minimization. International Conference on Learning Representations, Vancouver, 30 April-3 May 2018, 1-13.

为你推荐

友情链接