1. 引言
在信息高速发展的时代,海量图像数据为推动图像识别技术的进步提供了丰富的资源。然而,庞大的数据量也带来了维度灾难问题,有效处理多维数据成为降维(Dimensionality Reduction, DR) [1]领域的核心挑战。在众多降维算法中,主成分分析(Principal Component Analysis, PCA) [2]和局部保持投影(Locality Preserving Projections, LPP) [3]备受关注。PCA旨在寻找一种线性投影,最大化样本协方差或最小化重建误差;而LPP则通过构建Laplacian图矩阵计算投影矩阵,将原始数据点映射到新的子空间,同时保持原始数据与映射数据局部结构的一致性,从而优化邻域信息的保留。然而,这两种方法未能充分提取数据中的判别信息。
线性判别分析(Linear Discriminant Analysis, LDA) [4]是一种常用的监督型降维技术,旨在提取数据的判别特征,通过寻求一种线性映射,在降低维度的同时最大化类间散度与类内散度的比值。尽管PCA、LDA和LPP均属于线性降维方法,但它们假设数据是线性可分的,而实际数据通常表现为高维、复杂的非线性分布,不符合这一假设。为了解决这一问题,研究人员提出了多种基于核的降维方法,如核主成分分析(Kernel Principal Component Analysis, KPCA) [5]和核线性判别分析(Kernel Discriminant Analysis, KDA) [6]。这些方法通过将数据映射到高维特征空间,以线性方式捕捉非线性关系,从而在低维空间中更好地保留数据的非线性特征。
文献[7] [8]表明,一种基于余弦距离的新型度量方法能够很好地接近理想的鲁棒核,这种方法被命名为欧拉表示(Euler Representation)。欧拉表示不仅能够实现对理想鲁棒核的近似,还能够显著拉大类间和类内距离的差异。因此,诸如Euler SRC [9]、Euler PCA [10]和Euler LPP [11]等算法通过采用欧拉表示来进行距离或相似性计算,大幅提升了处理非线性复杂数据的能力。针对传统方法在处理非线性分布数据时的不足,Euler-LDA结合欧拉表示的优势,将数据映射到复数空间。通过利用复数的几何特性,更精确地捕捉数据的非线性关系,从而显著提高算法在复杂数据分布场景下的适用性和分类性能。此外,该方法设计了一种改进的目标损失函数,通过最大化类间散布矩阵与类内散布矩阵的差异来优化分类性能。这一优化策略不仅提高了对数据判别信息的提取能力,还避免了矩阵奇异性问题,从而有效缓解了小样本问题带来的影响。通过这些改进,Euler-LDA显著提升了在非线性和高维低样本场景中的鲁棒性与判别能力。
本文的其余内容安排如下:第2节回顾了经典线性判别分析(LDA)及欧拉表示的相关基础知识;第3节详细阐述了提出的新模型;第4节聚焦于目标函数的设计;第5节通过公共数据集上的实验验证了所提算法的性能;最后,第6节对全文进行了总结。
2. 理论知识
本文提出了Euler-LDA (基于欧拉表示的线性判别分析)。因此,文章首先回顾了LDA的基本理论,然后介绍了欧拉表示法。这为我们提出的新方法奠定了坚实的理论基础。
2.1. 线性判别分析
线性判别分析(LDA)是统计学和机器学习领域的一种经典线性降维技术。用于从数据中提取判别信息。基于类别间和类内的分散性质,LDA寻找从高维空间到更低维空间的线性映射,并最大化类别之间的可分离性。
假设在
中有
个原始样本
,LDA目标寻找一个最优投影矩阵
,将高维空间的数据投影到较低维度的空间时,最大化不同类别之间的距离,同时最小化同一类别之间的距离,该方法旨在寻求线性映射:
(1)
对于LDA方法,首先计算每个类别的样本中心
,
为第
类的样本的均值向量,用来测量类内样本和类间样本的距离,其中
为第
类样本的数量。
(2)
将类别标签表示为
,
是样本的类别数,
是所有样本的平均向量。样本的类内散布矩阵
和类间散布矩阵
分别表示类间散度矩阵和类内散度矩阵,可计算为:
(3)
考虑线性映射
,其中
和
分别是变换之前和之后数据的维度,LDA由Fisher判别准则针对多分类问题提出的,旨在最大化损失函数:
(4)
2.2. 欧拉表示法
欧氏距离假设数据的分类边界是线性的,而实际应用中许多数据集的分类边界是非线性的,欧氏距离无法有效处理这些非线性分布的数据,在面对非线性分布时可能会失效,导致距离计算结果不准确。
核技术可以捕获特征的非线性相似性以抑制异常值,我们提出了一种基于余弦距离的新距离度量,该距离度量可以近似理想的鲁棒内核。欧拉表示是一种用于改进距离度量的数学方法,通过将余弦距离形成一种灵活且高效的非线性相似性度量方式。在欧拉表示中,两个向量之间的相似性通过余弦距离来描述。给定两个任意向量
和
,它们之间的余弦距离定义为:
(5)
其中
和
分别是
和
的第
个分量,方程(5)本质上是一个傅里叶余弦级数的表示。其核心思想是利用傅里叶余弦级数的逼近特性,为复杂数据分布提供更准确的相似性描述,从而满足非线性关系度量的需求。由于傅里叶定理指出任何连续函数都可以用一系列正弦曲线来描述,因此核函数可以在傅里叶空间中展开并进行近似。通过截取有限数量的傅里叶余弦分量,将复杂的核函数映射为若干函数形式的线性组合。这种方法不仅有效简化了核函数的复杂性,还提升了对复杂数据分布的建模效率和相似性度量能力。
通过简单代数,(5)变为:
(6)
其中,
(7)
称为
的欧拉表示。这样,
和
之间的余弦距离就可以看作
和
之间的欧氏距离,欧拉表示能够捕获传统线性距离无法体现的复杂相似性关系。
3. 基于欧拉表示的线性判别分析的算法设计
假设在
空间中存在原始样本
,令
表示类别标签,其中
是类别的总数。每个类别的样本中心
,
为第
类的样本的均值向量,用来衡量类内样本的相对距离,其中
为第
类样本的数量。
表示所有样本的平均向量,用来衡量类间样本的相对距离。由公式(3),样本的类内散布矩阵
和类间散布矩阵
分别表示类间距离和类内距离,可计算为:
(8)
将
投影到一个复数空间中得到
。
(9)
然后,在复空间中基于欧拉表示计算每个类别在复数空间中的样本中心
,
为第
类的样本的均值向量,用来衡量在复数空间中的类内样本和类间样本的相对距离,其中
为第
类样本的数量。
表示所有样本的平均向量。
(10)
在新的欧拉表示中,样本
和样本中心
之间的余弦距离可以被定义为:
(11)
称为
的欧拉表示,
称为
的欧拉表示。这样,
和
之间的余弦距离就可以看作
和
之间的欧氏距离。使用新的欧拉表示,计算新的类内散度矩阵
得:
(12)
同理,
称为
的欧拉表示。
和
之间的余弦距离就可以看作
和
之间的欧氏距离。使用新的欧拉表示,计算新的类内散度矩阵
得:
(13)
4. 目标函数设计
LDA的目标通常是最大化类间散布矩阵
和类内散布矩阵
的比值来实现最优分类。然而,在小样本问题中,样本量不足可能导致类内散布矩阵
奇异,从而无法进行矩阵求逆,影响LDA的有效性。在求解的过程中需要计算
的逆矩阵,会遇到小样本问题。这一问题在求解过程中尤为突出,因为计算类内散布矩阵的逆矩阵是关键步骤之一。为解决这一问题,我们采用了一种基于LDA的改进形式,其目标函数旨在最大化以下损失函数:
(14)
新的损失函数就避免了类内散布矩阵
的求逆,我们能够更好地应对样本数量不足所带来的挑战,提高分类的准确性。考虑线性映射
,其中
和
分别是变换之前和之后数据的维度。新损失函数的优点在于,通过在约束条件
下优化目标,能够避免了对类内散度矩阵
求逆的需求,从而有效规避了小样本量问题可能带来的影响。为了解决上述优化问题,我们可以引入拉格朗日函数:
(15)
两边同时对
求导,
(16)
这就意味着
是
的特征值,而
是对应的特征向量。因此,当
由前
个最大特征向量组成时,损失函数
达到最大值。在这里,避免了直接计算
的逆矩阵,从而减轻小样本问题的影响。
相比传统LDA方法,Euler-LDA在捕捉非线性信息、增强类别区分度和解决小样本问题方面具有显著优势。1) 欧拉表示通过将数据映射到复空间,更准确地刻画了数据中的非线性关系,显著提升了算法处理非线性分布数据的能力。2) 欧拉表示接近理想的鲁棒核,能够扩大类内和类间的度量差异,同时提供比欧氏距离更稳定且准确的相似性度量,从而增强了类别区分度。3) Euler-LDA引入了新的目标损失函数,通过最大化类间散布与类内散布的差异,有效避免了矩阵奇异性问题,显著缓解了小样本问题对算法性能的影响。
5. 实验
5.1. 实验数据集
实验在Coil-100、ORL和AR三个数据库上进行,具体信息如下:
Coil-100数据集:这是一个包含多个物体的彩色图像数据集,物体以360度不同角度拍摄,形成了7200张图像。每张图像的分辨率为128 × 128像素,适合用于物体识别和角度变化研究。
ORL人脸数据集:该数据集由英国剑桥大学的Olivetti研究实验室于1992年发布,包含40位个体的400张人脸图像。这些图像在不同的时间、光照下拍摄,并涵盖了多种面部表情和环境变化。每张图像的大小为32 × 32像素,适合进行小样本学习和面部识别实验。
AR人脸数据集:该数据集包含126位个体的人脸图像,其中男性70人,女性56人。图像呈现了多种变化,如不同的面部表情、光照条件以及遮挡(例如佩戴墨镜或围巾)。总计收录了超过4000张彩色图像,展现了高度的多样性和挑战性。
这些数据库涵盖了不同的人脸表情和物体的角度变化,为算法的评估提供了丰富且多样化的测试数据,数据库中的一些图片展示在图1中。
Figure 1. From top to bottom are some samples from the Coil-100, ORL, and AR datasets
图1. 从上到下是Coil-100、ORL和AR数据集的一些样本
5.2. 参数设置
在每个数据集中,通过随机挑选每个类别中的p张图像来构建训练集,其余图像作为测试集。其中p值代表训练样本的图像数量。对于给定的p,降维的子空间维度从10增加到100,步长为10。然后,对于每个子空间维度,我们计算相应的识别率。此过程可以看成是一个重复的循环。对于训练样本数p,我们计算10个周期。这样每个子空间维度就有10个识别率,然后我们取它们的平均值作为当前p和子空间维度的识别率。最后,我们从最佳子空间维度中取最佳识别率作为训练样本的结果。
对于每个数据集的各个类别,我们随机挑选p张图像作为训练样本,其余图像用于测试。在子空间维度范围从10到100 (间隔为10)内,计算各维度下的识别率。将该过程重复10次,并对识别率取平均识别率。最终,以最高平均识别率对应的最佳子空间维度,作为当前训练样本数下的实验结果。此外,实验中我们使用
最近邻(KNN)分类器进行分类,并且新方法和本文对比方法的K为1。
5.3. 分类实验结果
我们在AR、ORL和Coil-100人脸数据集,将Euler-LDA与LDA、KDA、LDAMMC [12]、NLDA [13]、TSLDA [14]、和ALDE [15]进行比较。表1至表3列出了上述方法在三个数据集上的最佳识别率、标准差和最佳子空间维度。对于每个类别,AR数据集的p值为4、3和5;ORL数据集p值为3、4和5;Coil-100数据集的8、10和12。
根据识别率的分析,随着训练样本数量p的增加,大多数算法在AR、ORL和Coil-100数据集上的表现呈现出一致的提升趋势,这反映了更多的训练样本有助于模型学习到更丰富的特征,从而提高了识
Table 1. Recognition accuracy and optimal dimensionality of the AR database
表1. AR数据库的识别准确率和最优维度
方法 |
p = 3 |
p = 4 |
p = 5 |
LDA |
85.03 ± 2.05 (10) |
89.97 ± 1.35 (10) |
92.62 ± 0.43 (10) |
KDA |
87.32 ± 0.89 (10) |
91.47 ± 0.18 (10) |
93.80 ± 0.32 (10) |
LDAMMC |
83.18 ± 0.75 (100) |
91.05 ± 0.48 (100) |
94.75 ± 0.62 (100) |
NLDA |
87.02 ± 0.76 (100) |
91.94 ± 0.49 (100) |
94.60 ± 0.42 (100) |
TSLDA |
87.88 ± 0.35 (100) |
91.61 ± 0.33 (100) |
93.37 ± 0.27 (100) |
ALDE |
86.44 ± 0.59 (100) |
92.80 ± 0.80 (100) |
95.34 ± 0.79 (90) |
Euler-LDA |
94.14 ± 1.52 (90) |
94.59 ± 1.35 (90) |
95.97 ± 1.91 (90) |
Table 2. Recognition accuracy and optimal dimensionality of the ORL database
表2. ORL数据库的识别准确率和最优维度
方法 |
p = 3 |
p = 4 |
p = 5 |
LDA |
83.33 ± 1.76 (10) |
89.17 ± 0.84 (10) |
93.00 ± 1.32 (10) |
KDA |
84.17 ± 2.03 (20) |
88.75 ± 0.72 (10) |
93.67 ± 1.04 (20) |
LDAMMC |
83.57 ± 1.89 (40) |
88.89 ± 2.30 (30) |
93.17 ± 1.60 (40) |
NLDA |
87.02 ± 1.61 (40) |
92.78 ± 0.89 (40) |
96.33 ± 1.04 (40) |
TSLDA |
84.05 ± 4.64 (60) |
88.75 ± 1.10 (30) |
92.33 ± 0.76 (30) |
ALDE |
84.29 ± 2.34 (40) |
89.31 ± 1.93 (40) |
92.83 ± 1.89 (40) |
Euler-LDA |
90.35 ± 3.55 (50) |
93.61 ± 1.81 (70) |
96.16 ± 1.46 (50) |
Table 3. Recognition accuracy and optimal dimensionality of the Coil-100 database
表3. Coil-100数据库的识别准确率和最优维度
方法 |
p = 8 |
p = 10 |
p = 12 |
LDA |
61.09 ± 0.69 (10) |
65.49 ± 0.16 (10) |
68.09 ± 0.82 (10) |
KDA |
74.30 ± 0.70 (10) |
79.78 ± 0.66 (10) |
81.99 ± 1.43 (10) |
LDAMMC |
85.92 ± 0.53 (30) |
89.19 ± 0.21 (40) |
90.40 ± 0.87 (100) |
NLDA |
71.33 ± 0.60 (20) |
71.53 ± 0.47 (30) |
71.40 ± 0.60 (40) |
TSLDA |
63.87 ± 0.46 (40) |
65.73 ± 0.07 (100) |
65.89 ± 0.62 (50) |
ALDE |
85.23 ± 0.39 (20) |
88.67 ± 0.20 (30) |
90.10 ± 1.08 (40) |
Euler-LDA |
89.36 ± 1.87 (40) |
90.61 ± 0.83 (30) |
92.93 ± 2.31 (40) |
别能力。同时,这也表明,随着样本数量的增加,模型能够更好地捕捉到数据中的潜在规律,减少过拟合的风险,进而提升分类性能。在AR和ORL数据集中,当训练样本数p分别为4和时,算法分别达到了最高识别率95.97%和96.16%;而在Coil-100数据集中,当训练样本数p为12时,最高识别率为92.93%。实验结果表明,Euler-LDA在所有参数设置下的识别率均优于传统LDA及其改进方法。
此外,我们还针对子空间维度的变化评估了这些方法的性能。具体而言,在给定的训练样本p固定的情况下,将子空间维度设置为10到100 (步长为10),并记录不同维度下的识别率。实验结果显示了各维度对应的识别率变化趋势,其具体曲线如图2到图4所示。
Euler-LDA的识别率远超过原始LDA方法及其变体,显示了其在复杂情况下的有效性和可靠性。在 AR、ORL和Coil-100数据集上,当训练样本数量p分别设置为4、3和12时,Euler-LDA的识别率相较于原始LDA分别提高了4.62%、7.02%和24.84 %。这可能与Euler-LDA能够更好地捕捉数据中复杂的非线性结构有关。
Figure 2. Comparison of recognition rates on AR dataset (with training samples p = 4)
图2. AR数据集(训练样本p = 4)上的识别率比较
Figure 3. Comparison of recognition rates on ORL dataset (with training samples p = 4)
图3. ORL数据集(训练样本p = 4)上的识别率比较
Figure 4. Comparison of recognition rates on ORL dataset (with training samples p = 4)
图4. ORL数据集(训练样本p = 4)上的识别率比较
5.4. 数据可视化
为直观展示LDA和Euler-LDA在分类性能上的差异,我们在Coil-100数据集上进行了数据可视化实验,将降维后的数据映射到二维空间。实验中,训练样本数p设置为12,测试样本数为60,选取数据集中5个类别,每个类别包含60个测试样本点。结果如图5所示。通过对比可以发现,Euler-LDA在区分不同类别方面比传统LDA表现更优,具体表现为不同类别的数据点分布更为分散,而同类别的数据点聚集性更高。
Figure 5. The visualizations experiments for LDA and Euler-LDA, in sequence
图5. 依次是LDA和 Euler-LDA的可视化实验
从LDA的聚类图可以看出,不同颜色的点群显示出一定程度的可分性,部分类别之间的边界较为清晰,但仍存在一定的重叠区域。这表明在实际应用中,某些样本可能无法完全正确分类。总体而言,LDA能够在二维空间内有效区分不同类别的点群,部分类别之间的间隔较大,显示出良好的分类性能。然而,某些类别的重叠区域可能导致分类精度的下降。
相比之下,Euler-LDA结合欧拉表示的优势,将数据映射到复空间,通过复数的几何特性更准确地描述数据的非线性关系,显著增强了对数据特征的提取能力。其聚类效果在视觉上更具层次性,点群分布更加稀疏且紧凑,使得类别之间的边界更加清晰。这种紧凑的分布模式表现出更强的可分性,从而有效提升了分类性能和鲁棒性。
6. 总结
线性判别分析(LDA)在提取数据判别信息方面表现出色。然而,传统基于欧氏距离的LDA难以有效捕捉非线性分布数据的复杂特征。为解决传统线性判别分析(LDA)难以捕捉非线性分布数据特征的问题,本章提出了一种近似于核方法的新方法,称为基于欧拉表示的线性判别分析模型(Euler-LDA)。Euler-LDA结合欧拉表示的优势,将数据映射到复空间,通过复数的几何特性更准确地描述数据的非线性关系,从而增强了算法处理非线性分布数据的能力。同时,欧拉表示能够逼近理想的鲁棒核,显著扩大类内与类间的度量差异,提供比欧氏距离更稳定且更精确的相似性度量,进一步提升类别区分能力。该方法在保留传统LDA处理线性数据优势的基础上,显著增强了其对非线性分布数据的适应性,为复杂数据的降维与分类问题提供了一种更稳健且高效的解决方案。
综上所述,相比传统LDA方法,Euler-LDA在三个方面具有显著优势:1) 捕捉非线性判别信息:欧拉表示能够更准确地描述数据中的非线性关系,从而提高算法处理非线性分布数据的能力。2) 增强类别区分度:欧拉表示近似于理想的鲁棒核,不仅能扩大类内和类间的度量差异,还能提供比欧氏距离更稳定和准确的相似性度量。3) Euler-LDA引入了新的目标损失函数,通过最大化类间散布与类内散布的差异,有效避免了矩阵奇异性问题,显著缓解了小样本问题对算法性能的影响。
本文通过实验对Euler-LDA的性能进行了全面评估。在多个数据集上的对比实验中,Euler-LDA展现了出色的识别精度。此外,通过可视化分析,进一步验证了模型的鲁棒性和稳定性。