1. 引言
子空间聚类是聚类分析在数据挖掘领域的关键技术之一,在许多计算机视觉和机器学习的问题中,子空间聚类一直起着重要的作用。高维数据聚类是其重点与难点。而子空间聚类的目标就是将高维数据样本进行分割,划分其进入对应的底层子空间,可以看作数据是从多个低维子空间中提取的,每个子空间对应一个类别。
在过去的几十年中,不同类型的子空间聚类方法接连被提出[1]-[7]。在许多实际问题中,基于谱聚类的方法展现了极好的表现,因此引发了学者们的广泛关注。
在不失一般性的前提下,基于谱聚类的方法的框架分为三步:首先,计算数据集的线性重构系数矩
阵
;接着,使用获得的重构系数矩阵构建亲和矩阵
,其中
表示C的绝对值,
表示C的转置;最后,通过使用基于谱聚类的方法(如归一化切割(Normalizedcuts, N-cuts))获得分割结果[8]。不同类型方法的主要区别是使用了不同的正则化器去生成有独特特征的系数矩阵[2]。经典的基于谱聚类的算法聚焦于设计重构系数矩阵C的约束,以此帮助C携带确切的特征并且希望C能够准确的揭示原始数据集的内在结构。例如,低秩表示(Low-Rank Representation, LRR)通过最小化C的核范数来揭示数据的全局结构[5]。稀疏表示(Sparse Subspace Clustering, SSC)通过引入了稀疏约束
去追求稀疏的重构系数矩阵[6]。最小二乘回归(Least Square Regression, LSR)定义了
,目标是去寻找稠密的重构系数矩阵[3]。光滑表示(Smooth Representation, SMR)引入了强制分组效应条件,定义了新的亲和矩阵表示方法[4]。块对角表示(Block Diagonal Representation, BDR)通过最小化系数矩阵的拉普拉斯算子的最小的k个奇异值之和
从而获得一个具有k个块对角的重构系数矩阵[5]。幂等表示(Idempotent Representation, IDR)设计了一种新的幂等约束
,为了追求使重构系数矩阵逼近归一化的隶属矩阵[2],添加了约束条件
使幂等矩阵具备理想形式[9]-[11]。自适应图卷积子空间聚类(Adaptive Graph ConvolutionalSubspace Clustering, AGCSC)使用图卷积技术开发了一种特征提取方法和系数矩阵的约束
,此外图卷积算子是自适应迭代更新的[1]。虽然上述经典的表示方法在应对实际子空间聚类任务时均展现出了不俗的成效,然而,它们所生成的系数矩阵却依然存在着一些缺陷。通常,由SSC方法获得的重构系数矩阵因过度稀疏导致了子空间内部缺乏连接性。相比之下,BDR方法因构建的重构系数矩阵块与块之间的连接不充分可能产生不准确的聚类结果[7]。LRR与LSR则另辟蹊径,它们构造的稠密系数矩阵确保了子空间之间的紧密连通,但代价是子空间的样本系数普遍呈现非零状态,这在一定程度上增加了处理的复杂性。理想的重构系数矩阵应是块对角的,每个块表示一个子空间,且块与块之间应是充分连接的。由于基于谱聚类的方法假设原始数据样本服从自表达性,也就是说每个数据点都可以在可允许的误差范围内,通过给定数据集的点的线性组合来线性重构。在基于谱聚类的算法中,获
得的重构系数矩阵C可以被用于定义亲和矩阵
。而基于谱聚类的方法已经假设原始数据样
本是服从自表达性的,如果强加一些额外的约束在C上,如
,
,显然会限制重构系数矩阵的表示能力。为了改变这一状况,我们提出了亲和矩阵图卷积子空间聚类(AMGCSC)。本文算法去掉了重构系数矩阵C上的限制,直接约束亲和矩阵W,可以很好克服AGCSC在表达能力上的缺陷。在本文中,我们就AMGCSC与一些相关算法进行了对比,特别是与AGCSC的对比,以展示AMGCSC的优势。最后在人造数据集和真实数据集进行了大量的实验展示了AMGCSC的有效性。
2. 自适应图卷积子空间聚类回顾
为了更好的说明我们的算法,将本文使用到的主要符号列在表1。
Table 1. Main symbols used in this paper
表1. 本文使用的主要符号
符号 |
含义 |
n |
样本的数量 |
k |
子空间的个数 |
d |
样本的维数 |
|
重构系数矩阵 |
|
由C构建的亲和矩阵 |
|
有n个元素的列向量且每个元素为1 |
|
矩阵C的对角元构成的向量 |
|
|
|
|
本文算法AMGCSC是对AGCSC的不足提出的改进,因此在介绍我们的算法之前,先对AGCSC进行简要回顾。
假设数据集
,其中
包含来自第i个子空间的
个数据点。在基于谱聚类的算法中,获得的重构系数矩阵C可以被用于定义亲和矩阵
。如果强加一些额外的约束在C上,如
,
,那么就有
。此外,如果C满足
和
,然后有
和
,其中
,
是C的块对角向量。最后,推导图卷积算子
。
在S被定义之后,得到原始数据矩阵新的表示
。类似于AGCSC,使用F去重构X并且希望C也成为重构系数矩阵,即
。计算C的新表示
,由于SC与C有相似的特征,故定义关于C的约束
。
通过整合上面这些定义,构建AGCSC模型如下:
(1)
其中
和
是两个正参数。
3. 亲和矩阵图卷积子空间聚类
通过第二章的回顾,我们发现为了获得理想的重构系数矩阵,需要施以对称和非负的限制条件,但是根据文章[5],对称和非负的约束会限制重构系数矩阵的表示能力。然而,亲和矩阵直接具有对称和非负的性质,故本文尝试直接约束亲和矩阵来克服该缺陷。
3.1. AMGCSC模型
根据前面的分析,我们直接将模型(1)中的重构系数矩阵替换为亲和矩阵,得到亲和矩阵图卷积子空间聚类(AMGCSC)方法,模型如下:
(2)
相对于AGCSC方法,我们的方法无需对重构系数矩阵施加额外限制,从而能够更好地挖掘数据间的关系。但是这也增加了模型求解上的难度,不过我们克服了这个难题。
3.2. 数值解法
相似于解决现存的大部分子空间聚类问题,我们使用交替最小化迭代(Alternating Direction Method, ADM) [12]来解决AMGCSC问题。
首先我们将问题(2)转换为如下等价问题:
(3)
其中
是辅助变量。问题(3)对应的增广拉格朗日函数定义如下:
其中
是拉格朗日乘子。通过最小化
,固定其他变量,交替优化变量
。
1) 固定其他变量更新W。
很容易验证:
(4)
2) 固定其他变量更新F。
容易得到:
(5)
3) 固定其他变量更新C。
很容易验证:
(6)
4) 固定其他变量更新Z。
容易得到:
(7)
5) 固定其他变量更新G。
(8)
问题(8)可转化为对如下等价问题的讨论
其中
。由于
,所以仅需考虑矩阵非对角元处元素。
其非对角元素的最优解为
,
的计算公式如下,其中
。
(9)
6) 固定其他变量更新A。
(10)
问题(10)可转化为对如下等价问题的讨论:
其中
,
a) 当
(11)
b) 当
(12)
3.3. 数值算法
本文算法步骤如下:
算法 |
AMGCSC |
输入 |
数据矩阵
,参数
,最大迭代次数 |
输出 |
亲和矩阵
|
步骤1 |
初始化参数,即
,
|
步骤2 |
更新W,通过公式(4) |
步骤3 |
更新F,通过公式(5) |
步骤4 |
更新C,通过公式(6) |
步骤5 |
更新Z,通过公式(7) |
步骤6 |
更新G,通过公式(9) |
步骤7 |
更新A,通过公式(11)、(12) |
步骤8 |
更新参数,
,
|
步骤9 |
验证收敛条件:
|
4. 实验
4.1. 实验设置
在这一部分,我们进行了大量的子空间聚类实验去评估亲和矩阵图卷积子空间聚类方法AMGCSC在聚类过程中的实际表现。
1) 数据集:为了论证AMGCSC的有效性,我们在人造数据集和真实数据集上进行了大量实验。用于评估的四个基准数据集包括ORL人脸数据集1,PIE人脸数据集2,MNIST手写体数字数据集3,COIL20一般物品图像数据集[13]。
2) 对比算法:我们将AMGCSC与一些经典的相关方法进行对比,例如有LRR、SSC、BDR、LSR1、LSR2、SMR、IDR、AGCSC,进而去验证AMGCSC的有效性。
3) 参数设置:由于不同参数对于评估的算法实验结果影响较大,因此对于每一种比较的算法,我们都采取其对应文献中建议的参数设置并保留其在每个实验数据集上得到的最好结果。对于AMGCSC,我们的参数设置在AGCSC的基础上进行了再次细化以追求更好的实验效果。AMGCSC的参数选择区间为
。
4) 评价指标:为了能更全面地评估所有算法的性能,我们使用获得的重构系数矩阵去构建无任何后处理的亲和矩阵。本文采用了准确率(Accuracy, ACC)、归一化互信息(Normalized Mutual Information, NMI)、纯度(Purity)调整兰德系数(Adjusted Rand Index, ARI)、F值(F-score)、查准率(Precision)、查全率(Recall)共计七个评价指标进行量化,对于上述七个评价指标而言,数值越高表示聚类性能越好。
4.2. 在人造数据集上实验
我们在MALAB中生成了一个8 × 8的包含负数的块对角矩阵。
显然该矩阵包含四个对角块,由于在相同的数据集上对不同算法进行实验可以充分地比较出不同聚类算法的性能优劣。故我们在上述数据上应用了不同算法进行聚类实验。
图1展示了由我们提出的算法和AGCSC在人造数据集上获得的两个系数矩阵,我们可以看到:
1) AGCSC未呈现正确的聚类结果,AMGCSC的聚类结果为4类,AMGCSC获得了准确的聚类结果;
2) 通过对AGCSC相关工作的分析以及在具体实验的过程中我们可以发现AGCSC的对称限制及非负限制会对真实的聚类结果造成影响,如遇到了负的表示系数就会难以处理,算法中可能会出现计算错误,使其无法得到正确的聚类结果;
3) 去掉AGCSC关于矩阵C对称及非负的限制后转而代换为约束幂等亲和矩阵W,以此方法进行改进的AMGCSC就可以很好规避该影响,使得重构系数矩阵有了更好的表示能力,从而获得数据的真实分类情况(4类)。且可以在更一般的情况下进行使用,无论何种表示系数都能得到准确的聚类结果;
(a) (b)
Figure 1. Block results of subspace clustering for AGCSC and AMGCSC. (a) AGCSC block results; (b) AMGCSC block results
图1. AGCSC、AMGCSC的子空间聚类分块结果。(a) AGCSC分块结果;(b) AMGCSC分块结果
从上述实验以及分析中我们不难发现AMGCSC是克服了AGCSC的缺陷的一个更加准确且普适的子空间聚类算法。但人工合成的数据集是在未考虑噪声的情况下进行实验。而真实数据集大部分都是存在噪声的,故我们又在真实数据集中进行了大量实验。
4.3. 在人脸数据集上实验
1) ORL人脸数据库是目前使用最广泛的标准人脸数据库。共有40个不同年龄、不同性别和不同种族的对象。每个人10幅图像共计400幅灰度图像组成,图像尺寸是32 × 32,图像背景为黑色。其中人脸部分表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着,戴或不戴眼镜等,人脸姿态也有变化,其深度旋转和平面旋转可达20度,人脸尺寸也有最多10%的变化。在本数据集的实验中,我们选取了40类图像,每类选取了10张人脸图进行实验。ORL数据集部分样本展示如图2(a)。
2) PIE数据集是著名人脸识别数据库,经常被应用于各种聚类实验。该数据集共包含68个人,每人约170张正脸、左右侧脸、正脸微笑以及不同角度光照下的人脸图片,原始图像大小为32 × 32,共计11,554张。在本数据集的实验中,我们选取了8类图像,每类选取60张人脸图进行实验。PIE数据集部分样本展示如图2(b)。
(a)
(b)
Figure 2. Sample images of face dataset. (a) ORL dataset sample images; (b) PIE dataset sample images
图2. 人脸数据集的样本图像。(a) ORL数据集样本图像;(b) PIE数据集样本图像
然而,两个数据集上每个图像的像素都位于[0, 255]之间,为了便于计算且得到更好的聚类结果,我们将每个像素值都除以255,这一做法可以在不改变原始数据分布的情况下使得每个像素值都位于[0, 1]之间。
在每个子空间上,我们评估了这些方法的表现。随着参数的变化,我们发现聚类结果有很大的不同。为了防止随机性,我们统一固定了每组实验的中心以保证在不同次实验中同一算法、同一组数据在同一参数下得到的聚类结果是相同的。详细实验结果见表2~3。
Table 2. Experimental results on ORL dataset
表2. 在ORL数据集上的实验结果
方法 |
ACC |
NMI |
Purity |
ARI |
F-score |
Precision |
Recall |
LRR |
0.7925 |
0.8664 |
0.8025 |
0.6738 |
0.6815 |
0.6570 |
0.7078 |
SSC |
0.7675 |
0.8787 |
0.8025 |
0.6622 |
0.6706 |
0.6068 |
0.7494 |
LSR1 |
0.8200 |
0.8806 |
0.8250 |
0.6990 |
0.7062 |
0.6739 |
0.7417 |
LSR2 |
0.8075 |
0.8750 |
0.8150 |
0.6909 |
0.6981 |
0.6708 |
0.7278 |
BDR |
0.8125 |
0.8843 |
0.8250 |
0.7026 |
0.7096 |
0.6829 |
0.7383 |
IDR |
0.7925 |
0.8754 |
0.8075 |
0.6880 |
0.6954 |
0.6625 |
0.7317 |
SMR |
0.7650 |
0.8613 |
0.7875 |
0.6597 |
0.6677 |
0.6369 |
0.7017 |
AGCSC |
0.8050 |
0.8878 |
0.8225 |
0.7144 |
0.7212 |
0.6848 |
0.7617 |
AMGCSC |
0.8200 |
0.8914 |
0.8325 |
0.7258 |
0.7322 |
0.7049 |
0.7617 |
Table 3. Experimental results on PIE dataset
表3. 在PIE数据集上的实验结果
方法 |
ACC |
NMI |
Purity |
ARI |
F-score |
Precision |
Recall |
LRR |
0.8396 |
0.8161 |
0.8396 |
0.7067 |
0.7441 |
0.7199 |
0.7700 |
SSC |
0.8333 |
0.7782 |
0.8333 |
0.6703 |
0.7123 |
0.6886 |
0.7376 |
LSR1 |
0.8958 |
0.8563 |
0.8958 |
0.7854 |
0.8126 |
0.7911 |
0.8352 |
LSR2 |
0.8896 |
0.8489 |
0.8896 |
0.7731 |
0.8019 |
0.7793 |
0.8258 |
BDR |
0.7458 |
0.7025 |
0.7458 |
0.5575 |
0.6171 |
0.5646 |
0.6803 |
IDR |
0.9958 |
0.9911 |
0.9958 |
0.9905 |
0.9917 |
0.9915 |
0.9918 |
SMR |
0.8975 |
0.8636 |
0.8975 |
0.8024 |
0.8269 |
0.8231 |
0.8307 |
AGCSC |
0.7729 |
0.7753 |
0.7750 |
0.6717 |
0.7131 |
0.6970 |
0.7299 |
AMGCSC |
0.9000 |
0.8839 |
0.9000 |
0.8120 |
0.8359 |
0.8105 |
0.8629 |
4.4. 在手写体数字数据集上实验
MNIST数据集包含0~9共计十个手写体数字,每个手写体数字包含200个样本,共计2000个。每个图像像素大小为28 × 28。MNIST数据集部分样本展示如图3。在本数据集的实验中,我们选取了3类作为实验对象,每类选取200张手写数字图像进行实验。
我们使用了同人脸数据集参数调节及固定中心相同的实验方法对不同算法在MNIST数据集上进行评估,得到的实验结果见表4。
Figure 3. Sample images of MNIST dataset
图3. MNIST数据集的样本图像
Table 4. Experimental results on MNIST dataset
表4. 在MNIST数据集上的实验结果
方法 |
ACC |
NMI |
Purity |
ARI |
F-score |
Precision |
Recall |
LRR |
0.9100 |
0.7447 |
0.9100 |
0.7594 |
0.8400 |
0.8329 |
0.8473 |
SSC |
0.9050 |
0.6947 |
0.9050 |
0.7411 |
0.8272 |
0.8269 |
0.8274 |
LSR1 |
0.9117 |
0.7201 |
0.9117 |
0.7575 |
0.8383 |
0.8352 |
0.8415 |
LSR2 |
0.9300 |
0.7613 |
0.9300 |
0.8033 |
0.8688 |
0.8669 |
0.8707 |
BDR |
0.9033 |
0.7135 |
0.9033 |
0.7357 |
0.8244 |
0.8161 |
0.8329 |
IDR |
0.9033 |
0.7035 |
0.9033 |
0.7345 |
0.8234 |
0.8169 |
0.8301 |
SMR |
0.9417 |
0.7924 |
0.9417 |
0.8346 |
0.8896 |
0.8885 |
0.8907 |
AGCSC |
0.9267 |
0.7567 |
0.9267 |
0.7947 |
0.8631 |
0.8603 |
0.8659 |
AMGCSC |
0.9550 |
0.8254 |
0.9550 |
0.8690 |
0.9126 |
0.9116 |
0.9136 |
4.5. 在一般物品图像数据集上实验
COIL20数据集是灰度图片集合,包含了对20个物体从不同角度的拍摄,每隔5度拍摄一张图像,每个物体有72张图像,共计1440张图像。每张图像大小进行了统一处理为32 × 32。COIL20数据集的样本展示如图4。
(a) (b)
Figure 4. Sample images of COIL20 dataset. (a) COIL20 dataset sample images; (b) The first sample image of COIL20 dataset
图4. COIL20数据集的样本图像。(a) COIL20数据集的样本图像;(b) COIL20数据集的第一个样本图像
在本数据集的实验中,我们随机选取了10类物体每类选取70张图像作为实验对象对不同算法进行评估。采取的参数调节及固定中心方法与上述方法相同。得到的实验结果见表5。
Table 5. Experimental results on COIL20 dataset
表5. 在C0IL20数据集上的实验结果
方法 |
ACC |
NMI |
Purity |
ARI |
F-score |
Precision |
Recall |
LRR |
0.7857 |
0.7618 |
0.7857 |
0.6757 |
0.7084 |
0.6935 |
0.7239 |
SSC |
0.6886 |
0.7118 |
0.6886 |
0.5642 |
0.6087 |
0.5888 |
0.6299 |
LSR1 |
0.7657 |
0.7337 |
0.7657 |
0.6414 |
0.6777 |
0.6600 |
0.6964 |
LSR2 |
0.7286 |
0.7202 |
0.7300 |
0.6127 |
0.6525 |
0.6269 |
0.6803 |
BDR |
0.7657 |
0.8039 |
0.7657 |
0.6993 |
0.7297 |
0.7117 |
0.7486 |
IDR |
0.7900 |
0.7717 |
0.7914 |
0.6800 |
0.7125 |
0.6924 |
0.7338 |
SMR |
0.7057 |
0.7204 |
0.7186 |
0.5838 |
0.6270 |
0.5964 |
0.6609 |
AGCSC |
0.8771 |
0.8962 |
0.8771 |
0.8327 |
0.8498 |
0.8207 |
0.8810 |
AMGCSC |
0.8857 |
0.9147 |
0.8857 |
0.8488 |
0.8644 |
0.8284 |
0.9036 |
4.6. 实验结果分析
在表2~5中,我们对在不同指标下表现最好的两种算法进行了加粗标注。综合各个指标的聚类结果,可以直观地看到,我们的算法在上述四个数据集中都获得了极为不错的表现。在ORL、MNIST、COIL20数据集上,AMGCSC各评价指标都取得了第一,展现了最优的聚类表现。但在PIE数据集上,IDR取得了最好的结果,但AMGCSC取得了仅次于IDR的结果,也可以充分证明AMGCSC在实践中的有效性。
5. 结论
在本文中,我们提出了一种新的子空间聚类算法,在AGCSC的模型上进行改进,将其命名为亲和矩阵图卷积子空间聚类AMGCSC。在AMGCSC中,我们提出了一种直接基于亲和矩阵的约束能很好地克服AGCSC在表示能力上的缺陷。我们也使用AMGCSC在基准数据集上做了大量的子空间聚类实验以展示我们方法的有效性,进一步提升子空间聚类算法的性能。
基金项目
国家自然科学基金(62076115)。
NOTES
1https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html。
2https://www.ri.cmu.edu/project/pie-database/。
3https://yann.lecun.com/exdb/mnist。