1. 引言
近年来,子空间聚类由于其在运动分割[1]、人脸聚类[2]、图像处理[3]等方面的应用,已经获得了广泛的关注。它假设数据点样本可以由多个低维子空间的并集表示。在过去的几十年里,不同类型的子空间聚类方法被提出,其中基于谱聚类的方法在许多实际应用中广泛使用。基于谱聚类的方法通常包括三个阶段:首先,通过自表示模型得到自表示系数矩阵;然后,基于自表示系数矩阵构建亲和矩阵。最后,在学习到的亲和矩阵上通过谱聚类[4]得到最终的聚类结果。其中,经典方法包括低秩子空间聚类(Low-Rank Representation, LRR) [5]和稀疏子空间聚类(Sparse Subspace Clustering, SSC) [6],不同点在于这两个方法分别寻求自表示系数矩阵的低秩和稀疏性。对基于谱聚类的方法而言,亲和矩阵的块对角性十分重要,文章[7]给出了判断自表示系数矩阵块对角性的强制块对角(Enforced Block Diagonal, EBD)条件并提出了基于块对角表示的子空间聚类的方法(Block Diagonal Representation, BDR)。LRR和SSC都能保证块对角性质。最小二乘回归[8]对自表示系数矩阵采用F范数的正则化项,不仅仍能保证块对角性质,还有很快的计算速度。然而在实际问题中,同一数据往往存在不同的特征进行表示,例如,图像可以通过颜色、纹理、形状等来描述。这些不同的特征描述了数据中不同且部分独立的信息。因此,只使用一种特征对数据进行聚类存在片面性。由此,学者们研究了多视图子空间聚类问题,并且提出了诸多多视图子空间聚类的方法,这些方法基于两个重要的原则,共识原则或补充原则。
多视图子空间聚类就是融合多个视图的信息进行聚类的方法。很多多视图子空间聚类方法的思路源于前面基于谱聚类的方法,他们往往采用自表示的方式挖掘数据间的关系,同样采用构造亲和矩阵的方式获得聚类结果。只不过在多视图子空间聚类中,还需要对不同视图间的信息融合进行讨论。早期的多视图子空间聚类(Multi-View Subspace Clustering, MVSC) [9]方法采用一个公共的指标矩阵保证共同的聚类结构。基于低秩矩阵分解的秩一致性诱导多视图子空间聚类(Rank Consistency induced Multiview Subspace Clustering, RC-MSC) [10]方法通过因子分解和正交约束使得所有自表示系数矩阵具有相同的秩,从秩一致的角度实现结构一致性。但是这些方法并没有考虑到不同视图信息之间的互补性或者特异性。一些多视图子空间聚类方法[11] [12]同时研究了不同视图自表示系数矩阵之间的一致性和特异性,不同于文章[9]中的一致性策略,方法[12]采用了统一的和特殊的自表示系数矩阵。基于图的多视图聚类(Graph-based Multi-view Clustering, GMC) [13]在这种策略的基础上进行了自加权的扩展。但是文章[9]指出不同视图的自表示系数矩阵存在尺度不一的问题,上述方法并没有考虑该问题。在传统单视图的基于谱聚类的方法中,我们常常对数据进行降维的预处理,由此,文章[14]提出了学习潜在空间进行稀疏表示的思路。在多视图子空间聚类方法中,潜在多视图子空间聚类(Latent Multi-view Subspace Clustering, LMSC) [11]也采用了类似思路,该方法假设多个视图来自一个潜在空间从而学习一个统一的潜在数据表示,然后对这些潜在数据表示进行低秩子空间聚类,得到一个统一的自表示系数矩阵。在基于谱聚类方法的三个阶段中,最后的谱聚类也具有一定的计算量,锚图能够在降低计算量方面起到很大作用[15]。由此,文章[16]提出来一种具有线性阶复杂度的多视图聚类方法(Large-scale Multi-View Subspace Clustering, LMVSC)。虽然该方法提高了运算效率,但是对于锚图中数据点的选择不同,也会影响聚类效果,同时,该方法也没有考虑未被选择的点对其他数据点的影响,容易受到噪声或者离群点的影响。
最近,深度学习技术被用于子空间聚类问题中[2] [17]-[19],由于问题的无监督特性,自编码网络常常被使用[2] [17],这些方法也被推广到了多视图子空间聚类中[18] [19]。新近的工作受图卷积网络的启发,利用图卷积算子提出了自适应图卷积子空间聚类方法(Adaptive Graph Convolutional Subspace Clustering, AGCSC) [4],取得了很好的效果,但是该方法仅针对传统的单一视图子空间聚类问题。本文将自适应图卷积子空间聚类方法拓展到多视图上,提出了一种新的方法,称为多视图图卷积子空间聚类(Multi-view Graph Convolutional Subspace Clustering, MGCSC)。在扩展中,我们既考虑了每个视图中自表示系数矩阵的有效性,又考虑了视图间融合的有效性。我们使用了F范数来保证更多BDR条件的满足同时设计了加权因子来处理前面提到的尺度不一致问题。我们的主要贡献如下:
1) AGCSC方法采用了全新的策略处理子空间聚类问题,但是该方法只能处理单视图子空间聚类,我们将其扩展到多视图上。
2) 我们在扩展中对AGCSC进行了深入研究,在正则项中使用了F范数,一方面能够更好地满足块对角条件来提升在每个视图中学习的有效性,另一方面也对模型的求解提供了便利。
3) 在不同视图间的信息融合中,我们使用了加权因子学习策略,该策略能够自适应的对不同视图的信息进行有效整合,这也使得我们的方法取得了很好的聚类效果。
2. 相关工作
子空间聚类长期以来一直受到学者们的广泛关注,尤其是基于谱聚类的方法,这些方法往往利用数据自表示的方式得到自表示系数矩阵,由此构建亲和矩阵从而得到聚类结果。随着深度学习的发展,学者们尝试将深度网络运用到子空间聚类问题中。图卷积网络可以有效地学习数据的特征,其特征学习机制使用了线性变换、图卷积算子
和激活函数,其中
是单位矩阵,
,D是
的度矩阵,M可以是上面提到的亲和矩阵。文献[20]指出,不使用激活函数的简单图卷积网络也能在许多实际应用中取得很好的效果,文献[21]尝试性地将线性变换去掉直接使用图卷积算子S学习所学特征,AGCSC创新性地在子空间聚类中使用了该策略,即
,其中F是所学特征,X是数据集。该策略完全不同于相关工作中常常使用的自表示策略。对于子空间聚类问题,AGCSC考虑M为亲和矩阵,同时要求自表示系数矩阵C满足性质
,
,
,
,其中
,
表示矩阵中的每个元素都是非负的,
表示由C的对角元形成的向量。经过推导可得
。此外,AGCGC还考虑了所学特征F对原始数据集的重建性质和自表示系数矩阵的重建作用,其模型构建如下:
(1)
其中,
和
是平衡各项的参数。块对角性质是子空间聚类问题中的一个重要性质,原文也对AGCSC的块对角性质进行了讨论,从文中命题1中的讨论我们发现,模型中的第二项对于使用了图卷积算子的第一项而言是必不可少的,第三项能满足的EBD条件的个数决定了其块对角性质,原文指出其模型能满足1个条件。不同于以往方法经常使用的自表示方式,AGCSC使用了一个全新的策略处理子空间聚类问题,取得了很好的效果,但是其模型仅仅适用于单一视图的子空间聚类问题。然而在大数据时代的今天,信息的来源往往是多样的,多视图子空间聚类方法也成为了近期的研究热点,这样的方法更符合经济社会发展的趋势,因此十分有必要推广该方法到多视图的情况,下面本文将对此展开讨论。
3. 多视图图卷积子空间聚类
3.1. 我们的模型
基于对AGCSC的研究,我们保留其模型中的第一项和第二项将其扩展使其适用于多视图数据:
(2)
其中
是每个视图学习得到的特征,
是每个视图的自表示系数矩阵,
是每个视图的数据集。结合限制条件,第一项意味着我们使用了图卷积网络挖掘每个视图的特征,因此我们的方法命名为多视图图卷积子空间聚类(Multi-view Graph Convolutional Subspace Clustering, MGCSC)。对于多视图子空间聚类而言,每个视图中数据关系的挖掘和不同视图间信息的融合都是十分重要的。就单个视图中数据关系的挖掘而言,可以从块对角性质入手,这也是相关工作中经常考虑的一个方面,我们对每个视图的自表示系数矩阵使用了F范数的惩罚,文章[7]表明这种惩罚能够满足所有EBD条件从而能较好地挖掘数据间的关系,此外,使用F范数也十分便于得到模型的数值解。对于不同视图间的信息融合问题,文章[9]指出不同视图的自表示系数矩阵
中元素值的大小可能会有很大的不同,为了解决
之间的这种尺度不一的问题,我们构建了一个
和统一自表示系数矩阵W之间的加权机制,即引入
,s.t。
,这里,W为统一的自表示系数矩阵,我们对加权因子也采用了学习策略,根据不同视图对整体贡献自适应学习视图系数,使得我们的方法能够自适应的融合不同视图的信息。得到W之后,构建亲和矩阵
,再由谱聚类得到最后的聚类结果。
3.2. 模型求解
我们采用交替方向迭代法(Alternating Direction Method, ADM) [22]对问题(2)进行优化。
为了求解问题(2),我们将其转化为以下等价问题:
(3)
其中是
辅助变量。式(3)的增广拉格朗日函数为:
(4)
接下来,我们逐个讨论了关于每个变量
和乘子
的子问题。
1) 固定其它,更新
。(4)式中所有项均含有
,对(4)式关于
求导,令导数为0,得:
(5)
2) 固定其他,更新
。在(4)中去除与
无关的项,得到:
,
对上式关于
求导,并且令导数为0,得:
。(6)
3) 固定其他,更新
。在(4) 中去除与
无关的项,得到:
对上式进行配方,可得:
(7)
我们可以运用[7]给出的如下引理1解决(7):
引理1:不妨令
,
,则对于下列给出的问题:
,
其解为,其中
表示矩阵元素取正值,不是正值的要按0计算。
因此,由引理1可知,若令
,则会得到
,对应问题(7)解为
.(8)
4) 固定其他,更新
。在(4)中去除与
无关的项,得到:
,(9)
用条件极值的方法求解(9),引入
为拉格朗日乘子,再对(9)式做出其对应的拉格朗日函数为:
,其中
,分别对拉格朗日函数每个变量求偏导并令其值为0。解得:
,
.(10)
5) 固定其他,更新W。在(4)中去除与W无关的项,得到
,再关于W求导,并且令导数为0,得:
.(11)
根据上面给出的子问题结果,现将我们的数值算法过程整理如下:
输入:数据矩阵
,
。
输出:W。
Step 1:初始化
,
,
,
,
,
。
Step 2:由式(5)更新
,式(6)更新
,式(8)更新
,式(10)更新
,式(11)更新W。
Step 3:更新乘子和参数
,
,
。
Step 4:验证收敛条件
,
,若不满足收敛条件,重复Step2~Step3,直至满足条件。
上述算法步骤4中的无穷范数表示绝对值最大的元素值。
3.3. 复杂度分析
最后,我们对MGCSC的计算复杂度进行分析,MGCSC的时间复杂度主要依赖于对
和
这两个变量的迭代更新,我们不仅需要计算一个
矩阵的逆,然后还需要计算两个
矩阵的乘法,这些运算的复杂度为
。因此对于上述算法,每次迭代的时间复杂度为
。
4. 实验
4.1. 实验设置
4.1.1. 数据集介绍
1) COIL-100 [23]数据集包含100个不同的物体类别,如动物、植物、家具等,每个对象的图像数量为72张。本文实验从COIL-100数据集中选取30类图像,每类取60张进行实验,分别提取LBP [13]特征和Garbor [14]特征。
2) UCI-digits [24]数据集由2000张10个手写数字(0~9)的图像组成,在该实验中我们提取了Fac(216)特征、Fou(76)特征和Kar(64)特征作为三种视图。
3) ORL [25]包含40个不同受试者的400张面部图像。每个受试者有10张不同的面部图像,这些图像是在不同的时间拍摄的,随着光线、面部表情和面部细节的变化而变化。该实验提取1024维灰度特征、3304维LBP和6750维Gabor特征。
4) 3Sources数据集,同文献[13]中一样,该数据集共由169个新闻故事组成,分属于6个大类。每条新闻都来自3个不同的新闻来源,分别是BBC,路透社和卫报。
以上4个数据集对应信息总结在表1中:
Table 1. Dataset information summary
表1. 数据集信息汇总
| 数据集 |
COIL |
UCI-digits |
ORL |
3Sources |
| 样本点 |
1800 |
2000 |
400 |
169 |
| 视图 |
2 |
3 |
3 |
3 |
| 组类 |
30 |
10 |
40 |
6 |
| 特征 |
10 |
216 |
1024 |
3560 |
| 1024 |
76 |
3304 |
3631 |
| - |
64 |
6750 |
3068 |
4.1.2. 比较方法
为了验证我们提出的模型的有效性,我们首先进行了聚类实验,将我们的方法与一些单视图和多视图聚类方法进行比较。比较的方法包括:
1) 单视图(Single View, SV):
LRRbest [5]:对每个视图进行低秩表示,选择聚类效果最好的视图。
SPCbest [26]:对每个视图分别进行谱聚类,挑选聚类结果最好的视图。
2) 多视图(Multi View, MV):
Co-Reg SPC [27]:该方法对聚类假设进行共正则化,以实现相应的数据点应该在同一聚类中,从而达到聚类的要求。
Min-Disagreement [28]:该方法创建了一个二部图,并试图将分歧最小化。然后通过谱聚类得到最终结果。
RMSC [29]:提出一种鲁棒多视图谱聚类的马尔可夫链方法,具有低秩和稀疏分解的特点。
LMSC [11]:该方法通过学习不同视图之间统一的潜在表示进行聚类。
GMC [13]:该方法学习每个视图图矩阵和统一图矩阵,考虑了自加权策略。
LMVSC [16]:该方法提出了一种具有线性阶复杂度的大规模算法。该方法主要使用了锚图。
RC-MSC [10]:该方法寻求不同视图特异性自表示系数矩阵的低秩一致性结构。
4.1.3. 评价指标
为了评估性能,我们使用了准确性(Accuracy, ACC)、归一化互信息(Normalized Mutual Information, NMI)、F-score、Precision共计4个度量指标。对于所有指标,值越高表明聚类效果越好。
4.1.4. 参数设置
我们的模型中包含两个正参数
和
,两个参数值的选取均对实验性能有影响。在上述实验过程中,我们通常选取
和
为{10-5, 10-4, 10-3, 5-3, 0.01, 0.05, 0.1, 0.5, 1, 10, 100, 1000, 10000}之内的数。
4.2. 实验结果与分析
在这一小节中,我们首先展示了以上10种不同的方法分别在4个数据集上进行实验得到的结果,既包括单视图子空间聚类方法,又包括多视图子空间聚类方法,具体结果见表2~5,其中最好的结果都用粗体强调。
Table 2. Clustering performance of 10 methods on the COIL-100 dataset
表2. 10种方法在COIL-100数据集上的聚类性能
| 类型 |
方法 |
ACC |
NMI |
F-score |
Precision |
| SV |
LRRbest |
0.7209 |
0.7806 |
0.6743 |
0.5821 |
| SPCbest |
0.6545 |
0.8046 |
0.6164 |
0.5831 |
| MV |
Co-Reg SPC |
0.6812 |
0.8176 |
0.6440 |
0.6119 |
| Min-Disagreement |
0.6773 |
0.8296 |
0.6384 |
0.5963 |
| RMSC |
0.6864 |
0.8223 |
0.6465 |
0.6137 |
| LMSC |
0.7117 |
0.8280 |
0.6642 |
0.7021 |
| GMC |
0.7011 |
0.8339 |
0.5569 |
0.4228 |
| LMVSC |
0.6600 |
0.8060 |
0.6208 |
0.6749 |
| RC-MSC |
0.7106 |
0.8107 |
0.6678 |
0.6201 |
| MGCSC |
0.7722 |
0.8470 |
0.7220 |
0.7538 |
Table 3. Clustering performance of 10 methods on the UCI-digits dataset
表3. 10种方法在UCI-digits数据集上的聚类性能
| 类型 |
方法 |
ACC |
NMI |
F-score |
Precision |
| SV |
LRRbest |
0.8047 |
0.7605 |
0.8044 |
0.8332 |
| SPCbest |
0.7481 |
0.6681 |
0.7501 |
0.7432 |
| MV |
Co-Reg SPC |
0.8131 |
0.7413 |
0.8091 |
0.8175 |
| Min-Disagreement |
0.7912 |
0.7561 |
0.7167 |
0.6972 |
| RMSC |
0.8152 |
0.8221 |
0.8116 |
0.7975 |
| LMSC |
0.7886 |
0.7520 |
0.7863 |
0.8381 |
| GMC |
0.8560 |
0.8961 |
0.8341 |
0.7936 |
| LMVSC |
0.8935 |
0.8315 |
0.8127 |
0.8157 |
| RC-MSC |
0.9215 |
0.8484 |
0.9214 |
0.9215 |
| MGCSC |
0.9140 |
0.8422 |
0.8397 |
0.8418 |
Table 4. Clustering performance of 10 methods on ORL dataset
表4. 10种方法在ORL数据集上的聚类性能
| 类型 |
方法 |
ACC |
NMI |
F-score |
Precision |
| SV |
LRRbest |
0.7219 |
0.8668 |
0.6065 |
0.5318 |
| SPCbest |
0.7448 |
0.8863 |
0.6759 |
0.6265 |
| MV |
Co-Reg SPC |
0.7442 |
0.8856 |
0.6798 |
0.6315 |
| Min-Disagreement |
0.7147 |
0.8662 |
0.6393 |
0.5900 |
| RMSC |
0.7125 |
0.8568 |
0.6322 |
0.5930 |
| LMSC |
0.8175 |
0.9079 |
0.7536 |
0.7900 |
| GMC |
0.6325 |
0.8035 |
0.3599 |
0.2321 |
| LMVSC |
0.6775 |
0.8246 |
0.5775 |
0.6650 |
| RC-MSC |
0.8375 |
0.9210 |
0.8228 |
0.7285 |
| MGCSC |
0.9300 |
0.9581 |
0.8848 |
0.9006 |
Table 5. Clustering performance of 10 methods on 3Sources dataset
表5. 10种方法在3Sources数据集上的聚类性能
| 类型 |
方法 |
ACC |
NMI |
F-score |
Precision |
| SV |
LRRbest |
0.3642 |
0.0892 |
0.3667 |
0.2570 |
| SPCbest |
0.5803 |
0.4797 |
0.5131 |
0.5346 |
| MV |
Co-Reg SPC |
0.5852 |
0.5221 |
0.5554 |
0.6118 |
| Min-Disagreement |
0.5644 |
0.5215 |
0.5055 |
0.5268 |
| RMSC |
0.5669 |
0.5207 |
0.4859 |
0.5214 |
| LMSC |
0.6331 |
0.5283 |
0.5693 |
0.5386 |
| GMC |
0.6391 |
0.4504 |
0.5196 |
0.4007 |
| LMVSC |
0.4260 |
0.2729 |
0.3855 |
0.5019 |
| RC-MSC |
0.6213 |
0.5874 |
0.4650 |
0.6454 |
| MGCSC |
0.6462 |
0.5190 |
0.5950 |
0.6154 |
首先,在上述实验中,我们的方法都取得了很好的结果。实验结果表明:
1) 总体而言,基于多视图的方法其聚类性能显著高于基于单视图方法的聚类性能。例如,与LRRbest相比,MGCSC在ACC、NMI、F-score和Precision对ORL数据集得到了20.81%、9.13%、27.83%和36.88%的提高,对3Sources数据集得到了28.2%、42.98%、22.83%、35.84%的提高。原因是与单视图数据集相比,多视图数据集通常能为实验提供更多的互补性和一致性信息,因此在聚类的过程中对于数据点会有更加全面的概括,从而能够得到更好的聚类效果。
2) 在大多数情况下,我们提出的MGCSC比其他多视图聚类方法有更好的性能结果。在数据集COIL-100上,我们的方法相较于最新提出的RC-MSC方法,在ACC、NMI、F-score和Precision上分别提高了6.16%、3.63%、5.42%和13.37%。这说明我们的方法拥有更好的聚类效果。在UCI-digits上,我们的方法聚类效果虽然排在第二位,但仍然远好于其他方法。在3Sources数据集上,我们的方法在ACC和F-score上取得相较于其他方法最好的结果。
一个理想的统一的自表示系数矩阵应该通常具有块对角结构。接下来,我们展示了在ORL数据集上,由聚类效果最好的MGCSC方法和聚类效果次之的RC-MSC方法获得的对应于前10个类别样本的统一的自表示系数矩阵得到的分块结果。如图1(a)所示,MGCSC得到的统一的自表示系数矩阵表现出了更明显的块对角的特征,而如图1(b)所示,RC-MSC的分块效果不明显。可视化结果与聚类性能一致。这说明我们方法在该数据集上的聚类效果要比RC-MSC聚类效果好。
Figure 1. The effect of ORL top 10 categories on MGCSC and RC-MSC
图1. ORL前10类在MGCSC和RC-MSC上的分块效果
最后,我们分析一下参数对MGCSC方法结果的影响。对于不同的数据集,不同的参数取值往往产生不同的聚类效果。为了防止随机性,对COIL-100、UCI-digits和ORL数据集我们都采取固定中心的策略,对3Sources数据集我们采取多次实验取均值的策略,我们的目的就是要找到聚类效果最好的情况下的最优参数。例如,在ORL数据集上通过调整这两个参数得到聚类结果的ACC性能如图2所示。从图中我们可以观察到,对于ORL数据集来说,当参数
和
在一定范围内选择时,我们的方法聚类准确性较好。
Figure 2. The impact of
and
on MGCSC on the ORL dataset
图2. ORL数据集上
和
对MGCSC的影响
5. 结论
本文将AGCSC拓展到多视图上,提出多视图图卷积子空间聚类(MGCSC)的方法。该方法一方面在正则化项上应用F范数,既方便模型的求解,又使得聚类结果满足更多的块对角条件,另一方面将不同视图之间的信息通过加权因子自适应融合在一起,提高了聚类效果。通过大量子空间聚类实验证明,我们的方法在处理多视图数据集上是有效的。
基金项目
国家自然科学基金(62076115)。