1. 引言
在今天的大数据时代,随着信息技术的快速发展和数据采集手段的多样化,多视角数据变得越来越普遍和重要[1]-[3]。这些数据通常是未标记的,本文需要从中发现内在的模式,以便进行更深层次的分析和处理,从而提高数据驱动决策的质量和效率[4]。然而,多视角信息的引入带来了大量的数据,这对传统聚类方法的效率提出了巨大挑战,特别是在面对大规模和高维数据时。如何高效地聚类这些多视角数据,已成为当前的热门研究话题之一[5]-[7]。
近年来,提出了各种多视角聚类方法,其中有三种典型方法:基于图的多视图聚类[8]-[10]、基于矩阵分解的多视图聚类[11]-[13]和多视图子空间聚类[14]-[16]。其中,多视角子空间聚类因其良好的可解释性和出色的性能而受到了广泛关注。子空间聚类通过将每个数据点表示为其他数据点的线性组合,并最小化重构系数来获得系数矩阵,从而避免了维度灾难[17]。
多视图子空间聚类(MVSC)通常包括两个步骤:共识图构建和谱聚类。共识图构建的时间复杂度为
或
,谱聚类的时间复杂度为
,其中k和n分别表示聚类簇数和数据样本的数量。高计算成本严重限制了MVSC在处理大规模数据集时的效率[18] [19]。
为了提高MVSC的效率,提出了基于锚点的MVSC方法。该方法在MVSC框架中采用锚定策略[20],旨在学习一个维度为
的锚图来替换原来的维度为
的自表示矩阵。这种替代大大降低了时间复杂度,同时保持了良好的聚类性能。
目前,基于锚点的MVSC选择锚点的策略大致分为两种。一种策略是基于采样的方法,例如首先对不同视角的原始数据分别进行k-means聚类,从中获得的聚类中心作为锚点,然后进行子空间图学习;[21]将每个视角的原始数据合并为一个矩阵,对其进行k-means聚类以获得共同的锚点集,然后使用这些锚点学习一个共识锚图,将所有视角信息整合到一个共识锚图中。这些方法直接对原始数据进行k-means聚类以获得锚点,简单且高效。然而,它们也存在锚点分布不均和对噪声及异常值敏感的问题。
另一种锚点选择策略是基于学习的动态选择方法。例如,[22]通过采样矩阵动态选择锚点,并将子空间图学习和多视角融合整合到一个统一框架中,从而获得更高效的锚图;[23]将锚点学习和子空间图学习结合在一个统一框架中,自动学习具有低秩特性的锚图,无需任何超参数。这些方法将锚点学习和锚图学习整合在同一个框架中,并取得了显著的聚类结果。它们通常对锚点施加正交性约束,以增加锚点的多样性,但仅关注锚点的多样性,而忽视了锚点的潜在语义关系和锚点的平衡结构,可能导致学习到的锚点缺乏代表性和区分性,从而使得某些类别的锚点数量较少或没有锚点。
以上两种针对锚点策略的MVSC方法都取得了相当不错的效果,但是本文仍然可以考虑并进一步改进以下方面,使得学习到的锚点更具代表性和可识别性:(1) 在合适的低维子空间中选择锚点:为了避免直接在原始数据空间中选择锚点的局限性,搜索一个低维子空间并在其中选择锚点。(2) 完全覆盖与平衡结构:锚点应该能覆盖整个数据点云且在各个类别中分布均衡,以保证对数据的全面描述。
为了解决上述问题,获取更具代表性的锚点,并提高基于锚点的多视角聚类,本文提出了一种新颖的多视角子空间聚类方法,称为带有潜在平衡锚点指导的大规模多视角子空间聚类。与其他锚点学习方法不同,所提出的方法在一个干净且低维的共享潜在空间中动态学习锚点,并鼓励锚点向潜在质心对齐,从而使得学习到的锚点集具有平衡结构。干净且更具代表性的锚点反过来使本文能够学习到更高质量的锚图,并进一步提高聚类方法的效果和准确性。
2. 相关工作
2.1. MVSC
给定原始数据
,MVSC的总体框架可以表述如下:
(1)
其中,符号
表示超参数,函数
是正则化项,将不同视图独有的相似度图
统一为共识相似度图S。
2.2. 基于锚点的MVSC
一般来说,基于锚点的MVSC的框架可以用一下数学公式来表示:
(2)
其中
表示第v图中的锚矩阵,
表示第v视图中的锚图。Z表示共识锚图。
值得注意的是,算法中学习到的锚点的质量将直接影响后续锚图的学习以及最终的聚类性能。
3. 模型
3.1. 自适应锚点学习框架
为了将锚学习和锚图构建过程统一到单个框架中,[23]提出了以下数学模型:
(3)
该方法假设所有视图的锚点在潜在空间中是一致的。
在此假设下,不同视图之间的锚图也是一致的,并引入投影矩阵来确保潜在表示可以映射回原始特征空间。具体而言,A表示共识锚点矩阵,Z表示共识锚图矩阵,
是用于将潜在表示AZ映射到原始特征空间的投影矩阵。此外,
表示特定于视图的权重系数。此外,正交性约束(
)增强了锚点之间的多样性,从而提高了其判别能力,最终提高了聚类性能。
3.2. 所提出的方法
为了获得更具代表性的锚点,本文旨在使锚点集具有平衡结构。具体来说,本文先寻找一个干净的
低维潜在空间H。接着使用
计算该低维潜在完整空间中所有潜在数据点的质心。然后,在约束
下,本文通过
强制将锚点集向潜在质心对齐。在这两个因素的作用下,锚点在确
保最大多样性的同时尽可能地靠近潜在质心。从而使锚点均衡的分布在潜在质心c的周围。使得锚点集在充分考虑整体数据集结构的前提下具备了平衡结构。最后,上述思想可以用以下数学公式表达:
(4)
其中
,
表示锚点矩阵A的第j列,
和
表示潜在完整表示矩阵H的第i列。c表示所有潜在数据点
的潜在质心。
值得注意的是,与计算聚类中心的传统k-means不同,k-means的聚类中心是该簇所对应数据点的质
心。而
通过遍历所有潜在数据点来计算每个锚点。因此,本文从全局角度在潜在完整空间中
搜索锚点,使学习到的锚点具有全局代表性。
4. 模型优化求解
由于所提出的算法的目标函数可以交替优化,本文使用增广拉格朗日方法(ALM)来求解[24]。首先,本文构造增广拉格朗日函数:
(5)
其中Λ代表拉格朗日乘子,
定义如下:
(6)
其中
表示两个向量的内积,
表示正自适应惩罚参数。
由(5)表示的上述问题可以分解为七个子问题,每个子问题的具体优化过程如下:
4.1.
的求解
通过固定其他变量并将(5)转换为以下方程来更新
:
(7)
为了便于优化,将(7)转换为以下方程。
(8)
其中
。
的奇异值分解(SVD)结果为
,其中
是一个非负对角矩阵,每个元素代表
的奇异值,
是具有正交约束的酉矩阵。然后根据[25]中的推导过程,计算
,即可得到
的闭式解。
4.2. A的求解
通过固定其他变量并将(5)转化为以下方程来更新A:
(9)
为了便于优化,将(9)转换为如下方程。
(10)
在(10)中,
。
与
的优化类似,上式(10)可改写为:
(11)
其中,
。
通过对D进行奇异值分解(SVD),并将左奇异矩阵与右奇异矩阵相乘,便可得到变量A的最优解。
4.3. Z的求解
通过固定其他变量并将(5)转化为以下公式来更新Z:
(12)
通过扩展Frobenius范数,可以将(12)转化为矩阵的迹。此外,由于Z中各列的优化彼此相同,因此Z的优化问题可以很容易地表述为以下二次规划(QP)问题:
(13)
其中
,
。
因此,变量Z的优化问题就可转化为Z的每一列的QP问题。
4.4.
的求解
通过固定其他变量并将(5)转化为以下公式来更新
:
(14)
其中,
。
上述优化问题的最优解可以通过柯西–施瓦茨不等式直接获得。
(15)
4.5. H的求解
通过固定其他变量并将(5)转化为以下公式来更新H:
(16)
H的最优解可以通过对(16)中对H求导数并令其为0获得:
(17)
其中
和
可以写成如下形式:
(18)
其中,
。
4.6. E的求解
通过固定其他变量并将(5)转化为以下公式来更新E:
(19)
上述(19)可转化成如下:
(20)
其中,
。
该子问题的具体解决过程可以通过[26]中的引理4.1实现。
4.7. Λ求解
乘数Λ和参数
,按下列式子进行更新。
(21)
其中,
为步长,本文设置为1.9,
为
的最大值。
最后,本文提出的算法的整体优化过程由每个变量的更新过程组合而成。
4.8. 算法总结
最后,本文所提出算法的整体优化过程由每个变量的更新过程组合而成,本文总结在如下算法流程。
Algorithm 1:具有潜在平衡锚指导的大规模多视图子空间聚类 |
输入:数据矩阵
,权衡参数
,锚点数量m,聚类簇数k以及
,
,
,
。 输出:通过对锚图Z执行SVD来计算U。 1) 初始化:锚点矩阵
,(本文的实验设置中,
,
),
,
,
,并使用随机值初始化矩阵H。 2) While not converged do: 3) 通过公式(8)来计算
; 4) 通过公式(11)来计算A; 5) 通过公式(13)来计算Z; 6) 通过公式(15)来计算
; 7) 通过公式(17)来计算H; 8) 通过公式(20)来计算E; 9) Until: 10)
。 11) End |
对U运行k-means以获得最终的聚类结果。 |
4.9. 时间复杂度分析
本文将上述算法的每个变量的优化过程的时间复杂度总结在表1。
Table 1. Time complexity of subproblems
表1. 子问题的时间复杂度
变量 |
时间复杂度 |
|
|
|
|
|
|
|
|
|
|
|
|
5. 实验
5.1. 实验设置
5.1.1. 实验数据
所提出的算法在10个不同领域的真实多视图数据上进行了广泛的实验(即MSRCv1、BBC、Caltech101-7、NUS-WIDE-10、CCV、Caltech101-all、SUNRGBD、ALOI-100、AWA、MNIST)。其中包括典型的小型样本数据集以及大规模高维数据集。其具体信息总结在表2。
Table 2. A summary of 10 real datasets
表2. 10个真实数据集的总结
数据集 |
#样本数 |
#视图数 |
#簇数 |
#特征 |
MSRCv1 |
210 |
6 |
7 |
1302, 48, 512, 100, 256, 210 |
BBC |
685 |
3 |
5 |
4659, 4633, 4665 |
Caltech101-7 |
1474 |
6 |
7 |
48, 40, 254, 198, 512, 928 |
NUS-WIDE-10 |
6251 |
5 |
10 |
129, 74, 145, 226, 65 |
CCV |
6773 |
3 |
20 |
20, 20, 20 |
Caltech101-all |
9144 |
6 |
102 |
48, 40, 254, 198, 512, 928 |
SUNRGBD |
10,335 |
2 |
45 |
40, 40 |
ALOI-100 |
10,800 |
4 |
100 |
77, 13, 64, 125 |
AWA |
30,475 |
6 |
50 |
2688, 2000, 252, 2000, 2000, 2000 |
MNIST |
60,000 |
3 |
10 |
342, 1024, 64 |
5.1.2. 比较方法
本文合理地确定了8个与本文提出的方法相当的最先进的多视角聚类方法作为竞争者。其中,三个竞争者FPMVSC [23]、AMVSCGL [27]、MVSC-HFD [28]基于动态学习选择锚点,LMVSC [29]和MSGL [30]依赖于采样策略选择锚点,其余三个竞争者LMSC [31]、MLRSSC [32]、SFMC [33]属于经典的MVSC方法。
5.2. 实验结果
本文提出的算法与8种最先进的聚类算法在10个真实数据集上进行了比较。具体得分指标如表3~5所示,其中“-”表示该方法的得分指标由于其他原因(例如内存不足)而不可用。
Table 3. ACC metrics for all methods on 10 realistic datasets
表3. 在10个真实数据集上所有方法的ACC指标
|
LMSC |
MLRSSC |
SFMC |
LMVSC |
MSGL |
FPMVSC |
AMVSCGL |
MVSC-HFD |
Proposed |
MSRCv1 |
0.6833 |
0.7205 |
0.8095 |
0.7762 |
0.8524 |
0.9000 |
0.7524 |
0.8952 |
0.9048 |
BBC |
0.7633 |
0.4088 |
0.3372 |
0.7241 |
0.7036 |
0.4832 |
0.2730 |
0.4234 |
0.7810 |
Catech101-7 |
0.6058 |
0.6052 |
0.5651 |
0.4437 |
0.4871 |
0.7313 |
0.6981 |
0.7205 |
0.7320 |
NUS-WIDE-10 |
0.2216 |
0.1857 |
0.2174 |
0.2692 |
0.2532 |
0.2750 |
0.2672 |
0.2553 |
0.2840 |
CCV |
0.1598 |
0.1643 |
0.1128 |
0.2126 |
0.1961 |
0.2178 |
0.2203 |
0.2048 |
0.2348 |
Catech101-all |
- |
- |
0.1690 |
0.1297 |
0.1355 |
0.1870 |
0.3395 |
0.2018 |
0.2747 |
SUNRGBD |
- |
- |
0.1113 |
0.1815 |
0.1792 |
0.2483 |
0.2379 |
0.2231 |
0.2503 |
ALOI-100 |
- |
- |
0.6720 |
0.6419 |
0.0399 |
0.3346 |
0.3250 |
0.3516 |
0.6842 |
AWA |
- |
- |
- |
0.0869 |
0.0878 |
0.0823 |
0.0907 |
0.0862 |
0.1021 |
MNIST |
- |
- |
- |
0.9529 |
0.9802 |
0.8828 |
0.8971 |
0.9803 |
0.9803 |
Table 4. NMI metrics for all methods on 10 realistic datasets
表4. 在10个真实数据集上所有方法的NMI指标
|
LMSC |
MLRSSC |
SFMC |
LMVSC |
MSGL |
FPMVSC |
AMVSCGL |
MVSC-HFD |
Proposed |
MSRCv1 |
0.6151 |
0.6748 |
0.7958 |
0.6523 |
0.7348 |
0.8454 |
0.6784 |
0.8420 |
0.8519 |
BBC |
0.5243 |
0.1432 |
0.0228 |
0.4805 |
0.4476 |
0.2157 |
0.0249 |
0.1365 |
0.6693 |
Catech101-7 |
0.5668 |
0.5787 |
0.5626 |
0.2567 |
0.3910 |
0.4923 |
0.6295 |
0.4949 |
0.4924 |
NUS-WIDE-10 |
0.0647 |
0.0463 |
0.0176 |
0.1172 |
0.1082 |
0.1180 |
0.1207 |
0.1098 |
0.1191 |
CCV |
0.1220 |
0.1142 |
0.0317 |
0.1662 |
0.1576 |
0.1720 |
0.1683 |
0.1528 |
0.1908 |
Catech101-all |
- |
- |
0.2330 |
0.3018 |
0.3154 |
0.3091 |
0.4280 |
0.3135 |
0.4853 |
SUNRGBD |
- |
- |
0.0202 |
0.2403 |
0.2448 |
0.2311 |
0.2206 |
0.2249 |
0.2386 |
ALOI-100 |
- |
- |
0.7573 |
0.7721 |
0.1169 |
0.6423 |
0.6625 |
0.6468 |
0.8065 |
AWA |
- |
- |
- |
0.0926 |
0.0898 |
0.0910 |
0.1039 |
0.0957 |
0.1101 |
MNIST |
- |
- |
- |
0.9145 |
0.9367 |
0.9054 |
0.9223 |
0.9463 |
0.9465 |
Table 5. Purity metrics for all methods on 10 realistic datasets
表5. 在10个真实数据集上所有方法的Purity指标
|
LMSC |
MLRSSC |
SFMC |
LMVSC |
MSGL |
FPMVSC |
AMVSCGL |
MVSC-HFD |
Proposed |
MSRCv1 |
0.5604 |
0.6425 |
0.8095 |
0.7762 |
0.8524 |
0.9000 |
0.7524 |
0.8952 |
0.9048 |
BBC |
0.6287 |
0.2744 |
0.3401 |
0.7241 |
0.7036 |
0.5328 |
0.3518 |
0.4847 |
0.8088 |
Catech101-7 |
0.8398 |
0.8514 |
0.8494 |
0.6940 |
0.8161 |
0.8229 |
0.8752 |
0.8297 |
0.8189 |
NUS-WIDE-10 |
0.1834 |
0.1759 |
0.2284 |
0.3551 |
0.3541 |
0.3423 |
0.3363 |
0.3091 |
0.3438 |
CCV |
0.1012 |
0.0974 |
0.1177 |
0.2467 |
0.2359 |
0.2503 |
0.2529 |
0.2380 |
0.2730 |
Catech101-all |
- |
- |
0.2277 |
0.2696 |
0.2921 |
0.2793 |
0.3883 |
0.2911 |
0.4566 |
SUNRGBD |
- |
- |
0.1144 |
0.3735 |
0.3659 |
0.3353 |
0.3254 |
0.3099 |
0.3362 |
ALOI-100 |
- |
- |
0.6820 |
0.6707 |
0.0417 |
0.3657 |
0.3414 |
0.3831 |
0.7037 |
AWA |
- |
- |
- |
0.1040 |
0.1064 |
0.0904 |
0.0970 |
0.3831 |
0.1224 |
MNIST |
- |
- |
- |
0.9529 |
0.9802 |
0.8828 |
0.8972 |
0.9803 |
0.9803 |
在这三张表中,本文观察到以下三个现象:
1) 所提出的算法在10个数据集上的表现普遍优于8个最先进的比较算法,并在准确率(ACC)和归一化互信息(NMI)方面取得了最佳成绩。这表明,通过在干净的潜在空间中动态选择锚点,并约束锚点具有平衡结构,所提出的算法能够有效促进高质量锚图的学习,进而显著提高聚类性能。
2) 在BBC、ALOI-100、AWA数据集上,所提出的算法的表现显著优于三种基于动态学习锚点选择策略的MVSC方法(FPMVSC、AMVSCGL和MVSC-HFD)。尤其在BBC和ALOI-100数据集上,本文的表现比这三种竞争算法提高了30%~40%。这表明,所提出的算法在锚点选择中不仅注重多样性,还强调平衡结构的约束,而这三种对比方法仅通过正交约束来增强锚点的多样性,导致其聚类性能相对较差。
3) 在MSRCv1、Caltech101-7、Caltech101-all和SUNRGBD数据集上,所提出的算法的表现明显优于LMVSC和MSGL,并在某些数据集上取得了30%~40%的性能提升。这一现象可以通过两个方面来解释:首先,LMVSC和MSGL方法直接在原始数据上进行k-means聚类以获取固定的锚点,这些数据集包含较多噪声和异常值,导致其锚点的代表性较差;而所提出的算法则是在干净的潜在空间中动态学习锚点,能够有效过滤噪声并学习到更具代表性的锚点,从而提高聚类效果。
综上所述,所提出的算法通过在潜在低维空间中动态学习平衡锚点,使得在大多数聚类评价指标上都优于其他聚类方法。这一发现在很大程度上证实了本文所提出的算法的有效性和优越性。
5.3. 参数选取
本节分析了所提出算法对参数
的敏感性。它通过网格搜索方案在集合
内进行调整以找到决定所提出算法最优性能的取值。图1给出了在部分真实数据集(依次为BBC,Caltech101-7,Caltech101-all,NUS-WIDE-10,SUNRGBD,MNIST)上
取不同值时ACC、NMI和Purity的变化曲线(其中横坐标为参数的对数值)。从图中可以看出,所提出的算法相对稳定,在很宽的参数值范围内都能获得良好的聚类性能。值得注意的是,当
取1和10时,聚类性能有所变化,这是因为当
大于或等于1时,所提出的算法在寻找锚点上投入了更多的精力。
Figure 1. Clustering result of proposed method with different value of λ on 6 benchmark datasets
图1. 所提方法在6个基准数据集上使用不同λ值的聚类结果
5.4. 收敛分析
在本节中,本文分析了所提方法的收敛性。具体来说,本文提出了一个收敛条件如下:
(22)
如图2所示,所选数据集依次为BBC,Caltech101-7,NUS-WIDE-10,Caltech101-all,SUNRGBD,MNIST,收敛条件
的收敛曲线随迭代次数的变化而变化。在Caltech101-7、NUS-WIDE-10、SUNRGBD四个数据集上,
迭代速度非常快,不到10次迭代就达到收敛,这是由于参数
取值小于1,锚点选择过程所需的努力较小。对于其他数据集,由于参数
取值大于或等于1,锚点搜索需要的努力较大,因此收敛曲线出现短暂的上下震荡后才收敛。整体而言,所提出的算法在每个数据集上都在20次迭代内收敛。总体而言,以上实验结果证明了所提优化算法的有效性和良好的收敛性。
6. 结论
本研究提出了一种新颖的基于锚点的多视角子空间聚类(MVSC)方法。具体来说,本研究试图在一个干净的低维潜在空间中动态学习锚点,并通过一个正则化项鼓励锚点向潜在质心对齐,以实现锚点集的平衡结构并使锚定更具代表性,获得更高质量的锚图。通过分析和实验证明,所提出的潜在平衡锚点的确使锚点集具有了平衡结构并最终提高了聚类性能。最后,在10个基准数据集上的大量实验证明了本文提出方法的有效性和优越性。
Figure 2. Convergence curves of proposed on different datasets
图2. 在不同数据集上的收敛曲线
未来,本文将重点关注三个任务:1) 在本文的实验中,本文发现所提出的算法的性能受到初始锚点的影响。未来,本文将寻找方法来学习更高质量的初始锚点;2) 本文的潜在平衡锚点也是共识锚点。由于不同视角的原始数据具有不同的维度,更合理的假设是不同视图应该有不同数量的锚点。未来,本文将尝试动态地为每个视角寻找最优的锚点数量;3) 本文发现,在不完全的多视图聚类中也存在与不平衡相关的问题[34] [35]。未来,本文将尝试将本文的平衡策略应用于这一问题。
NOTES
*通讯作者。