1. 引言
数据聚类是根据数据之间的相似性或特点,将数据划分为不同类别,使类内相似度大,类间相似度小。如今,聚类分析迅速成为各领域研究人员的研究方向之一,是人们进行信息挖掘、提取的重要手段,在计算机视觉有着广泛应用 [1] 。作为一种非监督学习方式,数据聚类也应用于数据挖掘、信号处理、图像压缩、信息储存等 [2] 。常见的聚类方法有k-means聚类 [3] 、非负矩阵聚类 [4] 、图谱聚类 [5] 等。
在处理高维且具有复杂结构的数据时,图谱聚类表现优异。实验数据和结论表明,图谱聚类算法在任意形状空间中得到的聚类效果收敛甚至全局最优 [6] ,计算复杂度低、对噪声数据不敏感 [7] 等优点都是我们优先考虑的聚类方法之一。图谱聚类(Spectral Clustering)基于图论中的谱图论原理,将聚类问题转化为图的最优划分问题,是一种点对聚类算法,聚类效果更优秀、适用性更广泛 [8] 。将数据转化为点对集合,构建合适的相似矩阵就显得尤为重要。
数据集
,常见相似矩阵的构造可以通过图集中点与点之间的距离确定邻接矩阵(Adjacency Matrix) W:
(1)
其中
表示两样本点之间的距离,常用欧式距离表示,
为尺度参数,W是一个对称的非负矩阵。
度矩阵D (Degree Matrix)是一个对角矩阵,称对角线上的元素为度,表示点与其他点的连接和,通常写作:
(2)
定义拉普拉斯矩阵(Laplacian Matrix)
。
无向加权图
,将G分为两个不相交的子图A、B,使得
,
,在图论中,写作:
(3)
图像分割问题是根据点之间的相似程度来确定不同的区域。定义相邻点之间的相似程度为边,相似程度越大,从而所占权值就越大,由于不同区域之间的差异较大,所以相邻区域连通边的权值,一定是较小的值。
为了保证切图效果,一般有三种常用的切割方法:
(Minimum Cut) [9] ,也称作最小割图准则,使得所切边的权重最小,计算过程简单,从割图的效果来看,切割会向着小的区域偏移。目标函数表达式如下:
(4)
(Ratio Cut) [10] ,也称作比例切割准则,最大化各子图中所含点数,降低过分切割的可能性。不同子集中,如果顶点个数差异过大,切割的结果会偏向一方,在实际聚类中运算时间较长。目标函数表达式如下:
(5)
其中
,
分别表示图A,V中顶点的个数。
(Normalized Cut) [4] 也称作规范割集准则,将图的各边进行加权正则化,计算复杂度小,速度快,对处理稀疏矩阵数据聚类优异。聚类效果往往依赖相似矩阵的选择,不同相似矩阵最后得到的聚类结果也可能不同。目标函数表达式:
(6)
其中
是连接A中的节点的边的总权重。
本文结合已有的图谱聚类模型,利用拉普拉斯矩阵对
目标函数进行变形,松弛
(Direct Normalized Cut)目标函数,提出一种与
目标函数等价的模型,并补充了等价模型中解的可行性理论。
2. 图谱聚类中的拉普拉斯矩阵
图谱聚类最开始是使用邻接矩阵W中前c个最大特征值对应的特征向量进行聚类,但邻接矩阵W不能有效地表示各点之间的权重。拉普拉斯矩阵L很好地克服了这个问题。作为一种半正定矩阵,L中的任意行或者任意列元素相加为零,特征值为0对应的特征向量为1。常见两种标准型拉普拉斯矩阵:
.
如果行向量
中有且仅有一个元素为1,其余元素为0,那么称这个向量为指标向量。由向量组
构成的矩阵称为指标簇矩阵,
,
表示
分配到第j个簇里,对
定义:
-邻近法(
-neighborhood),确定
的阈值,两点之间的权重要么为0,要么为
,其中包含的信息较少,对距离的远近度量不够明确。k-邻域(k-near neighborhood),利用KNN算法,取遍所有的样本点,距离每个样本最近的k个点作为近邻,但是这种取法会造成构建之后的邻接矩阵W非对称。
如何改进相似矩阵也是近几年
算法研究的热点方向之一。Xie [11] 等人采用样本点的邻域和样本点之间的欧式距离作为局部标准差构造相似矩阵;杨婷 [12] 等人充分利用监督信息,借助L2,1范数的鲁棒性,学习得到合理的相似矩阵;Nie [13] 等人根据点的自适应性特点,局部连通地为每个数据点分配自适应和最优邻居点来学习得到相似矩阵。
扩充先验信息的数目也会提高聚类效果。同一聚类内的数据往往向着密度比较高的区域靠近,而在不同聚类之间存在一个数据分布相对稀疏的现象,由数据密度的特点,王玲 [14] 等人提出由密度敏感函数定义相似矩阵。
密度可调节长度:
(7)
其中
为数据点
与
点之间的欧式距离,
为伸缩因子,密度敏感的距离测度定义为:
(8)
表示数据点
到
的所有路径的集合,数据点之间的距离线段L作为权重E,表示图上长度为
的连接点和
的路径。相似矩阵表示为:
(9)
作为一种经典的聚类算法,目标是极小化各子图连边的和,先将图分成两个部分,之后的每一个步骤均将其中一个部分分成两个部分,直到满足某个条件之后停止分割。目标函数常写作:
(10)
为了求解目标函数(10),研究人员也提出了关于(10)的算法优化过程。单位化拉普拉斯矩阵
前c个最大特征值对应的特征向量,对特征向量进行聚类 [15] 。构造矩阵
,取矩阵P前c个最大特征值对应的特征向量。从实际聚类结果来看,当度矩阵D中的对角元素差距小的时候,聚类效果较佳。KVV算法则是求解
目标函数值的最小值,减小了过分割图的可能性,算法时间较长。
3. 图谱聚类中的DN-Cut模型等价
等价替换
目标函数也是求解图谱聚类问题的一个重要方向。利用拉普拉斯矩阵L,目标函数重新写作:
(11)
Yu [16] 等人提出
的多分类算法,比例划分矩阵Z替换Y,即
,目标函数:
(12)
作为比例划分矩阵的一种改进方法,Chen [17] 等人重写式子(12):
(13)
相比之前确定
与
前c个最大特征值对应的特征向量,Chen [18] 等人直接将其用矩阵M替换,提出直接规范谱切割(Direct Normalize Cut)模型,目标函数写作:
(14)
其中
,
,I为单位矩阵,规定
是一个足够大的数值,可以使得M为半正定矩阵。
矩阵F、M带入目标函数(14),有
(15)
现求矩阵G。
(16)
等式(16)两边同时左乘
,有
(17)
式子(17)两边同时右乘
,有
(18)
整理得到,
(19)
的表达式带入(15),有
(20)
所以,
(21)
最后,
。矩阵
是一个对角矩阵,
的第l行、第j列元素可表示为
,由于向量
中元素只能取0或者1,当
时,
;当
时,对角线上
第l个元素为
。所以,有下列等式:
(22)
求(21)式的最大值,采用放缩法松弛式子(22),放缩分母,找到原目标函数的上界。观察发现
,存在不等式:
(23)
因此,松弛后的目标函数可写做:
(24)
式子(24)减少目标函数中出现指标向量
次数的同时,也满足了对目标函数求最大值的目的。再对不等式(23)的右边进行整理,得到,
(25)
4. 图谱聚类中等价模型中解的理论研究
为了解决第l列的
,我们采取固定矩阵Y某一列求解其他列的方式和迭代计算的方法。考虑目标函数中
从0到1的增量函数:
(26)
最优解
中元素构成可表示为:
(27)
参数
如果为真,那么
,若为假,那么
。
现在证明等价模型中目标函数
的收敛性。
设矩阵Y在第t次与第
次迭代后的矩阵分别为
、
。带入G的表达式(16),得到:
(28)
展开,
(29)
中的
是一个足够大的数值,并且
可以直接确定,与矩阵Y无关,所
以迭代过程无论进行到哪一次,
和
都不会对目标函数的收敛性产生影响。仿照文献 [18] 中定理1的证明过程,能够得出:
(30)
为了方便书写,记
,那么,
(31)
通过等式(29) (30),易知
(32)
由迹的性质,
(33)
当
时,
,此时,
,所以,
(34)
时,仍然采取固定某一列求解其他列的迭代计算的方法。
是一个非负矩阵,根据式子(26)、(27),有
(35)
综上所述,成立不等式:
(36)
算法实现流程可总结为:
1) 输入聚类个数k,构造相似矩阵,将数据集
转化为度矩阵与邻接矩阵;
2) 找到一个足够大的数值
,使得
为半正定矩阵;
3) 重复运算
,并且通过等式(27)更新矩阵Y的数值;
4)目标函数(24)收敛,输出矩阵Y。
不同于传统的选择相似矩阵
与
的前k个最大特征值对应的特征向量进行聚类,该等价模型只需要初始化矩阵Y,直接对数据集进行相似矩阵的构造,得出度矩阵与邻接矩阵。同时,在算
法流程中,
与
的数值结果可由前一次的迭代过程直接得出,通过等式
(27),在之后的迭代过程中根据上一次得出的数值结果更新矩阵Y。目标函数(24)在迭代运算中,是一个单调递增的过程,对有限数据集
进行图谱聚类,当数据集分到所有簇时,迭代过程停止。
5. 结束语
算法过程的优化、目标函数的选择、相似矩阵的构造、谱切割的切割方法等都是当前图谱聚类研究的重要方向。本文从拉普拉斯矩阵出发,结合邻接矩阵与度矩阵的特点,对图谱聚类的目标函数进行松弛,得到了一类更具有一般形式的图谱聚类模型。采用放缩的方法,提出一种可与
等价的数学模型,并证明了等价模型的收敛性,对下一步数值实验测试的可行性提供了理论依据。