1. 引言
聚类是在机器学习中的一种无监督学习方式,既是数据挖掘的重要部分,又是模式识别领域的基础问题 [1] [2] ,在统计学里也有广泛的引用。在几乎每个处理经验数据的科学领域里,研究人员试图通过识别相似字符组的数据获得第一印象。在不同的领域已经提出了很多种聚类方法,并且都有性能保证。然而,它们通常是基于不同的假设,而且很难在同一个标准下比较。此外,最理想的标准会导致成NP-hard问题。因此聚类的进一步发展就是对存在理论证明或更新的问题的目标函数的精细化设计。
在各种各样的聚类算法中,一些使用单个目标函数,一些递归地使用中间成本函数,以及一些基于数据点的投影(子空间,流形)。制定聚类问题作为一个图拓扑选择问题,当数据点及其对应关系分别映射到图中的顶点和边。然后通过查找图拓扑来解决聚类问题。主要考虑紧凑的、均匀的、平衡的类别。在一个紧凑的类别中,数据点彼此接近。为了获得以上这些性质,我们提出了一个新的由两部分组成的目标函数:一是图上的随机路径的熵率;二是类分布的平衡项。熵率 [3] 有利于形成紧凑和均匀的聚类,平衡函数鼓励相似度比较高的聚类,并惩罚那些相似度比较差的对象。根据图中的随机路径和类别的分布有很大的不确定性,构造一个图拓扑。
本文把聚类作为一个图划分问题,将图划分为
个群,研究具有
连通子图的图拓扑,并最大化所提出的目标函数。
2. 模型
2.1. 基础知识
图:无向图表示为
,其中
是顶点的集合,
是边的集合。
和
表示顶点与边。
表示顶点
和
之间边
上的权重。在无向图中边的权重是对称的,即
。
图的划分 [4] :在
中,如果
,且满足:
(1)
;(2)
,
则称
为
的一个划分。图的顶点的子集的选择问题就是图的划分问题。
本文的目标是选择边的子集
,使得子图
是K-连通的。
熵:用来度量随机变量的不确定性。设离散随机变量
,概率密度函数为
,则它的熵定义为:
(1)
相应的,条件熵
的定义为:
(2)
其中
是条件概率密度函数 [5] [6] 。
熵率:用来度量随机过程
的不确定性。对于一个离散的随机过程,熵率定义为一个渐近测度 [7] :
(3)
对于一阶平稳的马尔可夫过程,熵率有一个简单的形式 [8] [9] :
(4)
第一个等式是由于一阶马尔可夫性,而第二个等式是平稳性的结果。有关更多详细信息,可以参考 [10] 。
图上的随机路径:设
是带有非负的相似权
的图
上的随机路径。转移概率定义为:
(5)
其中
是顶点
发生事件之和,并且平稳分布为:
(6)
其中
是归一化常数。对于一个非连通图,平稳分布不是唯一的。但是,(6)式中的
总是
平稳分布,容易证明得到
,其中
是转移矩阵。随机路径的熵率为:
(7)
下模性 [11] :设
是有限集,函数
是下模函数当且仅当
,有
或
(8)
等价于:
,对于所有的
和
,其中
进一步地,如果
,则称
是单调递增函数 [12] 。
拟阵:设
是有限集,
是
的子集组成的集合,拟阵是一个有序对
,并且满足:
1)
。
2) 如果
且
,则
。
3) 如果
且
,则存在元素
,使得
。
我们提出聚类作为一个图的划分问题。将图划分为
个类,搜索图具有
连通子图的拓扑,然后最大化提出的目标函数。
2.2. 图的构造
将数据集映射到图
,顶点表示该数据点和边权重表示两数据点之间的相似性。为了聚类,将数据集映射成K-最近邻域图。目标是划分图成为几个连通分支。选择一个边的子集
,产生一个子图
,包含K-连通子图。再者,我们也假设每个顶点具有自环。虽然自环不影响图的划分,但它们对提出的随机路径模型是必要的。当某边不包含在
内时,增加与该边关联顶点的自环的权重,这样每个顶点的总发生的权保持常数。
如果边
是被聚类时选择了,则顶点
的自环的权为
,顶点
的自环的权为
,边
的权为
。
如果边
是被聚类时未选择,则顶点
的自环的权为
,顶点
的自环的权为
,边
的权为
。
2.3. 平衡函数
利用平衡函数鼓励大小相似的数据点分到同一个聚类中。设
是已经被选择的边集,
是图中被划分部分的数量,
是聚类的分布。例如,设图对边集
的划分是
,有
(9)
并且平衡项为:
(10)
熵
将大小相似的聚为一类,同时通过类与类数据点之间的最小化可以得到聚类数目
。
推论2:2.2中构造的图上的平衡函数
是一个单调递增的下模函数。
2.4. 聚类函数
目标函数是熵率和平衡函数的结合,因此得到了更加紧凑的、均匀的和平衡的聚类。
(11)
其中
是目标函数。参数
是平衡项的权重。目标函数也是单调递增的下模函数。
推论3:设
是边集,
是边集的集合,
满足:1)
是无循环的;2)
构成一个大于或等于K-连通分支的图划分,则
是一个拟阵。
在无循环的约束下,图的划分问题变成了在拟阵约束下子模函数的最大化问题,即:
(12)
3. 算法
对于求解模型(12)的贪婪算法如下:

拟阵约束的下模函数的最大化问题是组合优化研究中活跃的领域 [13] ,Fisher [14] 等给出了单调递增下模函数的最大化问题的以
近似上界的贪婪算法。同样地,我们也给出如下的性能保证:
定理:设
是问题(15)的最优解,
是应用上述算法得到的一个近似解,则
证明利用 [14] theorem2.1直接得到。
4. 实验
在聚类方面我们进行了大量的实验来评估所提出的算法方法,在整个实验中,使用了
来测定平衡权重。该算法需要成对相似性数作为输入,这里使用的是高斯核
,这里
是样本
和
之间的距离,
是核带宽。然后构造一个邻域图1,其中在群集之前,每个示例都连接到其30个最近的邻域。
在实验中,我们设置了聚类的个数对于所有算法的数字K,为了比较,使用以下两个标准的群集性能指标:1) 聚类精度(ca)和2) rand指数(ri):
聚类精度是一种分类精度性能指标。设
是聚类的真分布。类似地,设
是计算的聚类的分布。聚类精度为:
其中
是数据中的样本总数和
表示任意可能的排列
。
聚类指数是两者之间的相似性度量。设TP是相同的样本对的数量群集的真实性和估计聚类,设TN是在中的样本对的数目真实与估计的不同聚类聚类,设FP是对的示例对的数量在不同的集群中为真实的集群在同一个组中进行估计聚类,FN是样本对的数目这在同一个群中是真实的聚类,但在不同的集群中估计的聚类输出。聚类指数为:
我们比较我们的结果和已有的聚类算法包括AP、k-means、ncut,以及平面最大间隔聚类算法(cpmmc) [16] ,它们代表了各种各样的聚类,结果如下:

Figure 1. The image comes from the natural scene recognition dataset [15] . From left to right, the image is coast, forest, highway, inner city, mountains, open country, streets and tall buildings. Because of different imaging conditions, the same kind of image shows a great change place and season
图1. 图像来自自然场景识别数据集 [15] 。从左到右,图像类是海岸、森林、高速公路、内部城市,山,开放的乡村,街道和高楼。由于不同的成像条件,相同类的图像表现出很大的变化地点和季节

Table 1. Clustering performance comparison: clustering accuracy
表1. 聚类性能比较:聚类精度

Table 2. Clustering performance comparison: clustering index
表2. 聚类性能比较:聚类指数
从表1和表2,我们看到了所提出的算法在聚类中产生略好的性能。根据聚类精度度量,在12个数据集中的7个数据集上的算法优于其它算法。我们还获得更好的性能索引:在12个数据集中有8个更好。
基金项目
陕西省自然科学基金资助项目(20125153025);中国高等教育博士生研究基金资助项目(20126102110041)。