K-Means聚类算法中确定k值的改进方法
Improvement Methods for Determining the Value of k in the K-Means Clustering Algorithm
摘要: 针对传统k-means聚类算法过于依赖聚类数k的问题,本文提出了确定最佳聚类数k的一种新方法——双均值法。该算法不依赖于预先设定的k值,而是通过计算簇内平均距离与簇间平均距离的比值来动态确定最优的k值。该方法的创新之处在于,它结合了簇内的紧密度和簇间的分离度,从而更加精确地反映了数据的真实结构。通过在多个公共数据集上求得的k值与数据的真实类别数比较,或手肘法求得的k值相比较,说明新方法有效。
Abstract:
The issue of traditional k-means clustering algorithm relying too heavily on the number of clusters, k. A new method for determining the optimal number of clusters, k, has been proposed—the double mean method. This algorithm does not rely on a pre-defined k value, but rather calculates the ratio of intra-cluster average distance and inter-cluster average distance to dynamically determine the optimal k value. The innovation of this method lies in the fact that it combines intra-cluster density and inter-cluster separation, thus more accurately reflecting the true structure of the data. By comparing the k value obtained on multiple public datasets with the true number of classes in the data or with the k value obtained using the elbow method, the effectiveness of the new method is demonstrated.
参考文献
|
[1]
|
王实, 高文, 李锦涛. Web数据挖掘[J]. 计算机科学, 2000, 27(4): 28-3141.
|
|
[2]
|
孙秀娟, 刘希玉. 基于初始中心优化的遗传K-means聚类新算法[J]. 计算机工程与应用, 2008, 44(23): 166-168, 182.
|
|
[3]
|
王森, 刘琛, 邢帅杰. K-means聚类算法研究综述[J]. 华东交通大学报, 2022, 39(5): 119-126.
|
|
[4]
|
李波, 管彦允, 龚唯印, 等. 基于密度的K-means初始聚类中心点选取算法[J]. 绥化学院学报, 2022, 42(6): 148-151.
|
|
[5]
|
冯波, 郝文宁, 陈刚, 占栋辉. K-means算法初始聚类中心选择的优化[J]. 计算机工程与应用, 2013, 49(14): 182-185, 192.
|
|
[6]
|
Huang, S.Y. (2022) K-Means Clustering Algorithm Based on Optimization of Initial Clustering Center. CIBDA2022, 25-27 March 2022, Wuhan, 297-300.
|
|
[7]
|
李飞, 薛彬, 黄亚楼. 初始中心优化的K-Means聚类算法[J]. 计算机科学, 2002, 29(7): 94-96.
|
|
[8]
|
孙红岩, 孙晓鹏, 李华. 基于K-means聚类方法的三维点云模型分割[J]. 计算机工程与应用, 2006, 42(10): 42-45.
|
|
[9]
|
王建仁, 马鑫, 段刚龙. 改进的K-means聚类k值选择算法[J]. 计算机工程与应用, 2019, 55(8): 27-33.
|
|
[10]
|
方姣丽, 左克, 黄春, 刘杰, 李胜国, 卢凯. FD-LSTM: 基于大规模系统日志的故障分析模型[J]. 计算机工程与科学, 2021, 43(1): 33-41.
|