基于改进的Simhash算法的相似文档识别技术
Similar Document Recognition Technology Based on the Improved Simhash Algorithm
摘要: [目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。
Abstract: [Purpose/Significance]: In order to achieve more efficient in mass text accurately detect the similar text. [Method]: This paper based on Simhash algorithm similar document identification technology improvement, research on Simhash signature value calculation method to make improvements, participle stage using ICTCLAS segmentation system, the text of key method to calculate the weights of the TF-IDF technology, at the same time, the key parts of speech, word length, whether marked word and are included in the title of several major aspects as weighting factor. Finally, the hamming distance is used to compare the document signature value, and the similar documents can be accurately found from the mass documents. [Conclusion]: By improving the TF-IDF weight, the improved Simhash algorithm is better than other algorithms in the recognition accuracy of similar documents.
文章引用:张兴兰, 何丹丹. 基于改进的Simhash算法的相似文档识别技术[J]. 计算机科学与应用, 2020, 10(2): 371-378. https://doi.org/10.12677/CSA.2020.102038

参考文献

[1] 谢平. 存储系统重复数据删除技术研究综述[J]. 计算机科学, 2014, 41(1): 22-30+42.
[2] 任民山, 蔡红霞. 基于Simhash算法的海量文本相似性检测方法研究[J]. 计量与测试技术, 2018, 45(4): 78-80.
[3] 陈春玲, 陈琳, 熊晶, 余瀚. 基于Simhash算法的重复数据删除技术的研究与改进[J]. 南京邮电大学学报(自然科学版), 2016, 36(3): 85-91.
[4] 林振飞. 基于混合特征的中文文本分类研究[D]: [硕士学位论文]. 沈阳: 东北大学, 2012.
[5] 陈杰, 陈彩, 梁毅. 基于Word2vec的文档分类方法[J]. 计算机系统应用, 2017, 26(11): 159-164.
[6] 余意, 张玉柱, 胡自健. 基于Simhash算法的大规模文档去重技术研究[J]. 信息通信, 2015(2): 28-29.
[7] 陈琳. 基于存储系统的重复数据删除技术的研究[D]: [硕士学位论文]. 南京: 南京邮电大学, 2016.
[8] 王青松, 葛慧. 相似聚类的二级索引重复数据删除算法[J]. 小型微型计算机系统, 2017, 38(12): 2797-2801.
[9] Bakirass, B.S. (2014) Secure Similar Document Detection with Simhash. Springer International Publishing, New York, 61-75. [Google Scholar] [CrossRef
[10] 李彬. 基于Hadoop 框架的 TF-IDF 算法的改进[J]. 微型机与应用, 2012, 31(7): 14-16.
[11] Broder, A.Z. (1997) On the Resemblance and Containment of Documents. Compression and Complexity of Sequences.
[12] 杨旸, 杨书略, 柯闽. 加密云数据下基于Simhash的模糊排序搜索方案[J]. 计算机学报, 2017, 40(2): 161-174.
[13] 董博, 郑庆华, 宋凯磊, 等. 基于多SimHash指纹的近似文本检测[J]. 小型微型计算机系统, 2011, 32(11): 2152-2157.
[14] 黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报, 2011, 34(5): 856-864.
[15] Tu, S.Z. and Huang, M.L. (2016) Mining Microblog User Interests Based on Text Rank with TF-IDF Factor. The Journal of China Universities of Posts and Telecommunications, 23, 40-46. [Google Scholar] [CrossRef
[16] 王方伟, 杨少杰, 赵冬梅, 王长广. 基于改进TF-IDF的多态蠕虫特征自动提取算法[J/OL]. 华中科技大学学报(自然科学版): 1-6.