|
[1]
|
谢平. 存储系统重复数据删除技术研究综述[J]. 计算机科学, 2014, 41(1): 22-30+42.
|
|
[2]
|
任民山, 蔡红霞. 基于Simhash算法的海量文本相似性检测方法研究[J]. 计量与测试技术, 2018, 45(4): 78-80.
|
|
[3]
|
陈春玲, 陈琳, 熊晶, 余瀚. 基于Simhash算法的重复数据删除技术的研究与改进[J]. 南京邮电大学学报(自然科学版), 2016, 36(3): 85-91.
|
|
[4]
|
林振飞. 基于混合特征的中文文本分类研究[D]: [硕士学位论文]. 沈阳: 东北大学, 2012.
|
|
[5]
|
陈杰, 陈彩, 梁毅. 基于Word2vec的文档分类方法[J]. 计算机系统应用, 2017, 26(11): 159-164.
|
|
[6]
|
余意, 张玉柱, 胡自健. 基于Simhash算法的大规模文档去重技术研究[J]. 信息通信, 2015(2): 28-29.
|
|
[7]
|
陈琳. 基于存储系统的重复数据删除技术的研究[D]: [硕士学位论文]. 南京: 南京邮电大学, 2016.
|
|
[8]
|
王青松, 葛慧. 相似聚类的二级索引重复数据删除算法[J]. 小型微型计算机系统, 2017, 38(12): 2797-2801.
|
|
[9]
|
Bakirass, B.S. (2014) Secure Similar Document Detection with Simhash. Springer International Publishing, New York, 61-75. [Google Scholar] [CrossRef]
|
|
[10]
|
李彬. 基于Hadoop 框架的 TF-IDF 算法的改进[J]. 微型机与应用, 2012, 31(7): 14-16.
|
|
[11]
|
Broder, A.Z. (1997) On the Resemblance and Containment of Documents. Compression and Complexity of Sequences.
|
|
[12]
|
杨旸, 杨书略, 柯闽. 加密云数据下基于Simhash的模糊排序搜索方案[J]. 计算机学报, 2017, 40(2): 161-174.
|
|
[13]
|
董博, 郑庆华, 宋凯磊, 等. 基于多SimHash指纹的近似文本检测[J]. 小型微型计算机系统, 2011, 32(11): 2152-2157.
|
|
[14]
|
黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报, 2011, 34(5): 856-864.
|
|
[15]
|
Tu, S.Z. and Huang, M.L. (2016) Mining Microblog User Interests Based on Text Rank with TF-IDF Factor. The Journal of China Universities of Posts and Telecommunications, 23, 40-46. [Google Scholar] [CrossRef]
|
|
[16]
|
王方伟, 杨少杰, 赵冬梅, 王长广. 基于改进TF-IDF的多态蠕虫特征自动提取算法[J/OL]. 华中科技大学学报(自然科学版): 1-6.
|