基于Spark计算框架的分布式文本分类方法研究
A Comparative Study of Distributed Text Categorization Methods Based on Different Computing Frameworks
DOI: 10.12677/HJDM.2018.84017, PDF,   
作者: 唐慧丰:战略支援部队信息工程大学,河南 郑州;郭威*, 张 乐:战略支援部队信息工程大学研究生院,河南 郑州
关键词: 文本分类计算框架朴素贝叶斯TF-IDFText Classification Computational Framework Naive Bayes TF-IDF
摘要: 针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的文本分类实现过程。实验阶段,分别在单机、Map Reduce和Spark三种不同的计算框架下测试了文本分类的效率,并使用控制变量的方法在Spark计算框架下设计对照实验。实验证明,Spark计算框架下的朴素贝叶斯算法在面对海量文本分类时有着较高的处理效率。
Abstract: In view of the low efficiency of traditional text classification algorithms in the face of increasing mass of text data, a parallel naive Bayes text classifier is designed and implemented on the Spark computing framework, and the implementation process of text classification based on Spark computing framework is introduced. In the experimental stage, the efficiency of text classification is tested under three different computing frameworks, single machine, Map Reduce and Spark, and control experiments are designed under the Spark computing framework using control variables. Experiments show that naive Bayes algorithm in Spark computing framework has high efficiency in dealing with massive text categorization.
文章引用:唐慧丰, 郭威, 张乐. 基于Spark计算框架的分布式文本分类方法研究[J]. 数据挖掘, 2018, 8(4): 151-161. https://doi.org/10.12677/HJDM.2018.84017

参考文献

[1] 罗元帅. 基于随机森林和Spark的并行文本分类算法研究[D]: [硕士学位论文]. 成都: 西南交通大学, 2016.
[2] Ghemawat, S., Gobioff, H. and Leung, S. (2003) File and Storage Systems: The Google File System. ACM Symposium on Operating Systems Principles, Bolton Landing, 19-22 October 2003, Vol. 37, 29-43. [Google Scholar] [CrossRef
[3] Dean, J. and Ghemawat, S. (2004) Map Reduce: Simplified Data Processing on Large Clusters. Proceedings of Operating Systems Design and Implementation (OSDI), 51, 107-113.
[4] Chang, F., Dean, J., Ghemawat, S., et al. (2006) Big Table: A Distributed Storage System for Structured Data. Proceedings of Use Nix Symposium on Operating Systems Design & Implementation, 26, 205-218.
[5] 光顺利. 基于Spark的文本分类的研究[D]: [硕士学位论文]. 长春: 长春工业大学, 2016.
[6] Luhn, H.P. (1959) Au-to-Encoding of Documents for Information Retrieval Systems. Modem Trends in Documentation. Pergamon Press, New York.
[7] 侯汉清. 分类法的发展趋势简论[M]. 北京: 中国人民出版社, 1981.
[8] Yang, Y. (1999) An Evaluation of Statistical Approaches to Text Categorization. Information Retrieval, 1, 69-90. [Google Scholar] [CrossRef
[9] 庞剑锋, 卜东波. 基于向量空间模型的文本自动分类系统的研究与实现[J]. 计算机应用研究, 2001, 18(9): 23-26.
[10] 张志飞, 苗夺谦, 高灿. 基于LDA主题模型的短文本分类方法[J]. 计算机应用, 2013, 33(6): 1587-1590.
[11] 武建军, 李昌兵. 基于互信息的加权朴素贝叶斯文本分类算法[J]. 计算机系统应用, 2017, 26(7): 178-182.
[12] 江小平, 李成华, 向文, 张新访. 云计算环境下朴素贝叶斯文本分类算法的实现[J]. 计算机应用, 2011, 31(9): 2551-2554.
[13] 宋福星. 基于Spark的超大文本分类方法的设计与实现[D]: [硕士学位论文]. 北京: 北京交通大学, 2017.
[14] 贺鸣, 孙建军, 成颖. 基于朴素贝叶斯的文本分类研究综述[J]. 情报科学, 2016, 34(7): 147-154.
[15] 李方, 刘琼荪. 基于改进属性加权的朴素贝叶斯分类模型[J]. 计算机工程与应用, 2010, 46(4): 132-133.