学术期刊
切换导航
首 页
文 章
期 刊
投 稿
预 印
会 议
书 籍
新 闻
合 作
我 们
按学科分类
Journals by Subject
按期刊分类
Journals by Title
核心OA期刊
Core OA Journal
数学与物理
Math & Physics
化学与材料
Chemistry & Materials
生命科学
Life Sciences
医药卫生
Medicine & Health
信息通讯
Information & Communication
工程技术
Engineering & Technology
地球与环境
Earth & Environment
经济与管理
Economics & Management
人文社科
Humanities & Social Sciences
合作期刊
Cooperation Journals
首页
信息通讯
计算机科学与应用
Vol. 6 No. 7 (July 2016)
期刊菜单
最新文章
历史文章
检索
领域
编委
投稿须知
文章处理费
最新文章
历史文章
检索
领域
编委
投稿须知
文章处理费
基于MapReduce的朴素贝叶斯垃圾短信过滤研究
Research on Naive Bayesian Spam SMS Filtering Based on MapReduce
DOI:
10.12677/CSA.2016.67054
,
PDF
,
HTML
,
XML
,
被引量
下载: 2,295
浏览: 4,627
作者:
赵彩迪
,
朱有产
,
符佳慧
:华北电力大学,河北 保定
关键词:
垃圾短信
;
短信过滤
;
朴素贝叶斯
;
MapReduce
;
Spam SMS
;
SMS Filter
;
Naive Bayesian
;
MapReduce
摘要:
针对海量短信文本的挖掘过滤需要很大的存储空间以及更强的计算能力,提出一种基于MapReduce的朴素贝叶斯的垃圾短信过滤方法;基于改进的朴素贝叶斯垃圾短信分类算法,利用MapReduce模型并行化对海量数据处理的优势进行短信文本的训练和测试。实验表明:利用计算集群实现海量垃圾短信过滤在召回率、查准率方面有所提高,垃圾短信过滤效率随着集群规模的扩增而提升较快。
Abstract:
The massive text mining filter requires a lot of storage space and stronger computing ability, so a spam message filtering method of MapReduce-based Bayesian is proposed. Based on the improved Naive Bayesian spam SMS classification algorithm, taking the advantage of MapReduce model pa-rallelization on massive data processing is used to train and test SMS text. Results show that using compute cluster to achieve massive spam filtering can improve the efficiency of recalling and pre-cision, and with the expansion of cluster size spam SMS filtering efficiency improve faster.
文章引用:
赵彩迪, 朱有产, 符佳慧. 基于MapReduce的朴素贝叶斯垃圾短信过滤研究[J]. 计算机科学与应用, 2016, 6(7): 443-450.
http://dx.doi.org/10.12677/CSA.2016.67054
参考文献
[
1
]
刘依璐. 基于机器学习的中文文本分类研究[D]: [硕士学位论文]. 西安: 西安电子科技大学, 2009.
[
2
]
Joachims, T. (1998) Text Categorization with Support Vector Machines: Learning with Many Relevant Feature. Proceedings of 10th European Conference on Machine Learning, New York.
[
3
]
Cosatto, E., Bottou, L., Dourdanovic, I., et al. (2004) Parallel Support Vector Machines: The Cascade SVM. Neural Information Processing Systems, 2004.
[
4
]
李荣陆, 胡运发. 基于密度的KNN文本分类器训练样本裁剪方法[J]. 计算机研究与发展, 2004, 41(4): 539-545.
[
5
]
Dean, J. and Ghemawat, S. (2008) MapReduce: Simplified Data Processing on Large Clusters. Communications of the ACM, 51, 107-113.
http://dx.doi.org/10.1145/1327452.1327492
[
6
]
陈雨杰. 文本分类中特征选择算法研究[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2015.
[
7
]
施聪莺, 徐朝军, 杨晓江. TFIDF算法研综述[J]. 计算机应用, 2009, 29(S1): 57-60.
[
8
]
张爱华, 靖红芳, 王斌, 等. 文本分类中特征权重因子的作用研究[J]. 中文信息学报, 2010, 24(3): 97-104.
[
9
]
江小平, 等. 云计算环境下朴素贝叶斯文本分类算法的实现[J]. 计算机应用, 2011, 31(9): 2551-2554.
[
10
]
朱杰. 云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用[D]: [硕士学位论文]. 成都: 电子科技大学, 2010.
[
11
]
何元. 基于云计算的海量数据挖掘分类算法研究[D]: [硕士学位论文]. 成都: 电子科技大学, 2011.
投稿
为你推荐
友情链接
科研出版社
开放图书馆