学术期刊

在线客服：
对外合作：

联系：400-6379-560
feedback@hanspub.org

客服号

人工客服，稿件咨询

公众号

科技成果分享

北京化工大学

基于朴素贝叶斯的网页自动分类技术研究

作者:
李晋松

关键词:
数据挖掘；网页分类；朴素贝叶斯；信息过滤

摘要:
文本与网页分类技术是文本挖掘和网络挖掘的一项重要研究内容,已成为数据挖掘领域技术发展的热点之一。随着数据处理工具、先进数据库技术以及网络技术迅速发展,大量的形式各异的复杂类型的数据(如结构化与半结构化数据、超文本与多媒体数据)不断涌现。因此数据挖掘面临的一个重要问题就是针对复杂数据类型的挖掘,这包括复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和Web数据。该选题是建立基于一定分类算法的网页文本分类模型,研究怎样合理利用网页文本内容信息、链接结构信息、用户使用信息,将这三种类别信息整合起来达到较为完整的反映页面所属类别的目的,并在此基础上建立针对特定网页信息的过滤系统。论文介绍了一种结合网页的使用者信息及其链接结构层次的中文网页分类方法,和传统的仅仅基于网页内容的或网页链接的分析方法不同,本论文提出的这种方法能够充分利用其他的Web类信息,诸如用户的使用信息和链接层次信息,以达到改进或增强网页分类器的效果和特点,并在此基础上采集数据进行了实验,通过对得到结果的分析,证明这种方法是有效的。此外在文章的最后部分分析了网页分类方法在信息过滤技术中的应用,结果证明利用用户信息可以提高过滤的准确度。

在线下载

免费下载

基于改进朴素贝叶斯算法Android恶意应用的检测研究
Detection of Malicious Application Based on Improved Naive Bayesian Algorithm Android

石汝振

安防技术Vol.4 No.3, 全文下载: PDF HTML XML DOI:10.12677/JSST.2016.43006, September 12 2016