北京化工大学

基于朴素贝叶斯的网页自动分类技术研究

作者:
李晋松

关键词:
数据挖掘网页分类朴素贝叶斯信息过滤

摘要:
文本与网页分类技术是文本挖掘和网络挖掘的一项重要研究内容,已成为数据挖掘领域技术发展的热点之一。随着数据处理工具、先进数据库技术以及网络技术迅速发展,大量的形式各异的复杂类型的数据(如结构化与半结构化数据、超文本与多媒体数据)不断涌现。因此数据挖掘面临的一个重要问题就是针对复杂数据类型的挖掘,这包括复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和Web数据。该选题是建立基于一定分类算法的网页文本分类模型,研究怎样合理利用网页文本内容信息、链接结构信息、用户使用信息,将这三种类别信息整合起来达到较为完整的反映页面所属类别的目的,并在此基础上建立针对特定网页信息的过滤系统。论文介绍了一种结合网页的使用者信息及其链接结构层次的中文网页分类方法,和传统的仅仅基于网页内容的或网页链接的分析方法不同,本论文提出的这种方法能够充分利用其他的Web类信息,诸如用户的使用信息和链接层次信息,以达到改进或增强网页分类器的效果和特点,并在此基础上采集数据进行了实验,通过对得到结果的分析,证明这种方法是有效的。此外在文章的最后部分分析了网页分类方法在信息过滤技术中的应用,结果证明利用用户信息可以提高过滤的准确度。

在线下载

相关文章:
在线客服:
对外合作:
联系方式:400-6379-560
投诉建议:feedback@hanspub.org
客服号

人工客服,优惠资讯,稿件咨询
公众号

科技前沿与学术知识分享