《华东师范大学》

基于Lucene搜索引擎的中文全文信息检索技术的研究

作者:
励子闰

关键词:
Lucene搜索引擎中文分词文档相关度排序全文信息检索

摘要:
随着网络信息资源的急剧增长,人们对于如何快速有效地从海量的网络信息中,抽取出对其有价值的、潜在的信息,使之能有效地被应用在管理和决策中给予了越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要的有用信息,节省了用户的时间,提高了用户的工作效率。信息检索中的中文检索与西文检索在实现的机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。 论文首先阐述了与中文全文信息检索相关的关键技术,包括:信息检索的概念、中文分词算法的概念、文档相关度排序算法的概念。论文系统地比较分析了四种主要的中文分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法,总结了它们各自的优缺点及其在中文分词各个评价因素上的优劣特性。论文在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及主页加分方式,改进了原有的排序算法。 论文的主要工作是基于Lucene搜索引擎,设计并实现了一个中文全文信息检索原型系统。提出了对于算法和系统的各种改进,即索引预处理、关键词提示的操作优化、引入停止词分词算法、正向最大匹配算法的改进、逆向最大匹配算法的改进。通过实验,将改进后的词典分词方法与Lucene的自动切分方法:一元分词法和二元分词法进行比较后,验证了基于本文提出的改进的词典分词方法的优势。论文采用了基于用户行为的二次检索,Pagerank以及主页加分方式,改进后的文档相关度排序算法利用了用户对文档的主观评价,显著地提高了搜索系统的准确度。 最后,论文对基于Lucene搜索引擎的中文全文信息检索系统的实现方法进行了总结,并对未来进一步的研究工作进行了展望

在线下载

相关文章:
在线客服:
对外合作:
联系方式:400-6379-560
投诉建议:feedback@hanspub.org
客服号

人工客服,优惠资讯,稿件咨询
公众号

科技前沿与学术知识分享