《贵州大学》

基于Lucene的全文搜索引擎的应用研究

作者:
翟永恒

关键词:
搜索引擎网络机器人javaLuceneStrutsHibernateSpring

摘要:
在过去几年里,Internet的资源迅速增长,使web发展成为包含多种信息资源,站点遍布全球信息服务网络。在这样的大环境下,网络上出现了很多商业性的web搜索引擎,如Google、百度、sougo等,他们极大的方便了网络用户。但是由于他们是商业性质的,他们的关键技术对于外界是保密的。为推进搜索引擎技术的发展,Apache基金会jakarta推出了一个开源的全文索引工具包Lucene。 本文对搜索引擎的原理、组成、系统结构、工作流程等方面做了详细的分析和研究。搜索引擎的未来发展方向是个性化和专业化。对于不同类型的用户群搜索相同的内容将得到不同的更适合用户的搜索结果,这就是搜索引擎的个性化;而专业化则是指搜索引擎面向的是更加具体的垂直方向,这样对于搜索的精确度更加准确。 在理论的基础上,本文利用Bot包实现网络机器人的开发,从“酷讯网”爬下网页解析出所需的内容建立索引,同时基于Struts+Hibernate+Spring的J2EE框架搭建搜索引擎Web平台,利用lucene实现检索和索引的功能。本系统使用的Bot包是Jeff Heaton开发的一个Bot工具架构包;Lucene是Apache软件基金会的一个开源项目,完全由java实现,适用于需要全文搜索能力的应用程序,并具有良好的跨平台能力。

在线下载

相关文章:
在线客服:
对外合作:
联系方式:400-6379-560
投诉建议:feedback@hanspub.org
客服号

人工客服,优惠资讯,稿件咨询
公众号

科技前沿与学术知识分享