《大连海事大学》

Lucene全文检索在网络教学平台中的应用研究

作者:
陈宁

关键词:
全文检索lucene文本抽取中文分词struts框架

摘要:
目前,伴随着因特网的普及,教育资源中的网页信息、各种类型的课件资源和电子信息载体也不断产生。这些海量的信息和资源是学校的财富,如何利用好学校各种形式的教育资源显得尤为重要。因此,针对网络教学平台的教育资源研究并定制一个全文检索系统是必要的。 本文分析了现有的网络教学资源检索系统存在的不足,探索出将定制的专业全文检索引擎与网络教学平台相结合的思路,首次提出并实现了分词优化组合的分词方案,即用匹配度和检索效率更高的词典/语法切词与具备较大灵活性的单字切分相结合的分词方法,从而达到透彻地分析用户输入的查询请求,以保证检索结果的质量和灵活性。本文对网络教学平台中各种格式的教育资源进行有针对性地文本抽取,如对HTML网页、PDF文件、Office文档、Text文件、试题库资源等进行文本抽取,最终转换成建立索引所需要的固定结构,从而支持网络教育平台中各种资源的全文检索。另外,为了更好的改善索引的更新策略,笔者采用了定时器启动和手工启动相结合的方案,使得索引的更新变得更加智能化。 本文介绍了基于Struts框架以及Lucene全文检索引擎工具包等关键技术的原理。并根据网络教学平台的需求,采用UML统一建模语言和程序设计流程图的方法,对所实现的全文检索系统中各个功能模块和有关程序进行了详细的描述,其中包括:原始内容组织、总体设计、UML建模、Struts编程实现各功能模块、测试以及发布等一系列的软件生命周期阶段。 通过在网络教学平台上的应用测试,证明了:本文针对教育信息化和网络化的需求特点,采用分词优化组合的方法以及对各类型文档分别进行信息抽取的方法,在网络教学平台上构建一个全文检索引擎是成功的,可以对网络教学平台站内网页信息全文检索,对课件资源库中各种文档如PDF文件、Office文档等进行全文检索,以及对考试系统的试题库进行全文检索。

在线下载

相关文章:
在线客服:
对外合作:
联系方式:400-6379-560
投诉建议:feedback@hanspub.org
客服号

人工客服,优惠资讯,稿件咨询
公众号

科技前沿与学术知识分享