基于Solr/Lucene的数字化古籍书库的研究与实现
Research and Implementation of Digital Ancient Book Library Based on Solr/Lucene
DOI: 10.12677/CSA.2018.812211, PDF,    科研立项经费支持
作者: 陈晓涛*, 宋 尧, 叶 桦, 仰燕兰:东南大学自动化学院,江苏 南京
关键词: 古籍全文搜索引擎SolrNginxSpringBootAncient Books Full-Text Search Engine Solr Nginx SpringBoot
摘要: 为满足读者对古籍的检索阅读的需求,提高古籍的利用价值,保护古籍的完整性,并且针对大数据量下古籍搜索服务的效率低的问题,本文设计并构建了一种以Solr/Lucene全文搜索技术为核心,结合SpringBoot、Nginx等多门技术的数字化古籍书库系统。本文介绍了该系统的架构设计,首先提取古籍图书的元数据建立Solr索引,再利用SpringBoot搭建应用服务器,管理客户端与Solr数据中间的访问和存储,采用Nginx作为静态资源服务器,提供古籍图书图片的存储访问。经过测试和应用结果表明,该系统搜索结果齐全,包含了古籍的元数据信息和图片路径信息;搜索方式多样,响应时间短,系统检索时间大大优于传统的数据库检索。
Abstract: In order to meet the needs of readers for the retrieval and reading of ancient books, improve the value of ancient books, and protect the integrity of ancient books, under the large data volume of ancient books, this paper designs and constructs a Solr/Lucene full-text search ancient books library system for the low efficiency of ancient books search services, combined with SpringBoot, Nginx and other digital technologies. This paper describes the architectural design of the system. Firstly, the metadata of ancient books is extracted to establish Solr index, and then SpringBoot is used to build an application server to manage the access and storage between the client and Solr data. Nginx is used as a static resource server to provide storage access for ancient books and pictures. The test and application results show that the system has complete search results, including metadata information and picture path information of ancient books. The search methods are diverse, the response time is short, and the system retrieval time is much better than the traditional database retrieval.
文章引用:陈晓涛, 宋尧, 叶桦, 仰燕兰. 基于Solr/Lucene的数字化古籍书库的研究与实现[J]. 计算机科学与应用, 2018, 8(12): 1895-1905. https://doi.org/10.12677/CSA.2018.812211

参考文献

[1] 程启航. 中国民族古籍云平台及古籍SNS研发[D]: [硕士学位论文]. 银川: 北方民族大学, 2016.
[2] Vohra, D. (2016) Apache Solr. Practical Hadoop Ecosystem. Apress, Berkeley, CA, 349-376.
[3] 王永和, 张劲松, 邓安明, 等. Spring Boot研究和应用[J]. 信息通信, 2016(10): 91-94.
[4] 张云, 许江淳, 李玉惠, 等. 基于Nginx服务器负载均衡技术的研究与改进[J]. 软件, 2017, 38(8): 6-12.
[5] Zhou, B., Xia, X., Lo, D., et al. (2014) Build Predictor: More Accurate Missed Dependency Prediction in Build Configuration Files. 2014 IEEE 38th Annual Computer Software and Applications Conference (COMPSAC), Vasteras, 21-25 July 2014, 53-58. [Google Scholar] [CrossRef
[6] 杜星. 轻量级Web服务器Nginx的理论与技术研究[D]: [硕士学位论文]. 南京: 南京邮电大学, 2016.
[7] 孙毅芳. 基于数据挖掘的图书馆推荐系统的设计与实现[D]: [硕士学位论文]. 济南: 山东大学, 2017.
[8] 贾贺, 艾中良, 贾高峰, 等. 基于Solr的司法大数据检索模型研究与实现[J]. 计算机工程与应用, 2017, 53(20): 249-253.
[9] Sajja, K. (2007) Performance Study of Lucene in Parallel and Distributed Environments. Boise State University, Boise, Idaho, US.
[10] 邱宇芳. 基于SolrCloud大数据平台日志管理系统的设计与实现[D]: [硕士学位论文]. 北京: 中国科学院大学(中国科学院工程管理与信息技术学院), 2017.
[11] 赵亮. 基于Solr的企业搜索引擎研究与实现[D]: [硕士学位论文]. 北京: 中国地质大学(北京), 2017.
[12] Mogotsi, I.C., Manning, C.D., Raghavan, P. and Schütze, H. (2010) In-troduction to Information Retrieval. Information Retrieval, 13, 192-195. [Google Scholar] [CrossRef
[13] 兰冲. 基于统计规则的中文分词研究[D]: [硕士学位论文]. 西安: 西安电子科技大学, 2011.
[14] 韩冬煦, 常宝宝. 中文分词模型的领域适应性方法[J]. 计算机学报, 2015, 38(2): 272-281.
[15] 韩云辉. 基于Lucene的数字版权资源库的构建与应用研究[D]: [硕士学位论文]. 北京: 北方工业大学, 2013.