工程地质勘察文本的分类研究
Study on the Text Categorization of Engineering Geological Investigation
摘要:
伴随着信息技术的不断发展,电子文本信息日益增多,文本自动分类作为处理海量文本信息,方便用户准确搜索所需信息的关键技术,其应用十分广泛。本文从提高分类准确率的角度出发,以《铁路工程地质勘察规范》(TB1002-2007)的电子文本文档为训练标准,运用自然语言处理的分词原理对文本文档进行计算机与人工结合分词,然后针对文本文档的分词结果进行特征降维技术处理,对词条计算词频后,根据词频大小筛选出词频较高的词语作为最终的地质勘察语料库,该语料库包含了地质专业相关术语。最后利用机器学习对分词后的文本文档进行自动分类,在对比多种分类算法的分类结果后,本文发现针对地质勘探数据类别不平衡性,选择K近邻分类器对文本文档分类的效果较为理想。
Abstract:
With the development of information technology, electronic text information is increasing. Auto-matic text categorization is a key technology that can facilitate users to obtain the required infor-mation accurately in the mass text information resources. It enjoys a wide application in various fields. From the perspective of improving the classification accuracy, this paper used the “Teleo-logical Survey Specification for Railway Engineering Geology” (TB1002-2007) as the training standard. Firstly, based on the word segmentation principle of natural language processing (NLP), the text document is segmented by computer and human. Then the feature reduction technique is applied to the word segmentation results of text documents. The words with high word frequency are selected as the final geological survey corpus. The corpus contained geological terminology. Finally, machine-learning methods are used to automatically classify the text after word segmen-tation. After comparing the classification results of various classification algorithms, this paper finds that selecting K-nearest neighbor classifier is more ideal than the others due to unevenness of geological exploration data classification.
参考文献
|
[1]
|
张金瑞. 基于LDA的文本自动分类研究及其应用[D]: [硕士学位论文]. 郑州: 郑州大学, 2016.
|
|
[2]
|
黄瑜青. 基于支持向量机的文本自动分类器的研究与应用[D]: [硕士学位论文]. 广州: 广东工业大学, 2012.
|
|
[3]
|
石佳, 蔡皖东. 基于N元语法的汉语自动分词系统研究[J]. 微电子学与计算机, 2009, 26(7): 98-101.
|
|
[4]
|
陈建英. 面向中文地址的分词引擎设计及实现[D]: [硕士学位论文]. 北京: 中国科学院大学(工程管理与信息技术学院), 2015.
|
|
[5]
|
邬启为. 基于向量空间的文本聚类方法与实现[D]: [硕士学位论文]. 北京: 北京交通大学, 2014.
|
|
[6]
|
刘海峰, 姚泽清, 刘守生, 等. 基于聚类降维的改进KNN文本分类[J]. 计算机科学, 2009, 36(11): 18-20.
|
|
[7]
|
化柏林. 基于NLP的知识抽取系统架构研究[J]. 现代图书情报技术, 2007, 2(10): 38-41.
|
|
[8]
|
刘建培. Chinese Split Word Design Based on Delphi基于Delphi的中文分词设计[J]. 计算机系统应用, 2009, 18(3): 156-160.
|
|
[9]
|
吴巧玲. 中文分词算法在自然语言处理技术中的研究及应用[J]. 信息与电脑: 理论版, 2011(12): 39-40.
|
|
[10]
|
郭武, 朱明明, 杨红兵. 基于隐马尔科夫模型的RCS识别方法研究[J]. 现代雷达, 2013, 35(3): 37-40.
|
|
[11]
|
杨丽华, 戴齐, 郭艳军. KNN文本分类算法研究[J]. 微计算机信息, 2006, 22(21): 269-270.
|