基于DOM树统计关键词路径的WEB信息提取研究
Research on WEB Information Extraction Based on DOM Tree Statistics Keyword Path
摘要:
根据用户的需求提取WEB信息在WEB数据挖掘领域中起着重要的作用。本文以提取公司官网上的产品列表为目标,提出了一种基于DOM树统计关键词路径的方法来确定关键路径,根据关键路径来确定提取内容。过程主要分为候选关键词组的获取、企业公司官网产品页面的获取、web页面的DOM树建立以及确定关键路径及提取。本文提出了一种解决不同公司官网上网页结构差距较大问题的信息提取的方法。并且根据该方法实现了在汽车零部件生产厂商官网上提取需要的产品信息。
Abstract:
Extracting WEB information according to users’ requirements plays an important role in WEB data mining. Aiming at extracting the list of products on the company website, this paper proposes a method based on DOM tree statistics keyword path to determine the critical path and extract content according to the critical path. It is mainly divided into the acquisition of key phrase candidates, the acquisition of the product page of the company’s official website, the establishment of the DOM tree of the web page, and the determination of the key path and extraction. This paper proposes an information extraction method to solve the problem of large difference in web page structure on different companies’ official websites. According to this method, the required product information is extracted from the official website of the auto parts manufacturer.
参考文献
|
[1]
|
施生生. 精确Web信息抽取关键技术与系统研究[D]: [博士学位论文]. 南京: 南京大学, 2017.
|
|
[2]
|
王一洲, 陈星, 戴远飞. 基于网页聚类的正文信息提取方法[J]. 小型微型计算机系统, 2018, 39(1): 111-115.
|
|
[3]
|
孙景春. 基于视觉块识别的网页元数据提取方法[D]: [硕士学位论文]. 南京: 东南大学, 2017.
|
|
[4]
|
马金娜. 基于DOM树节点重要度的WEB主题信息提取研究[D]: [硕士学位论文]. 重庆: 西南大学, 2016.
|
|
[5]
|
高峰, 刘震, 高辉. 结合有监督广度优先搜索策略的通用垂直爬虫方法[J]. 计算机工程, 2018, 44(11): 289-299.
|
|
[6]
|
赵朗. 基于深度学习的Web信息抽取研究与实现[D]: [硕士学位论文]. 杭州: 浙江大学, 2017.
|
|
[7]
|
王健. 基于Hadoop的Web页面正文抽取技术的研究[D]: [硕士学位论文]. 南京: 南京邮电大学, 2017.
|
|
[8]
|
鲁雷. 基于标签的网页信息抽取方法研究[D]: [硕士学位论文]. 青岛: 中国石油大学(华东), 2016.
|
|
[9]
|
寇月, 李冬, 申德荣, 于戈, 聂铁铮. D-EEM: 一种基于DOM树的Deep Web实体抽取机制[J]. 计算机研究与发展, 2010, 47(5): 858-865.
|
|
[10]
|
毛凯. 基于Jsoup的通用网页采集系统的设计与实现[D]: [硕士学位论文]. 成都: 电子科技大学, 2015.
|
|
[11]
|
张瑞雪, 宋明秋, 公衍磊. 逆序解析DOM树及网页正文信息提取[J]. 计算机科学, 2011, 38(4): 213-215, 225.
|