基于Hadoop的药品安全舆情的话题跟踪模型与算法
Topic Tracking Model and Algorithms for Drug Safety Public Opinion Based on Hadoop
DOI: 10.12677/CSA.2019.911230, PDF,    国家科技经费支持
作者: 张文学*, 王 莹:宁夏医科大学理学院,宁夏 银川;徐 静:宁夏医科大学公共管理研究中心,宁夏 银川
关键词: 药品安全舆情话题跟踪Hadoop朴素贝叶斯Drug Safety and Public Opinion Topic Tracking Hadoop Naive Bayes
摘要: 大数据时代如何从网络媒体发布的药品安全事件、药品安全监管及药品安全形势等医药新闻报道中跟踪药品安全舆情,是卫生部门和医药企业研判舆情的关键。本文利用八爪鱼采集器从某医药网获取2012年12月25日到2015年4月29日间9888条医药新闻,经数据清洗和人工识别选取了8类药品安全领域话题,共5667例实验数据。采用Hadoop平台和朴素贝叶斯分类算法实现药品安全话题跟踪。研究结果表明基于Hadoop平台的朴素贝叶斯分类算法的准确率较好、召回率较差、调和平均指标F1值为0.57时模型整体最佳。
Abstract: Track public opinion of drug safety and from online media news is beneficial to the health departments and pharmaceutical companies judging public opinion and making decisions quickly, accurately and efficiently. The medical news from December 25, 2012 to April 29, 2015 from a medical network is obtained by the Octopus collector. After data cleaning and manual selection, the experiments data are 5667 medical news including 8 categories of drug safety topics. The Hadoop platform and Naive Bayes classification algorithm are used to track drug safety topics. The research results show that the Naive Bayes classification algorithm based on Hadoop platform has better accuracy, poor recall rate and the best overall model when the F1 value is 0.57.
文章引用:张文学, 王莹, 徐静. 基于Hadoop的药品安全舆情的话题跟踪模型与算法[J]. 计算机科学与应用, 2019, 9(11): 2045-2051. https://doi.org/10.12677/CSA.2019.911230

参考文献

[1] 袁小量, 李冰倩. 食品药品安全事件网络舆情预警策略研究[J]. 中国市场, 2017(34): 87-88.
[2] 邓飞. 近九成食药安全舆情事件处置效果不理想[N]. 中国经济报, 2014-07-15(A01).
[3] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J]. 现代图书情报技术, 2015(2): 78-84.
[4] 刘晓欣. 中医药网络舆情分析与对策研究[D]: [博士学位论文]. 北京: 北京中医药大学, 2017.
[5] 李艳业. 冲突与对话: 新媒体语境下公共卫生危机传播研究[D]: [博士学位论文]. 兰州: 兰州大学, 2017.
[6] 刘能燕. 大数据时代政府舆情管理路径研究[D]: [博士学位论文]. 重庆: 西南政法大学, 2016.
[7] 李纲, 王晓, 叶光辉. 国内突发事件预警研究评述[J]. 情报理论与实践, 2017, 40(7): 138-144.
[8] 张雄宝. 基于突发词地域分析的微博突发事件检测方法研究[D]: [硕士学位论文]. 南宁: 广西大学, 2017.
[9] 杨柳. 面向食药安全主题的突发话题检测技术研究[D]: [硕士学位论文]. 成都: 电子科技大学, 2018.