基于词语动能聚类的社会化媒体热点话题发现建模与优化方法
Modeling and Optimization of Hot Topic Discovery in Social Media Based on Clustering of Word Kinetic Energy
DOI: 10.12677/ECL.2019.81006, PDF,    国家自然科学基金支持
作者: 吴应良*:华南理工大学经济与贸易学院电子商务系,广东 广州;华南理工大学现代服务业研究院商务智能研究中心,广东 广州;黄开梅:华南理工大学经济与贸易学院电子商务系,广东 广州
关键词: 大数据分析话题发现TF-IDFSingle-Pass词语突发性词语动能新浪微博 Big Data Analysis Topic Discovery TF-IDF Single-Pass Word Suddenness Word Kinetic Energy (WKE) Sina Microblogs
摘要: 在社会化媒体情境下,社会化媒体舆情已成为社会舆情的新视域,社会化大数据分析正显现出日益重要的社会价值和商业价值。在新兴的社会化大数据管理领域,热点话题发现是网络舆情分析和数据治理基础而重要的课题,人们一直在研究和探索先进和适用的热点主题挖掘的理论和方法。针对传统的聚类算法用于微博话题检测时,存在特征向量过于稀疏和维度过高等问题,导致聚类结果不准确。本文通过对在话题传播周期中词语的突发性特征的研究,提出了一种基于传播周期的词语动能聚类(Word Kinetic Energy Clustering, WKEC)模型和算法。该文本聚类模型基于话题生命周期特性,引入物理学中的动能概念,用词语在话题爆发期的最大增长速度来表征词语的动能,并加入到词语权重的计算中,对经典的TF-IDF模型进行了改造。基于Single-Pass的算法设计和新浪微博真实数据集的实验结果表明,WKEC模型可以增强文本特征,提高话题发现的准确率。另外,由于微博话题实时性强,为了得到更接近真实的微博热点话题列表,本文在话题热度计算中引入衰减系数,并以爆发期尾部时间点作为话题热度开始衰减的时刻,给出了一种更加符合实际的话题热度计算方法。
Abstract: In the context of social media, social media public opinion has become a new perspective of social public opinion. Social big data analytics is showing an increasingly important social and business value. In the emerging field of social big data management, the discovery of hot topics in microblog is the basic and important issues for government public opinion analysis and data management; people have been studying and exploring advanced and applicable theories and methods of hot topic mining. However, when the traditional clustering algorithm is used in the microblog topic detection, the eigenvectors are too sparse and over-dimensioned, resulting in inaccurate clustering results. Therefore, this article explores the sudden features of words in the cycle of topic communication, and proposes the Word Kinetic Energy Clustering (WKEC) model and algorithm. The text clustering model, based on the topic life cycle feature, introduces the concept of kinetic energy theorem in physics, and calculates the kinetic energy of words with the maximum growth rate in the explosion period, which will be added to the weight of the words, modifying the classic TF-IDF model. Based on the algorithm design of Single-Pass and the real dataset from Sina Microblogs, the experimental results show that WKEC model can enhance the text features and improve the accuracy of topic discovery. In addition, due to the strong real-time of microblogging topic, in order to get closer to the real microblogging hot topic list, this article introduces the attenuation coefficient into the calculation of topic heat, and takes the tail time point of the explosion period as the decay moment of topic heat, proposing a more realistic method for the calculation of topic heat.
文章引用:吴应良, 黄开梅. 基于词语动能聚类的社会化媒体热点话题发现建模与优化方法[J]. 电子商务评论, 2019, 8(1): 40-51. https://doi.org/10.12677/ECL.2019.81006

参考文献

[1] Lee, I. (2017) Big Data: Dimensions, Evolution, Impacts, and Challenges. Business Horizons, 60, 293-303. [Google Scholar] [CrossRef
[2] 冯芷艳, 郭迅华, 曾大军, 等. 大数据背景下商务管理研究若干前沿课题[J]. 管理科学学报, 2013, 16(1): 1-9.
[3] Ahmad, S.N. and Laroche, M. (2017) Analyzing Electronic Word-of-Mouth: A Social Commerce Constructs. International Journal of Information Management, 37, 202-213. [Google Scholar] [CrossRef
[4] 郑大庆, 黄丽华, 张成洪, 等. 大数据治理的概念及其参考架构[J]. 研究与发展管理, 2017, 29(4): 65-72.
[5] 刘社瑞, 唐双. 自媒体时代微博舆情演化与应对策略[J]. 求索, 2011(10): 86-87, 171.
[6] 杜治娟. 社会媒体大数据分析研究综述[J]. 计算机科学与探索, 2017, 11(1): 1-23.
[7] 唐晓波, 房小可. 基于文本聚类与LDA相融合的微博主题检索模型研究[J]. 情报理论与实践, 2013, 36(8): 85-90.
[8] 徐雅斌, 李卓, 吕非非, 等. 基于频繁词集聚类的微博新话题快速发现[J]. 系统工程理论与实践, 2014, 34(S1): 276-282.
[9] 梁晓贺, 田儒雅, 吴蕾, 等. 基于超网络的微博舆情主题挖掘方法[J]. 情报理论与实践, 2017, 40(10): 100-105.
[10] 黄发良, 冯时, 王大玲, 等. 基于多特征融合的微博主题情感挖掘[J]. 计算机学报, 2017, 40(4): 872-888.
[11] Yan, X. and Zhao, H. (2013) Chinese Microblog Topic Detection Based on the Latent Semantic Analysis and Structural Property. Journal of Networks, 8, 917-923. [Google Scholar] [CrossRef
[12] Yang, L., Lin, H.F., Lin, Y., et al. (2016) Detection and Extraction of Hot Topics on Chinese Microblogs. Cognitive Computation, 8, 577-586. [Google Scholar] [CrossRef
[13] Li, W.J., Feng, Y.M., Li, D.J., et al. (2016) Micro-Blog Topic Detection Method Based on BTM Topic Model and K-Means Clustering Algorithm. Automatic Control and Computer Sciences, 50, 271-277. [Google Scholar] [CrossRef
[14] Zhao, Y.Y., Qin, B., Liu, T., et al. (2016) Social sentiment Sensor: A Visualization System for Topic Detection and Topic Sentiment Analysis on Microblog. Multimedia Tools and Applications, 75, 8843-8860. [Google Scholar] [CrossRef
[15] 袁华, 徐华林, 钱宇, 等. 域内海量数据中热点话题及其特征词抽取方法[J]. 管理工程学报, 2018, 32(4): 133-140.
[16] 牛奉高, 张亚宇. 基于共现潜在语义向量空间模型的语义核构建[J]. 情报学报, 2017, 36(8): 834-842.
[17] 薛薇. 基于突发性诊断的网络热点事件识别方法[J]. 统计与决策, 2015(15): 8-12.
[18] 仲兆满, 管燕, 李存华, 等. 微博网络地域Top-K突发事件检测[J]. 计算机学报, 2018, 41(7): 1504-1516.
[19] 郑斐然, 苗夺谦, 张志飞, 等. 一种中文微博新闻话题检测的方法[J]. 计算机科学, 2012, 39(1): 138-141.
[20] 林思娟, 林柏钢, 许为, 等. 一种基于词语能量值变化的微博热点话题发现方法研究[J]. 信息网络安全, 2015(10): 46-52.
[21] 金镇晟. 基于改进的TF-IDF算法的中文微博话题检测与研究[D]: [硕士学位论文]. 北京: 北京理工大学, 2015: 26-29.
[22] Wu, Y. and Wu, W. (2015) Modeling Topic Popularity Dis-tribution and Evolution in an Online Discussion Forum. Journal of Computational Information Systems, 18, 6797-6810.
[23] 何跃, 蔡博驰. 基于因子分析法的微博热度评价模型[J]. 统计与决策, 2016(18): 52-54.
[24] 裴可锋, 陈永洲, 马静. 基于DTPM模型的话题热度预测方法[J]. 情报杂志, 2016, 35(12): 52-57.
[25] 杨冠超. 微博客热点话题发现策略研究[D]: [硕士学位论文]. 杭州: 浙江大学, 2011: 26-27.
[26] 薛峰, 周亚东, 高峰, 等. 一种突发性热点话题在线发现与跟踪方法[J]. 西安交通大学学报, 2011, 45(12): 64-69 + 116.
[27] 姚海波. 微博热点话题检测与趋势预测研究[D]: [硕士学位论文]. 广州: 华南理工大学, 2013: 23-38.
[28] 孙胜平. 中文微博客热点话题检测与跟踪技术研究[D]: [硕士学位论文]. 北京: 北京交通大学, 2011: 38-40.
[29] 洪宇, 张宇, 刘挺, 等. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报, 2007(6): 71-87.
[30] 孟小峰, 李勇, 祝建华. 社会计算: 大数据时代的机遇与挑战[J]. 计算机研究与发展, 2013(12): 2483-2491.
[31] 吴应良, 黄媛, 王选飞. 在线中文用户评论研究综述: 基于情感计算的视角[J]. 情报科学, 2017(6): 159-163, 170.
[32] 王玮, 温世阳. 情感分析在社会化媒体效果研究中的应用——基于分类序列规则的微博文本情绪分析[J]. 国际新闻界, 2017, 39(4): 63-75.