1. 引言
在当今信息时代的大背景下,网络事件的发生会导致民众的热烈关注,在事件发展周期里,民众的高度关注可以导致社会恐慌或对社会和谐构成负面影响,因此近年党和国家对网络舆情的研究与监管也开始高度重视。目前,国内外对于网络热点事件的研究主要集中于网络事件的应急管理和网络事件本身的客观规律两个方面,这些研究主要的关注点都是在单个事件的发生、发展和演化机理等 [1] [2] [3] 。然而在如今的信息爆炸时代网络事件舆论关联是普遍存在的,事件通过共同主体、主题或情绪等共性因素相互联系,可以认为具有相同或相似事件原型的多个事件可构成一个事件群,它们会因为相同或相似事件的发生而被强化和突出。
在网络事件主体关联中,事件的舆情演化由于明显或不明显、直接或间接的主体因素互相关联,例如陈世峰杀人事件、药家鑫事件、我爸是李刚事件的主体均为“富二代”、“官二代”,在事件的演化周期中,网民的舆论热点在某一时期不可避免的关注在富二代这一群体上面,则我们认为这些网络热点事件是相互关联的。在网络事件主题关联中,事件的舆情演化由于存在相同或相似的主题而产生联系,比如天津港爆炸事故、日照石大化工爆炸、昆明爆炸案的主题均含有“爆炸”、“意外事故”等,则认为这些事件是存在关联的。这些具有关联的事件我们称为事件群,而事件群之间会产生相互影响。
基于上述思想,本文提出了一种基于差异度的网络事件群演化趋势建模方法。该方法将多个关联事件的热度演化图经平移缩放投影到同一时间轴空间中,加入事件的关联信息,不断更新矩阵中心,最小化目标函数以求找到差异度最小的事件群的热度演化曲线。实验证明该方法得出的事件群演化曲线更能反映各个事件统一的发展特性。
2. 相关研究
2.1. 事件演化相关研究
在事件演化分析研究方面,主要的关注点都是在单个事件的发生、发展和演化机理等,吕楠、罗军勇 [2] 等人提出一种基于多向量模型的事件演化分析算法,该算法可以发现话题中各个事件间的演化关系,解决了话题追踪技术不能对话题全局演化进行分析的问题;张辉、李国辉 [3] 等人为了更好的发现话题中事件的关系,利用事件的时间、内容、命名实体关系建立新的演化关系模型,并提出一种新的新闻事件演化建模方法,该方法可以准确检测事件演化并揭示事件发展的潜在关系;廖君华、孙克迎 [4] 等人结合LDA主题模型和中文时间识别技术设计并实现了一个网络时序主题演化系统HTAS,该系统能够快速获取和存储网络热点话题并有效分析其演化趋势;Leskovec等人 [5] 提出面向话题时间序列的K_SC聚类算法,它能较好地刻画话题内在发展趋势特征,但是却无法联系事件间的关联。
2.2. 热度定义相关研究
对网络事件热度定义的研究,主要分为两种方法:其一是直接将事件的报道数或点击数作为热度。其二是综合考虑多方面因素定义事件的热度,一般是将时间,转发量,点击率等加权求热度。例如孟琼瑶 [6] 在对网络热点事件热度进行预测时采用新闻的点击数和转发量作为事件的热度值;何炎祥 [7] 等人将各话题的发帖数量作为话题热度,并以此为基础改进了人口模型。郑志蕴 [8] 等人在内容特征、博主特征和传播特征三个方面对热门微博进行特征分解,并使用信息增益算法对微博的热度进行度量;Pal [9] 等人在Twitter数据集上将发帖数、回复数、转发数、粉丝数、被引用数引入热度的计算中。
3. 基于差异度的网络事件群演化趋势建模
3.1. 事件的语义指纹
当我们看见一个词语“苹果”,并且这时看见“苹果”的解释语句“苹果是蔷薇科树的食用水果,亦指苹果树,果实圆形,有红、黄或淡绿等色,味甜或略酸”时,我们会在脑中建立起“苹果-水果”,“苹果-圆形果实”等关系对。于是,杨柳、何婷婷 [10] 等人提出了基于网络百科全书的中文词语的语义指纹概念,用语义标签对应词或短语,用语义指纹表示词或短语的相关词群并计算相关词群对语义标签的贡献度。通过词语的语义指纹即词语与相关词群的相关度,人们可以很容易学习理解词或短语的意思。
根据词语的语义指纹的思想,孟琼瑶 [6] 提出了事件的语义指纹的概念,以事件为标签词,根据事件的表示特征,以人物、时间、地点、主要内容为语义指纹,它们分别为事件的贡献度即语义指纹对标签词的贡献度。事件的语义指纹可以从事件的四个要素特点来描述一个事件,与传统的文本向量相比更加完善的表达事件相关内容。
本文将事件根据事件的语义指纹表示为事件模板,即表示事件的向量,由事件内容特征四个方面的语义指纹对组成。表示形式为:
(1)
其中,t为事件的语义指纹中事件主体、主题、时间及地点的特征词,w为特征词t对事件的贡献度。
3.2. 基于相似度的曲线差异度计算方法
3.2.1. 曲线的差异度计算
Leskovec等人 [11] 在2011年提出面向话题时间序列的K_SC聚类算法,它能较好地刻画话题内在发展趋势特征,本文认为具有相同或相似事件原型的多个事件可构成一个事件群,为了探究事件群的演化趋势,本文加入了事件的关联因素,提出了基于事件相似度的曲线差异度计算方法,首先,本文提出了两个假设,如果两个事件热度演化图有非常相似的形状,但在y轴上的投影不同,这两个事件演化趋势仍然应该被认为是相似的。因此,在y轴上缩放时间序列不应该改变相似性。其次,即使两个事件的演化图可能会被移动,由于他们有相似的形状其演化趋势应该被认为是相似的。因此,转换事件演化图的时间轴不应该改变两个时间序列之间的相似性。也就是说本文认为任意两个事件的时序热度的相似性只与它们的趋势走向有关,而和它们的峰值数值以及在何时达到峰值无关。
在事件群中,事件和事件间具有主体、主题等共性因素,本文将事件的相似度作为事件在事件群演化中所占权重,将事件成功表示成事件模板向量后,接下来就是计算事件的相似度,本文采用基于余弦相似度的思想计算事件的相似度,设事件E1和事件E2分别为:
(2)
(3)
则事件的相似度为:
(4)
其中,
表示特征词
是事件
与事件
模板向量的共同元素,
表示
对事件
的贡献度,
表示
对事件
的贡献度,
和
分别表示两事件
和
的模板大小。
1) 两个事件曲线的差异度计算
首先,我们采用一个不变的距离度量公式来缩放时间序列 [12] 。给定两个事件
和
的热度演化时间序列
和
,这两个事件的热度曲线
和
之间的差异度
定义如下:
(5)
其中,
详见式(4),表示两个事件和
的相似度,
是将时间序列
移位q个时间单位的结果,在实验中,我们将两个时间序列的第一个峰值对齐来找到q,而a为缩放的比例系数,我们计算已知q的最优缩放比例系数a的方法为:
当q确定时,
是一个关于a的凸函数,因此我们可以用求偏导的方法求得最优的缩放比例系数a:
,具体推导过程如下:
令
,对a求偏导有:
(6)
令
,可以得到:
(7)
(8)
2) 事件群曲线与多事件曲线集合之间的差异度计算
事件群可以看作是多个相关事件的集合,我们用集合
表示多个事件的曲线集合(即事件群的曲线集合),
表示事件群的热度演化时间序列,则事件群曲线
与多事件曲线集合C之间的差异度
定义如下:
(9)
3.2.2. 事件群演化曲线的生成
接下来,本文采用迭代算法的思想,不断更新事件群的热度演化曲线,以求找到差异度最小的事件群的演化曲线。因为本文不是求所有时间序列距离的平方和的最小值,仅仅只更新新的事件群时间序列为所有事件演化时间序列的平均数是不合适的,所以新的事件群曲线
应该是在所有热度演化时间序列集合C上的
的和的最小值,即定义新的事件群的热度演化时间序列
如下:
(10)
由于在平移步骤中找到了最佳平移系数
,然后用最优缩放比例系数代入
,得到:
(11)
化简后可以得到:
(12)
最后,用M代替
得到
,如下:
(13)
如果我们通过乘以M的特征向量转换
,
相当于M的特征值的加权和,其最小值是
,
是特征向量
到矩阵M的最小特征值
。因此,公式(12)是
让
达到最小值。由于M是由时间序列
得出的,我们可以说为新的矩阵中心(即事件群曲线)
找到最小的特征向量M。
4. 实验与分析
4.1. 实验数据
本章实验数据来自爬取新浪新闻中心的历年新闻语料经处理后得到的新闻事件,本实验选取了18个事件群,共计2012篇新闻文本作为数据集,事件群及其包含事件列表如表1。
4.2. 评价指标与对比方法
本文的研究目标是得到事件群的演化趋势图,最终的结果与单个事件的演化图差异应该越小越好,因此我们用F-Value(F值)来作为本章实验的评价指标,F值反映了事件群中与各个事件热度演化的紧凑程度,F值越小表明越紧凑差,异越小。其计算方法如下(公式):
(14)
其中,
是事件群中某个事件的热度演化序列,
是得到的事件群的热度演化序列。
为了验证本章实验的有效性,将本章提出的方法与其他两种方法进行比较。
方法1:算术平均,事件群中几个事件的热度算术平均得到事件群演化结果。
Table 1. Network event groups and event lists
表1. 网络事件群及事件列表
方法2:相似度加权平均,将事件群中几个事件的相似度作为权重对热度进行加权平均得到事件群演化结果。
4.3. 实验结果分析
以暴力恐怖事件群为例,其由5个主题相关事件组成,分别是3·1昆明火车站暴力恐怖袭击事件、4·30乌鲁木齐火车站爆炸事件、12·28墨玉县暴恐袭击事件、7·18新疆和田暴恐事件、10·28金水桥暴力恐怖袭击事件,以新闻报道的评论数作为热度,按天进行划分,选取从事件发生开始的前十五天的热度值。关联事件的事件热度演化趋势如图1所示。
在本实验中得到的事件群热度演化曲线结果如图2所示,可以看出这些关联事件构成的事件群的演化趋势是一个快速上升到达波峰后开始下降并伴随波动逐渐趋于平稳的走势,并且事件群的演化趋势对应于单个事件的走势基本相同(对应图1的(a)~(e))。对于暴力恐怖事件群的热度走势分析,是由于在事件刚发生时报道量和网民关注度激增,此时报道主要关注在恐怖袭击造成的人员伤亡和恐怖分子的残暴行为从而带动网民的愤怒、惊恐等情绪,随着报道量和关注度的增加事件热度会在3至4天左右达到峰值,之后随着恐怖分子被抓获及政府有关部门的积极处理,网民的关注度会逐渐减弱,事件的热度也会逐渐趋于平稳。
表2给出了18个事件群演化曲线在三种方法中的F值(越小越好),从表2可以看出本文提出的基于
(a) (b) (c) (d) (e)
Figure 1. Heat evolution map of event
图1. 事件的热度演化图
相似度的曲线差异度计算方法在F值上优于另外两个求事件群热度曲线的方法,所以本文提出的方法得出的事件群演化曲线更能反映各个事件统一的发展特性。
5. 结束语
本文基于事件与事件间存在关联的思想提出了一个网络事件群演化趋势建模方法。该方法将多个关
Figure 2. The heat evolution map of the violent terrorist event group
图2. 暴力恐怖事件群的热度演化图
Table 2. F values of three methods under different event groups
表2. 三个方法在不同事件群下的F值
联事件的热度演化图经平移缩放投影到同一时间轴空间中,加入事件的关联信息,不断更新矩阵中心,最小化目标函数以求找到差异度最小的事件群的热度演化曲线。实验证明该方法得出的事件群演化曲线更能反映各个事件统一的发展特性。找到事件群的演化趋势结果,当发生类似事件时我们可以通过事件群的演化趋势判断事件的演化趋势,可以更好地帮助政府有关部门把控网络热点事件的舆情发展态势,提高网络舆情监管功效。
基金项目
教育部人文社会科学研究基金项目(项目批准号:15YJC870029);国家语委科研项目(No.YB135-40);华中师范大学中央高校基本科研业务费项目(No.CCNU16GD010)。