1. 引言
随着通讯交流方式的改变,线上社交媒体已经成为人们获得消息的主要渠道,社交平台的信息也体现出体量大、复杂性高、关联性高[1]的特点。平台在为用户提供消息传播途径的同时,也会提供多种互动方式来增加消息的热度,扩大消息传播范围。在实际互动中,部分用户由于自身知识有限也会造成部分不实信息的二次转发。该类不实信息的广泛传播有可能在线上,甚至是线下带来负面影响。因此,探索线上平台的舆情传播机制和特点能帮助我们更好地管理舆情传播。
由于舆情传播和传染病传播在传播方式上具有相似性,现有的大部分舆情模型也会在经典感染病模型的基础上,结合实际舆情传播的特点开展相关研究,通过完善传播机制达到刻画传播的目的。文献[2]将不同个体的传播心理进行分类并模拟SIR (Susceptible-Infected-Removed)模型[3]传播过程提出DK (Daley-Kendall)谣言传播模型分析谣言的后续传播情况。文献[4]考虑了传播概率的动态性并结合SEIR (Susceptible-Exposed-Infectious-Removed model)模型[5]的感染机制完善传播过程并构架了双层舆情传播模型。文献[6]在SI (Susceptible-Infected)模型[7]的基础上考虑了个体的自调节机制,并分析舆情传播平衡点与该点周围参数变化对传播的影响。文献[8]则在舆情传播过程中增加了休眠者这一状态,并引入遗忘和记忆机制,建立了SIHR (Susceptible Infected Hibernator Removed)舆情传播模型。以上舆情模型在感染病模型的基础上,主要分析个体心理因素带来的影响并推导了相关理论内容。但在线上传播过程中,用户采取的互动方式能更直接地影响信息传播。
与此同时,网络作为消息传播的载体其不同结构和性质也会对消息传播带来不同程度的影响。目前,大部分舆情研究都集中在静态网络中,相关实验的网络也集中在WS小世界网络[9]、BA无标度网络[10]等。但在实际传播中,个体的连接并不是持续存在的,具有一定的动态性。例如,打电话[11]、发邮件[12]等通讯方式是特定时间内的消息传播。因此,时序网络[13]在静态网络的基础上增加了时间维度能更真实地模拟传播过程。时序网络从构造方法上主要分为两大类,主要有连接驱动法和活动驱动法。由连接驱动法构成的网络有边随机网络[13]、等权重边随机网络[14]等,而由活动驱动法构成的常见网络有活动驱动网络[15]等。如今,也有相关舆情模型的研究考虑到了网络动态性对传播的影响并展开相关分析。文献[16]在改进活动驱动网络的同时结合SIR模型提出了传播过程和接触网络协同演化的舆情模型并进行理论分析。文献[17]利用时序网络来描述不同线上平台间消息的传播并进行了理论推导。
考虑到现实网络的动态性和平台互动对舆情传播的影响,本文提出了一个基于时序网络的舆情传播模型,以此分析线上平台的舆情传播特点,并对该模型进行理论推导得出对应的传播公式和阈值。接着,对模型的相关参数进行分析还运用真实接触网络分析不同时间步长对传播的影响。最后,本文选取真实微博传播数据进行仿真实验并与经典的SIR模型进行对比证明模型的有效性。
2. 模型构建
2.1. 模型定义
如今,以微博、微信等社交媒体主导的线上平台,在提供发布消息渠道的同时,也会提供多种互动方式,如点赞、评论、转发等。互动方式能为消息带来热度并使其拥有更多的用户关注,更广泛的传播范围。因此在传播过程中加入对互动方式的刻画能好地描述传播过程。本文结合文献[18]的感染病传播模型,同样将人群分为四类:未知者
、轻度传播者
、重度传播者
、免疫者
。图1展示了传播过程中,不同状态的转换过程。
Figure 1. State transition diagram of propagation
图1. 传播的状态转变图
Table 1. Definition of propagation states and related parameters
表1. 传播状态及相关参数的定义
符号 |
定义 |
解释 |
|
未知者 |
不知晓信息的用户 |
|
轻度传播者 |
对信息进行单种形式互动的用户 |
|
重度传播者 |
对信息进行多种形式互动或者影响力大的用户 |
|
免疫者 |
对信息失去传播兴趣的用户 |
|
传播者 |
对信息进行互动的用户且不区分对信息的传播程度 |
|
轻度传播率 |
用户接触传播者后转变为轻度传播者的概率 |
|
重度传播率 |
用户接触重度传播者后转变为轻度传播者的概率 |
|
轻度免疫率 |
轻度传播者对消息失去兴趣转变为免疫者的概率 |
|
重度免疫率 |
重度传播者对消息失去兴趣转变为免疫者的概率 |
|
转换率 |
轻度传播者转变为重度传播者的概率 |
|
直接免疫率 |
用户直接转变为免疫者的概率 |
在传播时,对于未知者
,其可能会受到轻度传播者
的影响,从而参与信息互动变为轻度传播者
,也有可能受到重度传播者
的影响变为轻度传播者
或重度传播者
。对于轻度传播者
,其可能经过多次互动后转变为重度传播者
。在整个传播过程中,未知者
、轻度传播者
、重度传播者
都有一定概率对消息失去兴趣从而直接转变为免疫者
。表1解释了传播过程图1中相关状态和传播参数的定义。
接着,为了弥补上述传播过程在描述动态性方面的不足,本文再结合活动驱动网络[13]体现传播过程中网络的动态性。在活动驱动网络中,每个时刻
,节点
都会附上一个活跃值
。当节点被激活后,就会选择周围的
个节点连接。其中,
是缩放因子,
是活跃概率值,整个网络的节点活跃概率值遵循幂律分布函数
,其中
为幂律分布的指数。以上传播过程结合活动驱动网络就构成了基于时序网络的舆情传播模型。
2.2. 理论推导
结合现有研究和本文研究的传播特点可知,在较短时间内平台用户的变化并不明显,因此本文假设整个网络中节点个数为
且传播过程中总数不变展开研究。定义节点
,表示
时刻节点
处在
状态的概率,在计算时
也可能会被记为
,表示该节点为不区分轻度、重度的传播者。由活动驱动网络定义可知,节点产生连接的方式主要有两种,节点自身被激活或者与激活节点连接。重度传播者
在影响其他节点转变为传播者
时,该节点会以
的概率变为轻度传播者
,以
的概率变为重度传播者
,且
。
传播过程中,未知者
转变为轻度传播者
的概率为:
其中,
表示在
状态
节点激活后,与
或
状态节点连接的概率,如下:
同理,
表示
状态的
节点与被激活
或
状态节点连接的概率,如下:
类似地,由于传播过程中,只有受到重度传播者
的影响,未知者
才会转变为重度传播者
,结合未知者
转变为轻度传播者
的概率可得,未知者
转变为重度传播者
的概率如下:
传播过程中,未知者
接触可能会使其转变轻度传播者
的节点后,仍保持未知状态的概率为:

又因为
,并规定:
并且有
。类似得,定义

未知者
接触可能使其变为轻度传播者
的节点后,仍保持状态不变的概率为:

同理,未知者
节点接触可能使其重度传播者
的节点后,仍保持状态不变的概率为:
在整个传播过程中
,网络在每个时间区间
的连接是相互独立的,运用马尔可夫过程[19]相关知识,可以得到网络中的状态转换方程:
其中
表示了未知者
对消息有兴趣但未接触到传播者
从而保持自身状态不变的概率,公式中对应变量满足:
随着时间的推移,网络最后会到达平衡状态,可以得到传播状态方程满足:
当传播到达平稳状态后,传播阈值与传播者
相关且未知者
数量较少并满足
,结合状态转换方可得:
对于整个网络,平均传播概率为
平均免疫概率为
,结合上式可得:
对上式进行累加求和,可得:
其中,
表示网络中所有节点活跃值
的平均。对于
时刻的免疫者
,参考上式的求解方法可得:
其中
。
重新将
与
的对应公式写成与传播者
相关的矩阵形式可得:
当有谣言传播时
。网络处于稳态时,可以得到
,对于免疫者
相关参数满足:

当
时,通过化简后可得:
对于活动驱动网络满足
,将其带入公式并运用基本再生数[20]可以得到本文的基于时序网络的舆情传播模型的阈值定义如下:
可以发现虽然网络结构会随着时间的变化而发生改变,但模型的传播阈值与时间并不相关,只与网络的整体节点活跃值平均相关。
3. 实验模型
在现实生活中,人们的接触有小世界特性。人们只需要经过很少的中间人(平均6个)就可以与世界中的任何人建立联系[21]。在对模型进行介绍和理论分析后,本文基于python3.10进行仿真模拟,设置初始未知者
、轻度传播者
、重度传播者
,免疫者
,其中
。为了提高准确性,对传播过程进行100次实验取平均值来验证模型。本文除特殊规定,时序网络下的舆情传播模型参数设置为
。
3.1. 参数分析
为了探究静态网络和时序网络对传播的影响,本文在连接概率为0.5平均度为10的WS小世界网络中也进行了
传播实验。从图2可得,虽然两种网络最后都会到达平稳状态,但时序网络与静态网络相比,轻度、重度传播者的峰值会更低且对应峰值到来会更晚,但轻度、重度传播者的状态变化速度会更缓慢。
Figure 2. Public opinion propagation process in (a) static networks (b) temporal networks
图2. (a) 静态网络(b) 时序网络情况下的舆情传播过程
在传播中,平台整体活跃程度也会影响其内部信息的传播效果和用户的状态转变,这一影响因素由缩放因子
体现。模型的缩放因子
值越大,网络节点的活跃值
也会因此被放大,被激活的节点数和概率也会因此增加。图3控制其他参数不变,比较不同缩放因子
的舆情传播趋势。从图中可以发现,轻度、重度传播者的密度峰值和变化速率与
呈正相关,平台越活跃消息传播也会更迅速。所以,当舆情传播时,可以通过加大教育力度和宣传相关背景知识,让用户以更谨慎的心态面对不同信息,从而达到降低缩放因子
的目的,来抑制负面舆情事件的发酵。
Figure 3. Changes in (a) light spreaders, (b) heavy spreaders, and (c) immune individuals under different η conditions
图3. 不同η情况下(a) 轻度传播者(b) 重度传播者(c) 免疫者的变化情况
相比平台活跃程度对传播的影响,作为影响用户激活的与否的活跃值对传播的影响更直接,这一影响因素由幂律分布函数
对应的指数
来体现。当
的值越大,函数分布的尾部变薄,极端值出现的概率降低且分布的峰值变高且更窄,函数离散程度减小。体现在模型中,其对应表现就是用户的活跃程度会变的更集中,事件讨论的极端者会减少。图4控制其他参数不变,比较不同幂律指数
对传播的影响。从图中可以发现,传播过程中,轻度、重度传播者的峰值到来时间会更短且峰值会变得更高,由此免疫者也会更快到达平稳状态。所以,在实际传播中,我们也能通过了解用户的活动分布,从而实现对舆情峰值的估计,并结合其他传播参数的控制分析实现对舆情的有效控制。
Figure 4. Changes in (a) light spreaders, (b) heavy spreaders, and (c) immune individuals under different α conditions
图4. 不同α情况下(a) 轻度传播者(b) 重度传播者(c) 免疫者的变化情况
作为重度传播者的变化来源之一,轻度传播者在传播者中的占比也相对较高,其数量不仅影响着消息的传播还影响着重度传播者的数量。图5控制其他参数不变,比较不同轻度传播者免疫率
对传播的影响。从图中可以发现,传播过程中,轻度、重度传播者的峰值与
呈负相关。在轻度、重度传播者到达对应峰值之前,轻度免疫率
对轻度、重度传播者的影响较小,但在到达峰值之后轻度、重度传播者的影响时间范围也会随着
的增加而减少。所以,在传播中后期,可以通过对网络中影响力相对较弱的用户进行背景知识科普,从而影响用户后续的传播态度,实现控制舆情传播的目的。
Figure 5. Changes in (a) light spreaders, (b) heavy spreaders, and (c) immune individuals under different α1 conditions
图5. 不同α1情况下(a) 轻度传播者,(b) 重度传播者,(c) 免疫者的变化情况
由于轻度、重度传播者具有不同传播能力,用户的状态转变容易程度也会影响传播。图6控制其他参数不变,比较不同转化率
对传播的影响。从图中可以发现,随着转化率的增加,重度传播者对应峰值相比轻度传播者有更明显的变化,轻度传播者的峰值与
呈正相关,重度传播者的峰值与
呈负相关,且随着
的增加传播持续时间也在降低。因此,可以通过限制用户在一定时间内的互动次数,降低用户的状态转变的容易程度达到抑制传播的目的。
Figure 6. Changes in (a) light spreaders, (b) heavy spreaders, and (c) immune individuals under different γ conditions
图6. 不同γ情况下(a) 轻度传播者,(b) 重度传播者,(c) 免疫者的变化情况
3.2. 时间步长
由时序网络定义可知,时序网络的结构变化由不同时刻网络节点的连接而产生。在社交网络中,以舆情信息为核心的相关传播信息统计,也会因为时间步长的不同而带来不同结果,如某条微博在整个传播周期的转发量是不变的,但传播过程中以天为单位和以小时为单位的过程统计会存在差异。文献[22]利用快照的方式探究了不同时间步长对传播的影响,文章将有
个节点的社交网络接触矩阵集合记为
,接着从
中抽取一个矩阵
作为初始网络快照,然后再在下一个时间步长内以相同的方法抽取
作为新的传播网络,以此类推。在这种情形下,对于持续时间
的接触过程,可以得到一系列网络结构快照,记为
,其中
是衡量网络结构变化的时间步长,
表示快照数量。本文使用真实传播数据[23]并参考以上方法,将网络结构快照
定义修改为特定时间步长中的网络重叠,并将初始时刻的连接状态作为初始快照矩阵,考虑不同时间步长对传播的影响。图7绘制了传播周期为4个小时,时间步长分别为1小时、2小时、4小时的网络结构图,从中可以发现时间步长越长,该时间步长内的网络平均度就越高、动态性会更低。实验所用真实接触网络的静态特征如表2所示,其中接触网络数据没有方向性,初始数据格式如表3所示。
Figure 7. Network snapshot structure diagrams with different time steps under the same duration
图7. 相同持续时间下,不同时间步长的网络快照结构图
Table 2. Static properties of the experimental contact network
表2. 实验接触网络静态性质
网络名称 |
LH10 |
InVS15 |
InVS13 |
Theirs13 |
节点总数 |
81 |
232 |
100 |
180 |
静态状态平均度 |
34 |
144 |
78 |
25 |
接触持续小时 |
72 |
276 |
276 |
202 |
Table 3. Format of network content data
表3. 网络接触数据样式
时刻(秒) |
节点1 |
节点2 |
0 |
1305 |
1320 |
0 |
1305 |
1391 |
… |
… |
… |
259,180 |
1391 |
1460 |
259,180 |
1547 |
1784 |
结合以上定义,本文分别选取时间步长为1小时、2小时、6小时和整个传播周期72小时作为时间步长,对于接触持续时间大于72小时的网络,则以0到72小时作为整个实验周期。基于前文定义的传播过程,设置初始感染节点为总结点数的1% (不满1个节点的情况下,初始感染节点个数为1)并且规定
单次实验进行50次取平均值,考虑不同轻度传播概率
和对应轻度感染者密度
的峰值,得到如下实验结果图8。
Figure 8. Changes in light spreading probability β1 and density peak of light spreaders in (a) LH10, (b) InVS15, (c) InVS13, and (d) Theirs13
图8. (a) LH10,(b) InVS15,(c) InVS13,(d) Theirs13中轻度传播概率β1和轻度传播概率I1轻度传播概率
从实验结果中可以发现,在控制轻度传播概率
不变的情况下,轻度传播者
密度峰值会随着时间步长的增加而增加,因为时间步长越长对应的网络连通程度就会变高,受到消息影响的用户数量就会越多。再结合网络的静态特征可得,网络的平均度越高其对应的4条轻度传播者
的峰值曲线在图中的分布会相对紧密,其中InVS15和InVS13与LH10和Theirs13相比接触更紧密。以上实验结果表明,在研究传播过程时,对网络使用不同时间步长刻画会影响传播过程中的网络数据的表示,时间步长越短传播过程的记录效果越符合实际。
4. 模拟仿真
微博作为网民获得消息的重要平台,在发布、传播信息的同时也影响着人们的正常生活,本文运用python3.10和微博大数据平台对微博平台2022年12月期间所有带有“低碳生活”的微博内容进行分析实验,其中数据包含:微博id、用户id、用户昵称、微博正文、话题、转发数、评论数、点赞数和发布工具。结合模型构建部分对模型相关参数定义,在该部分实验将整个传播周期内不重复的用户数定义为总用户数,将发布博文的转发数、评论数、点赞数之和大于1的内容创作者即对应的微博用户作为重度传播者。并且随着时间推移如果有用户多次发布话题内容,则代表轻度传播者到重度传播者的转变。由以上定义和相关转变概率计算可得“低碳生活”话题下的时序网络舆情传播模型的相关参数为:
,选择12月中10天进行拟合。以上参数的转变概率的计算为轻度、重度用户占一天总用户数比例的平均值,激活值的计算,节点激活值的分布则是通过微博大数据平台对应用户的传播情况拟合而得。
Figure 9. The fitting diagram of (a) SI1I2R (b) SIR under temporal conditions
图9. 时序状态下(a) SI1I2R模型拟合图(b)SIR模型拟合图
如图9,可以看到模型对应的传播曲线可以很好的拟合话题下相关传播情况。接着,我们运用经典SIR模型模拟不区分轻度重度传播者的传播情况,可以看到节点的拟合程度不如时序网络的舆情传播模型。利用统计学中的均方根误差(Root Mean Square Error, RMSE)从数值角度中刻画传播的准确与否,均方根误差的计算公式如下:
其中
和
分别表示同一时刻真实值和拟合值的对应值,很明显,当RMSE越小,表示真实值与拟合值的误差越小,模型的有效性就会更高。通过公式计算可以得到如下结果,如表4所示,可以看到时序情况下区分轻度重度传播者与传播的SIR模型相比,能更好的拟合传播过程。
Table 4. Comparsion of RMSE under different models
表4. 不同模型的RMSE对比
基于时序网络的舆情传播模型 |
时序情况下的SIR模型 |
0.00976 |
0.01571 |
5. 总结
随着消息传播方式的改变,线上平台中的相关互动方式也在很大程度上影响信息的传播,进而影响人们的现实生活。本文运用时序网络结合舆情传播实际,刻画了平台中用户不同的互动情况对舆情传播的影响,并区分了舆情传播过程中的重度、轻度传播者。提出了基于时序网络的舆情传播模型,并进行模型定义的说明和模型推导的完善。接着,结合模型的定义进行实验模型仿真,比较静态网络和动态网络在刻画传播过程中的差异,并分析传播过程中模型不同参数对舆情传播的影响,给出了对应的实际建议。在现实中,可以从平台活跃程度、平台重度传播用户特点和平台不同用户的转换情况等方面入手,实现突发情况下更高效的舆情控制。除此以外,本文结合真实接触网络分析不同记录时间步长对舆情传播的影响,发现网络静态度越小不同时间步长的记录结果差异就越大。因此,在时序情况下,选择合适的时间步长对网络传播效果的记录是很重要的。最后,本文借用真实微博传播数据结合模型参数进行拟合,并与经典SIR模型进行对比证明模型的有效性,说明在时序场景下的模型能帮助人们更好地模拟传播过程,并结合前文参数分析采取有效的舆情控制措施。
基金项目
本文的工作受到了2020年度国家社会科学基金重大项目“我国青少年网络舆情的大数据预警体系与引导机制研究(20&ZD013)和北京邮电大学教育教学改革项目(2024YB38)的资助。