1. 引言
近年来,随着计算机网络技术的飞速更新和升级,在线社交网络得到了长足的发展。在线社交网络打破了传统Web网络以信息内容为中心的传播方式,把用户推向主导地位,任何一个用户注册后均可以成为信息的创建者、发布者、传播者。这种新的社交网络形态迅速获得了空前的用户量以及影响力,许多企业和运营商也从中发现和获取了巨大的商机。
2. 经典的信息传播模型
在诸多学者对在线社交网络的信息传播模型的研究中,比较经典的信息传播模型包括影响力模型和传染病模型。本在线社交网络的拓扑结构是各个网络节点在物理和逻辑上的连接关系的直观呈现。许多学者对在线社交网络拓扑结构的物理架构、重要特征和本质进行了深入分析。目前,比较经典的复杂网络基本模型有规则网络、随机网络、小世界网络和无标度网络。在线社交网络中,部分节点之间遵循相同规则进行连接,部分节点之间随机连接,节点之间没有明确描述长度的量化特征,部分节点的度相对较大,整体而言,节点度的分布符合冥律特征,这即是典型的无标度网络 [1] 。
鉴于在线社交网络的网络拓扑结构及特征,研究者提出利用“网络复杂性分析”的方法论来进行相关问题的分析和研究。1998年Watts和Strongatz提出了小世界网络模型 [2] ,较好地描述了从规则网络到随机网络的过渡。1999年,Barabdsi和Albert提出BA无标度网络模型,根据模型的增长算法和优先连接特性演示了BA无标度网络演化的过程。
2.1. 传染病模型
传染病模型利用微分方程建立数学模型,可以准确地描述个体信息在传播过程中随时间的变化状态,从而找出信息传播的规律,发现信息传播过程中的影响因素,进而对信息的传播进行有效控制,增强信息传播的效力,此外可以对用户的信息传播趋势及范围进行提前预知。在传染病动力学中,主要沿用的由Kermack与McKendrick在1927年用动力学的方法建立了SIR传染病模型。在现代的信息传播模型的研究过程中,研究者将信息的传播过程类似于传染病的传播过程,在线社交网络的用户传播行为描述为为用户感兴趣就转发,不感兴趣就忽略,转发过该消息之后也忽略等等过程,并将社交网络中的节点分为3类:具备传播信息能力的传播节点I、从未听说过消息的健康节点S和对消息不感兴趣的免疫节点R.传播规则具体定义如下:
1) 如果一个健康节点与一个传播节点接触,则健康节点会以概率p1成为传播节点;
2) 如果一个免疫节点与一个传播节点接触将不会产生传播行为;
3) 一个传播节点在传播过程中以概率p2失去传播兴趣成为免疫节点。
4) SIR信息传播模型的动力学方程 [3] 为:
(1)
(2)
(3)
2.2. 影响力模型
对于在线社交网络的信息传播,影响力模型分为三类:
1) 经典影响力模型,主要通过节点以及节点之间的影响力构建信息的传播过程,但其基于离散时间的方式进行模型构建,不符合现实的信息传播方式。同时这两种模型依赖传播节点的影响力,研究学者可以对节点的行为进行分析从而对形象力模型的分布及趋势进行提前预测;
2) 基于用户之间的影响力模型,主要是通过已知的信息传播特征确定所构建模型中的影响概率参数,从而进行信息预测。在社交网络模型中,不同用户之间的社交影响力是不同的,例如微博大V和明星之间的影响力以及明星和一般用户的影响力,正是因为不同特征用户之间的影响力因素不一样,所以在网络的信息传播中,通常会有基于不同用户影响力的研究,现实生活中明星为了宣传或洗白使用微博大V进行信息散播就是真实的用户之间传播影响力的应用;
3) 基于用户影响力模型,主要是以用户之间的影响力为中心构建信息传播模型,进行信息、话题的预测。但影响力模型更多的侧重舆情的预测和跟踪。在社交网络模型中,每个用户作为一个传播节点,基于其个人属性及个人传播特征,其传播能力是不一样的,比如当前的抖音用户,有着千万粉丝用户的抖音大咖一旦进行信息的更新,转发评论围观等用户数和抖音平台本身给的资源都是不一样的,因此造就了大咖更火的现象,而一般用户想要达到大咖的影响力则很难实现。
3. 信息传播网络模型的演化
随着移动互联技术的发展,移动社交网络正改变着人们进行信息交流与共享的模式。在线社交网络是一种基于Web2.0的典型社会化网络应用服务,是一种建立在虚拟空间之上的真实存在的人际关系,是以互联网为背景的人际关系新形态。在社交网络的平台中,用户通常在交友类社交网络、传播类社交网络及分享型社交网络进行信息传播,不同的传播平台提供了不同的传播途径,同时也对不同类型的用户给予了不同的传播影响力,因此在线社交网络模型的演化通常是基于不同的社交网络平台对用户节点或传播平台的性质进行演化。
3.1. 基于用户影响力模型的演化
论文使用经典影响力模型构建在线社交网络的信息传播模型,主要的工作是通过信息传播的特征确定该模型中的影响概率参数并对经典影响力模型进行改进。
郑蕾 [4] 在基于当前的LT传播模型,以微博类用户的在线传播行为进行实证分析,通过研究,提出了以微博社交网络为对象的多信息竞争传播模型,并得到当前信息传播模型的幂律分布。Yang [5] 等人基于国外的信息传播媒体twitter为研究对象,通过对该信息传播网络的用户进行传播行为的定量分析,提出了一种新的信息传播模型,该模型通过对网络对象的节点影响进行评估,从而预测该信息传播网络进行发散状态的趋势,从而对其进行预测。同时通过数据实证分析证明该模型能够精准评估网络模型的节点影响力,也可以快速可靠的预测出短时的信息传播趋势。张闯 [6] 等人将网络中节点属性分成静态和动态,并提出预测目标的节点影响力,在此基础上提出一种基于节点属性进行信息预测的属性、节点数、倾向(ANV)模型。实验采用BP神经网络预测方法,通过新浪微博数据预测电影票房,其结果表明,带有节点属性的方法比没有节点属性的方法的拟合和预测更为准确。
曹玖新 [7] 等人将粉丝数、用户影响力(PageRank法)、用户转发信息频率、交互强度、相似度、微博内容等15影响因素考虑在模型之中,分别通过Logistic回归、朴素贝叶斯、贝叶斯网络等规则函数分析了用户转发信息概率的变化,三种方法中Logistic回归表现最佳。而后又将15个因素从内容上划分为用户特征因素、社交特征因素、微博特征因素等三类,分别分析了每一类影响因素对用户转发行为的影响,发现社交类特征因子对转发行为影响最大,而微博类特征因子对其影响最小,得出了在线社交网络用户对社交的需求大于对信息内容的需求的结论。
张胜兵 [8] 设计实验,选取CDBLP、Arvix作为信息交换类社交网络的代表,选择Wiki投票网络、Enron电子邮件网作为实体关系类型的社交网络代表,分别进行测。实验表明,移去弱连接不能实现对信息交换类社交网络的传播控制,但是,控制弱连接能够实现对实体关系类社交网络有效控制。Gruhl [9] 等人对IC模型进行了改进,通过给出一种计算节点间阅读概率和复制概率的算法,给每条边赋予一个传播行为发生概率,使IC模型能够适用于传播可能发生延迟的环境。在此基础上,Saito [10] 等人考虑传播中连续时间延迟的影响,进一步提出了CTIC (continuous time delay independent cascade)和CTLT (continuous time delay linear threshold)。为了使模型更能适应真实社会网络,Saito等人考虑传播的异步性将IC和LT模型扩展成AsIC和AsLT模型,模型中使用一个连续的时间轴,并为图中的每条边添加时间延迟的参数。
3.2. 基于SIR传播模型的演化
对于在线社交网络的信息传播模型的研究过程中,许多研究学者从不同的角度,利用不同的方法提出了新的改进的信息传播模型。其中,有些学者以基本的SIR传染病模型为基础进行研究。
王超 [11] 等人在研究信息传播时,结合Anderson等人研究的自然界中的传染病问题时,在经典的SIR模型中增加了潜伏节点(E)得到的SEIR模型,引入的潜伏节点用于模拟还不能传播该传染病的患者。王超等人借鉴其研究结果,在SIR模型中引入潜伏节点,用来表示能接收但还不能传播信息的离线用户,因此SEIR模型可用于刻画SNS用户的行为特征,很好地克服了SIR等模型的局限性。
张彦超 [12] 等人在构建新的基于在线社交网络的信息传播模型时,提出了一个基于SNS的信息传播模型,考虑了节点度和传播机理的影响,结合复杂网络和传染病动力学理论,进一步建立了动力学演化方程组。该方程组刻画了不同类型节点随着时间的演化关系,反映了传播动力学过程受到网络拓扑结构和传播机理的影响。该模型模拟了在线社交网络中的信息传播过程,并分析了不同类型节点在网络中的行为规律。仿真结果表明:由于在线社交网络的高度连通性,信息在网络中传播的门槛几乎为零;初始传播节点的度越大,信息越容易在网络中迅速传播;中心节点具有较大的社会影响力;具有不同度数的节点在网络中的变化趋势大体相同。研究表明该模型符合在线社交网络的特性,有助于更深刻地理解发生在在线社交网络中的传播行为。
程晓涛 [13] 等人在研究社交网络的信息传播模型时发现,针对传统传播模型更适用于均匀网络而无法有效应用于现实非均匀无标度社交网络的问题,提出一种基于用户局域信息的社交网络信息传播模型。模型中考虑了无标度网络中用户间拓扑特征差异和用户影响力不同对信息传播的影响,根据节点周边邻居节点的感染情况和权威性计算感染概率,模拟现实社交网络中的信息传播情况。模型中借鉴统计物理中平均场的核心思想:把网络中相互作用的整体效果等价于一个“平均场”,不去计算局部的、处处不同的相互作用情况。即假设网络中个体具有一致感染率与恢复率(或称治愈率)。这种假设在均匀网络中是合理的,但社交网络是一个非均匀的无标度网络,各节点间存在一定的拓扑差异,并且在实际的社交网络中,名人用户与普通用户的影响力与权威度是不同的。因此在构建信息传播模型时,不仅考虑了信息内容的因素,更考虑了传播节点周围拓扑结构、邻居感染情况和用户影响力差异等局域信息的影响。通过在采集的真实微博网络数据上进行仿真实验,结果表明该模型较传统的SIR模型更能体现社交网络中信息传播的快速性与范围的广泛性;通过调整模型中的相关参数,验证了相关管控措施对传播效果的影响。
蒙在桥 [14] 等人在研究信息传播的模型时,发现传统传播模型较难描述在线社交网络中的复杂活跃模式以及节点间的拓扑差异,并且其接触式的传播者退化方式也与现实不符。针对理论模型模拟与现实消息传播的不符,提出一个基于在线社交网络的动态消息传播模型D-SIR。该模型考虑了在线社交网络中影响消息传播的一些实际因素,引入基于传播延迟的退化方式使传播者自发地退化成免疫者,动态指定节点的权威度和免疫力以适应非均质网络,并考虑接收增强信号效应以及外部社会加强效果。考虑到社交网络的无标度特性,模型根据节点出度动态指定节点的权威度和免疫力,并且该模型还可以扩展外部社会加强的影响因素。在采集的新浪微博真实传播网络数据中,通过参数变化的传播仿真实验验证了D-SIR模型可以有效反映在线社交网络的现实传播情形,并且较传统模型更具灵活性及可扩展性。
Liu [15] 等人参考SIR传播模型,使用Net Logo构造了一个基于主体的模型。模型中,将用户分成传播者、未知者和不受影响者三类,并使用用户出入度的比例代表其影响力,同时考虑了类似Twitter的微博网络结构的无标度性、信息传播的特性以及谣言的最大传播时间。许晓东 [16] 等人根据微博社区信息传播网的特性,使用SIR病毒传染模型刻画谣言传播过程,并借助计算机仿真研究传染率和网络的拓扑结构对谣言传播规模的影响,发现降低有效传播率和减小网络度分布熵有利于缩小谣言传播规模。Xiong [17] 等人将Twitter网络中的用户按对信息的接受程度划分为四种类型(susceptible,infected,contacted,refractory),并提出SCIR型,探讨了模型仿真过程中随着传播速率改变的整个模型网络的动态变化。
韩佳 [18] 等人针对在线社交网络中信息传播模式的形式特点,结合传染病动力学原理,提出了在线社交网络中的信息传播模型。模型考虑了不同用户行为对传播机理的影响,并建立了不同用户节点的演化方程组,模拟了信息传播的过程,分析了不同类型的用户在网络中的行为特征以及影响信息传播的主要因素。实验结果表明:不同类型的用户在信息传播过程中有着特定的行为规律,信息不会无限制地传播,并在最终达到平稳状态,并且传播系数和免疫系数越大,信息传播达到稳态的速度就越快。
3.3. 基于其他传播模型的演化
张晓伟 [19] 在研究信息传播模型时,通过借鉴日常生活中人与人之间的信任原理,提出了一种基于信任度的消息传播模型。该模型首先利用个体的公开信息,使用数据挖掘的算法对个体进行分类;然后,根据同类和不同类个体之间的关系计算个体之间的信任度;最后,使用消息与个体的属性相似性以及信任度来计算消息可能传播范围。给出了相应的计算方法,并与两种基准方法对比,结果表明,该模型在准确度上提升15%左右,而所用时间降低50%以上。与数据集统计结果对比,该实验的结果与统计结果相差5%左右,充分表明该模型在实际应用中有比较好的效果。
Wu [20] 等人以微博平台作为社交网络信息传播媒介的研究对象,对该平台用户发表、查看、评论、分享等基本行为进行研究,对该平台的信息传播模式进行加工和归纳,微博中用户发表、浏览、回复和转发博文的基本行为,将微博的信息传播分成发布、接收、加工、传播四个阶段,并考虑信息丢失的情况,然后听出基于信息动态传播的竞争窗口模型提出竞争窗口模型。在该模型中,只是基于用户对信息的四个阶段的状态进行建模,没有对不同用户之间的影响力及整个拓扑结构的诧异对信息传播的影响。
肖如良 [21] 等人在研究社交网络的信息传播时,借用物理学中引力势理论,推导了社交网络中的信息传递过程,并在分析各变量因子的基础上,得出了信息传播的动力学概率模型。该模型主要考虑了信源信息的时效性、用户之间的关系远近以及信息价值对社交网络中信息传播的影响。实验结果表明:信源信息的价值时效性是先增大后逐渐减小直至保持不变的;当用户之间的关系越远时,两个用户之间的信息传播必然经历多次信息运动模式,说明信息源产生势的范围越广并且信息传播的越深远;信息价值的大小与信息传播范围之间的关系呈现“S”型的变化特性。
王杨 [22] 等人提出一种基于灰色神经网络的信息传播预测模型,建立了含有初始根节点数目、根节点净传播数、子节点净传播数、根节点与子节点重复传播率、根节点传播重复率、子节点传播重复率等6个参数的神经网络模型。实验结果发现信息传播具有先平稳传播、后迅速传播、而后又逐渐稳定的传播规律。黄启发 [23] 等人在分析信息在在线社交网络上的传播时,分了两阶段博弈。第一阶段是两个用户是否传播信息的博弈,两用户的策略集均为{传播,不传播},用户的收益由发送信息收益、接受信息收益、发送信息成本、用户间的关系紧密度决定;该阶段博弈得出用户间关系紧密度越高,两用户选择传播策略的可能性更大。第二阶段博弈考虑了网络水军等用户的存在,用户在传播信息时可能因受额外利益的诱惑而选择共谋,建立了简化的三用户博弈;三用户的策略集均为{共谋,非共谋},用户的收益由发送信息收益、接受信息收益、发送信息成本、用户间的关系紧密度、共谋额外收益、非共谋损失决定;同样,用户之间的关系密度越高,选择共谋的概率越;另外,较高的谋额外收益或者高的非共谋损失也会使得用更加倾向于选择共谋。
孔素真 [24] 等人考虑到用户之间的好友关系存在多种类型,且不同类型的好友关系信息传播偏好不同,提出了一种多关系类型社交网络信息传播模型,并建立了信息传播的动力学方程。在该模型中,用户根据自身的传播偏好决定是否分享或传播信息,并根据信息传播偏好主动选择可能的好友关系分享或传播信息.数据仿真结果表明:在多关系类型社交网络中,信息的传播范围和信息在网络中持续的时间与信息的特征有关;信息通过多种类型的好友关系传播能够有效提高信息的传播范围和传播速度。
3.4. 未来研究方向
对于在线社交网络信息传播的研究多数是沿着其他类型的社会网络的研究方法展开的,但是由于社交网络具有自己的新特征,其研究角度和方法都有待改进。未来的研究可以考虑以下几个方向:
1) 目前绝大部分的信息传播分析都是以静态网络拓扑结构为基础的,但是在现实的在线社交网络中,用户之间的关系网络是随时间动态变化的。下一步的工作需要将在线社交网络的动态变化特征添加到信息传播模型中,研究其演化规律。
2) 基于影响力的信息传播模型中,大部分的参数都是根据经验取值,并没有通过真实的传播数据统计获取,这样势必会影响模型的准确性,而不能很好地预测信息传播的趋势。所以在未来的研究中,获取精确的微博数据来训练模型参数是构建传播模型的重要方面。
3) 在研究动态网络的过程中,基于用户的群体的度并没有深入的了解,不同的度的用户节点对于消息传播有着怎样的影响也需要进一步的研究和探索。
4. 总结与展望
随着在线社交网络的服务不断升级,信息传播的模式也不断的多样化,用户的行为将对信息传播起着重要的推动作用。在学者对于基于在线社交网络的信息传播模型进行研究时,不同的研究模型有着不同的角度及方法。学者们提出的新模型不断的完善了信息传播模型领域的内容,同时也对其发展起了决定性的推动作用。未来学者在研究相关的模型时,可以适当关注用户行为、动态网络的模型建立以及在线社交网络的信息传播的安全等不同的领域,为在线社交网络的信息传播模型的发展注入更多的研究成果及方法。