1. 引言
演化博弈论是将博弈理论分析和动态演化过程分析结合在一起的一种理论,可以为传统博弈论的均衡概念提供基础方法 [1] [2] 。然而,由于演化博弈理论研究有一定局限性,即通常假设种群中的个体均匀分布和交互,而实际生活中大多不是均匀混合的,众多研究发现现实世界的复杂系统的个体之间的连接可以用网络来描述,比如航空交通网、互联网、食物链网络、社交网络等,空间网络结构可以被认为是促进合作行为涌现的一个重要机制 [3] [4] [5] [6] [7] 。另外,由于现实生活中存在着多种类型的通信,使得许多真实系统变得更加复杂 [8] 。这些系统可以用多层空间网络表示,代表特定系统平台的实体和通信。因此,演化博弈理论与复杂网络的结合可以更好地描述真实的交互关系,并且有必要研究多个相互依存的网络之间的相互作用如何影响合作行为。
2. 文献综述
空间网络演化博弈起源于Nowak和May (1992)的发现,当个体的接触网络呈现方格结构时,在囚徒困境博弈中,合作行为有可能出现并稳定维持 [9] 。随后,Nowak和May (1993)发现是因为合作者可以通过空间结构效应而相互结合成合作簇从而抵御来自背叛者的入侵 [10] [11] 。接着,另外几种网络结构模型的发现进一步拓展了复杂网络拓扑结构的理论。例如随机网络模型 [12] ,基于最近邻网络的WS小世界模型 [13] 和服从幂律分布的无标度网络 [14] 。然而,在现实生活的自然系统或社会系统中,节点可以同时成为多个网络的构建模块,形成可以相互连接的多层网络。关于多层网络研究较多的是网络层与层之间的相互依赖性,即网络上节点的收益取决于层内和层间的收益和,共同影响网络节点个体的行为表现 [15] [16] ,还有策略频率 [17] 、模仿概率 [18] 、信誉 [19] 等因素都可以耦合网络层,并通过不同网络层上的进行不同博弈模型和拓扑结构,使得相互依存的网络层之间合作的共同进化 [20] 。
因此,本文通过引入一步记忆策略并设置不同网络层进行不同困境强度的博弈,通过计算各层以及整体的平均合作率、存续的策略类型及其占比等来探究多层网络中层外网络对层内网络的个体合作行为的演化及不同博弈层间排序对个体行为及系统演化的影响,有利于进一步拓展空间网络演化博弈理论,同时也能为合作系统的稳定维持提供一个理论解释。
3. 模型与方法
3.1. 困境强度介绍
社会困境通常用两人博弈的形式表示,博弈双方通过选择合作(C)或背叛(D),会产生4种策略组合,即(C, C)、(C, D)、(D, C)和(D, D)。如果令R和P分别表示(C, C)和(D, D)获得的收益,S表示(C, D)策略中选择合作(C)策略获得的收益,T表示(D, C)策略中选择背叛(D)策略的获得的收益,因此社会困境的收益矩阵如表1所示:

Table 1. The benefit matrix of social dilemmas
表1. 社会困境的收益矩阵
其中,囚徒困境博弈的收益关系条件为
且
,雪堆博弈的收益关系条件为
,猎鹿博弈的收益关系条件为
。在此基础上,Tanimoto (2009)提出了困境强度的概念 [21] ,Dg表示赌博倾向,Dr表示风险规避,其中定义
,
。如果Dg为正,双方都想要剥削对方,如果Dr为正,双方应该避免被剥削。
由此可以区分博弈模型,当Dg和Dr均为正,倾向于背叛(D),博弈为囚徒困境(PD);当Dg和Dr都为负,倾向于合作(D),博弈为和谐博弈(H),此时不存在困境。当Dg为正,Dr为负,博弈为小鸡博弈(CH),也称雪堆博弈(SD)或鹰鸽博弈(HD),具有内部多态平衡的特点;当Dg为负,Dr为正,博弈为猎鹿博弈(SH),符合双稳定性特征。进一步,为了克服互惠机制下演化结果受收益矩阵中参数取值的影响 [21] ,Tanimoto在困境强度的基础上引入(R − P)参数,并提出广义困境强度概念,可以很好地表示社会困境的程度。具体表达式如下:
(1)
因此,收益矩阵可以转换为:
(2)
改进后的收益矩阵适用于两人两策略下的任何困境模型。
3.2. 网络构造
假设有M层抽象个体之间进行交互,每一层有
个节点个体,都由相应关系中的个体之间的交互网络组成。每一层
中的个体i被表示为节点
,因此个体被表示为节点集合
。在层l中个体i和j之间存在链接意味着i和j是在层l中可以彼此交互的相邻个体。
3.3. 博弈过程
假设每个个体都可以参加互动,由于个体受物理、时间和认知的限制,因此,在每个时间步里,个体只能选择一个层,每个个体i具有层选择策略
。每个个体i在每个层l的
策略选择为
,总收益
被认为是个体i的适应度。根据个体之间的局部链路和两个交互层之间的内部链路,个体不仅可以参与以自己和同一层上最近的邻居为中心的4个局部博弈,还可以参与以另一层上对应节点为中心的一个长程博弈,收益矩阵如公式(2)所示。其中,策略si表示确定性策略构成四维策略空间的16个角点,下标用二进制编号分别表示为S0~S15,如下表2所示。

Table 2. Deterministic strategy representation
表2. 确定性策略表示
假设双方选择的策略空间由表2所示,分别以策略
和策略
进行博弈,重复囚徒困境的动态以具有
四种可能状态的马尔可夫链的形式出现(每一轮的可能结果),相应的Markov链可以由转移概率矩阵M来确定:
(3)
对于M矩阵中的
,表示从状态x到状态y的概率,且
,通过转移概率矩阵M可以得到博弈过程中策略的平稳分布v (
)。
3.4. 策略更新
在这项研究中,我们采用简单的网络相互依赖性,并假设节点的收益由与两层上所有邻居的相互作用决定。形式上,节点的收益确定如下:
(4)
其中累积的收益由两层中节点的度之和
正则化。策略更新的规则为:
i) 一个个体j从其节点
的邻居中随机被选择;
ii) 将个体
的收益
与个体
的收益
进行比较,则个体i在下次博弈中采取邻居j的策略的概率为:
(5)
其中
表示网络层
,k刻画的是噪声效应,通常取0.1。
4. 结果与分析
在本节中,我们展示了在由三个大小均为100 × 100的相互作用层组成的相互依存网络上进行的蒙特卡洛模拟的结果。分别对三个网络层上进行不同类型的博弈,即囚徒困境(PD)、雪堆博弈(SD)和猎鹿博弈(SH),并使用困境强度参数
和
进行区分。最初,我们选取ALLD、S1、S2、S3、GRIM、PAVLOV、TFT、S11这八种策略,分别以相等的概率随机分布在相互依存的网络的三层网络上。
首先,我们绘制了三种博弈模型分别处于中间层时的每层平均合作率和整体平均合作率随时间变化图如下图1所示。

Figure 1. Average cooperation rate over time graph
图1. 平均合作率随时间变化图
根据图1三层网络上中间层依次分别进行猎鹿博弈(SH) (图1(a)所示)、雪堆博弈(SD) (图1(b)所示)和囚徒困境博弈(PD) (图1(c)所示)可以看出,当中间层为猎鹿博弈(SH)博弈时,与无其他网络层连接相比平稳时的平均合作率0.78相比,系统平均合作率有所提升,达到0.9。此时,三层网络整体的平均合作率达到0.57;当中间层为雪堆博弈(SD)时,与无其他网络层连接相比平稳时的平均合作率0.46相比,系统平均合作率有所提升,达到0.56。此时,三层网络整体的平均合作率达到0.58。当中间层为囚徒困境博弈(PD)时,与无其他网络层连接时系统处于波动状态相比,多层网络下有利于系统达到稳定状态,但系统平均合作率有所下降,为0.23。此时,三层网络整体的平均合作率达到0.35左右。因此,当三层网络上分别进行博弈处于图1(c)所示的情况时,与图1(a)和图1(b)所示相比不利于系统合作。相比之下最优的情况是第一层进行猎鹿博弈(SH),第二层进行雪堆博弈(SD),第三层进行囚徒困境博弈(PD)。
上述研究是在同一困境强度下进行的,因此为了研究困境强度变化对不同困境强度分布多层空间网络的影响,分别对困境强度取不同值并分别在困境强度分布不同的三层网络上进行模拟,模拟结果如图2所示。

Figure 2. Diagram of the overall cooperation frequency of the system over time
图2. 系统整体合作频率随时间变化图
由图2(a)~(c)分别表示三层网络依次同时进行PD-SH-SD、SH-SD-PD、SH-PD-SD博弈的结果。模拟结果显示:当困境强度参数
和
分别取不同值时,系统整体的平均合作率随时间变化由图2可以看出,当SH (猎鹿博弈)和SD (雪堆博弈)处在中间层时,
时系统整体平均合作率较高,主要是由于SD层上S11策略占比增多。而当
时系统整体平均合作率较低,主要是由于SH层的主导策略为GRIM策略。当PD (囚徒困境博弈)处在中间层时,困境强度参数取不同值时,系统整体平均合作率普遍不高,主要是因为SH层和PD层主导策略为GRIM,SD层S3策略占比较高。每层策略占比变化如图3所示。

Figure 3. Strategy stacking percentage chart
图3. 策略堆积百分比图
由图3可以看出,当猎鹿博弈(SH)处于中间层,
时,SD层存在的策略较多,有S2、S3、TFT和S11四种策略。当
时,PD层存在的策略较多,有GRIM、TFT和S11三种策略;当雪堆博弈(SD)处于中间层时,随着改进后的困境强度参数逐渐增大,SD层S11策略占比逐渐减小;当囚徒困境博弈(PD)处于中间层时,随着改进后的困境强度参数逐渐增大,SH层和PD层上的主导策略都为GRIM。
5. 结论
本文通过构建多层网络结构模型,分别进行两个方面的研究,一是研究不同困境强度分布对多层空间网络的影响,二是研究困境强度变化对不同困境强度分布多层空间网络的影响。研究发现,按不同秩序将囚徒困境(PD)、雪堆博弈(SD)和猎鹿博弈(SH)置于三层网络研究其合作行为的演化,模拟结果显示仅当中间层进行囚徒困境(PD)博弈时,上下两层及系统整体的合作水平会被显著降低,而其它两种情形则会提高系统整体的合作水平,特别是猎鹿博弈(SH)居于中间层时;同时模拟结果还显示随着困境强度的降低系统整体的合作水平会提高。即在多层空间网络下,困境强度分布不同的网络结构、困境强度大小在一定条件下可以提高系统合作水平。研究结果有利于进一步拓展空间网络演化博弈理论,同时也能为合作系统的稳定维持提供一个理论解释。
基金项目
云南省教育厅科学研究基金(2023Y0663)资助。