1. 引言
合作现象广泛存在于生物群体与人类社会系统之中[1] [2]。理解个体为何在群体中选择合作,以及合作如何在群体中演化,一直是进化动力学和复杂系统研究的重要课题。从纳什提出的经典博弈论[3]到进化博弈论的系统建立与发展[4] [5],博弈论为刻画个体合作行为及其演化过程提供了统一的理论框架。在过去的几十年里,网络互惠机制逐渐成为该领域的研究热点。学者们从不同角度提出了多种促进合作的机制,包括网络结构[6] [7]、声誉[8] [9]、奖励制度[10]以及共同进化过程[11]等。
如以往研究所示[12] [13],总是假设个体所处的环境是固定的。然而,在现实社会与生态系统中,环境状态与个体策略之间往往存在显著的双向反馈关系[14] [15]:个体的适应性不仅取决于其相对于种群的行为,还取决于环境的状态;环境状况也受到种群中个体所采取的行动的影响。近年来,越来越多的研究者开始关注种群环境与个体行为之间的互动作用,并在进化博弈理论框架下对这一问题进行了分析[16] [17]。在无限种群情形下,Weitz [18]提出了一种将环境反馈与进化博弈相结合的动力学模型,表明个体策略选择能够通过影响环境状态进而改变进化结果。此外,已有研究还探讨了环境反馈与其他机制耦合时对合作演化的影响,揭示了更加丰富的演化动力学行为[19]-[22]。在结构化种群中,已有研究表明,引入环境反馈能够显著改变囚徒困境博弈中合作扩散与稳定的条件[23]。相关综述研究系统梳理了环境反馈的调控效应,明确其与个体异质性在合作演化中的核心驱动地位[24]。尽管不同研究中对环境的具体定义存在差异,但多数工作均以焦点个体邻域内的策略分布为基础。本文将局部社群的实际合作水平引入个体适应度函数,从而刻画环境通过“适应度调制通道”对策略演化的影响。
为进一步理解合作演化的内在机制,有必要从进化博弈的微观层面考察个体的策略更新过程。以往多数研究在刻画合作演化时,通常假设个体遵循单一的策略更新规则。然而,在现实决策过程中,个体不仅依赖于外部社会信息,还会结合自身的主观评估,其中愿望因素不可忽视[25] [26]。基于愿望在决策中的重要作用,如何在进化博弈中引入愿望已受到广泛关注[27] [28]。学者们开始尝试将模仿与愿望相结合,引入混合更新机制以更好地刻画真实决策过程。例如,徐等人[29]提出了一种混合动态模型,其中个体以一定概率采用模仿或愿望更新规则;王等人[30]探讨了在由两个群体组成的空间结构种群中模仿与愿望机制的共存情形,其中一个群体完全采用模仿规则,而另一个群体仅遵循愿望更新规则。Arefin和Tanimoto [31]研究了在不同社会困境和几种愿望动态变体中,结合上述模仿和愿望规则的两种不同方式下合作的演化。
为了更深入地理解演化环境中合作行为的形成机制,有必要从演化博弈的微观层面考察个体的策略更新过程。既有研究在探究合作演化时,多数侧重于单一的策略更新规则,然而在真实的决策过程中,个体的行为选择不仅依赖于外部的社会信息,还受到内在自我评估机制的显著影响。其中,期望作为自我评估机制的重要组成部分,在个体决策中起着不可忽略的作用[32]。大量研究表明,个体的学习意愿与其期望水平的达成程度密切相关,且该学习意愿会随着个体实际获得的收益以及周围环境状态的变化而动态调整。进一步地,个体所持的期望本身也会反过来影响其策略选择,从而在策略更新过程中形成反馈效应。与此同时,已有研究指出,环境反馈对合作演化的影响在很大程度上依赖于个体对环境信息的主观感知方式,不同的感知机制可能导致显著不同的演化结果[33]。因此,有必要系统考察个体期望对合作演化过程的影响。基于此,本文假设个体在初始状态下具有相同的期望水平,并允许其期望在策略更新过程中随个体行为与环境状态的变化而动态调整,从而更真实地刻画期望在合作演化中的作用。
基于此,本文构建了一个环境反馈与愿望–模仿混合更新耦合的囚徒困境博弈模型,重点关注环境变化如何通过适应度调制与期望调制两条通道共同影响合作演化。本文主要工作体现在以下三个方面:其一,引入由局部合作结构驱动的动态环境反馈机制,并将个体期望收益与局部环境状态相耦合,使期望不再是固定参数,而成为环境作用于策略更新过程中的心理参照变量;其二,在策略更新过程中采用愿望–模仿混合更新规则,通过权重参数调节两种机制的相对作用强度,同时引入环境对个体适应度的直接贡献,使环境反馈在期望调制与适应度调制两个层面同时参与合作演化;其三,通过系统的数值模拟考察关键参数对合作演化的影响,刻画期望调制在不同条件下对合作稳定性的作用范围,并给出环境反馈发挥促进作用所依赖的有效参数区间。
2. 模型
我们考虑一个弱囚徒困境博弈在规模为
的二维正方格网络上进行,并采用周期性边界条件。网络中的每一个格点代表一个个体,个体仅与其四个最近邻进行互动。个体策略
(分别对应合作与背叛)。博弈收益采用标准弱囚徒困境参数化:双方合作的收益为
,背叛对合作的收益为
,合作对背叛的收益为
,双方背叛的收益为
。其中背叛的诱惑参数
落入内部区间
,以确保收益排序满
。
演化过程中,每个时间步内,随机选择一个个体作为中心个体,与其四个最近的邻居进行博弈。根据收益矩阵,个体
的总收益为其与所有邻居博弈所得收益的累加值:
其中,
表示个体
的最近邻居集合,
为个体
与邻居
一局博弈的收益。
为刻画局部社会环境的动态变化,引入与每个个体位置对应的环境状态
。在正方格子网络中,玩家与四个邻居互动,局部环境因子
由邻居中的合作数量决定,初始环境因子设为
。若邻居中的合作者数量大于
,则
增加
;若小于
,则
减少
;否则
保持不变。具体更新规则如下[34]:
其中,
为环境变化的步长,
表示个体
邻居中合作者的数量,
为邻居数。当
时,模型将退化为没有环境反馈的情形,即所有玩家的本地环境保持固定;当
时,环境因子
会包含环境反馈效应。进一步地,设定环境因子
具有约束的最小值和最大值,一旦
达到最大值或最小值,其将保持该极值,并在下一轮博弈中继续迭代,参数被限制在区间
。
在此基础上,本章引入并定义了个体期望的概念。个体的策略调整意愿通常与其期望水平的达成程度密切相关,并且该调整意愿会随着个体实际获得的收益与其期望值之间差异的变化而发生改变。当个体在当前环境与邻域交互条件下获得的收益达到或超过其期望水平时,个体往往会认为现有策略是可接受的,从而倾向于维持当前策略不变;而当个体的实际收益低于其期望水平时,其对现有策略的满意度降低,进而更有可能通过学习邻域中收益表现较优个体的策略来调整自身行为,以期在后续博弈过程中获得更高收益。
引入个体
的期望收益
,来刻画个体在决策过程中对未来回报的主观评估,并使用期望水平
表征个体的内在期望回报。本文假设所有个体的期望水平均相同。不同于固定或随机期望设定,本文将期望收益与局部环境状态相耦合,从而刻画环境对个体心理预期的动态调制作用。具体而言,在第
个演化时间步中,个体
的期望收益定义为
其中,
表示个体期望对环境变化的敏感程度,
为个体
邻域中合作者的数量。需要强调的是,个体的期望收益并非独立演化的状态变量,而是在每一演化时间步中根据当前局部环境与邻域结构即时计算,并作为策略更新过程中的心理参照项参与决策。
特别地,当
时,期望收益退化为常数基准
,其在空间与时间上均保持均匀分布,不再受到环境调制。
Figure 1. Schematic illustration of environmental feedback and a hybrid decision-making mechanism
图1. 环境反馈与混合决策机制示意图
考虑到现实中收益并非完全由博弈交互决定,本文进一步引入环境对个体适应度的直接贡献。个体
的适应度定义为[35]
其中
表示玩家
的环境因子强度。当
时,适应度仅由博弈收益决定;当
时,环境状态将直接影响个体适应度。
具有策略
的玩家
通过与其四个邻居进行博弈获得总收益
。随后,玩家
随机选择一个相邻玩家
作为比较对象,并以如下概率决定是否采用玩家
的策略
:
其中,
表示噪声幅度,参数
用于控制内在期望收益与外部邻居收益在策略更新中的相对权重。特别地,当
时,该更新规则退化为由期望驱动的学习机制;更具体地,若
,玩家
将随机选择一个邻居
,并以概率
模仿其策略,否则玩家
将保持自身策略不变。当
时,上述公式退化为标准的模仿更新规则。该模型各部分之间的关系如图1所示。
3. 结果
本文在规模为
的二维正方格网络上采用蒙特卡罗方法进行数值模拟,并施加周期性边界条件。初始时,合作策略与背叛策略在网络中随机分布,比例各为
。环境初始值设为
,每个个体占据网络中的一个格点。在一次完整的蒙特卡罗步(MCS)中,网络中的每一个个体平均被选中一次进行策略更新。被选中的个体首先与其邻居进行博弈并累积收益,根据当前环境状态计算其适应度;随后随机选择一名邻居并计算该邻居的适应度,最后以给定概率模仿该邻居的策略。在足够长时间的演化之后,系统逐渐达到稳态。本文采用稳态阶段的平均合作者比例来刻画群体的合作水平,并将总演化步数后。演化轮数内的合作率平均值作为最终群体合作水平。为减少随机波动的影响,每组参数结果均在5次独立实现下取平均值。按照已有研究的常规设定,策略更新噪声幅度取
。除非特别说明,本文所有数值结果均在
的网络规模下获得。
如图2所示,在不同环境反馈强度
条件下,稳态合作者比例随背叛诱惑参数
的增加均呈现单调下降趋势。这一结果与已有关于囚徒困境博弈的研究结论一致,即背叛诱惑的增强会系统性削弱合作策略的演化优势。然而,不同
条件下合作比例曲线的显著差异表明,环境反馈在不改变总体演化趋势的前提下,对合作的稳定性产生了重要调控作用。相较于无环境反馈的传统情形(Tra),当
时,合作能够在更大的
区间内存活,其完全瓦解的临界点明显向高
方向移动。这一现象说明,引入环境反馈后,背叛策略收益优势在空间上的积累过程受到抑制。进一步地,随着
的增大,合作比例曲线整体上移,表明较强的环境反馈可为合作团簇提供额外的稳定性来源,使其在较强背叛诱惑条件下仍具备一定的抗侵蚀能力。从机制上看,环境反馈通过动态调制合作邻域的局部环境状态,延缓了合作–背叛界面处的结构破坏过程,从而推迟了系统由合作主导向背叛主导转变的发生。这一结果与已有关于环境反馈促进合作演化的研究结论在定性上保持一致,同时表明在愿望–模仿混合更新框架下,环境反馈仍然能够显著拓展合作可持续存在的参数空间。
如图3所示,在不同环境权重
条件下,更新规则参数
对合作演化的影响呈现出高度一致的结构特征。尽管随着
的增大,系统整体合作水平显著提高,但在所有考察的
取值范围内,合作比例始终在区间
达到最大,而过小或过大的
均不利于合作的维持。从策略更新机制的角度看,当
较小时,个体在策略更新过程中对邻居收益差异的响应较弱,更新决策主要受环境权重或内在期望因素主导,从而导致合作结构形成缓慢;而当
过大时,收益比较在更新过程中占据主导地位,使系统对局部收益波动高度敏感,削弱了合作团簇的稳定性。相比之下,中等范围的
在收益比较与环境调制之间实现了较为合理的平衡,使合作在不同环境权重条件下均能够持续占优。值得注意的是,环境权重
主要决定系统最终能够达到的合作水平及其稳定范围,而更新规则参数
则通过一个鲁棒的最优区间调制合作形成的动力学过程。上述结果表明,合作的长期维持并非源于单一机制的强化,而是依赖于环境反馈与更新规则在动力学层面的协同作用。
Figure 2. Fraction of cooperators as a function of the temptation to defect b for different values of
. All the results are obtained at
图2. 不同
值下合作者比例随背叛诱惑系数b的变化,参数取值为
的条件下获得
我们考察期望敏感度
对合作演化的影响。如图4(a)所示,当
时,合作水平随
的增大而明显提高,并在
附近达到峰值。然而,当
进一步增大时,合作水平开始下降,且该趋势在较大背叛诱惑条件下更加显著。当
时,
的情况下系统仍能维持一定比例的合作,而较大的
会导致合作迅速崩溃。当
时,期望收益退化为空间与时间上均匀的常数基准;而在
的情况下,期望收益会随局部合作结构与环境状态发生波动。在高敏感度条件下,这种波动更容易在合作团簇边界处放大实际收益与期望收益之间的差异,从而削弱合作结构的稳定性。因此,过强的期望调制并不一定有利于合作的维持,反而可能在高诱惑环境中产生抑制效应。图4(b)进一步在固定背叛诱惑
的条件下考察合作水平随
的变化关系。结果表明,对于不同
取值,合作对
的响应呈现出一致的结构特征:在适度
区间内合作能够维持在较高水平,而当
超过该区间后,合作稳定性迅速降低,甚至在较大
条件下完全崩塌。这表明期望调制对合作的促进作用仅在有限参数区间内有效。综合图4(a)与图4(b)可见,期望敏感度
主要通过影响合作团簇在中等诱惑环境下的稳定性发挥作用。当β过大时,个体对期望偏差的响应被显著放大,使合作结构对局部扰动更加敏感,从而削弱其在高诱惑环境中的稳定性。
Figure 3. Effect of the mixing weight
on the evolution of cooperation under different environmental weights
. All results are obtained at
,
, and
. From (a) to (d), the values of
are
,
,
, and
, respectively
图3. 不同环境权重
下混合权重
对合作演化的影响。参数取值为
,
和
的条件下获得。从(a)到(d),
的取值依次为
,
,
和
如图5所示,系统在
参数平面上的稳态合作分布呈现出清晰的区域结构。合作主要集中于较小
且β较低至中等的区域;随着背叛诱惑
的增大,合作区域向低β方向逐渐收缩。这说明期望敏感度对合作的促进作用具有有限的有效区间:在中低诱惑条件下,适度的期望调制有利于合作的形成,而在高诱惑区域,过强的期望敏感度会显著压缩合作的可持续参数空间。
进一步分析如图6所示的结果可以发现,环境反馈与期望调制在合作演化过程中呈现出显著的协同与竞争关系。图6(a)给出了不同环境权重
与期望敏感度
组合下的合作水平分布。可以观察到,在中等
区域,提高环境权重
能够显著扩大合作可持续区域,表明当期望机制尚未过度放大局部不利状态时,环境对适应度的直接调制可有效增强合作团簇的稳定性。然而,当
时,即使持续提高
,合作区域仍然明显受限,显示期望通道引入的心理参照波动已成为主导不稳定性的关键因素,从而削弱了环境权重提升所带来的促进作用。图6(b)对比了沿背叛诱惑参数
方向,不同通道配置下的合作演化结果。可以看到,在完整模型(
)中,系统在较宽的
区间内仍能维持较高的合作水平;相比之下,仅保留期望通道(
)时,合作在较小
下即迅速崩溃,而仅保留环境通道(
)虽能在一定程度上延缓合作衰减,但其稳定范围仍显著小于完整模型。这一对比表明,环境对适应度的直接调制与期望参照机制并非简单叠加,而是需要在合适参数区间内相互匹配,才能共同维持合作结构的稳定性。
Figure 4. Panel (a) shows the variation of the fraction of cooperator with the temptation to defect b under different aspiration sensitivities
at α = 0.6; Panel (b) shows that the fraction of cooperators is independent of
for different values of b. All results are obtained at
,
, and
图4. (a) 显示了在α = 0.6时不同期望敏感度
下合作水平随背叛诱惑参数b的变化;(b) 显示了合作水平在不同b下对
值的独立性。参数取值为
,
和
的条件下获得
Figure 5. Variation of the fraction of cooperators under the combined effects of the parameters β and b
图5. 合作者分数在参数β和b双重影响下的变化
Figure 6. Panel (a) shows the fraction of cooperator for different combinations of u and β; Panel (b) presents a mechanism-isolation comparison along the b direction
图6. (a) 不同u与β组合下的合作水平;(b) 沿b方向的机制剥离对比
Figure 7. Snapshots of the spatial distributions of cooperators (blue) and defectors (red) under different values of
,
, and Monte Carlo steps (MCS). All results are obtained at
,
,
and
图7. 不同
,
值和MCS步数下合作者(蓝色)和背叛者(红色)分布的快照,参数取值为
,
,
和
如图7所示,不同
参数组合下系统的空间演化呈现出显著差异。蓝色与红色分别表示合作者与背叛者。当
时,系统逐步形成以合作者为主导的空间结构,且不同
条件下的演化趋势总体相似,稳态时仅有少量背叛者以零星斑点形式存在。当
时,合作团簇的稳定性进一步增强,在
至
的演化过程中,各个
条件下系统均保持以合作者为主的连通结构,仅夹杂少量孤立的背叛者个体。相比之下,在较高期望敏感度
的情形下,系统对环境权重
的响应显著分化:当
时,合作结构迅速瓦解;而当
增大至
或
时,尽管背叛者比例较高,合作者仍能够以团簇或块状区域形式在空间中持续存在。这些结果表明,空间演化模式对参数变化高度敏感,为理解合作团簇的形成与稳定机制提供了直观的空间证据。
Figure 8. Panel (a) shows the boundary transition probabilities; Panel (b) presents a mechanism-isolation comparison at
and
图8. (a) 边界转移概率;(b) 在
和
下的机制剥离对比
为进一步揭示前述空间演化快照中合作团簇稳定与破碎的微观动力学起源,我们将策略翻转概率作为刻画演化方向性的微观量,并将其分析范围限定在合作团簇边界处,以直接捕捉期望调制对合作扩散与收缩的影响,该分析遵循环境反馈演化博弈中基于策略翻转概率刻画微观演化方向的分析思路[36]。图8(a)给出了不同期望敏感度
下边界翻转概率的变化关系。结果表明,随着
的增大,边界处由合作者向背叛者的翻转概率
持续上升,而由背叛者向合作者的翻转概率
在中等
之后逐渐受到抑制。这种不对称变化意味着,期望调制会系统性地削弱合作在团簇边界处向外扩散的能力。
为定量刻画上述不对称翻转对合作结构演化方向的影响,我们进一步定义净合作通量
。该量刻画了合作在团簇边界处的净扩散倾向。当
时,合作在边界处整体呈扩散趋势;而当
时,合作更易在边界处被侵蚀并发生收缩。由图8(a)可见,随着
的增大,净合作通量
由正逐渐转为负,其符号变化大致发生在
附近。该转折点对应于合作团簇由边界扩散转向边界收缩的动力学临界位置,与图7结果置相一致。进一步地,图8(b)对比了两种代表性背叛诱惑强度
下,不同机制剥离情形的边界翻转概率,以检验上述边界动力学机制的稳健性。可以观察到,在完整模型(
)中,
相对较大或与
接近,表明环境通道与期望通道的协同作用有助于维持合作在边界处的稳定扩散;而在仅保留期望通道(
)或仅保留环境通道(
)的情形下,这种翻转方向性的优势显著减弱甚至发生逆转,合作更容易在边界处被持续侵蚀。总之,期望敏感度通过调控合作团簇边界处策略翻转的方向性影响合作演化的稳定性,其促进作用仅在有限区间内有效,而过强的期望调制会放大局部不利扰动,使合作在边界处难以扩散,即便存在环境对适应度的直接调制亦难以维持稳定。
4. 总结
本文在结构化种群的囚徒困境博弈框架下,构建了一个环境反馈与期望–模仿混合更新机制耦合的演化模型,用以刻画现实系统中策略演化与环境变化之间的双向反馈过程。通过引入随局部合作状态协同演化的环境变量,使环境在个体决策过程中同时通过适应度调制和期望收益调制发挥作用,从而形成多通道耦合的策略更新机制。数值模拟结果表明,环境反馈能够在较强背叛诱惑条件下显著提升合作水平,并拓展合作可持续存在的参数空间。然而,期望敏感度对合作的影响呈现明显的区间依赖性:当其处于适度范围时,合作团簇更容易在空间上形成并保持稳定;而当期望敏感度过大时,个体对局部不利状态的响应被显著放大,导致合作稳定性快速下降,环境对适应度的直接增益难以完全抵消由期望波动引入的不稳定影响。环境通过参与适应度权重与期望调制共同影响合作结构的稳定性,只有在两者强度相对匹配时,合作才能在更宽的参数区间内长期维持。
微观边界动力学表明,合作演化的稳定性受合作团簇边界处策略翻转方向性控制,该方向性由期望调制与环境适应度权重的相对强度决定,其正向作用仅在最优区间内成立,过强的期望调制将抑制合作扩散并破坏稳定性。未来研究可进一步引入环境与策略演化之间的时间尺度差异、期望形成过程中的记忆效应或个体异质性,以及不同网络结构下环境参与机制的作用方式。
基金项目
武汉科技大学大学生创新创业训练计划项目(D202502151244046369)。
NOTES
*通讯作者。