1. 引言
在实际中由于受到环境的不确定性、人类思维及个体心理等因素的影响,博弈参与者的策略集以及参与者的收益往往不能确定或者只能大致估计。此时,博弈参与者所获得的收益不能再用一个精确的数值来表示,而需要用一个模糊数[1]来表示。如果参与博弈的生物个体所获得的支付矩阵中不是确定的数值,而是一个模糊数,则称这样的博弈为模糊博弈[2]。在博弈问题中,客观环境的复杂多变以及人类思维的不确定性,导致决策信息的不确定性。
目前,大部分关于模糊博弈的研究多数集中于利用模糊数学的理论分析模糊零和博弈[3]、模糊合作博弈[4]或者研究无限种群的模糊演化博弈动态[5],而采用模糊数学对有限种群随机演化博弈动态的研究却不多。因此,可以利用模糊数学的相关理论分析有限种群的演化博弈动态。标准Moran和模仿过程是描述有限种群中进化动态的两种最流行的更新规则。Taylor等人[6]和Nowak等人[7]对标准Moran过程进行了研究。在Moran过程中,参与者按照其适合度的比例被选择,繁殖,随机选择的参与者随后被其后代取代。模仿过程是由Szabó和Töke [8]引入的。在模仿过程中,参与者关注其他个体的收益,以收益的高低来评估他们是否应该模仿另一个参与者的策略。如果他们自己的回报较小,他们更有可能成功地模仿策略。
Liu等[9]在分组人群中将这两种过程合并为混合过程。Zhang等[10]将种群分为快慢两类,研究了相互作用个体更新过程的时间尺度不同时的种群动态。Wang等[11]将Moran过程和模仿过程结合起来,建立新的动态模型,求解注视概率和注视时间。Gu等[12]在模糊环境下研究基于Moran过程的随机演化博弈动态。在本研究中,我们基于模糊数通过结合Moran过程和模仿过程,在有限的、混合良好的群体中建立了具有A (合作)和B (背叛)两种策略的混合随机演化博弈动力学,其中每个个体基于概率为
的模仿过程和概率为
的Moran过程更新策略。
本文结构如下:第2节,给出了模糊数的相关理论以及不同模糊数的排序规则。第3节,建立了基于模糊支付下的混合演化博弈模型——Moran和模仿更新,并分析了模糊环境下的转移概率与选择强度和种群数量之间的关系。第4节,求解出弱选择下不同模糊数的模糊固定概率,并分析出模糊固定概率的自然选择性质。第5节,将基于模糊支付下的混合演化博弈模型应用到煤矿生产过程中矿工生产行为策略的选择问题上。最后是本文的总结。
2. 模糊集理论
模糊集和模糊数
定义1 [13]若对论域
上的任意一个元素
,都有闭区间
上的一个数
与之相对应,即
,则A为一个模糊集,其中
称为A的隶属函数。
定义2 [2]若A具有下列形式的隶属函数
则A是一个梯形模糊数,记作
。
定义3 [2]若A具有下列形式的隶属函数
且
,则A是一个梯形模糊数,记作
。
设梯形模糊数
和
,则有下列运算成立[2]:
(1)
;
(2)
;
(3)
;
(4)
;
;
。
定义4 [12]若
具有下列形式的隶属函数
且
,则称模糊数
为正态模糊数,记为
。
设正态模糊数
和
,则有下列运算成立[12]
(1)
,
(2)
,
(3)
,
(4) ,其中
和
。
特别地,当
时,有
。
3. 具有模糊支付的混合演化博弈动力学——Moran和模仿过程
模型
我们假设一个单一的、混合良好的且恒定规模为N的群体,并考虑两种策略,我们称为A策略(合作)和B策略(背叛)。博弈的收益可以写成下面的矩阵:
(1)
其中字符
和
都是模糊数。
混合良好的种群允许所有个体之间进行交流,从而产生平均收益,在随机配对下,排除自交互作用,A、B策略参与者的预期收益为
其中
为采取策略A的个体数量。
从遗传的角度看,个体繁殖率都正比于与之相对应的博弈支付,故引入选择强度
[14]。选择策略A和B的个体适应度
和
定义为期望支付的指数函数
,
其中,当
很小时
,博弈支付对适应度的影响不大,则为弱选择[15]的情况。
由于个体所处环境和自身知识的复杂性,我们不再假设个体依靠单一更新规则来更新他们的策略,而是使用两个更新规则[11] (Moran过程和模仿过程)来更改策略,如图1所示。为了方便起见,我们将混合更新演化博弈过程中由
到
和
到
的转移概率记为
,则过程中保持状态
不变的概率为
。
Figure 1. Hybrid update rule
图1. 混合更新规则
平均收益
与
之差定义如下:
其中
。我们可以得到该混合更新随机演化博弈的模糊转移概率:
(2)
其中
。
在无变异的情况下,任何由策略A和B个体构成的混合种群最终达到全A或全B的状态,因而可以计算模糊支付下结合Moran和模仿过程中策略的固定概率。
例1:以表1中模糊囚徒困境博弈为例给出
、
时混合更新演化博弈模型中策略A的转移概率
和
。假设种群规模为
,选择强度
,那么有如下:
Table 1. Game payoff matrix under trapezoidal fuzzy number
表1. 梯形模糊数下的博弈收益矩阵
|
A |
B |
A |
|
|
B |
|
|
其对应的模糊数的质心
:
|
|
|
|
|
|
6.2222 |
4.5833 |
9.6111 |
7.8000 |
|
0.5067 |
0.4815 |
0.4912 |
0.4946 |
因此我们可以得到
和
时,策略A的模糊转移概率
和
随着选择策略A的数量
变化的曲线图,如图2所示。
Figure 2. The relationship between
,
and
and
, respectively
图2.
、
与
和
之间的关系
4. 模糊固定概率
定义4 (FFP) [2] [16]在规模为N的有限种群中,个体间博弈的收益矩阵为(1)。策略A的模糊固定概率(FFP)是初始种群中有一个个体采用策略A,进化后最终所有个体均采用策略A的概率,记为
,策略B的模糊固定概率记为
。
在有限的总体中,采用吸收策略A的概率是从状态
开始后以状态N结束的概率,这里我们用
表示这个概率。由于该系统有两个吸收态,从
开始后以状态0结束的概率为
。文献[11]的研究中将其定义为
。
对于只有单个选择A策略的个体在整个群体中,且该个体接管整个群体的概率记为固定概率
:
(3)
显然有
,
。
4.1. 中性选择
中性选择即
或对于任意状态
有
的特殊情况,是策略演化成功的自然基准情况。由式(2)定义的转移概率,得到中性选择下的转移概率为
因此当
时,有
,根据公式(3)可以得到中性选择下策略A的模糊固定概率为
,以此作为比较的标准。
4.2. 弱选择
在弱选择条件下(即当
时),将转移概率之比的泰勒展开式扩展到
的一阶得:
虽然描述混合更新过程的这些转移概率不同于Moran过程和模仿过程,但它们在弱选择
下,有
。因此,指数适应度映射混合过程的固定概率不受参数
的影响。对于很小的
,混合更新演化过程中的固定概率为
定理1 在规模为N的有限种群中,个体采取策略A和B,个体间博弈的收益矩阵为(1),则弱选择下基于模糊支付的混合更新随机演化博弈模型中策略A的模糊固定概率为
其中
,
。
4.3. 固定概率的自然选择性质
分析模糊支付下混合更新随机演化博弈模型——Moran和模仿更新中选择有利于策略固定的条件及成为模糊演化稳定策略的条件。
定义6 (FESS) [17] ① 选择抵制A入侵B,即
;② 选择抵制A取代B,即
。同时满足①和②成立,则称策略B为模糊演化稳定策略(FESS)。
定理2 对有限种群中模糊支付下的混合更新随机演化博弈模型——Moran和模仿过程的策略,如果以下两个条件成立,则策略B是FESS:
㈠
,
㈡
。
证明首先,选择抵制A入侵B,也就是单个A策略的个体在种群中适应度较低,即当
时,有
,由此可以得到
,
当
时,有
,即得到条件(一)。
其次,选择抵制A取代B,则由定理1得
,
代入
和
可以得到
.
定理3 在规模为N的有限种群中,个体间博弈的收益矩阵为梯形模糊数时,即
由定理1可得策略A的模糊固定概率为
其中
。
定理4 在规模为N的有限种群中,个体间博弈的收益矩阵为三角模糊数时,即
由定理1可得策略A的模糊固定概率为
其中
.
定理5 在规模为N的有限种群中,个体间博弈的收益矩阵为正态模糊数时,即
由定理1可得策略A的模糊固定概率为
其中
5. 应用
矿工的效用函数[18]不仅取决于采取不同生产行为策略的期望收益,还受到许多不确定性的随机因素影响。外在不确定性的随机因素主要指矿工井下作业时所面临的复杂地质环境;内在随机因素主要指矿工在危险的作业环境中所产生的消极情绪,会对矿工行为认知判断产生极大干扰。外在环境的不确定性与内在消极情绪等随机因素的耦合,使得矿工的行为策略选择呈现出高度不确定性。
若将单班矿工总人数记为N,由于每名矿工的收益除与自身行为相关外,还受到其他矿工行为的影响,导致矿工间存在不同行为策略的选择问题。因此,本文主要考虑同一班组内矿工的行为选择问题,因此构建了表2所示的单班矿工间的要素博弈2 × 2对称支付矩阵。假设单班矿工总人数
、选择强度为
,判断同一班组内矿工的行为选择博弈的类型,分析参与策略的固定概率并判断策略S及策略C是否为模糊演化稳定策略FESS。
Table 2. 2 × 2 symmetrical stochastic evolutionary game model among single shift miners
表2. 单班矿工间2 × 2对称随机演化博弈模型
矿工1 |
矿工2 |
安全作业S |
违章作业C |
安全作业S |
|
|
违章作业C |
|
|
则由正态模糊数排序得:
、
、
、
,即
,故可以判断该博弈为模糊囚徒困境博弈。模糊固定概率随着N和
的变化趋势如图3所示。由图我们可以看出随着种群数量和选择强度
的增加,策略S能够扎根的概率越来越小,这也恰好符合我们现实中的情况,种群数量越多大家的策略选择就会越复杂,而策略的占优性就会越来越小。
Figure 3. Fuzzy fixed probability
and the relationship between
and
图3. 模糊固定概率
与
和
之间的关系
根据定理5我们可以得到
和
,则策略S的模糊固定概率为
。由得分函数公式可得模糊固定概率
的得分函数
,所以有
,即
。当
时,有
和
,并且它们的得分函数分别为
和
,所以
,有
,即
。那么,根据定义6有:策略C不是模糊演化稳定策略FESS。同理,可以判段策略S也不是模糊演化稳定策略FESS。因此,表2所决定的博弈问题中策略S和策略C共存。
6. 总结
首先在结合Moran更新和模仿更新的演化博弈模型中加入了模糊数和模糊数排序,运用主方程推导出弱选择下模糊固定概率的具体表达式,并分析了梯形模糊数、三角模糊数以及正态模糊数所对应的模糊固定概率。其次,分析了在种群演化过程中模糊固定概率的自然选择性质,给出合作策略为模糊演化稳定策略的条件,促进合作行为的产生。最后,将具有模糊支付的混合更新演化博弈模型应用到煤矿生产过程中员工的行为策略选择问题上,并通过数值仿真说明了模型的合理性。不同模糊数之间也存在较大的差异,无论运算法则还是排序规则都存在不同,可以引入区间模糊数、指数型模糊数和直觉模糊数等;此外,还可以用Fokker-Planck随机微分方程的形式来推导出模糊固定概率的具体表达式。
基金项目
国家自然科学基金项目(12061020);贵州省科技厅科学基金(黔科合基础[2019]1123号;黔科合ZK[2021]一般331);贵州省教育厅科学基金(黔科合KY字[2021]088号,黔科合KY字[2022]301);贵州省师范学院博士基金(No. 2021BS005)。
NOTES
*通讯作者。