具有模糊支付的演化博弈策略研究

doi:10.12677/ecl.2024.1331042

期刊菜单

具有模糊支付的演化博弈策略研究
Research on Evolutionary Game Strategy with Fuzzy Payment

DOI: 10.12677/ecl.2024.1331042, PDF, HTML, XML, 国家自然科学基金支持
作者: 鄢迪, 丘小玲^*：贵州大学数学与统计学院，贵州贵阳
关键词: 演化博弈；模糊固定概率；混合更新过程；Evolutionary Game； Fuzzy Fixed Probability； Hybrid Renewal Process

摘要: 我们考虑个体基于Moran过程和模仿过程更新策略的过程，将两个过程结合起来建立混合随机演化博弈动力学。由于各种不确定性和复杂环境的影响，本文以模糊数的形式来给出了与环境因素相关的模糊博弈支付矩阵。首先，利用模糊数理论建立了具有模糊支付的混合更新随机演化博弈模型——Moran更新和模仿更新，并通过Fokker-Planck方程推导出不同模糊数下的模糊固定概率。其次，分析了模糊环境下混合更新演化博弈过程中策略占优的条件，得到模糊演化稳定策略；同时推导出弱选择下将博弈矩阵用梯形模糊数和正态模糊数表示时的模糊固定概率。最后，通过案例验证理论结果，并进行了仿真分析。

Abstract: We consider processes in which individuals update strategies based on Moran processes and imitative processes, and combine the two processes to establish hybrid stochastic evolutionary game dynamics. Due to the influence of various uncertainties and complex environments, this paper presents the fuzzy game payment matrix related to environment factors in the form of fuzzy numbers. Firstly, a hybrid update stochastic evolutionary game model with fuzzy payment, Moran update and imitation update, is established by fuzzy number theory, and the fuzzy fixed probabilities under different fuzzy numbers are derived by Fokker-Planck equation. Secondly, the conditions of strategy dominance in the mixed update evolutionary game under fuzzy environment are analyzed, and the fuzzy evolutionarily stable strategy is obtained. At the same time, the fuzzy fixed probability is derived when the game matrix is represented by trapezoidal fuzzy number and normal fuzzy number under weak selection. Finally, the theoretical results are verified by a case study, and the simulation analysis is carried out.

文章引用：鄢迪, 丘小玲. 具有模糊支付的演化博弈策略研究[J]. 电子商务评论, 2024, 13(3): 8504-8517. https://doi.org/10.12677/ecl.2024.1331042

1. 引言

自1965年Zadeh [1]提出模糊集理论以来，模糊集理论就被应用到模糊多属性决策问题中。在决策问题中，客观环境的复杂多变以及人类思维的不确定性，导致决策信息的不确定性。在处理这类问题时，经常用模糊数来表示决策信息的这种不确定性。模糊集理论[2]主要用于解决模型决策问题，这些问题涉及由于缺乏信息或问题设置的可用信息不精确而导致的模糊性。经典博弈论的三个基本假设之一：参与者是完全理性的。然而，经典博弈论的规则并不符合实际，存在理论缺陷。Smith和Price [3]于1973年基于生物演化理论和传统博弈论提出了一种更实用的研究自然选择动力学的工具，称为演化稳定策略(evolutionary stability strategy, ESS)。后来著名的复制因子动力学由Taylor和Jonker [4]提出，并在Refs中进一步研究。Smith [5]用微分方程来描述群体中的策略比率变化，为研究无限大群体中的确定性动力学提供了一个强有力的框架。演化博弈论将经典博弈论与生物学相结合，揭示了生物种群行为的变化动态。而有限种群随机演化博弈的研究重点是策略的更新机制，包括同步更新和异步更新。

在现实系统中种群规模是有限的，且确定性选择过程受到随机效应和随机漂移的干扰，因此需要考虑有限种群规模下的随机进化博弈动力学。Kandori等[6]在有限但恒定的人口规模下，利用离散时间马尔可夫链建立了一个动态模型，并利用该模型分析了对称2 × 2博弈的长期均衡选择。随后，Amir和Berninghaus [7]将Kandori等人提出的模型扩展到连续时间条件。在演化博弈中，大多数关于有限种群的研究都专注于单一的更新机制。然而，由于个体认知的差异，个体可能会根据不同的更新机制改变策略。出于这个原因，我们考虑了结构化群体中两种不同的更新机制。Liu等[8]在分组人群中将两种过程合并为混合过程，通过固定概率和平均丰度函数来研究了合作行为的演化过程。Zhang等[9]将种群分为快慢两类，研究了相互作用个体更新过程的时间尺度不同时的种群动态。Wang等[10]将Moran过程和模仿更新过程结合起来建立新的动态模型，在利用Markov-链得到转移概率的基础上研究了注视概率和注视时间，本文则通过模糊集理论，在该混合更新规则的动态模型中引入模糊博弈矩阵。Gu等[11]在模糊环境下研究基于Moran过程的随机演化博弈动态，求解模糊Moran过程演化动态中策略的FFP。王先甲等[12]在有限种群中采取不同选择强度，利用Fokker-Planck方程扩散近似的方法得到了选择差异下Moran过程的策略扎根概率。

本文结构如下：第2节，介绍了模糊数的相关理论以及不同模糊数的排序规则。第3节，建立了基于模糊支付下的混合演化博弈模型，并分析模糊环境下的转移概率与更新过程选择概率以及种群数量之间的关系。第4节，利用Fokker-Planck方程求解出弱选择下不同模糊数的模糊固定概率，分析出模糊固定概率的自然选择性质。第5节，将基于模糊支付下的混合演化博弈模型应用到煤矿生产过程中矿工生产行为策略的选择问题上。最后是本文的总结。

2. 模糊集理论

2.1. 模糊集和模糊数

定义1 [13] 若对论域X上的任意一个元素 $x \in X$ ，都有闭区间 $[0, 1]$ 上的一个数 $μ_{A} (x) \in [0, 1]$ 与之相对应，即 $A = {(x, μ_{A} (x)) : x \in X, μ_{A} (x) \in [0, 1]}$ ，则A为一个模糊集，其中 $μ_{A} (x)$ 称为A的隶属函数。

定义2 [13] 论域X上的一个模糊集A是正规的，当且仅当 $\sup_{x \in X} μ_{A} (x) = 1$ 。模糊集合A是凸的，当且仅当 $μ_{A} (λ x_{1} + (1 - λ x_{2})) > \min (μ_{A} (x_{1}), μ_{A} (x_{2}))$ ， $x_{1}, x_{2}, \in X$ ， $λ \in [0, 1]$ 。若A满足正规性和凸性，则A是一个模糊数。

定义3 [14] 若A具有下列形式的隶属函数 $μ_{A}$

$μ_{A} = {\begin{array}{l} \frac{x - a_{1}}{a_{2} - a_{1}}, a_{1} \leq x \leq a_{2} \\ 1, a_{2} \leq x \leq a_{3} \\ \frac{a_{4} - x}{a_{4} - a_{3}}, a_{3} \leq x \leq a_{4} \\ 0, 其他 \end{array}$

则A是一个梯形模糊数，记作 $A = (a_{1}, a_{2}, a_{3}, a_{4})$ 。

设梯形模糊数 $A = (a_{1}, a_{2}, a_{3}, a_{4})$ 和 $B = (b_{1}, b_{2}, b_{3}, b_{4})$ ，则有下列运算成立：

(1) $A + B = (a_{1} + b_{1}, a_{2} + b_{2}, a_{3} + b_{3}, a_{4} + b_{4})$ ；

(2) $A - B = (a_{1} - b_{4}, a_{2} - b_{3}, a_{3} - b_{2}, a_{4} - b_{1})$ ；

(3) $A \times B = (a_{1} b_{1}, a_{2} b_{2}, a_{3} b_{3}, a_{4} b_{4})$ ；

(4) $\begin{array}{l} λ A = (λ a_{1}, λ a_{2}, λ a_{3}, λ a_{4}), λ > 0 \\ λ A = (λ a_{4}, λ a_{3}, λ a_{2}, λ a_{1}), λ < 0 \end{array}$ ；

(5) $\frac{1}{A} = (\frac{1}{a_{4}}, \frac{1}{a_{3}}, \frac{1}{a_{2}}, \frac{1}{a_{1}}), a_{1}, a_{2}, a_{3}, a_{4} \neq 0$ 。

定义4 [13] 若 $\tilde{A}$ 具有下列形式的隶属函数 $μ_{\tilde{A}}$

$μ_{\tilde{A}} (x) = \exp {- \frac{{(x - a)}^{2}}{σ_{a}^{2}}}, x \in X, a \in R, σ_{a} > 0$ ,

则称模糊数 $\tilde{A}$ 为正态模糊数，记为 $\tilde{A} = (a, σ_{a}^{2})$ 。

设正态模糊数 $\tilde{A} = (a, σ_{a}^{2})$ 和 $\tilde{B} = (b, σ_{b}^{2})$ ，则有下列运算成立

(1) $\tilde{A} \pm \tilde{B} = (a \pm b, σ_{a}^{2} + σ_{b}^{2})$ ；

(2) $λ \tilde{A} = (λ a, λ^{2} σ_{a}^{2})$ ；

(3) $\frac{1}{\tilde{A}} = {\frac{1}{a}, \frac{1}{σ_{a}^{2}}}$ ；

(4) $\tilde{A} \otimes \tilde{B} = \int_{- \infty}^{+ \infty} \tilde{A} (x) d x \int_{- \infty}^{+ \infty} \tilde{B} (y) d y = \sqrt{π} σ_{a} \cdot \sqrt{π} σ_{b} = π σ_{a} σ_{b}$ ，其中 $a \neq 0$ 和 $σ_{a} \neq 0$ 。

特别的，当 $\tilde{A} = \tilde{B}$ 时，有 $\tilde{A} \otimes \tilde{A} = {‖ \tilde{A} ‖}^{2} = π σ_{a}^{2}$ 。

2.2. 模糊数的排序规则

梯形模糊数的排序

目前已有许多文献研究了模糊数的排序规则，其中一些方法在计算上复杂且违反人类直觉、不易区分。Chu & Tsao [15]给出一种基于原点和质心的排序规则，模糊数A的质心 $\bar{x} (A)$ 和 $\bar{y} (A)$ 定义为：

$\begin{array}{l} \bar{x} (A) = \frac{\int_{a_{1}}^{a_{2}} (x μ_{A}^{L}) d x + \int_{a_{2}}^{a_{3}} x d x + \int_{a_{3}}^{a_{4}} (x μ_{A}^{R}) d x}{\int_{q_{1}}^{a_{2}} (μ_{A}^{L}) d x + \int_{a_{2}}^{a_{5}} d x + \int_{a_{3}}^{a_{4}} (μ_{A}^{R}) d x}, \\ \bar{y} (A) = \frac{\int_{0}^{1} (y τ_{A}^{L}) d y + \int_{0}^{1} (y τ_{A}^{R}) d y}{\int_{0}^{1} (τ_{A}^{L}) d y + \int_{0}^{1} (τ_{A}^{L}) d y}, \end{array}$

其中 $μ_{A}^{L}$ 和 $μ_{A}^{R}$ 分别为模糊数A的左右隶属函数， $τ_{A}^{L}$ 和 $τ_{A}^{R}$ 分别为 $μ_{A}^{L}$ 和 $μ_{A}^{R}$ 的反函数。例如：在梯形模糊数的隶属函数 $μ_{A}$ 中左隶属函数： $μ_{A}^{L} = \frac{x - a_{1}}{a_{2} - a_{1}}$ 、右隶属函数： $μ_{A}^{R} = \frac{a_{4} - x}{a_{4} - a_{3}}$ 。

Chu & Tsao利用面积对模糊数进行排序，面积 $s (A) = \bar{x} (A) \cdot \bar{y} (A)$ 越大，模糊数就越大。Wang & Lee [13]提出水平位置的量 $x (A)$ 要比纵轴高度的量 $y (A)$ 更重要，因此对Chu & Tsao的模糊数排序规则进行了修正：如果 $\bar{x} (A) < \bar{x} (B)$ 则 $A < B$ ；如果 $\bar{x} (A) > \bar{x} (B)$ 则 $A > B$ ；当 $\bar{x} (A) = \bar{x} (B)$ 时，如果 $\bar{y} (A) < \bar{y} (B)$ 则 $A < B$ ，如果 $\bar{y} (A) > \bar{y} (B)$ 则 $A > B$ ，如果 $\bar{y} (A) = \bar{y} (B)$ 则 $A = B$ 。Wang的修正方法克服了Chu & Tsao方法的不足且计算简洁。因此，本文采取Wang & Lee的模糊数排序规则。

正态模糊数排序

本文对正态模糊数之间的排序采用了He [16]的理论方法，该理论给出了得分函数的定义，并认为得分函数越高，表明参与人对期望值更重视。

设正态模糊数为 $\tilde{A} = (a, σ_{a}^{2})$ ，则 $\tilde{A}$ 的期望为 $E (\tilde{A}) = \frac{\int_{- \infty}^{+ \infty} x \tilde{A} (x) d x}{\int_{- \infty}^{+ \infty} \tilde{A} (x) d x}$ 。正态模糊数 $\tilde{A}$ 的方差定义为 $Var (\tilde{A}) = \frac{\int_{- \infty}^{+ \infty} \tilde{A} (x) {(x - E (\tilde{A}))}^{2} d x}{\int_{- \infty}^{+ \infty} \tilde{A} (x) d x}$ 。基于期望和方差，可以在定义正态模糊数的得分函数，正态模糊数 $\tilde{A}$ 的得分函数定义为

$o (\tilde{A}) = \frac{ϑ E (\tilde{A})}{(1 - ϑ) Var (\tilde{A})},$

当正态模糊数为 $\tilde{A} = (a, σ_{a}^{2})$ 时，则 $\tilde{A}$ 的得分函数 $o (\tilde{A})$ 为 $o (\tilde{A}) = \frac{ϑ a}{(1 - ϑ) σ_{a}^{2}}$ 。

设正规模糊数 $\tilde{A} = (a, σ_{a}^{2})$ 和 $\tilde{B} = (b, σ_{b}^{2})$ ，若 $o (\tilde{A}) > o (\tilde{B})$ ，则 $\tilde{A} > \tilde{B}$ ；若 $o (\tilde{A}) = o (\tilde{B})$ ，则 $\tilde{A} = \tilde{B}$ ；如果 $o (\tilde{A}) < o (\tilde{B})$ ，则 $\tilde{A} < \tilde{B}$ 。特别地，当 $\tilde{A} = (a, σ_{a}^{2})$ 和 $\tilde{B} = b$ 时， $a > b$ ，则 $\tilde{A} > \tilde{B}$ ； $a < b$ 时， $\tilde{A} < \tilde{B}$ 。

本文取 $ϑ = 0.5$ ，即决策者对期望值和方差同等重视。当 $ϑ = 0.5$ 时，有

$o (\tilde{A}) = \frac{ϑ a}{(1 - ϑ) σ_{a}^{2}} = \frac{a}{σ_{a}^{2}} .$

3. 具有模糊支付的混合演化博弈动力学——Moran和模仿过程

定义5 [14] 如果参与博弈的生物个体所获得的支付矩阵中不是确定的数值，而是一个模糊数，则称这样的博弈为模糊博弈。

模型

我们假设一个单一的、混合良好的恒定规模是N的群体，并考虑两种策略，我们称为A策略(合作)和B策略(背叛)。博弈的收益可以写成下面的矩阵：

$\begin{array}{l} \begin{matrix} A & B \end{matrix} \\ \begin{matrix} A \\ B \end{matrix} [\begin{array}{l} \tilde{A} & \tilde{B} \\ \tilde{C} & \tilde{D} \end{array}] \end{array}$ (1)

其中支付 $\tilde{A}, \tilde{B}, \tilde{C}$ 和 $\tilde{D}$ 都是模糊数。

个体进行2 × 2的对称博弈，博弈支付矩阵为(1)。在不论A策略的初始比例的情况下，若策略是占优的策略，即 $\tilde{A} < \tilde{C}, \tilde{B} < \tilde{D}$ ，则该博弈称为模糊囚徒困境博弈(Fuzzy Prisoner’s Dilemma)；若策略A是策略B的最优反应且B是A的最优反应，即若 $\tilde{B} > \tilde{D}, \tilde{C} > \tilde{A}$ ，则该博弈称为模糊共存博弈(Fuzzy Coexistence Game)；策略A是策略A的最优反应且B是B的最优反应，即若 $\tilde{C} < \tilde{A}, \tilde{B} < \tilde{D}$ ，则该博弈称为模糊协调博弈(Fuzzy Coordination Game)。

混合良好的种群允许所有个体之间进行交流，从而产生平均收益，并通过收益和适合度映射的选择来决定团队的选择。在随机配对下，排除自交互作用，A、B策略参与者的预期收益为

$\begin{array}{l} π_{A} = \frac{\tilde{A} (i - 1) + \tilde{B} (N - i)}{N - 1}, \\ π_{B} = \frac{i \tilde{C} + \tilde{D} (N - i - 1)}{N - 1}, \end{array}$

其中i为采取策略A的个体数量。

在经典的演化博弈动力学框架下，期望支付代表适应度。但是从遗传的角度看，个体繁殖率都正比于与之相对应的博弈支付，故引入选择强度 $ω (ω \in [0, 1])$ 。选择策略A和B的个体适应度 $\tilde{f_{A}}$ 和 $\tilde{f_{B}}$ 定义为期望支付的线性函数

$\begin{array}{l} \tilde{f_{A}} = 1 - ω + ω π_{A} \\ \tilde{f_{B}} = 1 - ω + ω π_{B} \end{array}$ ,

其中，当 $ω$ 很小时( $0 < ω ≪ 1$ )，博弈支付对适应度的影响不大，则为弱选择的情况。

由于个体所处环境和自身知识的复杂性，个体根据不同的更新规则改变策略是很自然的。因此，我们不再假设个体依靠单一更新规则来更新他们的策略。相反，他们使用两个更新规则(Moran过程和模仿过程)来更改策略，如图1所示。从i点开始的步行最终会在有限的时间内被0点或N点吸收，并永远停

留在那里。为方便起见，我们将混合过程的演化转移概率记为 $p_{i, i \pm 1}$ 。过程保持状态i的概率是 $1 - p_{i, i + 1} - p_{i, i - 1}$ 。因此，转移概率为

Figure 1. Hybrid update process

图1. 混合更新过程

$\begin{array}{l} p_{i, i + 1} = (1 - γ) \frac{N - i}{N} \frac{i \tilde{f_{A}}}{i \tilde{f_{A}} + (N - i) \tilde{f_{B}}} + γ \frac{N - i}{N} \frac{i}{N} \frac{\tilde{f_{A}}}{\tilde{f_{A}} + \tilde{f_{B}}} \\ p_{i, i - 1} = (1 - γ) \frac{i}{N} \frac{(N - i) \tilde{f_{B}}}{i \tilde{f_{A}} + (N - i) \tilde{f_{B}}} + γ \frac{N - i}{N} \frac{i}{N} \frac{\tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}} \\ p_{i, i} = 1 - p_{i, i + 1} - p_{i, i - 1} \end{array}$ (2)

转移矩阵的其他元素都是0。

我们可以得到该混合随机演化博弈的模糊转移概率：

$\begin{array}{l} p_{i, i - 1} = (1 - γ) \frac{i}{N} \frac{(N - i) (1 - ω + ω \frac{c_{k} i + d_{k} (N - i - 1)}{N - 1})}{i (1 - ω + ω \frac{a_{k} (i - 1) + b_{k} (N - i)}{N - 1}) + (N - i) (1 - ω + ω \frac{c_{k} i + d_{k} (N - i - 1)}{N - 1})} \\ + γ \frac{N - i}{N} \frac{i}{N} \frac{1 - ω + ω \frac{c_{k} i + d_{k} (N - i - 1)}{N - 1}}{2 - 2 ω + ω \frac{a_{k} (i - 1) + b_{k} (N - i) - c_{k} i - d_{k} (N - i - 1)}{N - 1}}, \\ p_{i, i} = 1 - p_{i, i + 1} - p_{i, i - 1}, \end{array}$

其中 $k = 1, 2, 3, 4$ 。

在无变异的情况下，任何由策略A和B个体构成的混合种群最终达到全A或全B的状态，因而可以计算模糊支付下结合Moran和模仿过程中策略的固定概率。

例：以表1中囚徒困境博弈为例给出 $γ = 0.5$ 、 $γ = 0.8$ 时混合随机演化博弈模型中策略A的转移概率 $p_{i, i + 1}$ 和 $p_{i, i - 1}$ ，如图2所示。假设种群规模为 $N = 100$ ，选择强度 $ω = 0.005$ 。

Table 1. Game payoff matrix under trapezoidal fuzzy number

表1. 梯形模糊数下的博弈收益矩阵

		A			B
A		$(3, 5, 8, 9)$			$(2, 3, 5, 8)$
B		$(5, 8, 10, 15)$			$(2, 6, 9, 14)$
其对应的模糊数的质心 $(\bar{x}, \bar{y})$
	$\tilde{A}$		$\tilde{B}$	$\tilde{C}$		$\tilde{D}$
$\bar{x}$	6.2222		4.5833	9.6111		7.8000
$\bar{y}$	0.5067		0.4815	0.4912		0.4946

Figure 2. The relationship between $p_{i, i + 1}$ , $p_{i, i - 1}$ and $γ$ and i, respectively

图2. $p_{i, i + 1}$ 、 $p_{i, i - 1}$ 与 $γ$ 和i之间的关系

$γ = 0.5$ 时，

$\begin{matrix} p_{i, i + 1} = (1 - γ) \frac{N - i}{N} \frac{i (1 - ω + ω \frac{a_{k} (i - 1) + b_{k} (N - i)}{N - 1})}{i (1 - ω + ω \frac{a_{k} (i - 1) + b_{k} (N - i)}{N - 1}) + (N - i) (1 - ω + ω \frac{c_{k} i + d_{k} (N - i - 1)}{N - 1})} \\ + γ \frac{N - i}{N} \frac{i}{N} \frac{1 - ω + ω \frac{a_{k} (i - 1) + b_{k} (N - i)}{N - 1}}{2 - 2 ω + ω \frac{a_{k} (i - 1) + b_{k} (N - i) - c_{k} i - d_{k} (N - i - 1)}{N - 1}} \\ = \frac{100 - i}{200} \frac{i (0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99})}{i (0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99}) + (100 - i) (0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99})} \\ + \frac{(100 - i) i}{20000} \frac{0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99}}{1.99 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i) - c_{k} i - d_{k} (99 - i)}{99}}, \end{matrix}$

$\begin{matrix} p_{i, i - 1} = \frac{100 - i}{200} \frac{(100 - i) (0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99})}{i (0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99}) + (100 - i) (0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99})} \\ + \frac{(100 - i) i}{20000} \frac{0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99}}{1.99 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i) - c_{k} i - d_{k} (99 - i)}{99}} . \end{matrix}$

$γ = 0.8$ 时，

$\begin{matrix} p_{i, i + 1} = \frac{100 - i}{500} \frac{i (0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99})}{i (0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99}) + (100 - i) (0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99})} \\ + \frac{4 i (100 - i)}{50000} \frac{0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99}}{1.99 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i) - c_{k} i - d_{k} (99 - i)}{99}} \end{matrix}$

$\begin{matrix} p_{i, i - 1} = \frac{100 - i}{500} \frac{(100 - i) (0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99})}{i (0.995 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i)}{99}) + (100 - i) (0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99})} \\ + \frac{4 i (100 - i)}{50000} \frac{0.995 + 0.005 \frac{c_{k} i + d_{k} (99 - i)}{99}}{1.99 + 0.005 \frac{a_{k} (i - 1) + b_{k} (100 - i) - c_{k} i - d_{k} (99 - i)}{99}} \end{matrix}$

4. 模糊固定概率

我们将混合更新过程描述为一个Fokker-Planck随机微分方程的形式，利用扩散近似的方法来求解策略的固定概率。对于较大的N，这个主方程可以近似用带有漂移项和扩散项

$\begin{array}{l} m (x) \approx p_{i, i + 1} - p_{i . i - 1} \\ v (x) \approx \frac{p_{i, i + 1} + p_{i . i - 1}}{N} \end{array}$

的Fokker-Planck随机微分方程

$d (x) = m (x) d (t) + v (x) d W (t),$

其中 $x = \frac{i}{N}$ 为选择策略A个体的比例， $W (t)$ 是Wiener过程。

对混合更新规则下的演化博弈过程，有

$\begin{array}{l} m (x) \approx p_{i, i + 1} - p_{i . i - 1} = (1 - γ) x (1 - x) \frac{\tilde{f_{A}} - \tilde{f_{B}}}{x \tilde{f_{A}} + (1 - x) \tilde{f_{B}}} + γ x (1 - x) \frac{\tilde{f_{A}} - \tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}} \\ v (x) \approx \frac{p_{i, i + 1} + p_{i . i - 1}}{N} = \frac{(1 - γ) x (1 - x)}{N} \frac{\tilde{f_{A}} + \tilde{f_{B}}}{x \tilde{f_{A}} + (1 - x) \tilde{f_{B}}} + \frac{γ x (1 - x)}{N} \frac{\tilde{f_{A}} + \tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}} \end{array}$ ,

因此混合更新规则下的演化博弈过程可以写成如下的随机微分方程：

$\begin{matrix} d (x) = ((1 - γ) x (1 - x) \frac{\tilde{f_{A}} - \tilde{f_{B}}}{x \tilde{f_{A}} + (1 - x) \tilde{f_{B}}} + γ x (1 - x) \frac{\tilde{f_{A}} - \tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}}) d (t) \\ + (\frac{(1 - γ) x (1 - x)}{N} \frac{\tilde{f_{A}} + \tilde{f_{B}}}{x \tilde{f_{A}} + (1 - x) \tilde{f_{B}}} + \frac{γ x (1 - x)}{N} \frac{\tilde{f_{A}} + \tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}}) d W (t) . \end{matrix}$

根据扩散近似的方法，如果 $0 < ω ≪ 1$ ，系统仍然保持随机性，且最终会被状态 $x = 0$ 和 $x = 1$ 吸收。假设在t时刻，种群中A个体的种群频率为 $x = \frac{i}{N}$ ，则系统从开始演化到吸收态的概率为 $γ (x)$ ( $γ (x) = γ (\frac{i}{N}) = ϕ_{i}$ )，又由Fokker-Planck随机微分方程可以计算出，即

$γ (x) = \frac{S (x)}{S (1)},$

其中 $S (x) = \int_{0}^{x} e^{- \int_{0}^{y} ψ (u) d u} d y$ ， $ψ (u) = \frac{2 m (x)}{v (x)}$ 。

4.1. 弱选择

在弱选择条件下(即当 $ω \to 0$ 时)，假设 $0 < ω ≪ 1$ 且 $u = \frac{i}{N}$ ，则由固定概率的计算公式得：

$\begin{matrix} ψ (u) = \frac{2 m (x)}{v (x)} = 2 N \frac{(1 - γ) (\tilde{f_{A}} - \tilde{f_{B}}) (\tilde{f_{A}} + \tilde{f_{B}}) + γ (\tilde{f_{A}} - \tilde{f_{B}}) [x \tilde{f_{A}} + (1 - γ) \tilde{f_{B}}]}{(1 - γ) {(\tilde{f_{A}} + \tilde{f_{B}})}^{2} + γ (\tilde{f_{A}} + \tilde{f_{B}}) [x \tilde{f_{A}} + (1 - γ) \tilde{f_{B}}]} \\ = 2 N \frac{\tilde{f_{A}} - \tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}} \frac{(1 - γ) (\tilde{f_{A}} + \tilde{f_{B}}) + γ [x \tilde{f_{A}} + (1 - γ) \tilde{f_{B}}]}{(1 - γ) (\tilde{f_{A}} + \tilde{f_{B}}) + γ [x \tilde{f_{A}} + (1 - γ) \tilde{f_{B}}]} \end{matrix}$

$\begin{matrix} = 2 N \frac{\tilde{f_{A}} - \tilde{f_{B}}}{\tilde{f_{A}} + \tilde{f_{B}}} \approx N (\tilde{f_{A}} - \tilde{f_{B}}) = N ω (π_{A} - π_{B}) \\ = N^{2} ω (μ x + \frac{1}{N} ν), \end{matrix}$

其中 $μ = \frac{\tilde{A} - \tilde{B} - \tilde{C} + \tilde{D}}{N - 1}$ ， $ν = \frac{(\tilde{B} - \tilde{D}) N + \tilde{D} - \tilde{A}}{N - 1}$ 。

将上式代入 $S (x) = \int_{0}^{x} e^{- \int_{0}^{y} ψ (u) d u} d y$ 得：

$\int_{0}^{y} ψ (u) d u = \int_{0}^{y} N^{2} ω (μ x + \frac{1}{N} ν) d u = N (\frac{1}{2} N ω μ y^{2} + ω ν y),$

则有

$\begin{matrix} S (x) = \int_{0}^{x} e^{- \int_{0}^{y} ψ (u) d u} d y = \int_{0}^{x} e^{- N (\frac{1}{2} N ω μ y^{2} + ω ν y)} d y \\ \approx \int_{0}^{x} [1 - N (\frac{1}{2} N ω μ y^{2} + ω ν y)] d y \\ = x - \frac{1}{2} N ω ν x^{2} - \frac{1}{6} N^{2} ω μ x^{3} . \end{matrix}$

进而可以得到 $S (1) = 1 - \frac{1}{2} N ω ν - \frac{1}{6} N^{2} ω μ$ 。

因此

$γ (x) = \frac{S (x)}{S (1)} = \frac{x - \frac{1}{2} N ω ν x^{2} - \frac{1}{6} N^{2} ω μ x^{3}}{1 - \frac{1}{2} N ω ν - \frac{1}{6} N^{2} ω μ} .$

定理1 在规模为N的有限种群中，个体采取策略A和B，个体间博弈的收益矩阵为(1)，当 $i = 1$ 时，有 $x = \frac{i}{N}$ ，此时得到弱选择下基于模糊支付的混合更新随机演化博弈模型中策略A的模糊固定概率为

$ϕ_{A} = ϕ_{1} = γ (\frac{1}{N}) = \frac{\frac{1}{N} - \frac{1}{2 N} ω ν - \frac{1}{6 N} ω μ}{1 - \frac{1}{2} N ω ν - \frac{1}{6} N^{2} ω μ} = \frac{1}{N^{2}} \frac{6 - ω (3 ν + μ)}{6 - ω (3 ν + N μ)} = \frac{1}{N^{2}} \frac{6 - ω α}{6 - ω β},$

其中

$α = \frac{3 (\tilde{B} - \tilde{D}) N - 3 \tilde{A} + \tilde{A} - \tilde{B} - \tilde{C} + 4 \tilde{D}}{N - 1}, β = \frac{(\tilde{A} + 3 \tilde{B} - \tilde{B} - \tilde{C} + \tilde{D} - 3 \tilde{D}) N - 3 \tilde{A} + 3 \tilde{D}}{N - 1} .$

4.2. 固定概率的自然选择性质

文献[17]中建立了具有选择差异的随机博弈动力系统，讨论了选择强度对固定概率的影响，并通过控制环境因素进行了优化。下面我们将参考其分析过程，讨论基于模糊支付下的混合更新随机演化博弈模型——Moran和模仿过程中选择有利于策略固定的条件及策略成为模糊演化稳定的条件。

定义6 (FESS) ① 选择抵制A入侵B，即 ${\tilde{f}}_{A} < {\tilde{f}}_{B}$ ；② 选择抵制A取代B，即 $ϕ_{A} < 1 / N$ 。同时满足①和②成立，则称策略B为模糊演化稳定策略(FESS)。

定理2 对有限种群中模糊支付下的混合更新随机演化博弈模型——Moran和模仿过程的策略，如果以下两个条件成立，则策略B是FESS：

(1) $\tilde{B} (N - 1) < \tilde{C} + \tilde{D} (N - 2)$ ,

(2) $(\tilde{A} + 2 \tilde{B} - \tilde{C} - 2 \tilde{D}) N^{2} + (- 3 \tilde{A} - 3 \tilde{B} + 6 \tilde{D}) N + (2 \tilde{A} + \tilde{B} + \tilde{C} - 4 \tilde{D}) < \frac{6 {(N - 1)}^{2}}{ω}$ .

定理3 在规模为N的有限种群中，个体间博弈的收益矩阵为梯形模糊数时，即

$[\begin{array}{l} \tilde{A} & \tilde{B} \\ \tilde{C} & \tilde{D} \end{array}] = [\begin{matrix} (a_{1}, a_{2}, a_{3}, a_{4}) & (b_{1}, b_{2}, b_{3}, b_{4}) \\ (c_{1}, c_{2}, c_{3}, c_{4}) & (d_{1}, d_{2}, d_{3}, d_{4}) \end{matrix}],$

则策略A的模糊固定概率为

$ρ_{A} = (\frac{1}{N^{2}} \frac{6 - ω α_{1}}{6 - ω β_{1}}, \frac{1}{N^{2}} \frac{6 - ω α_{2}}{6 - ω β_{2}}, \frac{1}{N^{2}} \frac{6 - ω α_{3}}{6 - ω β_{3}}, \frac{1}{N^{2}} \frac{6 - ω α_{4}}{6 - ω β_{4}}),$

其中

$\begin{array}{l} α_{1} = \frac{1}{N - 1} [(3 b_{1} - 3 d_{4}) N - 3 a_{4} + a_{1} - b_{4} - c_{4} + 4 d_{1}], \\ β_{1} = \frac{1}{N - 1} [(a_{1} + 3 b_{1} - b_{4} - c_{4} + d_{1} - 3 d_{4}) N - 3 a_{4} + 3 d_{1}], \\ α_{2} = \frac{1}{N - 1} [(3 b_{2} - 3 d_{3}) N - 3 a_{3} + a_{2} - b_{3} - c_{3} + 4 d_{2}], \\ β_{2} = \frac{1}{N - 1} [(a_{2} + 3 b_{2} - b_{3} - c_{3} + d_{2} - 3 d_{3}) N - 3 a_{3} + 3 d_{2}], \\ α_{3} = \frac{1}{N - 1} [(3 b_{3} - 3 d_{2}) N - 3 a_{2} + a_{3} - b_{2} - c_{2} + 4 d_{3}], \\ β_{3} = \frac{1}{N - 1} [(a_{3} + 3 b_{3} - b_{2} - c_{2} + d_{3} - 3 d_{2}) N - 3 a_{2} + 3 d_{3}], \\ α_{4} = \frac{1}{N - 1} [(3 b_{4} - 3 d_{1}) N - 3 a_{1} + a_{4} - b_{1} - c_{1} + 4 d_{4}], \\ β_{4} = \frac{1}{N - 1} [(a_{4} + 3 b_{4} - b_{1} - c_{1} + d_{4} - 3 d_{1}) N - 3 a_{1} + 3 d_{4}] . \end{array}$

定理4 在规模为N的有限种群中，个体间博弈的收益矩阵为正态模糊数时，即

$[\begin{array}{l} \tilde{A} & \tilde{B} \\ \tilde{C} & \tilde{D} \end{array}] = [\begin{matrix} (a, σ_{a}^{2}) & (b, σ_{b}^{2}) \\ (c, σ_{c}^{2}) & (d, σ_{d}^{2}) \end{matrix}],$

则策略A的模糊固定概率为

$ρ_{A} = (\frac{1}{N^{2}} \frac{6 - ω α}{6 - ω β}, \frac{1}{N^{4}} \frac{σ_{α}^{2}}{σ_{β}^{2}}),$

其中

$\begin{array}{l} α = \frac{3 (b - d) N - 3 a + a - b - c + 4 d}{N - 1}, \\ β = \frac{(a + 3 b - b - c + d - 3 d) N - 3 a + 3 d}{N - 1}, \end{array}$

$\begin{array}{l} σ_{α}^{2} = \frac{1}{{(N - 1)}^{2}} [9 N^{2} (σ_{b}^{2} + σ_{d}^{2}) + 10 σ_{a}^{2} + σ_{b}^{2} + σ_{c}^{2} + 16 σ_{d}^{2}], \\ σ_{β}^{2} = \frac{1}{{(N - 1)}^{2}} [N^{2} (σ_{a}^{2} + 10 σ_{b}^{2} + σ_{c}^{2} + 10 σ_{d}^{2}) + 9 σ_{a}^{2} + 9 σ_{d}^{2}] . \end{array}$

5. 应用

矿工的效用函数不仅取决于采取不同生产行为策略的期望收益，还受到许多不确定性的随机因素影响。杨雪[18]和杨富强[19]等人基于Moran更新规则下研究了矿工安全行为的策略选择过程，分析出违章作业的规制效果，降低矿工生产过程中的不安全行为。本文我们将单班矿工总人数记为N，由于每名矿工的收益除与自身行为相关外，还受到其他矿工行为的影响，导致矿工间存在不同行为策略的选择问题。因此，我们主要考虑同一班组内矿工的行为选择问题，构建了表2所示的单班矿工间的要素博弈2 × 2对称支付矩阵。假设单班矿工总人数 $N = 100$ 、选择强度为 $ω = 0.001$ ，判断同一班组内矿工的行为选择博弈的类型，分析参与策略的固定概率并判断策略S及策略C是否为模糊演化稳定策略FESS。

Table 2. 2 × 2 symmetrical stochastic evolutionary game model among single shift miners

表2. 单班矿工间2 × 2对称随机演化博弈模型

矿工2

矿工1

安全作业S

违章作业C

安全作业S

(2, 2^{2})

(3, 4^{2})

违章作业C

(3, 1^{2})

(4, 4^{2})

则由正态模糊数排序得： $o (\tilde{A}) = 0.5$ 、 $o (\tilde{B}) = 0.1875$ 、 $o (\tilde{C}) = 3$ 、 $o (\tilde{D}) = 0.25$ 。即 $\tilde{C} > \tilde{A} > \tilde{D} > \tilde{B}$ .故可以判断该博弈为模糊囚徒困境博弈。

根据定理4我们可以得到 $α = - \frac{294}{99}, β = - \frac{294}{99}$ 和 $σ_{α}^{2} = \frac{320313}{99^{2}}, σ_{β}^{2} = \frac{3250180}{99^{2}}$ ，则策略S的模糊固定概率为 $ρ_{S} = 10^{- 4} \times (1.0, {0.3}^{2})$ 。由得分函数公式可得模糊固定概率 $ρ_{S}$ 的得分函数 $o (ρ_{S}) = 10.1 \times 10^{4}$ ，所以有 $o (ρ_{S}) > \frac{1}{N}$ ，即 $ρ_{S} > \frac{1}{N}$ 。当 $i = 1$ 时，有 $π_{S} = (3, 4^{2})$ 和 $π_{C} = (3.9899, {3.98102}^{2})$ ，并且它们的得分函数分别为 $o (π_{S}) = 0.1875$ 和 $o (π_{C}) = 0.25175$ ，所以 $o (π_{S}) < o (π_{C})$ ，有 $π_{S} < π_{C}$ ，即 $\tilde{f_{S}} < \tilde{f_{C}}$ 。那么，根据定义6有：策略C不是模糊演化稳定策略FESS。同理，可以判段策略S也不是模糊演化稳定策略FESS。因此，表2所决定的博弈问题中策略S和策略C共存，如图3所示。

6. 总结

在现实生活中，我们的博弈环境是充满不确定性的，人们只能对决策人的博弈收益和博弈策略进行粗略的估计，本文则是用模糊数来考虑演化博弈过程中的不确定性。而对于模糊概念来说，采用隶属函数来描述最适合和最接近的人类惯性思维，将正常的模糊数及其相关理论引入演化博弈领域，解决大量经济学中的选择问题。

在演化博弈过程中，我们把演化博弈的博弈收益表示为模糊数，将混合演化博弈动力学推广到模糊环境中。首先，我们将模糊数引入博弈收益矩阵中，建立了具有模糊支付的混合更新演化博弈模型，分析了模糊转移概率受 $γ$ 的影响。其次，本文通过近似带有扩散项和漂移项的Fokker-Planck随机微分方程，利用扩散近似的方法求解出合作策略的固定概率，得到了固定概率与种群数量的大小有关；分析了优势

Figure 3. The relationship between fuzzy fixation probability and population quantity

图3. 模糊固定概率与种群数量之间的关系

策略的存在条件，并得到策略成为模糊演化稳定策略的存在条件，推导出梯形模糊数和正态模糊数下固定概率的解析表达式。最后，将该模型应用于矿工的行为策略的选择问题上，得到了矿工行为选择策略的固定概率和策略成为FESS的条件，并利用仿真分析了理论结果。

基金项目

国家自然科学基金项目(12061020)；贵州省科技厅科学基金(黔科合基础[2019] 1123号；黔科合-ZK [2021]一般331)；贵州省教育厅科学基金(黔科合KY字[2021] 088号，黔科合KY字[2022] 301)；贵州省师范学院博士基金(No. 2021BS005)。

NOTES

^*通讯作者。

参考文献

[1]	Zadeh, L.A. (1965) Fuzzy Sets. Information and Control, 8, 338-353. [Google Scholar] [CrossRef]
[2]	陈水利, 李敬功, 王向公. 模糊集理论及其应用[M]. 北京: 科学出版社, 2005: 26-49.
[3]	Smith, J.M. and Price, G.R. (1973) The Logic of Animal Conflict. Nature, 246, 15-18. [Google Scholar] [CrossRef]
[4]	Taylor, P.D. and Jonker, L.B. (1978) Evolutionary Stable Strategies and Game Dynamics. Mathematical Biosciences, 40, 145-156. [Google Scholar] [CrossRef]
[5]	Smith, J.M. (1976) Evolution and the Theory of Games. American Scientist, 64, 41-45.
[6]	Kandori, M., Mailath, G.J. and Rob, R. (1993) Learning, Mutation, and Long Run Equilibria in Games. Econometrica, 61, 29-56. [Google Scholar] [CrossRef]
[7]	Amir, M. and Berninghaus, S.K. (1996) Another Approach to Mutation and Learning in Games. Games and Economic Behavior, 14, 19-43. [Google Scholar] [CrossRef]
[8]	Liu, X., Pan, Q., Kang, Y. and He, M. (2015) Fixation Probabilities in Evolutionary Games with the Moran and Fermi Processes. Journal of Theoretical Biology, 364, 242-248. [Google Scholar] [CrossRef] [PubMed]
[9]	Zhang, J., Weissing, F.J. and Cao, M. (2016) Fixation of Competing Strategies When Interacting Agents Differ in the Time Scale of Strategy Updating. Physical Review E, 94, 2-7. [Google Scholar] [CrossRef] [PubMed]
[10]	Wang, X., Gu, C., Lv, S. and Quan, J. (2019) Evolutionary Game Dynamics of Combining the Moran and Imitation Processes. Chinese Physics B, 28, Article 020203. [Google Scholar] [CrossRef]
[11]	Gu, C., Wang, X., Zhao, J., Ding, R. and He, Q. (2020) Evolutionary Game Dynamics of Moran Process with Fuzzy Payoffs and Its Application. Applied Mathematics and Computation, 378, Article 125227. [Google Scholar] [CrossRef]
[12]	王先甲, 顾翠伶, 赵金华, 等. 选择差异下Moran过程的随机博弈模型及其应用[J]. 系统工程理论与实践, 2020, 40(5): 1196-1200.
[13]	Wang, Y. and Lee, H. (2008) The Revised Method of Ranking Fuzzy Numbers with an Area between the Centroid and Original Points. Computers & Mathematics with Applications, 55, 2033-2042. [Google Scholar] [CrossRef]
[14]	王先甲, 顾翠伶, 赵金华, 等. 具有模糊支付的Moran过程演化博弈动态[J]. 运筹与管理, 2021, 30(7): 71-74.
[15]	Chu, T. and Tsao, C. (2002) Ranking Fuzzy Numbers with an Area between the Centroid Point and Original Point. Computers & Mathematics with Applications, 43, 111-117. [Google Scholar] [CrossRef]
[16]	He, Z.X. (1982) Fuzzy Mathematics and Its Application. Tianjin Science and Technology Press.
[17]	高雷阜, 毕玲玲. 具有选择差异的随机博弈进化动力系统[J]. 生物数学学报, 2015, 30(1): 161-167.
[18]	杨雪, 田阳, 柴瑞瑞, 等. 基于Moran过程的矿工违章行为惩罚机制分析[J]. 系统工程学报, 2023, 38(4): 476-480.
[19]	杨富强, 董冉, 王丹, 等. 基于Moran过程的矿工安全行为随机演化动态[J]. 煤矿安全, 2022, 53(8): 253-255.

为你推荐

友情链接