1. 引言
近年来,人们对高品质的生鲜农产品的偏好增加,市场需求量不断上升,但由于供应链上存在许多不确定性,例如自然因素和人为因素的影响,这使得生鲜农产品的质量下降。然而,在供应链运输中,生产商和加工商投入的物流资源相对较少,导致生鲜农产品劣化流入市场,对人们食用后的身体健康造成非常大的危害。因此,在不确定环境下,研究物流资源投入程度对生鲜农产品的质量安全具有重要意义。
诸多学者认为生鲜农产品供应链上的问题,是存在信息不对称。McCluskey [1] 分析了信息不对称情况下农产品生产者之间的博弈问题,增添了农产品质量安全保护的建议。还有不少学者 [2] [3] 从信息不对称出发,给出了怎样使得农产品质量安全提高的方案,但还未包含演化博弈论思想。演化博弈论 [4] [5] ,将无限理性转为有限理性,改善了许多传统博弈的缺点,更能代表博弈方的策略选择,这使得诸多学者深入研究。杨松等 [6] 创建了带有惩罚机制的演化博弈模型,对系统的演化过程深入分析,但未考虑物流资源对农产品质量安全的影响。供应链运营过程中生产主体具有强烈的“搭便车”动机,后续学者李昌彬等 [7] [8] 研究得出,如果“搭便车”行为的额外收益较大,就会降低物流资源投入的积极性,但未将政府因素考虑进来。有了政府的监管,会使得市场更加稳定。朱立龙 [9] 引入政府因素,建立政府、农产品加工企业和检测机构之间的三方演化博弈模型,利用雅可比矩阵得到了系统演化的稳定策略,提出了如何提高农产品质量安全的有效措施,但没有考虑供应链上的不确定性,忽视了随机干扰对系统演化稳定策略的影响。随机演化博弈论将博弈论的分析与动态演化的分析相结合,能够充分考虑行为主体的有限理性与信息随机性 [10] ,能够把演化博弈模型拓展为随机演化博弈模型,来研究在不确定性环境中的博弈问题。例如有学者将它应用到燃料汽车方面 [11] 、CEO激励与监督问题 [12] 、绿色信贷发展困境问题 [13] 等等。但是将随机演化博弈理论应用到生鲜农产品供应链中,确少有文献涉及。
综上所述,为考虑生鲜农产品供应链上游环节中的行为主体在不确定性环境下物流资源投入程度的问题,将高斯白噪声作为随机因素考虑进来,建立政府监管部门、供应商与加工商之间的随机演化博弈模型,利用随机微分方程稳定性判定定理,得到了零解矩指数稳定的充分条件,并进行了数值仿真,研究结果可以为政府监管市场提供一些建议。
2. 模型的基本假设与分析
在基于前人研究的基础上,本文选取生鲜农产品供应链上游环节中的政府监管部门、供应商以及加工商三个博弈主体,假设如下:
假设1:政府监管部门为博弈方1,供应商为博弈方2,加工商为博弈方3,且都是有限理性的。
假设2:博弈方1的策略选择为 
  ,概率出现的可能性为 
  ;博弈方2的策略选择为 
  ,概率出现的可能性为 
  ;博弈方3的策略选择为 
  ,概率出现的可能性为 
  。
假设3:博弈方1在监管中付出的成本为 
  ,监管转化来的形象效用为 
  ;博弈方1不监管的损失为 
  ,导致生鲜农产品浪费的损失为 
  。其中,供应商 
  、加工商 
  。
假设4:博弈方1与博弈方2消极投入物流资源时,市场需求量为 
  ,每单位生鲜农产品成本为 
  ,每单位生鲜农产品销售价格为 
  ,商家消极投入物流资源的处罚金额为 
  , 
  。
假设5:博弈方1与博弈方2积极投入物流资源时,购买高质量设备等花费的成本为 
  ,积极投入物流资源的收益增加比率为 
  。当单方商家积极投入物流资源,而另一方通过“搭便车”行为获得额外收益为 
  。
上述假设的参数都为正数,且 
  , 
  , 
  , 
  。三方演化博弈模型的支付矩阵见表1。

Table 1. Payment matrix of the three-party evolutionary game model
表1. 三方演化博弈模型的支付矩阵
3. 随机演化模型的构建
3.1. 三个行为主体的复制动态方程
政府不监管策略的收益记为 
  ,监管策略的收益记为 
  ,平均期望收益为 
  ,其复制动态方程为 
  ,如下所示:
 
 
 
  (1)
供应商消极投入策略的收益记为 
  ,积极投入策略的收益记为 
  ,平均期望收益为 
  ,其复制动态方程为 
  ,分别如下:
 
 
 
  (2)
加工商消极投入策略的收益记为 
  ,积极投入策略的收益记为 
  ,平均期望收益为 
  ,其复制动态方程为 
  ,所示如下:
 
 
 
  (3)
3.2. 随机演化博弈模型
在生鲜农产品供应链上游环节中,商家一方面受认知能力、风险预估的影响;另一方面也受市场管理、决策机制的影响。同时,生鲜农产品在物流运输过程中,气候、交通等因素都会对生鲜农产品的运输产生干扰。由此可知,为了更精确的描述生鲜农产品在物流运输过程中受到的不确定因素的影响,引用随机微分理论,将高斯白噪声纳入方程(1)~(3)来模拟供应链演化过程中产生的随机干扰,改进了传统演化博弈中假设随机因素是恒定的,使得演化结果更符合供应链的现实情况。
参考孙华丽等人 [14] 的研究方法,现将文中行为主体的复制动态方程改写为:
  (4)
  (5)
  (6)
其中, 
  是标准的一维Brown运动,当 
  ,步长 
  时,其增量 
  服从正态分布 
  , 
  为随机干扰项,其中 
  表示随机干扰强度,为正常数。
3.3. 稳定性判据
由于生鲜农产品供应链上出现的不确定性因素,所以必须考虑随机干扰对系统策略演化稳定性的影响,对均衡解的分析,根据随机微分方程稳定性判别定理,对方程(4)~(6)进行稳定性判定:
引理1 [15] 给定一个随机微分方程:
  (7)
设存在函数 
  与正常数 
  ,使得 
  , 
  。
(1) 若存在正常数 
  ,使得 
  , 
  ,则方程(7)的零解 
  阶矩指数稳定,且成立 
  , 
  。
(2) 若存在正常数 
  ,使得 
  , 
  ,则方程(7)的零解 
  阶矩指数不稳定,且成立 
  , 
  。
根据上述引理,可以得到方程(4)~(6)的稳定性判据。
命题1:针对方程(4),取 
  , 
  , 
  , 
  , 
  ,则 
  。于是有:1) 当 
  且 
  时,则方程(4)的零解矩指数稳定;2) 当 
  且 
  时,方程(4)的零解矩指数不稳定。其中, 
  。
证明:对于方程(4),取 
  , 
  , 
  , 
  时, 
 
  .
(1) 当方程(4)的零解矩指数稳定时,需满足 
  ,得 
  ,且满足 
  ,于是可得方程(4)的零解矩指数稳定条件为 
  且 
  。
(2) 当方程(4)的零解矩指数不稳定时,需满足 
  ,得 
  ,且满足 
  ,于是可得方程(4)的零解矩指数不稳定的条件为 
  且 
  。
命题1表明:政府监管部门在满足条件(1)的前提下,随着与供应商和加工商的多次博弈,最终更倾向于选择监管策略;而在满足条件(2)的前提下,政府监管部门最终会选择不监管策略,这为政府监管部门在实践中的宏观调控提供了理论依据。
命题2:针对方程(5),取 
  , 
  , 
  , 
  , 
  ,则 
  。于是有:(1) 当 
  且 
  时,则方程(5)的零解矩指数稳定;(2) 当 
  且 
  时,方程(5)的零解矩指数不稳定。其中, 
  , 
  。
命题2证明过程同命题1。
命题2表明:供应商在满足条件(1)的前提下,随着与政府监管部门和加工商的多次博弈,最终更倾向于选择积极投入策略;而在满足条件(2)的前提下,供应商最终会选择消极投入策略,这为供应商在实践中选择是否积极投入物流资源提供了理论支持。
命题3:针对方程(6),取 
  , 
  , 
  , 
  , 
  ,则 
  。于是有:(1) 当 
  且 
  时,则方程(6)的零解矩指数稳定;(2) 当 
  且 
  时,方程(6)的零解矩指数不稳定。其中, 
  , 
  。
命题3证明过程同命题1。
命题3表明:加工商在满足条件(1)的前提下,随着与政府监管部门和供应商的多次博弈,最终更倾向于选择积极投入策略;而在满足条件(2)的前提下,加工商最终会选择消极投入策略,这为加工商在实践中选择是否积极投入物流资源提供了实践指导。
由命题1到命题3能够知道,当满足 
  且 
  , 
  且 
  以及 
  且 
  条件时,系统存在唯一的演化稳定策略 
  ,即政府监管部门、供应商以及加工商最终都会选择(监管,积极投入,积极投入),这是由于行为主体采取积极策略的收益大于所付出的成本,故博弈方最终采取积极策略;当满足 
  且 
  , 
  且 
  以及 
  且 
  条件时,系统存在唯一的演化稳定策略 
  ,即政府监管部门、供应商以及加工商最终都会选择(不监管,消极投入,消极投入),这是由于行为主体采取消极策略的收益远大于采取积极策略的收益,故博弈方最终更倾向于选择消极策略。
4. 随机演化方程的泰勒展开式
由于式(4)~(6)为非线性Itô随机微分方程,其解析解是不能够直接求出来的,因此需对上式进行随机Taylor展开求其数值解。为方便起见,先考虑如下的Itô型随机微分方程:
  (8)
其中 
  , 
  , 
  , 
  是标准Winner过程。令 
  , 
  ,对上式进行随机Taylor展开:
 
其中 
  是余项,算子 
  和 
  分别为
  , 
  ,
 
则式(8)可以表示为:
 
随机Taylor展开式是随机微分方程数值算法的基础,在实际的应用中,通常采用Euler数值方法和Milstein数值方法对随机演化模型进行数值模拟。本文采用Euler数值方法来进行求解。Euler数值方法的格式为:
 
当 
  时, 
  ,区间 
  分为 
  ,平均步长 
  ,节点 
  , 
  。记 
  , 
  , 
  , 
  为常数。那么Euler数值法的格式为:
 
现将式(4)~(6)按照上述方法展开得到:
  (9)
  (10)
  (11)
下面将对式(9)~(11)随机微分方程进行数值模拟求解。
5. 两种情形的数值模拟结果
为更直观地观察以上方程的演化过程,现将参数进行合理赋值并代入MATLAB软件进行仿真。本文图中横坐标表示系统演化的时间,纵坐标表示可能发生的概率占比。主要考虑两种条件下系统的演化稳定均衡点(0, 0, 0)和(1, 1, 1)情况赋值,由于其它参数的变化对策略演化的结果影响很小,所以先赋值为 
  , 
  , 
  , 
  , 
  , 
  , 
  , 
  , 
  , 
  , 
  。假定三方策略选择的初始概率为 
  。情形分析是对供应链上的行为主体关于物流资源投入程度的探讨,模拟博弈三方在不同情形下的演化过程。通过改变随机扰动 
  的强度,来观察 
  的变化对供应链上的行为主体策略演化的影响。
情形1:供应链上的行为主体采取积极态度的策略演化
假定政府监管的成本为 
  ,政府对商家消极投入物流资源的处罚金额为 
  ,这时, 
  满足方程(4)零解矩指数稳定条件,政府监管部门最后会演化到监管策略,这是由于政府监管部门监管时的收益与加收的处罚金额之和大于监管成本,故其选择监管。
供应商积极投入物流资源的成本 
  ,供应商积极投入物流资源的收益转化率 
  ,搭便车行为获得的收益 
  ,政府监管部门对供应商消极投入的处罚金额 
  ,这时, 
  满足方程(5)零解矩指数稳定条件,供应商最终会演化到积极投入策略,这是由于供应商消极投入物流资源的处罚金额较高,并且积极投入物流资源的收益大于搭便车行为的收益,故其选择积极投入。
加工商积极投入物流资源的成本 
  ,供应商积极投入物流资源的收益转化率 
  ,搭便车行为获得的收益 
  ,政府监管部门对加工商消极投入的处罚金额 
  这时, 
  满足方程(6)零解矩指数稳定条件,加工商最终会演化到积极投入策略,这是由于加工商消极投入物流资源的处罚金额较高,并且积极投入物流资源的收益大于搭便车行为的收益,故其选择积极投入。
以上赋值均满足零解矩指数稳定的条件,行为主体采取积极态度的演化稳定策略为(0, 0, 0),即(监管,积极投入,积极投入)。为了更清楚地看到博弈方在不同的随机干扰强度下策略演化的规律,对随机扰动 
  分别取值为 
  ,数值仿真如下图1~图4所示。
图1到图4仿真结果表明,生鲜农产品供应链上的行为主体采取积极态度策略演化过程中,由于随机干扰的存在,呈现出一定的波动,这表明环境的不确定性会对行为主体的策略演化产生一定的影响。随着随机干扰强度的增大,系统的演化会更快的趋于稳定点(0, 0, 0),这也反映了现实中的博弈方,在受到干扰的环境下,政府监管部门会更迅速的采取监管策略,而商家开始会有一段时间摇摆不定,最后迫于压力选择积极投入策略,即系统的演化稳定策略(监管,积极投入,积极投入)。
情形2:供应链上的行为主体采取消极态度的策略演化
假定政府监管的成本为 
  ,政府对商家消极投入物流资源的处罚金额为 
  ,这时, 
  满足方程(4)零解矩指数不稳定条件,政府监管部门最后会演化到不监管策略,这是由于政府监管部门监管时的收益与加收的处罚金额之和还不足以达到监管成本,故其选择不监管。
供应商积极投入物流资源的成本 
  ,供应商积极投入物流资源的收益转化率 
  ,搭便车行为获得的收益 
  ,这时, 
  满足方程(5)零解矩指数不稳定条件,供应商最终会演化到消极投入策略,这是由于供应商搭便车行为的收益大于积极投入物流资源的收益,故其选择消极投入。
加工商积极投入物流资源的成本 
  ,加工商积极投入物流资源的收益转化率 
  ,搭便车行为获得的收益 
  ,这时, 
  满足方程(6)零解矩指数不稳定条件,加工商最终会演化到消极投入策略,这是由于加工商消极投入物流资源的处罚金额较低,并且搭便车行为的收益大于积极投入物流资源的收益,故其选择消极投入。

Figure 1. Evolution results of σ = 0
图1. σ = 0的演化结果

Figure 2. Evolution results of σ = 0.5
图2. σ = 0.5的演化结果

Figure 3. Evolution results of σ = 1
图3. σ = 1的演化结果

Figure 4. Evolution results of σ = 2
图4. σ = 2的演化结果
以上赋值均满足零解矩指数不稳定的条件,行为主体采取消极态度的演化稳定策略为(1, 1, 1),即(不监管,消极投入,消极投入)。为了更清楚地看到博弈方在不同的随机干扰强度下策略演化的规律,对随机扰动 
  分别取值为 
  ,数值仿真如下图5~图8所示。

Figure 5. Evolution results of σ = 0
图5. σ = 0的演化结果

Figure 6. Evolution results of σ = 0.2
图6. σ = 0.2的演化结果
图5到图8仿真结果表明,生鲜农产品供应链上的行为主体采取消极态度策略演化过程中,由于随机干扰的存在,呈现出一定的波动,这表明环境的不确定性会对行为主体的策略演化产生一定的影响。随着随机干扰强度的一点点增大,系统的演化会渐渐的不趋于稳定点(1, 1, 1),这也反映了现实中的博弈方,在受到较小干扰的环境下,由于利益变化不大,还是会执行消极策略,即(不监管,消极投入,消极投入),但是随着干扰强度的增大,风险增加,博弈方将不再趋于稳定点(1, 1, 1)。原因是随机干扰的出现,生鲜农产品市场混乱,政府监管部门迫于舆论压力不再保持不监管策略,而商家认为风险的出现也伴随着利润的增大,也不再维持消极投入策略。

Figure 7. Evolution results of σ = 0.5
图7. σ = 0.5的演化结果

Figure 8. Evolution results of σ = 1
图8. σ = 1的演化结果
6. 结论
本文针对生鲜农产品供应链上物流资源投入程度在不确定性环境下的演化问题,考虑供应链上的动态特性以及存在的干扰因素多、不确定性强等特点,引入高斯白噪声来反映生鲜农产品供应链演化过程中受到的随机干扰,建立了在不确定性环境中生鲜农产品供应链上的随机演化博弈模型,得到了行为主体在随机干扰下的复制动态方程,并用随机微分方程的稳定性定理给出了政府监管部门、供应商和加工商零解矩指数稳定的条件,并将Itô型随机微分方程用随机Taylar展开后进行仿真模拟。研究结果表明,当供应链上的行为主体采取积极态度的策略时,随着干扰强度的增大,博弈方会更快的趋于稳定状态;当供应链上的行为主体采取消极态度的策略时,随着干扰强度的增大,博弈方会渐渐地趋于不稳定状态。研究结果可为政府管控市场提供一些建议。
基金项目
国家自然科学基金项目(12061020)。