1. 引言
非合作博弈论[1] [2]是博弈论的一个分支,它研究在给定对手策略的情况下,各个独立的参与者如何解决冲突以实现自身收益函数的最优化。纳什博弈是非合作博弈的一个重要子类,源于[3]的开创性工作。这类模型在众多工程系统中得到了广泛应用,例如电网、通信网络和传感器网络。在本文中,考虑一个有限参与者集合的纳什均衡问题,参与者用i表示,其中
。对于任意的
,第i个参与者由策略
和收益函数
来刻画,该收益函数依赖于其自身的策略
,并以对手的策略
为参数。若
,且
表示策略组合定义为
。本文考虑一个随机纳什博弈P,在该博弈中,给定对手的策略
,参与者i的目标是求解如下的随机复合优化问题:
其中
,随机变量
定义在概率空间
上,
是一个标量值函数,
表示关于概率测度P的期望。本文关注的是非光滑凸纳什博弈,其中对于任意的
,
被假设为关于
是光滑且凸的,而
被假设为凸函数,但可能是非光滑的并且具有高效的近邻评估。在随机纳什博弈中,若第d i个参与者求解参数化问题
,则纳什均衡是一个元组
,使得对于每个参与者
,都满足以下条件:
换句话说,如果没有任何参与者可以通过单方面偏离策略
来提高自己的收益,那么
就是一个纳什均衡。
本文的研究重点为开发具有最优确定性收敛速率的可变样本规模近邻随机梯度响应方案和近邻最佳响应方案。前面的学者讨论了一些关于连续策略纳什博弈以及随机优化方差缩减的方案。例如在确定性纳什博弈中,早期研究聚焦于凸纳什博弈,其中串联梯度映射要么是强单调的[4],要么仅仅是单调映射[5]。虽然上述方案采用了梯度响应技术,但在[6]中研究了依赖于最佳响应映射收缩特性的最佳响应方案。在随机纳什博弈中,针对单调随机纳什博弈,提出了正则化随机逼近方案[7],并且后续研究对其进行了拓展,以应对模型误设以及缺乏利普希茨性质的情况。更近些时候,在[8]中开发了采样最佳响应方案,同时在[9]中为一类非精确随机最佳响应方案提供了收敛速率陈述和迭代复杂度界限。实际上,本文从前面学者的工作中获得灵感,进而推导出更优的收敛速率陈述。最后,在[10]中证明了随机纳什博弈中,由最佳响应方案产生的序列的几乎必然收敛性和均方收敛性。
本文的创新点有两个,第一提出了一个可变样本规模近邻梯度响应方案,在强单调性假设条件下,证明了可变样本规模近邻梯度响应方案具有均方误差的线性收敛速率(定理1)。而在定理2中确定了达到一个ε-纳什均衡(记为x,其中x满足
)的迭代复杂度和神谕复杂度分别为
和
,其中
。此外,在推论1中表明,通过选取特定的算法参数,获得一个ε-纳什均衡的迭代复杂度和神谕复杂度分别被界定为
和
,这里的k表示条件数。
第二开发了一种可变样本规模近邻最佳响应方案(见算法1),用于求解一类具有压缩性质近邻最佳响应映射的随机纳什博弈。在该类博弈中,每个参与者每一步都要解决一个样本平均最佳响应问题。本文在定理3中证明,在合适的情景数量下,该方案所产生的迭代序列以线性速率收敛到纳什均衡。此外,还确定了达到ε-纳什均衡所需的迭代复杂度和神谕复杂度分别为
和
,其中
。
2. 可变样本规模近邻梯度响应方案
本节考虑针对一类与强单调串联梯度映射相关的强单调纳什博弈,设计一种可变样本规模的随机梯度响应方案。本文将证明该方案所产生的迭代序列以线性速率收敛至纳什均衡,并给出实现ε-纳什均衡所需的神谕复杂度。
2.1. 可变样本规模近邻梯度响应设计
本文针对随机纳什博弈P施加如下假设:
假设1:(1) 函数
是下半连续且凸的,其有效定义域记为
。假设
且
。
(2) 对于每个固定的
,函数
在包含
的开集上关于
是
类且凸的。
(3) 对于所有
以及任意
,函数
在包含
的开集上关于
是可微的,使得
。
如果
且
,那么根据假设1(3),
。以下引理表明,元组
是P的一个纳什均衡,当且仅当它是某个合适映射的不动点。
引理1纳什均衡与不动点的等价性
给定随机纳什博弈P,假设对于每个参与者
,假设1都成立。定义
。那么
是一个纳什均衡,当且仅当
是
的一个不动点,即
假设迭代步长用k表示,参与者i在时刻k的策略用
表示,它是其均衡策略
的一个估计值。本文考虑标准近邻随机梯度法的一种可变样本规模的推广形式,在第k次迭代中使用
个采样梯度。给定随机向量
的
个实现值的样本
,对于任意
,给定
,参与者i按如下方式更新
:
其中
是常数步长,
,
表示采样梯度。定义
,且
。那么上述方案可表示为
本文对梯度映射和噪声做出以下假设。
假设2:(1) 映射
在集合R上是具有常数L的利普希茨连续的,即
(2)
是具有参数
的强单调的,即
(3) 存在一个常数
,使得对于任意
,以下条件成立:
,
几乎处处成立,其中
。
2.2. 收敛速率分析
本文从一个关于样本规模
、步长
和问题参数的条件均方差的简单递推关系开始。
引理2 考虑可变样本规模近邻梯度响应,并且假设1和假设2成立。定义
。那么对所有的
,
,几乎处处成立。
利用引理2,本文能够证明随机梯度响应的线性收敛速率。
定理1 可变样本规模近邻梯度响应的线性收敛速率:设将近邻梯度响应应用于P,其中对于某个
,
,并且对于某个常数
,有
。当假设1和假设2成立,且
,定义
。那么对任意的
,以下结论成立:
(1) 若
,则
,其中
.
(2) 若
,则对任意的
,
,其中
.
2.3. 迭代与神谕复杂度
在本节中,本文考察此方案在计算ε-纳什均衡时的迭代次数(以近邻评估次数来衡量)和神谕复杂度,接下来将对ε-纳什均衡进行定义。回顾前文,若
,则随机策略配置
是一个ε-纳什均衡。
定理2 迭代与神谕复杂度:设将近邻梯度响应应用于
,其中对于某个
,
,且
。当假设1和假设2成立,定义
。设
,
,
,和
如定理1中所定义。那么,获得一个ε-纳什均衡所需的近邻评估次数由
界定,其定义如下:
(2.1)
并且所需的采样梯度数量由
界定,其定义如下:
(2.2)
证明. 本文首先考虑
的情形。根据定理1 (1),以下式子成立:
然后,对于
和
的情况,本文得到了方程(2.1)中给出的界限。注意,对于
以及任意正整数K,以下式子成立:
然后本文可以得到以下界限:
注意,对于任意
,以下式子成立:
因此,获得一个ε-纳什均衡所需的采样梯度数量由以下式子界定:
因此,对于
和
的情况,本文得到了方程(2.2)中给出的界限。
的情况可以类似的证明。
注:(1) 上述定理表明,达到ε-纳什均衡的迭代复杂度和神谕复杂度分别为
和
。其中,当
时,
;当
时,
;当
时,
。(2) 假设本文使用另一种度量来描述ε-纳什均衡:若
,则随机策略配置
是一个ε-纳什均衡。然后,根据詹森不等式可知,ε2-纳什均衡也是ε-纳什均衡。因此,由定理2可得,达到ε-纳什均衡的迭代复杂度和神谕复杂度分别为
和
。
推论:设将近邻梯度响应应用于P,其中对于某个常数
,有
。当假设1和假设2成立,定义条件数
。设
,且对于
,
。那么,获得一个ε-纳什均衡所需的近邻评估次数和采样次数分别由
和
界定。
3. 可变样本规模近邻最佳响应方案
在本节中,本文考虑一类随机纳什博弈,其中近邻最佳响应是压缩映射的。本文提出一种可变样本规模近邻最佳响应方案来计算均衡,并推导出收敛速率,建立迭代和神谕复杂度界限。
3.1. 近邻最佳响应映射的背景
对于任意的
以及任意的元组
,定义近邻最佳响应映射
为
。对问题
施加如下假设。
假设3:(1) 对于每一个固定的
,函数
是二次连续可微的,并且在包含
的开集上关于
是凸的。此外,假设
关于
是利普希茨连续的,并且在
上是一致有界的,其常数为
,即对任意的
,有
.
(2) 对于所有的
以及任意的
,函数
在包含
的开集上关于
是可微的。此外,对于任意的
和所有的
,存在
,使得
。
根据假设3,
,
在R上的二阶导数是有界的。类似于文献[11]中采用的方法,可以定义
其中
,以及
,有
。那么根据文献[11]中的定理4,可得:
。若该雅可比矩阵的谱半径
,则近邻最佳响应映射关于某个单调范数是压缩映射的。关于最佳响应映射
的压缩性质的充分条件,可见参考文献[11]。
3.2. 可变样本规模近邻最佳响应方案
在迭代步长为k下,获取随机向量
的
个独立样本
,对于任意的
,本文通过样本均值
近似函数
来求解样本均值下的最佳响应问题,得到可变样本规模近邻最佳响应算法,见表1。
Table 1. Variable sample size proximal best-response algorithm
表1. 可变样本规模近邻最佳响应算法
算法 可变样本规模近邻最佳响应算法 |
设
初始策略为:
,对每个参与者
,给定一个确定性序列
。 |
(1) 对于
,参与者i更新其估计值
为
|
(2) 对于
,有
; (3) 令
,然后重复步骤(1)。 |
3.3. 神谕与迭代复杂度
定义
。本节可以得到如下引理,该引理为关于
的一个界定。
引理3:若假设3成立,考虑上面算法,则有
,其中
,
。
证明:定义
。由最优性条件可知,对于任意的
,
和
分别是以下两个映射的不动点
和
.
由近邻算子的非扩张性,对于任意的
,以下结论成立:
在上述不等式中,令
,可以得到
。其中
是一个与算法相关的常数。再结合假设3,引理得证。
类似于文献[11]中的命题4,可以证明该算法具有线性收敛速率。随后,本文建立了获得一个近邻纳什均衡所需的迭代复杂度和神谕复杂度,其中近邻纳什均衡定义为满足
条件的随机策略组合
。
定理3:若假设3成立,且
。将上述算法应用于随机纳什博弈
,其中
,且对某个
有
。定义
,令
,并设
。那么,为获得ε-纳什均衡,参与者i需要求解的确定性优化问题的数量和所需的样本数分别为:
和
。
4. 结论
本文研究了一类随机纳什博弈,其中每个参与者的目标函数由一个期望值形式的光滑函数和一个凸非光滑函数之和构成。基于此,本文提出了两种算法方案:
(1) 可变样本规模近邻梯度响应方案,适用于强单调随机纳什博弈;(2) 可变样本规模近邻最佳响应方案,适用于具有压缩最佳响应映射的随机纳什博弈。在适当的假设条件下,本文证明了两种方案均能生成以最佳线性收敛的序列,并推导了其计算复杂度以及神谕复杂度。