1. 引言
亚当·斯密的经济学理论,有一个基本的假设前提,这就是参与者是理性人。理性人有两个特质,一是利己,即以追求利益最大化为其行为动机的目标;二是理性,理性人应该具备对目的和手段进行分析和比较的能力。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果——这就是著名的“看不见的手”原理。
1950年,兰德公司的两位科学家提出了自博弈论问世以来影响最大也最有争议的一种博弈,这就是梅里尔·佛勒德和梅尔文·德莱歇提出的看似简单、实则最能迷惑人的“囚徒的困境”。“囚徒的困境”这个名称是兰德公司的顾问阿尔伯特·塔克起的。故事中的两个囚徒,根据条件进行严格的逻辑推理,得出的结论是自己应该认罪,但实际情况是不应该认罪——这就是所谓的“囚徒的困境”。
面对上述矛盾,人们一直束手无策,甚至,马丁·苏比克无奈地写道(1970):“囚徒的困境这个难题是永远也解决不了的——或者说已经彻底解决了,因为它并不存在。”《囚徒的困境——冯·诺依曼、博弈论和原子弹之谜》一书对此评论道:“他的意思是,在这种一次性的二难博弈中,理性的参与者将背叛。这种博弈所要反映的就是个人利益可以毁灭共同利益” [1] 。正是在这种意义上,经济学界普遍认为,纳什均衡挑战了亚当·斯密的“看不见的手”原理,动摇了西方经济学的基石!
笔者的质疑是:
① 与客观存在相矛盾的结论,是可以容忍的吗?囚徒的推理会是有效的吗?如果个人理性与集体理性相矛盾,个人利益与集体利益相冲突,试问,博弈论和经济学会容忍一个不协调的理论吗?
② “认罪”被证明是占优策略,为什么占优策略均衡(认罪,认罪)不是最优方案?
③ 最优方案为什么不可证?最优方案为什么不是纳什均衡?难道最优方案不应该具有稳定性,即每个参与人无需或不能改变自己的策略?
④ 阿维纳什・K・迪克西特和巴里・J・奈尔伯夫在《策略思维:商界、政界及日常生活中的策略竞争》一书序言中说得好,“在你做决定的时候,必须将冲突考虑在内,同时注意发挥合作的效力” [2] 。笔者认为,上面这句话对于解决与囚徒的困境同类的问题是普遍适用的。笔者还认为,囚徒困境的故事本身就是自相矛盾的,这表现在,一方面,假设博弈的参与人都是理性的,另一方面,两个囚徒在故事中又表现出不擅长思辨思维,未能意识到在推理中“必须将冲突考虑在内”,从而务必剔除包含逻辑矛盾的策略组合。说到底,囚徒的困境发生的原因在于,一人认罪另一人不认罪这种策略组合不是纳什均衡,而事实上考虑有没有需要剔除的策略组合应该是每一个参与人的首要任务。
⑤ 两个囚徒不能直接进行交流难道就是判断囚徒的困境是非合作型博弈的理由吗?既然这样的判断结论已为实践所否决,为什么还要容忍这种矛盾的存在呢?
本文的研究目的是解释和消除上述困惑,从而解决囚徒的困境这个难题。
2. 讨论
2.1. 问题
两名嫌犯A和B被警方抓获,被分别关押在不同的房间里接受警方的盘问。他们被告知:如果一人认罪,另一人不认罪,认罪者可获释,不认罪者将获刑20年;如果两人都认罪,他们将均获刑10年;如果两人都不认罪,他们将均获刑1年。为下文分析比较方便起见,我们用表1反映上述内容。
两人各会有什么盘算呢?
嫌犯A可能会这样想:假设B选择认罪,我若不认罪,将获刑20年,若认罪,只获刑10年,当然选择认罪有利;假设B选择不认罪,我若也不认罪,将获刑1年,我若认罪,则可获释,显然还是认罪有利。总之,不管对方选择认罪还是不认罪,认罪对我都是最佳选择。
同样,嫌犯B的盘算结果也是认为,选择认罪是最佳方案。然而,如果两人都选择不认罪的话,他们都只会获刑1年,而不是10年。
笔者把上述“两人都应选择认罪”这一结论称作囚徒悖论,意指它是无效推理的产物,不能被认可。
2.2. 最优方案的三种证明方法
首先说明,警方规定的刑期条文是协调的,是可以作为推理依据的。
第1种证法。
假设对方认罪,毫无疑问,我也会选择认罪。
假设对方不认罪,我会想:
(1) 如果我也不认罪,双方均获刑1年。
(2) 如果我认罪,则我会被释放,对方会获刑20年。与(1)作比较,我应该选择认罪。
我的反思——两人在博弈中的角色是完全对称的,所以,我之所思、所欲、所不欲,也即对方之所思、所欲、所不欲,反之亦然:如果我的第(2)条推理是成立的,对方又何尝不会想到我的这种推理呢?

Table 1. The game table of two prisoners
表1. 两个囚徒的博弈表
从而,对方就不会选择不认罪,于是我的推理前提就不会存在,这是一种内在的逻辑矛盾(注:是我在推理中把对方不认罪这一策略看作是僵死的,看作是逻辑上在先的,把我的“应对”策略看作是逻辑上属后的,但事实上,正如阿维纳什・迪克西特、苏姗・斯克丝、戴维・赖利三位作者在《策略博弈》一书中所说的,“参与人都是同时做出这些选择的” [3] 。这表明,沿用惯常的思维模式去处理本质不同的博弈问题,其推理的有效性是难以得到保证的)。相容性是存在性的必要条件。囚徒困境博弈的客观逻辑应该是,双方的策略是能动的,是能够“自我调节”的,例如,当我的“应对”策略是认罪时,对方的不认罪策略就会自动失效,也即策略组合“我认罪,对方不认罪”在理论上就变为不存在的;当我的“应对”策略是不认罪时,对方的不认罪策略就是有效的。希尔伯特说,“如果一个概念具有矛盾的属性,那我就认为这概念在数学上不存在” [4] 。上述分析表明,一人认罪另一人不认罪的策略组合蕴涵着逻辑矛盾,这样的策略组合在理论上是不存在的,这也说明我的第(2)条推理是不合理的,无效的。
结论是,要么双方都认罪,要么双方都不认罪,两相比较,当然双方都应不认罪,这就是对最优方案的证明。
第2种证法。
我们先来分析,在假设B选择认罪的情况下,关于A的推理:
从表面看,似乎有4种策略组合:(A认罪,B认罪);(A认罪,B不认罪);(A不认罪,B认罪);(A不认罪,B不认罪)。如果它们都具有存在性,那么,它们就都会具有相容性;否则,如果某个方案会导致矛盾,则按照上文希尔伯特的话,这个方案在理论上就不存在。
① 假设B选择认罪,这意味着B认为这样做会对自己有利(回报(payoff)高于对方)或起码与对方回报均衡。
② 能与B认罪回报均衡的只能是A认罪,所以, B认为选择认罪对自己有利的理由就只能是假设A选择不认罪。
③ A选择不认罪,这意味着A认为这样做会对自己有利或起码与对方回报均衡。
④ 能与A不认罪回报均衡的只能是B不认罪,所以,A认为选择不认罪对自己有利的理由就只能是假设B选择认罪。
⑤ 上面这个结论显然是荒谬的,这表明,在假设B选择认罪的条件下,策略组合(A不认罪,B认罪)会导致逻辑矛盾,所以,该策略组合在理论上不存在。
再看在假设B选择不认罪的情况下的A的推理:
① 假设B选择不认罪,这意味着B认为这样做会对自己有利或起码与对方回报均衡。
② 能与B不认罪回报均衡的只能是A不认罪,所以,B认为选择不认罪对自己有利的理由只能是假设A选择认罪。
③ 上面这个结论显然是荒谬的,这表明,在假设B选择不认罪的条件下,策略组合(A认罪,B不认罪)会导致逻辑矛盾,所以,该策略组合在理论上不存在。
综上分析,在(A认罪,B认罪)、(A认罪,B不认罪)、(A不认罪,B认罪)、(A不认罪,B不认罪) 4种情况中,只有(A认罪,B认罪)和(A不认罪,B不认罪)是有意义的(有效的)策略组合;但两相比较,显然后者为优——这就是对最优方案的证明。
第3种证法。
① 假设对方认罪:如果我认罪,对方不会反对;如果我不认罪,对方求之不得。这就是说,在假设对方认罪的条件下,不管我选择怎样的策略,对方都不会吃亏,这就是对方选择认罪策略的初衷(注:对方的这个看似万全的策略并不高明,因为如果人人都这么想,就得不到最好的结果,这样说来,两个囚徒都不算理性人)。对方的这种出于保守心态的初衷,决定了推理前提的稳定性(注:指的是,就选择此策略的目的而言,理由是充分的,因而,此策略一经选定,无需改变),从而,策略组合(我认罪,对方认罪)与(我不认罪,对方认罪)就是可比较的,结论是,我应该也选择认罪。上述分析说明,策略组合(我不认罪,对方认罪)在理论上是不存在的(需要说明的是,这个结论是通过比较法得来的)。
② 假设对方不认罪:如果我也不认罪,对方不会反对;如果我认罪,就会发生对对方不利的结果。由于双方是同时做决策的,所以,从纯思辨的角度讲,对方有理由改变策略,照此说来,假设前提似乎并不具有稳定性。于是,基于推理前提的可变性,策略组合(我认罪,对方不认罪)与(我不认罪,对方不认罪)就是不可比较的,所以,在假设对方不认罪的条件下,“我应该认罪”就不具有逻辑必然性,换一种说法,策略组合(我认罪,对方不认罪)在理论上是不存在的。同样值得说明的是,这个结论是基于无法应用比较法得来的。
基于双方被假设都是理性人:我想,如果我选择认罪,对方就会改变策略,到头来,双方都获刑期10年;如果我也选择不认罪,双方均获刑期1年。看来,我的合乎理性的做法应该是也选择不认罪。其实,对方知道我会这么想,也相信我会这么做,因为这是基于遵从相容性、遵从逻辑必然性所得到的信念,这就是对方选择不认罪这一策略的初衷。基于这样的分析,在假设对方不认罪的情况下,我应该也选择不认罪。依据上述纯思辨思维的分析,说实在的,我们假设的对方所选择的不认罪策略,其实并非真正不具有稳定性,相反,它所具有的才真正称得上是理性意义的稳定性;至于前面我们说它似乎并不具有稳定性,那只是仅仅针对对方为了“应对”我的非理性做法(选择认罪)而言的。需要说明的是,虽然我们假设的对方所选择的认罪策略具有稳定性,但由于这个策略选择目的的保守性(注:只是求得不吃亏,而不是把收益最大化作为追求目标,这显然是与理性人的特质不相符的),这个稳定性就不具有终极的意义,即所选策略不构成囚徒困境博弈最优解的组成部分。
综上所述,对方认罪我认罪,对方不认罪我亦不认罪,两相比较,我们终于可以以理性的名义宣布:两个囚徒都应该选择不认罪。以上,就是对最优方案的证明。
2.3. 对纳什均衡概念内涵的完整揭示
关于纳什均衡概念的定义,现今的文献都把它解释成是指这样的策略组合:如果其他任何人的策略都不改变,我改变我的策略,我不会有更好的结果。不难看出,定义中的“更好”一词,反映了这个定义离不开应用“比较法”。我们知道,两个囚徒都不认罪是最优方案,理所当然地,它应该具有稳定性,但纳什均衡概念的旧定义无法包含两人都不认罪这种情况,原因是,改变策略前后无法进行比较,因为推理前提不具有稳定性。基于这种理由,笔者认为,上述定义是不完善的。关于纳什均衡概念的定义,笔者给出的表述是:如果其他任何人的策略都不改变,我无需或不能改变我的策略,这样的策略组合就叫做纳什均衡。新定义中的“无需”一词的内涵是,我改变了我的策略但收益没有变化,所以我不会有改变策略的动机。新定义中的“不能”一词的内涵,包括两层意思:第一层意思是旧定义中已经包含的,指的是,我改变了我的策略但收益更差了,所以我不会有改变策略的动机;第二层意思是旧定义中没有包含的,指的是,我改变了我的策略会导致逻辑矛盾,而理性人是不会让自己的行为导致逻辑矛盾的,所以我不会有改变策略的动机。以上3条,是纳什均衡概念完整的内涵(注:囚徒困境博弈中的两人都认罪是纳什均衡,既可以应用旧定义证明,也可以应用新定义证明)。现今文献中的纳什均衡概念的定义,由于没有包含第3条内涵内容,所以,囚徒的困境问题就无法得以解决。
2.4. 对“占优策略”等定义的修正
在现今的文献中,所谓“占优策略”是指在博弈中参与者的某一个策略,不管对方使用什么策略,只要参与者使用这一策略,都可以给自己带来最大的收益。根据这个定义,在囚徒的困境中,“认罪”被认为就是两个囚徒各自的占优策略,从而,(认罪,认罪)就是占优策略均衡,它当然应该是最优方案,但事实并非如此。为什么会出现这种不一致性呢?根源在于,如前所述,在假设对方不认罪的条件下,推理者让(我认罪,对方不认罪)这个导致逻辑矛盾的策略组合参与了与策略组合(我不认罪,对方不认罪)的比较。基于上述理由,笔者认为,“占优策略”的定义应该是:所谓“占优策略”是指在博弈中参与者的某一个策略,不管对方使用什么策略,只要参与者使用这一策略,都可以给自己带来最大的收益,但该定义成立的前提是,所涉及到的每一个策略组合务必都是有意义的,即不得导致逻辑矛盾。根据这个新定义,很容易证明,在囚徒困境的博弈中,不存在占优策略,因为由上文可知,在假设对方认罪的条件下,能够推出“我应该认罪”,但在假设对方不认罪的条件下,推不出“我应该认罪”,据此我们说,认罪不是囚徒困境博弈的占优策略。另一方面,不认罪也不是囚徒困境博弈的占优策略,因为在假设对方选择认罪的情况下,我不会选择不认罪。基于上述分析,结论是,在囚徒困境的博弈中,不存在占优策略,当然也就不存在占优策略均衡。上述修正占优策略定义的做法,对于最优反应、劣策略等有关概念均适用,不再一一赘述。
2.5. “两人都不认罪”是纳什均衡
对于两个囚徒都不认罪的情况,任何一方改变策略,都会出现一人认罪另一人不认罪这种导致逻辑矛盾的策略组合。于是,根据纳什均衡概念的新定义,“两人都不认罪”是纳什均衡。这个证明很简单,问题的困难之点在于,如何消解人们直觉上的困惑。
我们有理由假设,两个囚徒都是在逻辑思维方面训练有素的人,他们能够理解上文中对最优方案的证明,或者干脆说,他们能够做出这样的证明。这就是说,两个囚徒都知道“双方都应该选择不认罪”。但在假设对方选择不认罪的条件下,我如果也选择了不认罪,岂不是放弃了追求自身利益最大化的机会?这似乎是与理性人必会追求自身利益最大化的假设相悖的;但是,如果我选择了认罪,又会与上文中对最优方案证明的结论相悖,这种两难,极容易让人对博弈论是否具有相容性产生怀疑。
人常说,小道理服从大道理。那么,什么是博弈论的大道理,什么是博弈论的小道理呢?任何一门学科领域,其最基本的理论问题是相容性问题,因此,满足相容性就是博弈论的大道理。逻辑必然性是不以人的意志为转移的,因此,遵从逻辑必然性就是博弈论的大道理。博弈论一直在尝试界定什么是理性行为,我们姑且不论这样的尝试最终会有怎样的具体结果,但是,毫无疑问,上面的两个大道理应该是理性行为这一概念的核心内涵。任何一个博弈者追求自身利益最大化,这是无可非议的,但它不是没有限制的,这和公民追求个人利益不得违反国家法律是同一个道理。不搞清这种关系,博弈论就隐含着矛盾和混乱。既然我们已对理性行为概念做出了原则性的界定,又假设了两个囚徒是在逻辑思维方面训练有素的人,是合格的理性人,所以,在假设对方选择不认罪的条件下,我能否采取“投机”的做法,即选择认罪,这本身就是一个不合逻辑的问题,是一个在理论上不可能发生的问题,因为它会破坏博弈论系统的相容性——从客观上讲,一人认罪另一人不认罪会导致逻辑矛盾,从主观上讲,作为一个理性人,自己坚守的信念(这是自己推理出的结论,即自己应该选择不认罪)又被自己所违反(自己选择认罪),这是自相矛盾。再说,自己采取投机的做法(对方不认罪,我认罪),又怎能保证另一方不会采取同样投机的做法呢?到头来,又会倒退到非最优方案(对方认罪,我认罪)——这种结论的不确定性,是与逻辑必然性不相容的。简言之,如上文说过的,理性人是不会让自己的行为导致逻辑矛盾的,因此,在假设博弈论具有相容性的前提下,提出两个囚徒会否“投机”的问题,就是没有意义的。
2.6. 囚徒的困境是合作型博弈,还是非合作型博弈?
笔者认为,只要最优方案具有逻辑必然性,每个参与者就必须遵从这种逻辑必然性,而按照逻辑必然性行事,就是合作——这种合作的性质,在问题求解的最后阶段,即在我的信念是对方会选择不认罪的情况下,我该如何进行选择的处境中,表现得尤为清晰和突出。只有意识到这一点,才算是真正的理性人,才会进行自觉地合作。据此,笔者认为,从实质上而不是从形式上讲,囚徒的困境是一个合作型博弈,而并非人们所认为的非合作型博弈,尽管双方不能进行面对面交流,但是,问题本身所具有的逻辑必然性,就是理性参与者之间能够进行思想沟通的桥梁。在囚徒的困境中,抛开逻辑必然性(例如,偏好于考虑心理因素等),抛开理性人概念,就很难对问题进行有效的论证。在囚徒的困境中,不进行合作的做法,只会导致混乱、不确定性和逻辑矛盾。
2.7. 纳什均衡概念与其它合理的科学概念是相容的
在囚徒的困境中,如前所述,我们假设了两个囚徒都是在逻辑思维方面训练有素的人,都是合格的理性人。他们能够从(A认罪,B认罪)、(A认罪,B不认罪)、(A不认罪,B认罪)、(A不认罪,B不认罪)四种情况中,排除导致矛盾的(A认罪,B不认罪)和(A不认罪,B认罪)。在剩下的(A认罪,B认罪)与(A不认罪,B不认罪)中,他们都从“利己”的目的出发,选择了“不认罪”的策略。在这个选择过程中,他们并没有刻意地为对方着想,但最终在“全社会”(即策略组合中)却达到了利他的效果,这难道不是再一次地证明了亚当·斯密的“看不见的手”的原理是正确的吗?那么,人们为什么会作出“纳什均衡概念对亚当·斯密的‘看不见的手’的原理提出了挑战”的结论呢?关于原证明,从表面上看,两个囚徒是从利己的目的出发,但结果是既不利己也不利他,这似乎是与亚当·斯密的“看不见的手”的原理相悖的。但问题是,如上文所揭示的,两个囚徒关于“选择认罪对自己有利”的证明是无效的,“两人都应认罪”这个结论是错误的。虽然“两人都认罪是纳什均衡”这个结论没有错,事实上,人们还误认为它是唯一的纳什均衡(参见文 [3] 第80页),但由于有了“两人都应认罪”这个错误的结论,于是,这个错误的结论被强加于这个“唯一的”纳什均衡上,也就是很自然的事了——这就是导致人们产生“纳什均衡概念对亚当·斯密的‘看不见的手’的原理提出了挑战”这个误解的原因所在了。
基于推理无效这种同样的理由,所谓“在非零和博弈中纳什均衡概念与帕累托最优概念是冲突的”的说法,同样是没有根据的。
2.8. 对囚徒的困境的“重复博弈”的解决方案的评论
对于解决囚徒的困境,有一种著名的方案,叫做重复博弈,即重复进行的。其思路是,参与人由于会担心一有背叛就会导致未来合作的崩溃。如果未来合作产生的收益比短期背叛的收益要大,则从个人长期利益着想,参与人自动不会选择背叛。笔者认为,囚徒的困境的原问题是个“单次”博弈行为,不存在“未来合作”这个概念,因此,人们没有理由改变原问题的条件,即把问题设计成需要实施多次博弈,所以,“重复博弈”不是囚徒的困境的原问题的解决方法。事实上,这种方案只是暂时转移(掩盖)了矛盾,因为终会有最后一轮博弈,到时,双方已没有了将来是否需要合作的顾虑,这样,问题就又回到了原点。总之,必须把囚徒的困境原问题的具有逻辑必然性的解答与在重复博弈中因担心对方报复而不得不采取合作的策略的做法区别开来,这是两个不同的概念。
3. 结论
① 囚徒的困境发生的原因在于,参与人在推理时把假设对方的选择当作是逻辑上在先的,把自己的策略当作是逻辑上属后的,但事实上双方是同时做出选择的,而且,如果形成的策略组合不是纳什均衡,那么,它在理论上就不具有存在性。② 在囚徒困境的博弈中,最优方案是可证的。③ 不存在占优策略和占优策略均衡。④ “两人都认罪”与“两人都不认罪”都是纳什均衡。⑤ 纳什均衡、亚当·斯密的“看不见的手”原理和帕累托最优是协调的。