书签分享收藏举报版权申诉 / 11

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 囚徒困境的均衡辨析.docx

囚徒困境的均衡辨析.docx

文档编号：30485074
上传时间：2023-08-15
格式：DOCX
页数：11
大小：66.05KB

囚徒困境的均衡辨析.docx

《囚徒困境的均衡辨析.docx》由会员分享，可在线阅读，更多相关《囚徒困境的均衡辨析.docx（11页珍藏版）》请在冰豆网上搜索。

囚徒困境的均衡辨析.docx

囚徒困境的均衡辨析

表1囚徒困境

坦白抵赖

-8,-8-10,0

0,-10-1,-1

囚徒A

坦白

抵赖囚徒B

AStudytoPrisoners'Dilemma

GUOHong-wei

（StatisticsInstitute,CapitalUniversityofEconomics&Business,Beijing100070,China

Abstract:

Thefinalresultof"gametheory"isthattheprisonerswouldconfess,butthisisnotthebestoutcomeofthetwoprisoners.Howcanweachievethebestoutcome?

Thispaperquestionedthe"rationalman"assumptionofthe"gametheory"andthetraditionalequilibrium（frank,frank.Thispaperpointedoutthereasonthatpeopledonotgetthetraditionalequilibrium.Rationalpeoplewillactivelyseektomaximizetheinterestsofboth,sothattheywouldachieveanewequilibrium.Inthispaper,thenewequilibriumwasnamedasgeneralequilibrium,and,here,theprocesshowtogetgeneralequilibriumisalsogiven.Thispaperintroducedtheconceptofthepublicpayofffunction,whichcantellthetotalinterestsofthetwoprisoners.Bymaximizingthefunctionofpublicpayoff,inanotherwords,bymaximizingthepublicinterest,thetwoprisonerscangetthebestresults.Thisfuntioncouldbewellappliedtoothercaseof"gametheory".InthepaperthepunishingrulesofthePrisoner'sDilemmawerealsoanalyzed.ThispaperpointedoutthatthepunishingrulesofPrisoner'sDilemmawouldinduceaprisonertomakethewrongchoice,whichdidnotmeetthebestinterestsofbothpeople.

Keywords:

Prisoners'dilemma;Publicpayoff;Nashequilibrium;Generalequilibrium;Payofffunction

摘要:

传统的《博弈论》分析最终结果是两个囚徒均会坦白,但这并不是两个囚徒的最好结局,如何才能达到最好结局?

本文从《博弈论》中“理性人”的假设出发,对传统的（坦白,坦白均衡提出质疑。

本文指出理性人不会满足于传统的均衡,理性人会积极寻找双方利益最大化的均衡,并达到此均衡。

本文给出了新的均衡:

广义均衡,并给出广义均衡的求解过程。

通过对引入公共支付函数的概念,公共支付函数表达了两个人的共同利益。

通过公共支付函数的最大化,使两个囚徒公共利益最大化,以求得囚徒困境的新的均衡,让两个囚徒的结果达到最好———即两人均抵赖。

本文还将公共支付函数运用于其他《博弈论》案例,并指出广义均衡比纳什均衡更具有社会意义,因为前者体现了公共利益。

文中还对囚徒困境的机制设计问题做了分析,指出囚徒困境中机制的设计会诱导囚徒作出不正确的选择,从而没有达到双方利益的最大化。

关键词:

囚徒困境;公共支付;纳什均衡;广义均衡;支付函数中图分类号:

F224

文献标识码:

A

文章编号:

1004-292X（201102-0022-04

收稿日期:

2010-06-01

作者简介:

郭洪伟（1970-,男,安徽人,博士研究生,研究方向:

应用数理统计。

囚徒困境的均衡辨析

郭洪伟

（首都经济贸易大学统计学院,北京100070

一、前言

博弈论研究的是存在相互影响关系下的个人选择问题。

这里的参与人都是理性人。

按照文献[1]的定义:

理性人是在面临给定的约束条件下,能最大化自己偏好的那些人。

这里理性的人与自私的人不同。

理性人可能是利己主义者,也可能是利他主义者。

理性人假设是博弈论的分析前提。

基于这个前提,所有的参与人都尽量使自己的偏好（利益最大化,如果存在某种行动会使参与人变的更好,参与人会积极努力达成更好的结果。

理性人

在最大化偏好时,需要相互合作,而合作中又存在着冲突。

下面分析博弈论中经典的案例———囚徒困境,如表1所示。

假设有两名嫌疑人作案后被警察抓住,分别被关在不同的

技术经济与管理研究2011年第2期

网络出版时间:

2010-12-1417:

33

网络出版地址:

屋子里接受审讯（关在不同的屋子里是怕他们串供,这也是影响他们博弈的关键因素之一。

警察告诉他们:

如果两人都坦白,各判刑8年,即他们各自的收益（又称效用或支付均是-8;如果两人都抵赖,各判1年（或许因证据不足,即他们各自的收益均是-1;如果其中一人坦白另一人抵赖,坦白的放出去（收益为0,不坦白的判刑10年（收益是-10。

这也体现坦白从宽、抗拒从严的执法态度。

在这个例子中所有教材给出的纳什均衡都是（坦白,坦白。

给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白。

事实上,这里的（坦白,坦白不仅是纳什均衡,而且是一个占优战略均衡,即不论对方如何选择,两个囚徒各自的最优选择都是坦白。

从表1可知,如果B不坦白,A坦白的话就可以不被定罪,不坦白的话判1年,所以坦白比不坦白好。

如果B坦白,A坦白的话判8年,不坦白判10年,所以,坦白还是比不坦白好。

这样坦白就是A占优战略。

同样,坦白也是B占优战略。

所以,最后的结果是两人都会选择各自的占优战略即坦白,那么最后双方都被判8年。

一般的教材,还会继续讨论个人理性与集体理性的矛盾。

因为上述例子中,如果两人都选择抵赖,各判1年,显然比各判8年好。

所以总体上看,两人都选择抵赖是最好的策略,所以上述均衡策略还有改进的余地,但这个帕累托改进办不到,因为它不满足个人理性要求,（抵赖,抵赖不是纳什均衡。

二、囚徒困境的分析

笔者对于囚徒困境的上述论断持不同意见。

笔者的观点主要缘于两点:

①囚徒是真的理性人吗?

②纳什均衡到底指什么?

博弈论假设参与人都是理性人,他们都聪明绝顶。

囚徒困境的结果是各判8年,实际上他们可以各判1年。

他们自己会比较被判1年好还是被判8年好,他们肯定不会满足于被判8年,所以如果囚徒真是“理性人”,他们都会选择抵赖,最后的结果是各判1年。

这是从“理性人”的假设中自然得到的结论。

如果按照经典博弈论的分析,囚徒困境的纳什均衡是（坦白,坦白,这显然违背了“理性人”假设。

这个结果实际上是两个自私自利的人“聪明反被聪明误”的结局,不是真正的“聪明绝顶”的人所做出的决策。

如果是真正的“理性人”,他应该掌握博弈论的基本知识,能预计到自己的处境,最后两个囚徒都会毫无顾忌的选择抵赖。

另外从纳什均衡的定义出发也可以得到各判1年的结果。

纳什均衡的定义:

假设有N个人参与博弈,给定其他人战略的条件下,每个人选择自己的最优战略,所有参与人选择的战略一起构成一个战略组合。

纳什均衡指这样一个战略组合,这种战略组合由所有参与人的最优战略组成,也就是说,给定别人战略的情况下,没有任何单个参与人有积极性选择其他战略,从而没有任何人有积极性打破这种均衡。

在囚徒困境的例子里,各判8年不是大家最好的结果,因为有更好的选择是各判1年。

如果在最初有个攻守同盟,即两人都抵赖,两个“聪明”的囚徒如果能分析所有可能的战略,他们应该不会打破攻守同盟的协议,因为打破攻守同盟意味着各判8年,执行攻守同盟只判1年。

所以攻守同盟（抵赖,抵赖是纳什均衡。

同时上述（坦白,坦白战略也不符合纳什均衡的定义。

纳什均衡说给定别人战略的情况下,没有人有积极性选择其他的战略。

但纳什均衡没有说别人的战略是不是可以变。

如果双方最初的同盟是（抵赖,抵赖,大家会看到如果有一方想法改变,另一方也会跟着改变,从而使情况进展两步,达到一个更坏的结局各判8年,在这种情况下“理性人”会想改变同盟战略吗?

当然不会。

所以根据纳什均衡的定义（抵赖,抵赖是纳什均衡。

这是两个“真正的理性人”博弈最后达到的均衡。

三、囚徒困境产生的原因

什么原因导致上述困境的产生?

我们来看一下各个囚徒的决策过程。

如果我们通过下划线的方式,剔除劣策略,显然得到的均衡是（坦白,坦白。

但下划线决策过程,只是把表1中的行和列的策略在行内和列内各自比较。

具体做法是比较第一行的两个选优,再比较第二行的选优,再比较第一列的选优,再比较第二列的再选优,最后得到最优策略。

这个决策过程没有把（-8,-8和（-1,-1相比较,也没有把（-10,0和（0,-10相互比较,实际上述均衡得到时,没有把战略空间的所有战略一一相互比较。

这是因为上述选优策略的前提是,在对方选定既定战略的前提下,自己选择最优策略,这样只能在行和列之间相互比较,导致最后的结果是（-8,-8。

这就是下划线方法的局限性。

实际上在这个例子中“给定他人的战略条件”不充足,因为你看到对方“抵赖”时你选择坦白,实际上对方同时也在考虑这个问题,他想到你选择坦白,他就不会选择“抵赖”,这样你假设的“给定他人的战略”就变了,成了他人的战略不确定。

这个案例虽然是静态博弈,但是博弈双方考虑整个过程时都在模拟对方的选择,这其中有动态的成分（你假设对方抵赖,你选择坦白,实际对方猜到你选择坦白,他会改变自己的策略不再抵赖也选择坦白,最后达到均衡（坦白,坦白这个决策过程有先后顺序,实际上是动态博弈过程,所以完全按照静态博弈方法分析会有问题,导致囚徒困境的产生。

这个案例有动态博弈的成分,因为你在假设对方“抵赖”时,对方猜到你会坦白,他就不会抵赖,这样你决策的依据“给定他人的战略”就变了。

实际上恰恰就是在对方抵赖时你才有机会选择最优的战略抵赖,只有你选择“抵赖”,对方才不会改变,这时你的决策依据“给定他人的战略”确实可以作为依据。

所以问题就出在这里,最后导致博弈的结果不是双方最优的结果。

从理性人的角度看,上述结论的产生也可能源于双方不是真正的“理性人”。

双方相互不能猜透对方,从而各自只能采取自己的占优策略。

如果是两个嫌疑人都是理性人,而且都是博弈论专家,他们相互理解对方且确信对方的策略,最后博弈均衡就会变为（抵赖,抵赖。

所以说到底,是参与人的不完全理性,导致了囚徒困境的发生。

四、如何改进囚徒困境

通过上面的分析,可以发现囚徒困境的决策过程是有问题的,最后导致结果不是最优的。

导致囚徒困境的深层次原因似乎是参与人狭隘的“自私自利”观念。

因为参与人想损人利己,达到最好的结果——

—被释放,如果参与人都这么想的话,

囚徒困境的均衡辨析

表3市场进入阻挠博弈

进入不进入

40,500,300

-10,00,300

进入者

默许

斗争在位者

按等待

大猪

最后的结局只能是各被判8年。

如果双方跳出自私自利的圈子,考虑到“利他和利己”的结合,其结果就完全不一样。

如果两个囚徒在做上述决策时考虑合作,计算公共利益（例如两人是父子或兄弟,那么其决策过程就很简单。

我们引入公共支付函数P,显然:

P=a+b,P是公共支付,代表大家的共同利益;a代表囚徒A的支付;b代表囚徒B的支付。

那么表1中的四个战略组合的公共支付分别为:

-16,-10,-10,-2。

显然（抵赖,抵赖战略是最优的,这样两个囚徒就无可厚非的选择此战略。

其实即使这两个囚徒不是父子或兄弟,也有积极性寻找此战略,只要双方有互利的先前约定,肯定会找到此均衡。

完全相同。

槽,但需要支出2位,小猪只能吃到付函数。

计算表24,6,6,0

的（等待,按和“小猪按,大猪等待”情况不可能发生。

这里,只剩下“大猪按,小猪等待”的战略组合,所以最后的广义均衡是（等待,按,即大猪按小猪等待。

这和参考文献[1]中利用“重复剔出严格劣战略”得到的纳什均衡结论相同。

从这个案例的探讨,也能看出利用公共支付函数可以帮助分析非零和博弈的纳什均衡。

另外一个例子:

市场进入阻挠博弈,也能利用公共支付函数很好地分析。

有一个垄断者已在市场上（称为“在位者”,另一个企业（称为“进入者”想进入该市场。

在位者可选的战略有两个:

默许和争斗,进入者的可选战略也有两个:

进入和不进

入。

这是一个非零和博弈,各种战略组合下的支付矩阵如表3。

文献[1]指出,此博弈有两个纳什均衡:

（进入,默许和（不进入,斗争,其中前者是强纳什均衡,后者是弱纳什均衡。

但很容易发现上述强纳什均衡对整个社会来说并不是最优的。

计算公共支付函数,得到上述战略组合的结果分别为:

90,-10,300,300

比较公共支付函数可知,（不进入,默许和（不进入,斗争是广义均衡。

但是这两个战略组合都是在进入者选择不进入才有的结论。

在此博弈过程中,在位者和进入者地位不对等（在囚徒困境和智猪博弈中双方地位完全对等,进入者有先。

完全。

但这样对进入者本。

这个。

但是不幸的是,由于。

但是,在各自利益最大化和公。

。

考虑公共物品的,鼓。

策选择时,可能会吸取过去的教训,从而避免囚徒困境的再次发生。

这一点也可以理解为,他们通过亲身体会,学到了必需的博弈论知识,变成真正的“理性人”,再次面对囚徒博弈时,能有效决策,选择公共支付最大的战略组合:

（抵赖,抵赖。

从这一点看,笔者不同意文献[1]中的有关囚徒困境重复博弈的结论。

如果因为囚徒的“不完全理性”在第一次博弈中他们采取（坦白,坦白战略,那么经过8年的牢狱生活和对博弈论的学习,他们肯定会在第二次的重复博弈中选择（抵赖,抵赖战略,否则只能说明他们还不够“理性”。

五、囚徒困境的机制设计

我们从上面的分析看出,就一次决策来看,（坦白,坦白和（抵赖,抵赖都是囚徒困境的均衡。

但实际上,在现实生活中（坦白,坦白是经常出现的结果。

这也正是司法界人士想要的结果。

因为我们设计这个机制的目的就是要让罪犯坦白

技术经济与管理研究2011年第2期

坦白抵赖-8,-8

-10,-1

-1,-10

0,0

囚徒A坦白抵赖

囚徒B

从宽、抗拒从严。

通过上述机制设计会使罪犯认罪伏法,这是所有人都想看到的结果。

但问题是如果两人都抵赖,你还能认定他们有罪吗?

如果认定有罪判1年是否太轻了?

如果两人都抵赖就是无罪那就应该释放（而不应该各判1年。

所以在本文所给的表格中,如果两人都选择抵赖,各自的支付应该为0,因为认定他们无罪就不应该判刑。

如果这个支付改为（0,0那么在做剔除严格劣策略时,就无法选择,更容易导致（抵赖,抵赖均衡的出现。

所以为了能更好的让罪犯认罪,当两人都抵赖时,即使无罪,也各自被判一年,这看起来有点不公平,万一两个嫌疑人真的无罪,那将很不公平。

如果双方抵赖的结果是释放的话,会导致更多罪犯的也抵赖,这样会错放很多罪犯。

权衡错放罪犯和错判无罪良民,估计后者概率更小,所以本案例设计了（-1,-1的支付。

所以从囚徒困境的机制设计看,就是为了让嫌疑犯坦白,但是好像机制的设计不尽公平。

因为两人都抵赖应该无罪释放,但都被判1年,而一人坦白,一人抵赖,坦白的人肯定也是罪犯但会被释放,但两人都抵赖时,说明有可能两人都是良民还会被判1年。

更糟糕的是如果两人都是良民,有一人钻此机制设计的空子,自己不是罪犯坦白说是罪犯,另一个良民会坚决抵赖,那么坦白的人会释放,而不是被判一年,另外一个抵赖的良民会被判10年。

所以这个机制会逼迫良民说自己是罪犯。

如果两个良民都想被释放的话,会争先恐后地承认自己是罪犯,导致都被判8年,这是机制设计者不想看到的结果。

通过上述分析可以看出,本案例的设计机制就是诱导嫌疑人坦白,即使良民也会有坦白的动机,这样会导致冤假错案的发生。

在以人为本的社会中,我们不得不反思此机制设计的缺陷。

同时这个设计机制也不能杜绝坏人有抵赖的冲动,如果聪明绝顶的坏人会发现此案例中有两个均衡:

纳什均衡:

（坦白,坦白和广义均衡:

（抵赖,抵赖,他们会执行战略组合（抵赖,抵赖。

而且作为罪犯,他们吃苦受罪能力强（有前科的话还有反侦察经验,不容易被警察的刑讯逼供认罪,更容易达到（抵赖,抵赖的均衡。

这样真正的罪犯就会逃脱法律的制裁。

对上述机制作修改,看下面的支付函数会对应怎样的均衡结果。

设定上述支付函数的理由如下:

①如果有一方坦白,证明嫌疑人都是罪犯,对于那个抵赖的罪犯我们重判10年,而对于那个坦白的罪犯也不能就此放了,他毕竟犯了罪,轻判1年。

②如果两人均抵赖,从保护嫌疑人的角度分析,可能嫌疑人是清白的,所以就不应再判刑,所以最后两个人都应该释放,即两人都抵赖时,支付函数为（0,0。

如果这样设计支付函数,会有（坦白,坦白和（抵赖,抵赖两个均衡。

笔者认为这样的机制设计更合理,这样可以让该坦白的就坦白,会得到应有的惩罚,而清白的嫌疑人也不会挖空心思去坦白,无罪的人都会被释放。

当然聪明的罪犯也会设法追求（抵赖,抵赖均衡,这样会放走一部分罪犯。

但是经典的囚徒困境设计会导致无罪人也可能坦白,这样会造成冤假错案的发生。

所以比较这两个设计机制各有的优缺点,如果严打时期就应采用经典的支付矩阵机制设计,这时的指导思想是“宁可错杀一千,不能放走一个”;如果社会治安较好,比较宽松的环境下,可采用本文给出的改进支付矩阵来破案,这样有助于保护那些清白的嫌疑人。

好在警察办案不仅

是看嫌疑人抵赖还是坦白,还有很多其他的证据,本案例的机制设计只是辅助的诱导作用,真正的执法过程要看证据,所以可以通过其他手段避免此案例机制设计的缺陷。

六、结语

对于囚徒困境的分析在重复博弈和动态博弈中还都有论述。

值得一提的是在无限次重复博弈过程中,只要参与人有足够耐心,冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡,（抵赖,抵赖是每个阶段的均衡结果,囚徒走出了一次性博弈时的困境。

实际上聪明绝顶的理性人在第一次博弈之前就能看出多次重复博弈的后果,所以,按照本文的观点,两个理性的囚徒在第一次博弈中就能得到均衡结果（抵赖,抵赖,而且如果博弈重复下去,这个博弈均衡永远不会改变。

但是如果两个囚徒在第一次博弈结束时达到的均衡是（坦白,坦白,如果重复多次,他们会找到另外一个均衡（抵赖,抵赖。

囚徒困境的纳什均衡应该有两个:

纳什均衡（坦白,坦白和广义均衡（抵赖,抵赖。

如果博弈双方在之前有攻守同盟,即博弈的起始战略是（抵赖,抵赖,双方都不会打破僵局,因为打破此战略会有一连串的反应导致双方更坏的结果,所以（抵赖,抵赖是纳什均衡。

如果决策双方没有攻守同盟,博弈的起始战略是（坦白,坦白,那么有一方想改变成抵赖时,只能使自己被判刑的时间更长,而令一方会受益,所以不会有人想再改变此结果,（坦白,坦白是纳什均衡。

囚徒困境博弈的最终结果是这两个均衡的哪一个,要看参与双方的最初的意见。

如果双方有攻守同盟其最后达到的均衡是（抵赖,抵赖,如果最初没有攻守同盟,同时双方又不够聪明,不够信任,会聪明反被聪明误,最后达到的纳什均衡（坦白,坦白,一但达到此均衡双方再没改变的余地。

这个结论与现实生活也相符。

例如如果两个囚徒相互信任且足够聪明,假设两个人是兄弟,那么最后的纳什均衡就是（抵赖,抵赖,否则就是（坦白,坦白。

现实中还要考率警察刑讯逼供等因素,实际最后达到（抵赖,抵赖均衡的就更少。

【参考文献】

[1]张维迎.博弈论与信息经济学[M].上海人民出版社,2004（11.

[2]Nash,J.EquilibriumPointsinPersonGames[J].ProceedingsoftheNa-

tiongalAcademyofSciences1950,36.

[3]杨懋,祁守成.囚徒困境从单次博弈到重复博弈[J].商业时代,2009.

[4]孙鑫.囚徒困境博弈及其应用浅析[J].产业与科技论坛,2009（4.

[5]傅俊华,陈惠雄.快乐理论对囚徒困境的新解释[J].经济论坛,2009（7.

[6]陈建先.博弈视角的冲突与合作均衡解[J].广州大学学报（社科版,

2010（6.

囚徒困境的均衡辨析

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 囚徒困境均衡辨析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：囚徒困境的均衡辨析.docx
链接地址：https://www.bdocx.com/doc/30485074.html

囚徒困境的均衡辨析.docx

热门标签