理性与博弈论.docx
- 文档编号:1490248
- 上传时间:2022-10-22
- 格式:DOCX
- 页数:11
- 大小:106.39KB
理性与博弈论.docx
《理性与博弈论.docx》由会员分享,可在线阅读,更多相关《理性与博弈论.docx(11页珍藏版)》请在冰豆网上搜索。
理性与博弈论
理性与博弈论
JosephMalkevitch
关键词:
博弈论, 应用数学
引言
如果你得到一千元,不附带任何条件,你可能会拿钱,然后跑走?
如果金额不是一千元,而是一万元,不附带任何条件,你可能会拿钱,而且跑得更快。
但是,如果你在大街上看到一张100元的钞票,而你最近背部已经疼痛难忍,虽然当时你的痛苦减轻了很多,但你可能不会弯腰把它捡起来。
当然,对一毛硬币更不值得弯腰。
经济学家和数学家在解释有关经济行为并提供建议时,会调用“理性”行为的论据来解释人们应该采取什么样的行动。
然而,正如上面的例子所显示的,如果决策者比观察者有更多的信息(比如背部状态),那么观察到的行为和可预期的行为可能不一样。
冯·诺伊曼
摩根斯特恩
由数学家约翰·冯·诺伊曼(1903-1957)和经济学家奥斯卡·摩根斯特恩(1902-1977)首创的博弈论,提供了许多发人深省的例子,其中逻辑上行得通的行为与实际上看到的行为之间的区别有着天壤之别。
因此,博弈论提供了数学家、心理学家、政治学家、哲学家、经济学家和其他学者一个令人兴奋的舞台,来探索位于他们各自学科核心处的迷人思想并获得探测各种各样的问题的工具。
如果以数学建模的角度来看博弈论,其中博弈论的部分用来提供“现实世界”中的行为表示,则涉及博弈的试验不仅提供了改善我们对人类行为洞察力的方式,而且对博弈论本身也开发出新的方法和思路。
那些熟悉博弈论的读者,可以只略读下一节,它是关于博弈论的一些比较出名的方面。
这个预备材料的目的是对某些博弈进行“标准”博弈理论和实际操作之间的对比。
博弈论的基础知识
博弈论已经发展成为一个复杂而多分支的学科。
其基本思想是:
有一群人(通常被称为玩家)相互交融,并存在他们希望解决的一些冲突。
为了简单起见,让我们考虑只有两个人(国家或企业)的玩家。
根据由玩家采取的行动或决策,对所涉及的两个人将产生不同的“回报”。
我们假设,该游戏是具有完美信息的博弈。
这意味着,每个玩家确切地知道他及其对手采取什么行为。
我们还假定每个玩家的回报以及它们的值都是已知的。
这里我们感兴趣的游戏通常出现在日常生活、经济和政治科学中,而与如Nim,Dots,Boxes及Hackenbush这样的组合游戏相反。
下面的例子给出冲突情形可用博弈论阐述的一些范围:
∙情形1:
丈夫和妻子正试图决定星期五晚上做什么,丈夫喜欢看电影,但妻子想去看歌剧。
∙情形2:
X国以测试新开发的地下核武器相威胁,Y国对此可能性感到不安。
∙情形3:
两个孩子同时闪动一个手指或两个手指。
如果总和是偶数,每个孩子赢得一毛钱;如果总和是奇数,每个孩子则失去一毛钱。
∙情形4:
两个相互竞争的的电子商店必须决定在感恩节前一周是否使用电视广告。
这些小样品的情况显示涉及到当事者的不同程度的后果严重性;虽然只提到两个人(实体),其他的“当事人”经常受他们在博弈中所作决定的影响。
例如,在核试验的情形,如果地下核试验出了问题,整个世界则面临核辐射排放到大气中的危险。
这些种类的情形可能只发生一次,也许在或多或少相同的情况下多次重复。
有时玩家可能会互相沟通采取行动,但在其他情况下他们的行动或多或少彼此独立。
即使玩家可以沟通并达成协议如何竞争,但也不总能保证单方或双方不会违背已经同意的“条约”。
有时玩家可能彼此是陌生人,而在其他情况下,他们可能彼此认识。
当玩家确实知道对方时,他们可能知道各自的值会是多少以及他们在游戏不同情形下的思维方式。
然而,即便对方是一个陌生人,玩家们对公平性、同情和利他主义等的看法可以左右他们的行动。
当玩家在这类游戏中互动时,他们可以复杂的方式通过游戏玩法注视其结果。
在一些游戏中,有转手于玩家之间的金钱,然而在许多情况下,结果可以用多种尺度衡量。
因此,上面那对夫妇决定星期五晚上干什么时,其结果可能会受金钱影响(电影通常比歌剧便宜),但也有“满意度”的结果。
心理学家和经济学家,加上数学家,已经开发出一种“效用”理论,该理论试图允许获得某个结果的游戏(或者更一般地,做出某个决定)玩家指定一个被称为效用的数。
主要的想法是,如果行动A优选于行动B,则指定给A的效用应该高于指定给B的效用。
但是众所周知,在表达优先方面人们并不总是一致的。
因此,约翰在苹果和香蕉中可能更喜欢苹果,在香蕉和樱桃之间更偏向香蕉,碰到樱桃和苹果时则宁愿樱桃。
当这种优先关系的“非传递性”被指出时,有些人会“纠正”其既定的偏好,而其他人则坚持他们的初衷。
这可能是因为该人缺乏一个单一的基本尺度据此判断水果,而这就意味着表达偏好时,一个人如何平衡对水果的复杂观念。
因此,当存在这样的“循环”偏好时,不可能对每种水果指定一个数,使得指定数较高的水果优于指定数较低的。
这个简短的讨论表明,“效用理论”是一个迷人和复杂的主题。
因此,一个富人和一个穷人对游戏中易手的同一笔钱可能有完全不同的想法。
出于我们的目的,让我们假装玩家都能自己评估如何借助某些尺度来衡量本场游戏的结果。
游戏中出现的这些结果来自于玩家在可取行动之间做出的选择。
每个玩家的一个行动导致一个结果。
有时玩家会知道与某个结果相关的效用,但有时他们不知。
我们还假设,给出高与低的回报选择时,双方玩家总是会选择较高的回报。
为方便起见,我们将游戏中的两个玩家称为甲和乙。
我对甲用女性代词,对乙则用男性代词。
我们怎样才能记录游戏中可供玩家采取的行动?
一种方法是使用一个“树形图”,其中树的顶点(有时也被称为节点)显示玩家的可取选择,其举动在此节点表示。
在最简单的情况下,这些树图只是显示为玩家的行动方案,但它们也可以用来显示,在不时的可能选择下,什么样的信息可以提供给玩家。
因此,一个玩家的对手可能会知道或可能不回知道对手在一个树图节点可能采取什么样的选择。
当游戏的“移动”和回报以这种形式显示时,该游戏被描绘为具有“扩展型”。
一个很简单的例子如下(图1)显示。
在图中,树的1价顶点,或树的叶子,标有(r,c),表示甲和乙的回报。
因此,如果甲采取她的选择II而乙用他的选择1,则甲失去8元,即乙得到8元。
这可被解释为意指甲支付乙8元。
图1
如果结果以“正常形式”显示,这个游戏的“扩展型”可以显示得更紧凑,并在许多方面更为清楚(尽管前面提到的一般性会损失)。
这可以通过一个矩阵表示,该矩阵的行显示甲的选择,列则代表乙的选择,如图2那样。
他们的回报再次以一对数表示,每对中的第一个分量是玩家甲的回报。
这个游戏的玩法是:
彼此没有沟通的两个玩家各自选择两个行动之一。
对甲而言,这意味着选取行I或行II,而对乙则表示选择第1列或第2列。
你能把每个玩家视为甲在一张纸上写I或II,乙在一张纸上写1或2,再交给一个法官。
然后这位人士确认所涉及的回报。
例如,如果甲写II而乙写1,则法官让甲给乙8元。
这种特殊的游戏被称为零和游戏,因为游戏每一次玩后的转手金钱的总和是零。
(通常在一个零和游戏的矩阵的每个单元格中只显示一个回报数目。
这个数字通常是以行代表的玩家的回报。
以列代表的玩家的回报可以推断为前者回报(可为负数)的相反数。
)
乙1
乙2
甲I
(9,-9)
(-2,2)
甲II
(-8,8)
(1,-1)
图2
假设你一遍又一遍地玩这个游戏。
这意味着你(比如说你就是甲)在玩第一轮时必须选择I或II,然后根据乙在你之前玩的招数或与他跟随的任何行为独立地决定你下面的每次行动。
你会选择如何玩呢?
注意到回报的对称性表明,对于甲而言最好的事情同时对乙而言也是最糟糕的。
也请注意,玩家甲的所有项(可能的结果)加起来为零。
你认为这意味着该游戏“公平”吗?
公平的游戏可被认为是这样的,假如这两名玩家各自尽可能地玩好(如最佳玩法),长期玩下去则有净回报为零的结果。
混合策略
倘若你是甲的话,也许你不很清楚什么是图2游戏的最佳方案。
下面的游戏或许更简单一些!
乙1
乙2
甲I
(9,-9)
(-2,2)
甲II
(4,-4)
(-5,5)
图3
如果你是甲,你会怎么玩这个游戏?
注意,因为9比4大,-2也大于-5,如果甲起用行I,无论乙做什么,甲都将得到更高的回报。
因此,鉴于在我们的讨论中更多的钱优于更少的钱,甲从来不会玩行II,因为无论乙做什么,她玩行I都可以做的更好。
在这样的情况下,我们说行I主导行II,因为无论乙选哪一列,甲选行I得到的回报都比选行II好。
但是,如果乙是一个理性的玩家,他会知道甲永远不会选行II,因此,他最好的行动是与这一现实相一致。
这意味着乙将要选择第2列。
否则的话,他将失去每一次游戏,而选第2列乙则将赢得每场游戏。
这个游戏对甲而言肯定是不公平的,但理性的竞赛需要玩家按指示办事。
毕竟,甲很容易看到,如果乙每次都选第2列,然后选行II将导致每次亏损5元,而选行I则每次损失2元。
这些数字可以被认为构成这个游戏的一个“解”。
上面的分析是从甲的角度看开始的,并表明有一个主导的行。
我们也可以从乙的观点开始分析。
事实表明,从乙的角度来看第2列是主导列。
为什么无论甲选什么,乙选第2列会产生更高的回报?
从逻辑推理的角度来看,在理性的发挥造成这样的结果这个意义上,把行I和第2列的结果称为游戏的“解”似乎是合理的。
(对于更复杂的博弈论的情形下,游戏可能有一个以上的“解”。
其原因是,以不同的方式观察合理或理性的行为寻找导致不同观点下的不同结果。
)
在以最佳方式玩图3中的游戏时,每个玩家能够选择一行和一列,以便得到他和她最好的结局。
此言为真这一事实可以表述为:
有一个“纯”的策略(甲总选一个固定的行而乙总取一个固定的列)可导致最佳结果。
这个术语对游戏是否玩一次或多次都可用,也适用于游戏是否是零和的。
请注意,情况并不总是这么“利落”的。
对于有些游戏,不存在涉及“纯”策略的最佳对阵方式。
现在考虑一个不是零和的游戏(图4)。
乙1
乙2
甲I
(2,1)
(3,0)
甲II
(4,-5)
(1,2)
图4
假设甲和乙已经愉快地玩了几个回合这个游戏。
甲和乙都得到积极的回报,虽然乙没有甲得到的回报多,他对其回报为1绝非沮丧。
现在,甲注意到,如果乙在接下来的一轮中继续选第1列,她会得到4(而不是1)个单位的回报,且乙的回报则是-5。
甲不是真的不喜欢乙,但她思忖道,他在前面几轮已经赢了一些钱,现在可以承受一点损失而不会太生气。
因此,在下一轮中甲取行II,而乙选第1列。
不用说乙对甲从行I改为行II感到不快,但他注意到,如果甲计划假设乙是一个下一轮还选第1列的“易受骗者”,则她没想法就有问题了。
乙意识到,如果甲玩行II,则他将在下一轮中以第2列对应。
这不仅将抹去他的损失,而且当玩的是行I和第1列时他会比甲赚得更多。
此外,如果当他移到第2列时甲移到行I,他将比目前失去5元的情况有更好的回报。
假设甲保持在行II且乙移动到第2列。
现在,甲没有她刚才得到回报2元而她的对手只有1元收益那样高兴,做出决定:
如果乙继续玩第2列,她就想移到行I。
好,你得到想法了。
这个游戏没有结果,其中两名选手之一可能不被诱惑到另一个动作。
没有“纯”的行动会导致游戏的一个“解”。
现在,让我们回到零和的情形。
考虑下面的游戏(图5):
乙1
乙2
甲I
(1,-1)
(-1,1)
甲II
(-1,1)
(1,-1)
图5
这个游戏在回报上是对称的,但它不具有任何主导其他行或列的行或列。
甲和乙各自四个回报的数目之和为0。
该游戏是公平的,即无论哪个玩家玩这个游戏许多次后,其长期回报将是0。
(要求得长期回报,把个人经过所有游戏的赢钱加在一起再除以游戏的次数。
)这确实是一场公平的游戏,但是这并不意味着可以用随意方式玩它。
因此,假设甲决定,为使自己玩得更轻松,她将以固定的次序I,I,II,I,II,II,一遍又一遍地重复选择。
过了一段时间后,细心的玩家乙就会发现这种模式,并开始玩第2,2,1,2,1,1列的重复次序,结果他将赢得每场游戏。
当然,甲可能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 理性 博弈论