博弈论
(Game Theory)
要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解。
——萨缪尔森
什么是博弈论?
高深莫测的逻辑推理?
下棋的方法?
生活中与人较量的策略?
数学模型?
……
博弈论基本思想
人们在日常生活中进行着博弈(或称为战斗),与配偶,朋友,陌生人,老板/员工,教授等。
类似的博弈也在商业活动、政治和外交事务、战争中进行着——在任何一种情况下,人们相互影响以达成彼此有利的协议或者解决争端。
游戏——下棋、猜大小
经济——寡头产量决策、市场阻入、投标拍卖
政治、军事——美国和伊拉克、以色列和巴勒斯坦
博弈论为众多学科提供了分析的概念和方法:经济学和商学,政治科学,生物学,心理学和哲学。
如何在“博弈”中获胜?
日常生活中的博弈(“游戏”)往往指的是诸如赌博和运动这样的东西:
赌抛硬币
百米赛跑
打网球/乒乓球
How can you win such games?
许多博弈都包含着运气、技术和策略。
策略是为了获胜所需要的一种智力的技巧。它是对于如何最好地利用物体(物质)的技巧的一种算计.
想赢?策略+技术+运气
什么是策略博弈?
What is a Game of Strategy?
策略本质上涉及到与他人的相互影响。其他人在同一时间、对同一情形也在进行类似的思考。
博弈论就是用来分析这样交互式的决策的。
理性的行为指的是:明白自己的目的和偏好,同时了解自己行动的限制和约束,然后以精心策划的方式选择自己的行为,按照自己的标准做到最好。
博弈论对理性的行为又从新的角度赋予其新的含义——与其他同样具有理性的决策者进行相互作用。
博弈论是关于相互作用情况下的理性行为的科学。
如何在博弈中获胜?
…… 真的能在博弈中(总是)获胜吗?
对手和你一样聪明!
许多博弈相当复杂,博弈论并不能提供万无一失的应对办法。
你所注册的一门课程按照比例来给分:无论卷面分数是多少,只有40%的人能够得优秀,40%的人能得良好。
所有学生达成一个协议,大家都不要太用功,如何?想法不错,但无法实施!稍加努力即可胜过他人,诱惑大矣。
问题是,大家都这么做。这样一来,所有人的成绩都不比大家遵守协议来得高。而且,大家还付出了更多的功夫。
正因为这样的博弈对所有参与者存在着或大或小的潜在成本,如何达成和维护互利的合作就成为一个值得探究的重要问题。
存在双赢的博弈吗?
例1:无谓竞争(The GPA Rat Race)
例2:焦点博弈 “We Can’t Take the Exam, Because We Had a Flat Tire”
两个学生想要推迟考试,谎称由于返校途中轮胎漏气,未能很好地备考。
教授分别对他们提出了问题:“哪个轮胎漏气?”如何应答?
他们本应该预计到教授的招数,提前准备好答案。
在博弈中,参与者应该向前看到未来的行动,然后通过向后推理,推算出目前的最佳行动。
如果双方都没有准备,他能够独立地编出一个相互一致的谎言吗?
例2:焦点博弈 “We Can’t Take the Exam, Because We Had a Flat Tire”
“乘客侧前轮”看起来是一个合乎逻辑的选择。
但真正起作用的是你的朋友是否使用同样的逻辑,或者认为这一选择同样显然。并且是否你认为这一选择是否对他同样显然;反之,是否她认为这一选择对你同样显然。……以此类推。
也就是说,需要的是对这样的情况下该选什么的预期的收敛。这一使得参与者能够成功合作的共同预期的策略被称为焦点。.心有灵犀一点通。
我们无法从所有这样的博弈的结构中找到一般和本质的东西,来保证这样的收敛。
某些博弈中,由于偶然的外因可以对策略贴标签,或者参与者之间拥有某些共同的知识体验,导致了焦点的存在。
没有某个这样的暗示,默契的合作就完全不可能。
例2:焦点博弈 “We Can’t Take the Exam, Because We Had a Flat Tire”
例3:为什么教授如此苛刻?
许多教授强硬地规定,不进行补考,不允许迟交作业或论文。
教授们为何如此苛刻?
如果允许某种迟交,而且教授又不能辨别真伪,那么学生就总是会迟交。
期限本身就毫无意义了。
避免这一“滑梯”通常只有一种办法,就是“没有例外”的策略。
例3:为什么教授如此苛刻?
问题是,一个好心肠的教授如何维持如此铁石心肠的承诺?
他必须找到某种使拒绝变得强硬和可信的方法。
拿行政程序或者学校政策来做挡箭牌
在课程开始时做出明确和严格的宣布
通过几次严打来获得“冷面杀手”的声誉
第一章 引论
博弈论的提出
博弈论的基本概念与类型
博弈均衡与一般均衡
博弈论与诺贝尔经济学奖获得者
主要参考文献
案例分析
引 论
一、博弈论的提出
博弈论历史没有公认答案
对具有策略依存特点决策问题的研究可上溯到18世纪初甚至更早
博弈论真正的发展在上世纪
博弈论总体上仍然是发展中的学科
博弈论的形成
2000年前我国古代的“齐威王田忌赛马”
1500年前巴比伦犹太教法典“婚姻合同问题”等。
1838年古诺寡头模型。
1883年伯特兰德寡头竞争模型。
1913年齐默罗象棋博弈定理 、“逆推归纳法”。
1921-1927年波雷尔混合策略的第一个现代表述,有数种策略两人博弈的极小化极大解。
1928年诺伊曼和摩根斯坦扩展形博弈定义,证明有限策略两人零和博弈有确定结果。
1944年冯.诺伊曼和摩根斯坦《博弈论和经济行为》
(Theory of Games and Economic Behavior)
引进扩展形(extensive form)表示和正规形(normal form)或称策略形(strategy form)、矩阵形(matrix form)表示
提出稳定集(stable sets)解概念
正式提出创造博弈论一般理论的主意
给出博弈论研究的一般框架、概念术语和表述方法
1、博弈的含义
博弈指的是一种决策,即每一行为主体的利益不仅依赖他自己的行动选择,而且依赖于别人的行动选择,以致他所采取的最好行动依赖于其竞争对手将选择什么行动。
博弈论所研究的就是两个以上行为主体的互动决策及策略均衡。
一、博弈论的提出
博弈论(Game Theory) 又称为对策论、游戏理论以及策略运筹学。它最早由德国数学家、哲学家莱布尼茨于1710年提出。
博弈论是研究决策主体行为发生直接相互作用时候的决策及谋求这种决策的均衡问题。
博弈论可以划分为合作博弈(cooperative game)和非合作博弈(non-cooperative game)。纳什、泽尔腾和海萨尼的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈。
20世纪50年代可以说是博弈论的巨人出现的年代。合作博弈论在50年代达到顶峰,同时非合作博弈论也开始创立。纳什在1950年和1951年发表了两篇关于非合作博弈的主要文章。塔克于1950年定义了“囚徒困境”,他们两个人的著作基本上奠定了现代非合作博弈论的基石。
到60年代后又出现了一些重要人物,泽尔腾将纳什均衡的概念引入了动态分析,提出了“精炼纳什均衡”概念;海萨尼则把不完全信息引入博弈论的研究。然后到80年代出现了几个比较有影响的人物,包括克瑞普斯(kreps)和威尔逊(wilson),他们在1982年合作发表了关于动态不完全信息博弈的重要文章。
严格地说,博弈论并不是经济学的一个分支。它是一种方法,应用范围并不局限于经济学。在政治学、军事学、外交学甚至犯罪学等多个领域都涉及到博弈论知识。实际上,它属于数学知识。
1、博弈论在经济学中的应用最广泛、最成功;博弈论的许多成果也是借助于经济学的例子来发展的,特别是在应用领域。
2、经济学家对博弈论的贡献也越来越大,特别是在动态分析和不完全信息引入博弈论之后。
3、最带根本性意义的原因是经济学和博弈论的研究模式是一样的,即强调个人理性,也就是在给定的约束条件下追求利益最大化。在这一点上,博弈论和经济学是完全一样的。
博弈论在经济学中的绝大多数应用模型都是在70年代中期之后发展起来的,大体从80年代开始,博弈论逐渐成为主流经济学的一部分,甚至可以说成为微观经济学的基础。
博弈论进入主流经济学,反映了经济学发展的以下几个趋势:
第一,经济学研究的对象越来越转向个体,这正是博弈论研究的范式。
第二,经济学越来越转向对人与人关系的研究,特别是对人与人之间行为的相互影响和作用。
第三,经济学越来越重视对信息的研究,特别是信息不对称对个人选择及制度安排的影响。
二、博弈论的基本要素和分类
A、局中人(Player)
博弈中的每个决策者被称为局中人(也可称作选手和参与者),在具体的经济模型中,它们可以是厂商,也可能是消费者或任何契约关系中的人,根据经济学的理性假定,局中人同样是以利益最大化为目标。
1、基本要素:参与者、支付和策略
博弈中的参与人(局中人)
独立决策、独立承担博弈结果的个人或组织
博弈规则面前局中人之间平等,不因局中人之间权利、地位的差异而改变。
局中人数量对博弈结果和分析有影响。
根据局中人数量分单人博弈、两人博弈、多人博弈等。最常见的是两人博弈,单人博弈是退化的博弈。
支付是指博弈结束时局中人得到的利益。支付有时以局中人得到的效用来表示,有时以局中人得到货币报酬来表示。局中人的利益最大化也就是指支付或报酬最大化。
B、支付(Pay off Structure)
博弈中的得益
得益对应博弈的结果,也就是各博弈方策略的组合。
得益是各博弈方追求的根本目标及行为和判断的主要依据。
根据得益的博弈分类:零和博弈、常和博弈、变和博弈。
策略(也称作战略)是局中人为实现其目标而采取的一系列行动或行动计划,它规定在何种情况下采取何种行动。
C、策略(Strategies)
博弈中的策略
策略有定性定量、简单复杂之分。
不同局中人之间不仅可选策略不同,而且可选策略数量也可不同。
有限博弈:每个博弈方的策略数都是有限的。
无限博弈:至少有某些博弈方的策略有无限多个。
(1)双人博弈和多人博弈
(2)静态博弈和动态博弈
(3)零和博弈与非零和博弈
(4)合作博弈与非合作博弈
(5)重复博弈
(6)完全信息博弈和不完全信息博弈
2、博弈的分类
根据局中人数量分单人博弈、两人博弈、多人博弈等。最常见的是两人博弈,单人博弈是退化的博弈。
(1)双人博弈和多人博弈
单人博弈:只有一个局中人的博弈
例一:单人迷宫
入口
A
B
出口(奖金M)
A,1
B,1
右
左
右
左
M
0
0
扩展形
单人博弈:只有一个局中人的博弈
例一:运输路线
-7000
-16000
-10000
-10000
好天气(75%)
坏天气(25%)
自 然
商
人
水 路
陆 路
运输路线得益矩阵
0
1
-7000
-10000
-16000
-10000
运输路线扩展形
好天气
(75%)
坏天气
(25%)
单人博弈实质
个体最优化问题
两人博弈
两人博弈即有两个博弈方的博弈。
两人博弈最常见,研究最多,是最基本和有用的博弈类型。
囚徒困境、猜硬币、齐威王田忌赛马等都是两人博弈。
两人博弈有多种可能性,博弈方的利益方向可能一致,也可以不一致。
多人博弈
三个博弈方之间的博弈。
可能存在“破坏者”:其策略选择对自身的利益并没有影响,但却会对其他博弈方的利益产生很大的,有时甚至是决定性的影响。
多人博弈的表示有时与两人博弈不同,需要多个得益矩阵,或者只能用描述法。
从局中人是否同时行动的角度,博弈可以划分为静态博弈和动态博弈。
静态博弈:指局中人同时选择策略或非同时选择策略但不知道对手采取的具体行动,并且这种选择是一次性的,也就是说同时做出选择后博弈就出结果。 —田忌赛马、猜硬币、古诺模型
即使决策或行动有先后,但只要局中人在决策时都还不知道对手的决策或者行动是什么,也算是静态博弈。
(2)静态博弈和动态博弈(static games and dynamic games)
动态博弈:指局中人行动有先后顺序的博弈,后行动者能观察到先行动者的行动。
—弈棋、市场进入、领导——追随型市场结构
日常生活中动态博弈比比皆是,比如购物中的砍价过程就是一个典型的动态博弈。
零和博弈:指博弈双方的支付结果加起来为零。这意味着双方的利益在博弈中是相互冲突的。从支付结果看,除了零和博弈外,还有正和博弈,即双方的支付结果加起来为一个正的常数。这意味着双方的利益冲突不再是那么激烈,有可能出现所谓双赢或共赢局面。至于负和博弈,如果假定局中人都是理性的,理论上没有人会参与这种博弈,尽管现实中不乏损人不利己的事。
(3)零和博弈与非零和博弈
(zero-sum game and non-zero-sum game)
从参与主体角度,可以把博弈划分为合作博弈和非合作博弈。
在非合作博弈中,分析的对象是个体参加者,考察的是单个的参与人在具体的博弈规则以及一定的信息条件约束下,面对其他人可能的反应将如何行动。在非合作博弈中,局中人之间通常无法达成有约束力的协议进行合作,以获得合作收益。
非合作博弈强调的是个人理性、个人最优策略。但结果可能有效率,也可能无效率。
(4)合作博弈与非合作博弈
在合作博弈分析中,分析的对象经常是一个团体,用博弈论的术语称之为“联盟”。该联盟是由参与博弈的若干局中人通过达成有约束力的协议形成。合作博弈通常并不涉及具体的博弈规则,而集中于不同的人结盟将得到什么。合作博弈强调的是团体理性。
非合作博弈更受重视的主要原因
1.主导人们行为方式的主要还是个体理性而不是集体理性。或者说,竞争是一切社会、经济关系的根本基础,不合作是基本的,合作是有条件和暂时的,因此非合作博弈关系比合作博弈关系更普遍。
2.搞清了非合作的博弈关系,合作的博弈关系就比较容易理解,在证明非合作博弈无效率或低效率的同时,就自然说明了存在着合作的可能性和必要性,因此从某种意义上说非合作博弈理论是合作博弈论的基础。
3.集体理性是更高级和更复杂的理性,因此研究合作博弈的难度更大,更难找到分析问题的一般概念和系统力法。
重复博弈是动态博弈的一种特殊情况。
无限期重复博弈
有限期的重复博弈
(5)重复博弈
(6)完全信息博弈与不完全信息博弈
(games of complete information and
games of incomplete information)
按照大家是否清楚对局情况下每个局中人的得益。
“各种对局情况下每个人的得益是多少” 是所有局中人的共同知识(common knowledge)。
据“共同知识”的掌握分为完全信息与不完全信息博弈。
完美信息博弈与不完美信息博弈
(games with perfect information and
games with imperfect information)
是关于动态博弈进行过程之中面临决策或者行动的参与人对于博弈进行迄今的历史是否清楚的一种刻划。
如果在博弈进行过程中的每一时刻,面临决策或者行动的参与人,对于博弈进行到这个时刻为止所有参与人曾经采取的决策或者行动完全清楚,则称为完美信息博弈;否则位不完美信息。
行动顺序
信息
静态博弈
动态博弈
完全信息
完全信息静态博弈;纳什均衡;
代表人物:纳什
(1950,1951)
完全信息动态博弈;子博弈精炼纳什均衡;
代表人物:泽尔腾(1965)
不完全信息
不完全信息静态博弈;贝叶斯纳什均衡;
代表人物:海萨尼(1967-1968)
不完全信息动态博弈;
精炼贝叶斯纳什均衡;代表人物:泽尔腾(1975);克瑞普斯和威尔逊(1982);
弗登伯格和泰勒尔(1991)
非合作博弈的基本分类
3、博弈的表述
在博弈论中,一个博弈一般可以用两种不同的方式表述:战略式表述和扩展式表述。
战略式表述又称为标准式表述,在这种表述中,每一参与人同时选择一个策略,而所有参与人的策略组合又决定了每个参与人的支付。
博弈的战略式表述:G={N,(Si)iN,(Ui)iN}
有三个基本要素:
(1)参与人(players)iN={1,2,…,n} ;
(2)战略(strategies),siSi(战略空间);
(3)支付(payoffs),ui=ui(si,s-i)。
在扩展式表述中,各参与人先后或重复选择各自的策略。
对于不超过三个局中人的同时决策博弈,经济学上一般用一个支付矩阵(也称报酬矩阵)来描述博弈的3个基本要素,并运用它来分析一个博弈。
用同一个矩阵表示两个参与者的得失的做法,来自博弈理论的一位先驱者托马斯·谢林(2005年诺贝尔经济学奖获得者)。他曾经说过:“假如真有人问我有没有对博弈论做出一点贡献,我会回答有的。若问我是什么,我会说我发明了用一个矩阵反映双方得失的做法…我不认为这个发明可以申请专利,所以我免费奉送,不过,除了我的学生,几乎没有人愿意利用这个便利。现在,我也供给各位免费使用我发明的矩阵。”
2005年诺贝尔经济学奖获得者托马斯·谢林
美国经济学家托马斯-谢林1921年出生于奥克兰,1951年获哈佛大学经济学博士学 位,是马里兰大学经济学系和公共政策学院的教授。
乙
石头 剪刀 布
石头 剪刀 布
甲
0 ,0
1 ,-1
-1 , 1
-1 ,1
0 , 0
1 ,-1
1 ,-1
-1 , 1
0 ,0
游戏——石头、剪刀、布
乙乙
三、博弈均衡与一般均衡
与传统微观经济学的比较
一致性
利益最大化原则
均衡原则
不一致
人与人之间的关系-个人理性导致集体非理性-设计协调性机制-满足个人理性前提下达到集体理性
信息不完全-委托-代理理论、信号传递与信息筛选模型
经济学中,均衡一般指某种稳定的状态。
博弈论中的均衡是策略均衡,它是指由各个局中人所使用的策略构成的策略组合处于一种稳定状态,在这一状态下,各个局中人都没有动机来改变自己所选择的策略。这样,各人的策略都已给定,不再发生变化,博弈的结果必将确定。从而,每一个局中人从中得到的支付也就确定了。每个局中人的最优决策也就可以确定了。可见,要解一个博弈问题,首先需确定博弈的策略均衡。
四、博弈论与诺贝尔经济学奖获得者
1994年诺贝尔经济学奖获得者
美国人约翰-海萨尼(John C. Harsanyi) 和美国人约翰-纳什(John F. Nash Jr.)以及德国人莱因哈德-泽尔腾(Reinhard Selten)
获奖理由:在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响。
约翰·纳什 1928年生于美国
莱因哈德·泽尔腾,1930年生于德国
约翰·海萨尼 1920年生于美国
1994年诺贝尔经济学奖获得者
1996年诺贝尔经济学奖获得者
英国人詹姆斯·莫里斯 (James A. Mirrlees)和美国人威廉-维克瑞(William Vickrey)
获奖理由:前者在信息经济学理论领域做出了重大贡献,尤其是不对称信息条件下的经济激励理论的论述;后者在信息经济学、激励理论、博弈论等方面都做出了重大贡献。
詹姆斯·莫里斯 1936年生于英国
威廉·维克瑞,1914-1996,生于美国
1996年诺贝尔经济学奖获得者
2001年诺贝尔经济学奖获得者
三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz)
获奖理由:在“对充满不对称信息市场进行分析”领域做出了重要贡献。
2001年诺贝尔经济学奖获得者
约瑟夫·斯蒂格利茨,1943年生于美国的印第安纳州,1967年获美国麻省理工学院博士头衔,曾担任世界银行的首席经济学家,现任美国哥伦比亚大学经济学教授
乔治·阿克尔洛夫 1940年生于美国的纽黑文,1966年获美国麻省理工学院博士头衔,现为美国加利福尼亚州大学经济学教授。
迈克尔·斯彭斯 1948年生于美国的新泽西,1972年获美国哈佛大学博士头衔,现兼任美国哈佛和斯坦福两所大学的教授。
2005年诺贝尔经济学奖获得者
以色列经济学家罗伯特-奥曼(Robert J. Aumann)和美国经济学家托马斯·谢林(Thomas C. Schelling)
获奖原因:“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。
罗伯特·奥曼 托马斯·谢林
2005年诺贝尔经济学奖获得者
2007年10月15日,瑞典皇家科学院宣布,将2007年诺贝尔经济学奖授予莱昂尼德·赫维奇、埃里克·马斯金和罗杰·迈尔森3名美国经济学家,以表彰他们在创立和发展“机制设计理论”方面所作的贡献。
这一理论有助于经济学家、各国政府和企业识别在哪些情况下市场机制有效,哪些情况下市场机制无效。此外,借助“机制设计理论”,人们还可以确定最佳和最有效的资源分配方式。
2007年诺贝尔经济学奖获得者
莱昂尼德·赫维奇 埃里克·马斯金 罗杰·迈尔森
2007年诺贝尔经济学奖获得者
五、主要参考文献
王则柯、李杰编著,《博弈论教程》,中国人民大学出版社,2004年版。
张维迎著,《博弈论与信息经济学》,上海三联书店、上海人民出版社,1996年版。
Roger B. Myerson著:Game Theory(原文版、译文版),中国经济出版社,2001年版。
艾里克.拉斯缪森(Eric Rasmusen)著,《博弈与信息:博弈论概论》,北京大学出版社,2003年版。
因内思·马可-斯达德勒,J.大卫·佩雷斯-卡斯特里罗著,《信息经济学引论:激励与合约》,上海财经大学出版社,2004年版。
施锡铨编著,《博弈论》上海财大出版社,2000年版。
谢识予编著,《经济博弈论》,复旦大学出版社,2002年版。
谢识予主编,《经济博弈论习题指南》,复旦大学出版社,2003年版。
主要参考文献
六、案例分析
游戏规则:给你两个师的兵力,攻克敌人占据的一座城市,敌军的守备力量是三个师,规定双方的兵力只能是整师调动。通往城市的道路只有两条。当你发起进攻,只要你的兵力超过敌人,你就获胜;你的兵力比敌人的守备兵力少或相等,则失败。
问题(1)如何制定攻城方案?
(2)成功的可能性有多大?
实力与策略:诺曼底战役模拟
敌方布防方案
A:三个师驻守甲方向;
B:两师驻守甲方向,一师驻守乙方向;
C:一师驻守甲方向,两师驻守乙方向;
D:三个师都驻守乙方向
我方部署方案
a:集中两个师的兵力从甲方向攻击;
b:兵分两路,一师从甲方向,另一师从乙方向,同时发起攻击;
c:集中两个师的兵力从乙方向攻击。
诺曼底战役攻防作业演练
- +
- +
+ -
+ -
+ -
- +
- +
+ -
+ -
+ -
- +
- +
敌 军
我
军
A B C D
a
b
c
诺曼底战役攻防作业演练
- +
+ -
+ -
- +
敌 军
我
军
B C
a
c
制度安排与博弈均衡:抓钱博弈
动态变化
一般用博弈树表示
制度安排不同,均衡结果不同
利益一致的“抓钱博弈”
甲
乙
甲
乙
不拿 不拿 不拿 不拿
拿
拿
拿
拿
(1,1)(2,2)(3,3)(4,4)
(5,5)
制度安排与博弈均衡:抓钱博弈
甲
乙
甲
乙
不拿 不拿 不拿 不拿
拿
拿
拿
拿
(2,0)(0,4)(6,0)(0,8)
(10,0)
“你死我活”的“抓钱博弈”
制度安排与博弈均衡:抓钱博弈
甲
乙
甲
乙
不拿 不拿 不拿 不拿
拿
拿
拿
拿
(2,0)(1,3)(4,2)(3,5)
(6,4)
“温和对抗”的“抓钱博弈”
制度安排与博弈均衡:抓钱博弈
*
*
大家都玩过各种丰富多彩的游戏。若认真观察、仔细思考一下就可以发现,大多数游戏均有一个共同的特点:策略(计谋)在其中有着举足轻重的影响和作用。进一步观察还可以归纳出游戏的下列四个特征(1)都有一定的规则(2)有一个结果,赢或输或平局等(3)策略,策略不同对应的游戏结果也不同(4)策略有相互依存性。实际上经济活动中的经营决策、市场竞争、政治、军事、外交中的竞选、谈判、联合等斗智斗勇的较量都具有游戏的这些特征