博弈论基本知识
管理博弈论
参考书目
1. [美]阿维纳什·K ·迪克西特.策略思维.中国人民大学出版社,2002
2. 王则柯. 新编博弈论平话. 中信出版社,2003
3. 谢识予.经济博弈论(第二版) .复旦大学
出版社,2002
4. [美]埃里克·拉斯缪森.博弈与信息:博弈论概论.北京大学出版社,2003
5.张维迎.博弈论与信息经济学.上海三联书店,2004
第二章 博弈论基本知识
什么是博弈论
博弈的结构和分类
博弈的表达方式
几类经典的博弈模型
从游戏到博弈
一个非技术性的定义
博弈论模型简介
第一节 什么是博弈论
从游戏到博弈
“博弈论”译自英文“Game
Theory”,直译就是“游戏理论”。
游戏运气不可控制,但是策略至关重要!
游戏的共有特征
1. 一定的规则
2. 有一个结果(且可以折算成数字)
3.策略的相互依存性
4.策略至关重要
博弈论-无处不在的游戏
“要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解”。
—保罗·萨缪尔森
年光似鸟翩翩过,世事如棋局局新。
——(宋)僧志文
博弈论(game theory):又称对策论,是研究相互依赖、相互影响的决策主体的理性决策行为以及这些决策的均衡结果的理论。
博弈论的基本概念
Governing Dynamics
博弈论的基本假设
人是理性人(rational,也说自私人):行动者具有推理能力,在具体策略选择时的目的是使决策者自己的目标效用最大化。
博弈论的基本概念
通俗地讲,博弈论是一种“游戏理论”。其较对博弈为准确的理解是:一些个人、团队或其他组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,同时或先后,一次或多次,从各自允许选择的行为或策略进行选择并加以实施,并从中各自取得相应结果或收益的过程。
博弈论模型可以用七个方面来描述
G={P,A,S,I,U,O,E}
博弈论的模型简介
P(players)
P(players): 为局中人,博弈的参与者,也称为“博弈方”,局中人以最终实现自身利益最大化为目标。
个人
团体
双方
多方
虚拟参与人:
Nature
A(action)
A(action) :为各局中人的所有可能的策略或行动的集合。
行动的顺序(The order of play)
根据该集合是有限还是无限进行分类:
先动优势
后动优势
S(strategies)
S(strategies) :博弈的进程,也是博弈进行的次序。它规定什么人在什么时候选择什么行动。因此,战略是参与人的 “相机行动方案” (contingent action plan)
分类:根据后行动的人是否能够看到先行动人的具体行动
静态博弈
动态博弈
行动与策略的区别?
行动是指参与者可能有的具体行动
战略是行动的规则而不是行动本身
毛泽东:
人不犯我我不犯人人若犯我我必犯人
敌进我退
敌退我追
敌驻我扰
敌疲我打
I(information)
I(information) :博弈信息。指的是参与人在博弈中的知识,特别是有关其他参与人(对手)的特征和行为的知识
分类:根据博弈各方对各种局势下所有局中人的信息掌握情况分:
完全信息博弈
不完全信息博弈
(1)如果博弈各方对各种局势下所有局中人的得益状况完全清楚,称之为完全信息博弈。反之为不完全信息博弈。
*
U( utility )
U( utility ):也称为支付(pay off).为局中人获得利益,或者是指参与人的期望效用水平。也是博弈各方追求的最终目标。
分类:根据各方得益的不同情况
零和博弈
变和博弈
田忌赛马
囚徒困境
Ua(t,t)=-8
Ua(t,n)=0 Ua(n,n)=-1 Ua(n,t)=-10
Ub(t,t)=-8
Ub(t,n)=-10 Ub(n,n)=-1 Ub(n,t)=0
嫌疑人a
嫌疑人b
坦白t 不坦白n
坦白t -8,-8 0,-10
不坦白n -10, 0 -1,-1
U(t,t)=*(-8)+ *(-8)=-8
U(t,n)=*0+ *(-10)=-5
U(n,t)=*(-10)+ *0=-5
U(n,n)=*(-1)+ *(-1)=-1
结果(outcome) 是指博弈分析者感兴趣的要素的集合。是均衡行动的组合。
嫌疑人A
嫌疑人B
坦白t 不坦白n
坦白t -8,-8 0,-10
不坦白n -10, 0 -1,-1
E(equilibrium)
均衡(equilibrium):是所有参与人的最优战略的组合。
所谓博弈均衡,它是一种稳定的博弈结果。
纳什均衡(Nash Equilibrium):一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。
谢识予:给定你的 策略,我的策略是最好的的策略,给定我的 策略,你的策略也是最好的的策略
两个小偷甲和乙联手作案,私入民宅被警方逮住但未获证据。警方将两人分别置于两间房间分开审讯,政策是若一人招供但另一人未招,则招者立即被释放,未招者判入狱10年;若二人都招则两人各判刑8年;若两人都不招则未获证据但因私入民宅各拘留1年。
囚徒困境
嫌疑人A
嫌疑人B
-8,-8
-1,-1
-10,0
0,-10
一个纳什均衡点!
坦白 不坦白
坦白
不坦白
情侣博弈
王菲
李亚鹏
2,1
1,2
-1,-1
0,0
两个纳什均衡点!
足球 演唱会
足球
演唱会
情侣也要博弈,因为他们往往偏好不同。
*
博弈论模型可以用五个方面来描述
G={P,A,S,I,U,O,E}
描述博弈的最少要素:参与人,战略,支付。
行动和信息是其积木
参与人、行动、结果统称为“博弈规则”
博弈分析的目的:是使用博弈规则预测均衡
博弈论的模型简介
博弈论模型可以用七个方面来描述
G={P,A,S,I,U,O,E}
博弈方
博弈的行动过程
策略
支付(效用、得益)
博弈的信息结构
博弈方的能力和理性
博弈的分类和理论结构
第二节 博弈论的结构与分类
博弈中的博弈方
博弈方(player/ players)
博弈中独立决策、独立承担博弈结果的个人或组织称为博弈方。
1.单人博弈
2.双人博弈
3.多人博弈
1.单人博弈
设有一商人要从A地运输一批货物,从A地到B地有水、陆两条路线,走陆路运输成本10 000元,而走水路运输成本只要7000元。但非常危险,出现坏天气的概率为,此时会损失10%的货物。货物总价值90 000元。
此人怎样决策?
人字并不一定是真正的自然人,而是指博弈方。
*
自然
商人
-7000
-10000
-10000
-16000
好天气
(75%) 坏天气
(25%)
水路
陆路
囚徒困境
嫌疑人A
嫌疑人B
-8,-8
-1,-1
-10,0
0,-10
2.双人博弈
坦白 不坦白
坦白
不坦白
情侣博弈
王菲
李亚鹏
2,1
1,2
-1,-1
0,0
足球 演唱会
足球
演唱会
情侣也要博弈,因为他们往往偏好不同。
*
选修课--另一版本
王菲
李亚鹏
4,3
3,4
1,1
2,2
博弈论 舞蹈
博弈论
舞蹈
石头·剪子·布
博弈方2
博弈方1
石头 剪子 布
石头 0,0 1,-1 -1,1
剪子 -1,1 0,0 1,-1
布 1,-1 -1,1 0,0
这游戏虽小,却包含了相生相克、以柔克刚等不少深刻的哲理,
在博弈中得到好的得益结果的机会同样都在于一是不能让对方猜到自己的策略选择,二是要努力猜到对方的策略选择。
这种博弈不可能有确定性的解。后面会介绍“混合策略”来解决。
*
双人博弈小结
注意二点:
1. 博弈方之间并非总是对抗的。
2. 个人理性决策常不能实现自己的
最大利益。
3、多人博弈
三个或三个以上的博弈方参加的博弈。
竞争者
破坏者
竞争者
破坏者即一个博弈方:其策略选择对自身没影响,确对其他博弈方有决定性影响。
*
北京申办2000年奥运会失利
第一轮 第二轮 第三轮 第四轮
北京 32 37 40 43
悉尼 28 30 37 45
曼彻斯特 11 11 11
柏林 9 10
伊斯坦布尔 8
第一,第二轮数据除中国外的可能不准
*
策略
有限博弈(finite games) :如果博弈中每个博弈方的策略是有限的,称为有限博弈。
2.无限博弈(infinite games) :如果博弈中至少有某些博弈方的策略是无限多个的,称为无限博弈。
(函数表示)
博弈的行动过程
1. 静态博弈(static games):所有博弈方同时选择策略的博弈。
2 . 动态博弈(dynamic games):各博弈方的选择和行动有先后次序,而且后选择的、后行动的博弈方,在自己选择行动方案之前,可以看到其他博弈方的选择和行动。也称为多阶段博弈(multistage games)
3. 重复博弈(repeated games):同一个博弈反复进行多构成的博弈。
博弈的支付
(效用,得益)
效用的计算方法:将每一个博弈方在同一策略结果中的得益相加,算出所有博弈方的得益总和。
Ua(1,2)= Ua1+Ua2
Ub(1,2)= Ub1+Ub2
1. 零和博弈: Ua(1,2)= Ub(1,2) =0
2 . 常和博弈: Ua(1,2)= Ub(1,2) = m
3. 变和博弈: Ua(1,2)〒 Ub(1,2)
两个人通过猜硬币的正反赌输赢,其中一人用手盖住一枚硬币,有另一方在是正面还是反面朝上。若猜对,则猜着赢1元,盖着输1元;若猜错,则猜着输1元,盖着赢1元。
假设赢着收益为1,输者收益为-1。
猜硬币游戏
猜硬币游戏
猜硬币方-2
U1z(z,z)=-1
U1z(z,f)=1 U1f(f,z)=1
U1f(f,f)=-1
U2z(z,z)=-1
U2z(f,z)=1 U2f(z,f)=1 U2f(f,f)=-1
Uz= U1z+ U2z=-1+1-1+1=0
Uf= U1f+ U2f=1-1+1-1=0
盖硬币方-1
正面z 反面f
正面z -1,1 1,-1
反面f 1,-1 -1,1
石头·剪子·布
博弈方2
博弈方1
石头 剪子 布
石头 0,0 1,-1 -1,1
剪子 -1,1 0,0 1,-1
布 1,-1 -1,1 0,0
这游戏虽小,却包含了相生相克、以柔克刚等不少深刻的哲理,
在博弈中得到好的得益结果的机会同样都在于一是不能让对方猜到自己的策略选择,二是要努力猜到对方的策略选择。
这种博弈不可能有确定性的解。后面会介绍“混合策略”来解决。
*
周末约会
王菲b
李亚鹏a
Uag(g,g)=2
Uag(g,d)=0 Uad(d,g)=-1
Uad(d,d)=1
Ubg(g,g)=1
Ubg(d,g)=-1 Ubd(g,d)=0 Ubd(d,d)=2
UU= Uag+ Ubg=2+0+1-1=2
Ud= Uad+ Ubd=-1+1+0+2=2
足球g 演唱会d
足球g 2,1 0,0
演唱会d -1,-1 1,2
Un= Uan+ Ubn=-1-10-10-1=-22
Uat(t,t)=-8
Uat(t,n)=0 Uan(n,t)=-10 Uan(n,n)=-1
Ubt(t,t)=-8
Ubt(n,t)=0 Ubn(t,n)=-10 Ubn(n,n)=-1
嫌疑人b
嫌疑人a
Ut= Uat+ Ubt=-8+0-8+0=-16
囚徒困境
坦白t 不坦白n
坦白t -8,-8 0,-10
不坦白n -10, 0 -1,-1
奖金分配
王菲b
李亚鹏a
5,5
5,5
3,7
7,3
Uag(g,g)=5
Uag(g,d)=7 Uad(d,g)=3
Uad(d,d)=5
Ubg(g,g)=5
Ubg(d,g)=7 Ubd(g,d)=3 Ubd(d,d)=5
Ug= Uag+ Ubg=5+7+5+7=24
Ud= Uad+ Ubd=3+5+3+5=16
绩效高g 绩效低d
绩效高g
绩效低d
Ud= Uad+ Ubd=30+80+30+80=220
Uag(g,g)=50
Uag(g,d)=10 Uad(d,g)=80
Uad(d,d)=30
Ubg(g,g)=50
Ubg(d,g)=10 Ubd(g,d)=80 Ubd(d,d)=30
联通b
移动a
Ug= Uag+ Ubg=50+10+50+10=120
寡头定价
高价g 低价d
高价g 50,50 10,80
低价d 80, 10 30,30
博弈的信息结构
1.关于得益的信息
完全信息和不完全信息
(1) 完全信息(complete information)是指在博弈过程中,每一位博弈方对其他博弈方的特征、策略空间及收益函数有准确的信息。
(2)不完全信息(incomplete information): 如果博弈方对其他博弈方的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有博弈方的特征、策略空间及收益函数都有准确的准确信息,在这种情况下进行的博弈就是不完全信息博弈。也成不对称信息或者信息不对称(asymmetric information)
知己知彼,百战不殆:当你与他人对抗、竞争,甚至是合作时,对自己和他方的处境、条件是否清楚是至关重要甚至生死攸关的。如果把上述对抗竞争或合作理解为博弃,那么就意味看关于博弈环境和博弈方情况的信息,是影响博弈方选择和博弈结果的重要因素。当然,我们不是说缺乏信息就不能决策,也不是说信息越多就有越大的利益,只是说信息方面的差异通常会造成决策行为的差异和博弈结果的不同。
一般的,我们将各博弈方都完全理解所有博弈方在各种情况下的得益称为“完全信息博弈”。
是否了解所有博弈方的得益情况显然是一个非常重要的差别,因为这会影响对其他博博弈方行为的判断,并最终影响各博弈方自己的决策和行为,影响博弈的最终结果。在这方面不同的博弈,即使其他方面都完全相同,结果也会有很大的差异,因此我们必须十分重视得益信息的差别。正是因为这个原因,博弈论将博弃分为完全信息博弈和不完全信息博弈两个大类分别进行研究。
*
2.关于博弈过程的信息
完美信息和不完美信息
完美信息(perfect information):对已经发生的的事情有清楚的了解,称具有完美信息。否则,称为不完美信息(imperfect information)
博弈方的理性与能力
完全理性与有限理性
个体理性与集体理性
A国
B国
战争与和平
战争 和平
战争
-50,-50 100, 0
和平 0, 100 50,50
博弈的类型[1]
根据参与者能否形成约束性的协议,以便集体行动
(1)合作博弈(cooperative game )——研究人们达成合作时如何分配合作得到的收益,即收益分配问题。
(2)非合作博弈( non-cooperative /uncooperative game )——研究人们在利益相互影响的局势中如何选决策使自己的收益最大,即策略选择问题。
博弈的分类 [2]
行动次序
信息 静态 动态
完全信息 完全信息静态博弈
纳什均衡(纳什,1950,1951)
完全信息动态博弈
子博弈精练纳什均衡(泽尔腾,1965)
不完全信息 不完全信息静态博弈
贝叶斯均衡(海萨尼,1967-1968) 不完全信息动态博弈
精炼贝叶斯均衡(泽尔腾等,1975)
囚徒困境
(prisoner's dilemma )
完全信息静态博弈
乙的对策
甲的对策 合作
(沉默) 背叛
(认罪)
合作
(沉默) (-1,-1) (-10,0)
背叛
(交代)
(0,-10) (-8,-8)
空城计
诸葛亮
司马懿
不完全信息静态博弈
进攻 后退
坚持 被擒,大胜
0,10 逃脱,无胜
5,0
逃跑 被擒,大胜
0,10 逃脱,无胜
5,0
诸葛亮(关羽)
曹操
不完全信息静态博弈
曹操败走华容道
走大路 走小路
守大路 被擒
10,0 逃脱
0,10
守小道 逃脱
0,10 被擒
10,0
相亲
王实甫
张生和崔莺莺 红娘
王实甫.西厢记
不完全信息静态博弈
英雄救美
完全信息动态博弈
破釜沉舟
《史记·项羽本纪》:“项羽已杀卿子冠军(楚军统帅宋义),威震楚国,名闻诸侯。乃遣当阳春、蒲将军将卒二万渡河(漳河),救钜鹿。战少利,陈馀复请兵。项羽乃悉引兵渡河,皆沉船,破釜甑,烧庐舍,持三日粮,以示士卒必死,无一还心。”
巨鹿之战:公元前209年,我国历史上爆发了陈胜吴广领导的农民起义。陈胜吴广牺牲后,刘邦和项羽率领的两支军队逐渐壮大起来。公元前207年,项羽的起义军与秦将章邯率领的秦军主力部队在巨鹿(今河北邢台市)展开大战;项羽不畏强敌,引兵渡漳水(由巨鹿东北流向东南的一条河)。渡河后,项羽命令全军:“皆沉船,破釜甑,烧庐舍,持三日粮,以示士卒必死,无一还心。”巨鹿一战,大破秦军,项兵威震诸侯。
完全信息动态博弈
中国四大美人之——昭君出塞
进宫还是不进宫?
出塞还是不出塞?
完全信息动态博弈
中国四大美人之——昭君出塞
完全信息动态博弈
《黔之驴》—黔驴技穷
黔无驴,有好事者船载以入,至则无可用,放之山下。虎见之,庞然大物也,也为神,蔽林间窥之。稍出近之,慭慭然,莫相知。
他日,驴一鸣,虎大骇,远遁;以为且噬已也,甚恐。然往来视之,觉无异能者;益习其声,又近出前后,终不敢搏。稍近,益狎,荡倚冲冒。
驴不胜怒,蹄之。
虎因喜,计之曰,“技止此耳!”因跳踉大 ,断其喉,尽其肉,乃去。
——柳宗元(唐)
不完全信息动态博弈
斗鸡博弈
斗鸡博弈(Chicken Game)其实是一种误译。Chicken在美国口语中是“懦夫”之意,Chicken Game本应译成懦夫博弈。不过这个错误并不算太严重,非要把chicken game叫作斗鸡博弈,也不是不可以。
试想有两人狭路相逢,每人有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这人就很丢面子;如果对方也退下来,双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败;如果两人都前进,那么则两败俱伤。因此,对每个人来说,最好的结果是,对方退下来,而自己不退。赢利矩阵(payoff matrix)如下:甲/乙 前进 后退
前进 (-2,-2) (1,-1)
后退 (-1,1) (-1,-1)
上表中的数字的意思是:两者如果均选择“前进”,结果是两败俱伤,两者均获得-2的支付;如果一方“前进”,另外一方“后退”,前进者获得1的支付,赢得了面子,而后退者获得-1的支付,输掉了面子,但没有两者均“前进”受到的损失大;两者均“后退”,两者均输掉了面子,获得-1的支付。当然表中的数字只是相对的值。
这个博弈有两个纯策略纳什均衡:一方前进,另一方后退;或一方后退,另一方前进。但关键是谁进谁退?当然,该博弈也存在一个混合策略均衡,即大家随机的选择前进或后退。不过相对而言,我们更关注于纯策略均衡。一博弈,如果有惟一的纳什均衡点,那么这个博弈是可预测的,即这个纳什均衡点就是事先知道的惟一的博弈结果。但是如果一博弈有多个纳什均衡,则要预测结果就必须附加另外的有关博弈的细节信息。比如,这里谁进谁退,可能就需要附加额外的细节信息才能做出判断。
斗鸡博弈
斗鸡博弈(Chicken Game)
试想有两人(鸡)狭路相逢,每人有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这人就很丢面子;如果对方也退下来,双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败;如果两人都前进,那么则两败俱伤。假设两败俱伤为-2,赢的一方为1,输的一方为-1。请用战略式和扩展式写出他们的表达方式。并说明纳什均衡点。
斗鸡博弈
Chicken A
Chicken B
完全信息动态博弈
进 退
进 -2, -2 1, -1
退 -1, 1 -1, -1
博弈的分类和均衡
行动次序
信息 静态 动态
完全信息 完全信息静态博弈
纳什均衡
(纳什,1950,1951)
囚徒困境,周末约会 完全信息动态博弈
子博弈精练纳什均衡(泽尔腾,1965)
田忌赛马,破釜沉舟,昭君出塞
不完全信息 不完全信息静态博弈
贝叶斯均衡
(海萨尼,1967-1968)
招标(暗标),空城计相亲,曹操华容道被捉
不完全信息动态博弈
精炼贝叶斯均衡
(泽尔腾等,1975)
黔驴技穷,拍卖,
龟兔赛跑
战略式表达
扩展式表达
第三节 博弈的表达方式
战略式表达
战略式表达(strategic representation),又称标准式表达(normal from representation)。更适合静态博弈。用支付矩阵表示。
三个要素:
1.博弈的参与人集合
2.每个参与人的战略空间
3.每个参与人的支付函数(由战略组合决定)
囚徒困境
嫌疑人A
嫌疑人B
-8,-8
-1,-1
-10,0
0,-10
坦白 不坦白
坦白
不坦白
案例:智猪博弈
(pigs’ game)
猪圈中有一头大猪和一头小猪,在猪圈的一端设有一个按钮,每按一下,位于猪圈另一端的食槽中就会有10单位的猪食进槽,但每按一下按钮会耗去相当于2单位猪食的成本。如果大猪先到食槽,则大猪吃到9单位食物,小猪仅能吃到1单位食物;如果两猪同时到食槽,则大猪吃7单位,小猪吃3单位食物;如果小猪先到,大猪吃6单位而小猪吃4单位食物。请用战略式和扩展式写出他们的表达方式。并说明纳什均衡点
智猪博弈
局中人:大猪,小猪
策 略:大猪:按,等待
小猪:按,等待
支付矩阵:
智猪博弈
小猪
大猪
5,1
0,0
9,-1
4,4
完全信息静态博弈
按 等待
按
等待
案例:田忌赛马
田忌
齐威王
上中下 上下中 中上下 中下上 下上中 下中上
上中下 3,-3 1,-1 1,-1 1,-1 - 1,1 1,-1
上下中 1,-1 3,-3 1,-1 1,-1 1,-1 - 1,1
中上下 1,-1 - 1,1 3,-3 1,-1 1,-1 1,-1
中下上 - 1,1 1,-1 1,-1 3,-3 1,-1 1,-1
下上中 1,-1 1,-1 1,-1 - 1,1 3,-3 1,-1
下上中 1,-1 1,-1 - 1,1 1,-1 1,-1 3,-3
扩展式表达
扩展式表达(extensive form representation )。更适合动态博弈。用博弈树来表示
六个要素:
1.博弈的参与人集合
2. 参与人的行动顺序
3. 参与人的战略行动空间
4. 参与人的信息集
5.参与人的支付函数
6.外生事件(即自然选择)的概率分布)
博弈树的基本建筑材料[1]
1.结(nodes):
2.枝(branches):
3.信息集(information sets)
博弈树的基本建筑材料[1]
1.结(nodes):
初始结(begining nodes )
决策结(decision nodes )
终点结(terminal nodes )
博弈从空心圆开始,空心圆表示开始决策,A选择后,博弈进入标有B的实心圆。
初始结用
其他决策结用
博弈树的基本建筑材料[2]
2.枝(branches):是从一个决策结到它的直接后续结的连线,某一个枝代表参与人的一个行动选择。
博弈树的基本建筑材料[2]
3.信息集(information sets):某个参与人都知道些什么。信息集是用来标注某个人知道些什么信息的,不同的标注表示这个人知道不同的信息。
博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集,该子集包括所有满足下列条件的决策结。
(1)每一个决策结都是同一个参与人的决策结
(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结
扩展式表达
坦白
坦白
不坦白
(-8,-8)
(0,-10)
不坦白
坦白
囚徒困境
不坦白
(-10,0)
(-1,-1)
A
B
B
案例
案例一:姑娘(girl)爱上小伙子,父亲(father)不同意。威胁说,如果分手,我们还是好父女,两人和好;如果嫁给小伙子,那就一刀两断。
局中人:姑娘(girl) ,父亲(father)
策 略:
girl:分手,不分手
father :和好,不和好
支付矩阵:
扩展式表达
girl
不分手
和好
不和好
father
(2,1)
(1,0)
father
分手
和好
父女威胁
不和好
(1,1)
(0,0)
girl
father
和好 不和好
分手 1, 1 0,0
不分手 2, 1 1, 0
有两家房地产公司,决定是否开发房地产。
需求大,开发者利润8千万,不开发者利润0。
需求大,两者都开发利润各为4千万。
需求小,开发者利润1千万,不开发者利润0。
需求小,两者都开发利润各为-3千万
两者都不开发利润各为0。
博弈树:房地产开发博弈I
博弈树:房地产开发博弈I
博弈树:不允许的情形
博弈树的基本建筑材料[2]
3.信息集(information sets):某个参与人都知道些什么。信息集是用来标注某个人知道些什么信息的,不同的标注表示这个人知道不同的信息。
博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集,该子集包括所有满足下列条件的决策结。
(1)每一个决策结都是同一个参与人的决策结
(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结
博弈树:房地产开发博弈I
另一种描述:房地产开发博弈I
信息集:房地产博弈II
信息集:房地产博弈III
第二种描述:房地产开发博弈III
第三种描述:房地产博弈IV
囚徒困境Ⅰ
A
坦白 抵赖 坦白 抵赖
B B
坦白 抵赖
(-8,-8) (0,-10) (-10,0) (-1,-1)
B
坦白 抵赖
坦白 抵赖 坦白 抵赖
(-8,-8) (0,-10) (-10,0) (-1,-1)
A A
囚徒困境Ⅱ
A
坦白 抵赖 坦白 抵赖
B B
坦白 抵赖
(-8,-8) (0,-10) (-10,0) (-1,-1)
B
坦白 抵赖
坦白 抵赖 坦白 抵赖
(-8,-8) (0,-10) (-10,0) (-1,-1)
A A
静态博弈
动态博弈
第四节 如何寻找博弈的均衡点
纳什均衡
☆纳什均衡的定义
对于一个给定的策略组合,如果各博弈方都没有单独改变策略组合的意愿,则称该策略组合为纳什均衡.
☆纳什均衡的一致预测性质
各博弈方都能预测到,并且能预测到其他博弈方能预测到,能预测到其他博弈方也能预测到自己能预测到.
完全信息静态博弈纳什均衡
各博弈方同时决策,且所有博弈方对博弈中的各种情况下的得益都完全了解的博弈问题。
1.基本分析思路和方法
2.纳什均衡
3.无限策略博弈分析
1.基本分析思路和方法
1 优势策略均衡
2 箭头法
3 画线法
4 严格劣势反复消去法
1 优势策略均衡
不管其他博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于其他策略,就称此策略为“优势”
一策略组合中的策略都是博弈方的优势策略,则称该策略为“优势策略均衡”
如“囚徒困境”
2 箭头法
思路是:判断各博弈方能否通过单独改变自己的策略而改善自己的得益,如能,则引一箭头。对可能的策略组合都考察过后,根据箭头反映的情况来判断博弈的结果。
犯人A
犯人B
小猪
大猪
坦白 不坦白
坦白 -10,-10 0,-25
不坦白 -25,0 -1,-1
按 等待
按 5,1 4,4
等待 9,-1 0,0
王菲
李亚鹏
某策略组合只有指向的箭头,没有指离的箭头,则为稳定性的策略组合
足球 演唱会
足球 2,1 0,0
演唱会 -1,-1 1,2
猜硬币方
盖硬币方
正面 方面
正面 -1,1 1,-1
反面 1,-1 -1,1
没有一种策略组合是双方都愿意接受的。
*
博弈方2
博弈方1
左 中 右
上 1,0 1,3 0,1
下 0,4 0,2 2,0
3 画线法
由于决策的原则是使自己的得益尽可能的大。同时由于一方的得益取决于其他方的策略。
因此,一博弈方首先做的就是根据其他博弈方的每种策略找出自己的最佳应对策略。
画线法就是在上述最佳应对策略下画线。
柴可夫斯基
乐队指挥
小猪
大猪
坦白 不坦白
坦白 -10,-10 0,-25
不坦白 -25,0 -1,-1
按 等待
按 5,1 4,4
等待 9,-1 0,0
王菲
李亚鹏
某策略组合中所有的得益都有下划线则为稳定性的策略组合
足球 演唱会
足球 2,1 0,0
演唱会 -1,-1 1,2
但此时无法确定到底选哪个。此时博弈有稳定性的解,但确没有确定性的解。
*
博弈方2
博弈方1
左 中 右
上 1,0 1,3 0,1
下 0,4 0,2 2,0
猜硬币方
盖硬币方
正面 方面
正面 -1,1 1,-1
反面 1,-1 -1,1
4 严格劣势反复消去法
选择法 排除法
不管其他博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终不高于其他策略,就称此策略为“劣势”
不断的消去劣势策略,缩小策略选择范围,就称劣势策略反复消去法。
前面两种方法都是选择法,也就是在被选的项目中找出好的策略。
同时,在我们进行思考时,也经常用排除的方法。
*
犯人A
犯人B
小猪
大猪
坦白 不坦白
坦白 -10,-10 0,-25
不坦白 -25,0 -1,-1
按 等待
按 5,1 4,4
等待 9,-1 0,0
博弈方2
博弈方1
左 中 右
上 1,0 1,3 0,1
下 0,4 0,2 2,0
动态博弈纳什均衡
子博弈
逆推归纳法
乙在开采一个价值4万元的金矿时,缺1万元钱,向甲方借1万元钱。并许诺开矿成功后,所得4万元两人平分(也可以理解为许诺借一万元,到期后还2万元),并且可以订立合同。如果违约可以上告到法院,问甲是否应该借钱给乙?假设打官司需要付出的时间、精力、打点人际关系和请律师的总费用需要1万元。
开金矿
甲
乙
分
不分
借
不借
(1,0)
(2,2)
(0,4)
甲
乙
分
不分
借
不借
(1,0)
(2,2)
甲
打
不打
(2,1)
(0,4)
上例中乙有一个不可信的肯定不会信守的承诺。
下例表明在一个个体都有私心,都只注重自身利益的社会中,完善公正的法律制度不但能保障社会的公正,而且还能提高社会经济活动的效率,是实现最有效率的社会分工合作的重要保障。
*
子博弈和逆推归纳法
子博弈
甲
乙
分
不分
借
不借
(1,0)
(2,2)
甲
打
不打
(2,1)
(0,4)
逆推归纳法
甲
乙
分
不分
借
不借
(1,0)
(2,2)
甲
打
不打
(2,1)
(0,4)
逆推归纳法
甲
乙
分
不分
借
不借
(1,0)
(2,2)
(2,0)
逆推归纳法
甲
借
不借
(1,0)
(2,2)
开金矿法律完善与不完善
甲
乙
分
不分
借
不借
(1,0)
(2,2)
甲
打
不打
(-1,1)
(0,4)
·
(2,1)
作业
1.什么是博弈论
2.博弈的模型可以用哪七个方面来描述?分别做简要的解释。
3. 根据信息和行动次序,博弈可以分为哪几类,每一种分别举2个例子进行说明。
(1)如果博弈各方对各种局势下所有局中人的得益状况完全清楚,称之为完全信息博弈。反之为不完全信息博弈。
*
情侣也要博弈,因为他们往往偏好不同。
*
人字并不一定是真正的自然人,而是指博弈方。
*
情侣也要博弈,因为他们往往偏好不同。
*
这游戏虽小,却包含了相生相克、以柔克刚等不少深刻的哲理,
在博弈中得到好的得益结果的机会同样都在于一是不能让对方猜到自己的策略选择,二是要努力猜到对方的策略选择。
这种博弈不可能有确定性的解。后面会介绍“混合策略”来解决。
*
破坏者即一个博弈方:其策略选择对自身没影响,确对其他博弈方有决定性影响。
*
第一,第二轮数据除中国外的可能不准
*
这游戏虽小,却包含了相生相克、以柔克刚等不少深刻的哲理,
在博弈中得到好的得益结果的机会同样都在于一是不能让对方猜到自己的策略选择,二是要努力猜到对方的策略选择。
这种博弈不可能有确定性的解。后面会介绍“混合策略”来解决。
*
知己知彼,百战不殆:当你与他人对抗、竞争,甚至是合作时,对自己和他方的处境、条件是否清楚是至关重要甚至生死攸关的。如果把上述对抗竞争或合作理解为博弃,那么就意味看关于博弈环境和博弈方情况的信息,是影响博弈方选择和博弈结果的重要因素。当然,我们不是说缺乏信息就不能决策,也不是说信息越多就有越大的利益,只是说信息方面的差异通常会造成决策行为的差异和博弈结果的不同。
一般的,我们将各博弈方都完全理解所有博弈方在各种情况下的得益称为“完全信息博弈”。
是否了解所有博弈方的得益情况显然是一个非常重要的差别,因为这会影响对其他博博弈方行为的判断,并最终影响各博弈方自己的决策和行为,影响博弈的最终结果。在这方面不同的博弈,即使其他方面都完全相同,结果也会有很大的差异,因此我们必须十分重视得益信息的差别。正是因为这个原因,博弈论将博弃分为完全信息博弈和不完全信息博弈两个大类分别进行研究。
*
没有一种策略组合是双方都愿意接受的。
*
但此时无法确定到底选哪个。此时博弈有稳定性的解,但确没有确定性的解。
*
前面两种方法都是选择法,也就是在被选的项目中找出好的策略。
同时,在我们进行思考时,也经常用排除的方法。
*
上例中乙有一个不可信的肯定不会信守的承诺。
下例表明在一个个体都有私心,都只注重自身利益的社会中,完善公正的法律制度不但能保障社会的公正,而且还能提高社会经济活动的效率,是实现最有效率的社会分工合作的重要保障。
*