博弈论完整版
什么是博弈论?
在人世间,人与人之间的对抗和较量是一个
不容回避的话题,只有直面这个话题,个
人才更有可能获得成功的机会;
人们试图获得成功,就有必要研究对抗局势
中如何策略性地选择自己的行动;
专门研究互动局势下人们的策略行为的学问
叫“博弈论(game theory)”
理性人在最大化自己的偏好时,需要
相互合作,而合作中又有冲突
——人类为达到合作和解决冲突所发明的重要制度之一
价格制度
市场参与者的数量足够多,从而市场是竞争性的
参与者之间不存在信息不对称问题
传统的新古典经济学就是以价格为研究对象的,故
又称为价格理论。其基本假设:
- 传统经济学的假设及其局限性
一般均衡理论是整个经济学的理论基石
和道义基础,市场机制是完美的,帕累托
最优成立,平等与效率可以兼顾。
个人决策是在给定一个价格参数和收入的条
件下最大化自己的效用,个人的效用与其他人
无涉,所有其他人的行为都被总结在“价格”
参数之中
基本假设:完全竞争,完美信息
然而在以下情况,上述结论不成立:
非完全竞争:垄断越来越普遍
外部性:市场不可能把所有的成本收益都计算在内
公共产品:市场无法解决“搭便车”问题
逆向选择问题:柠檬市场,二手车市场
道德风险问题:为什么市场的交易费用比较高?
传统经济学假设的局限性:
交易主体的数量其实很有限;
信息是不对称的;
百年来,经济学的主要发展围绕以上五方面展开
研究,建立起
垄断竞争理论
产业组织理论
企业理论
信息经济学
新制度经济学
不确定下的决策(投资理论)
博弈论逐渐成为经济学的基石
- 博弈论对经济学的影响
博弈论改写经济学,从放宽新古典的完全竞争和完全信息两个条
件展开
国外经济学教科书改写,加入大量博弈论内容
博弈论进入主流经济学,反映了:
经济学的研究对象越来越转向个体放弃了有些没有微观基础的假设
经济学的研究对象越来越转向人与人之间行为的相互影响和作用
经济学越来越重视对信息的研究
传统微观经济学的工具是数学(微积分、线性代数、统计学),而
博弈论是一种新的数学。以前只有陆军,现在有了空军,其差异
不可以公里计。
二、博弈论的发展概述
博弈是决策主体在互相对抗中,对抗
双方(或多方)互相依存的一系列策略
和行动的过程集合。
博弈论:专门研究博弈如何出现均衡
的规律的学问。
- 博弈论的基本内容
非合作博弈合作博弈
- 博弈论的分类及相应的均衡
博弈三要素:
参与人(player)
行动(action)或
策略(strategy)
支付(payoff)
- 其的起点是参与人
的战略集合和对有关
结局的偏好
- 其起点是一组潜在
的约束性协议和参与
人对它们的偏好
信息、战略、结果
博弈
行动顺
序
信息
静 态 动 态
完全信息
纳什均衡
(纳什纳什)
子博弈精练纳什均衡
(泽尔腾泽尔腾)
不完全信息
贝叶斯纳什均衡
(海萨尼海萨尼)
精练叶贝斯纳什均衡
(泽尔腾等泽尔腾等)
动态博弈静态博弈
参与人的
行动顺序
参与人对其他
参与人的了解
不完全信
息博弈
完全信息
博弈
博弈的分类
合作博弈
非合作博弈
根据参与人是否合作
零和博弈
常和博弈
变和博弈
根据博弈结果
根据行动的先后次序
静态博弈
动态博弈
完全信息博弈根据参与人对其他参与人的
各种特征信息的获得差异 不完全信息博弈
两人博弈
多人博弈
根据参与人的多少
- 博弈论的产生与发展
1838年,奥古斯特.古诺提出古诺模型;
在20世纪初,泽美劳(Zermelo)、鲍莱尔
(Borel)和约翰.冯.诺伊曼等数学家就已经开
始研究博弈的数理基础。
约翰.冯.诺伊曼和奥斯卡.摩根斯坦的题为
《博弈论与经济行为》(1944年)的经典巨著
奠定了在经济学中应用博弈论的基础。
一、 完全信息静态博弈
定义:博弈各方同时决策且彼此对各种策
略组合情况下所有参与人相应的得益都完全了
解。
表达:在博弈论中,一个博弈可以用两种
不同的方式来表达:
- 策略式表述:适合于静态博弈(矩阵式)
- 扩展式表述:适合于讨论动态博弈(树状结构)
博弈论模型
一个博弈需要有五方面内容组成:
参与人
策略
支付
信息
均衡
博弈要素 均衡
博弈的参与人集合:i∈Γ,Γ=(1,2,…, n);
每个参与人的战略空间:Si (i=1,2,3,…,n);
每个参与人的得益函数:ui(s1,…,sn),(i=1,2,3, …,n)
用G={S1,…,Sn;u1, …,un}代表博弈的战略式表述.
博弈的策略式表述
囚徒困境
囚徒B
囚徒A
坦白 抵赖
坦白
抵赖
-8,-8 0,-10
-10,0 -1,-1
每个参与人的得益函数: 博弈的参与人集合:
Γ=(A,B);
每个参与人的战略空间:
SA=(坦白,抵赖)
SB=(坦白,抵赖)
uA(坦白,坦白)=uB(坦白,坦白)=-8
uA(抵赖,抵赖)=uB(抵赖,抵赖)=-1
uA(坦白,抵赖)=uB(坦白,抵赖)=0
uA(抵赖,坦白)=uB(抵赖,坦白)=-10
占优策略:一些特殊的博弈中,一个参与人的最优策略可
以不依赖于其他参与人的策略选择,就是说,不论其他参与
人选择什么策略,他的最优策略是唯一的,这样的最优策略
被称为“占优策略”。
劣策略:如果一个博弈中,某个参与人有占优策略,那么
该参与人的其他可选择策略就被称为“劣策略”。
二、占优策略均衡
在这个例子里,无论对方如何选择,每个人的最优选择:
坦白;
可以预测,结果将是(坦白,坦白)
占优均衡:由所有参与人的占优策略构成的战略
组合。
占优战略均衡的出现只要求由所有参与人都是理
性的,但不要求每个参与人知道其他参与人是否理
性。
““囚囚徒徒困困境境””博博弈弈有有占占优优均均衡衡,,所所以以其其结结果果很很容容
易预测。易预测。
占优策略均衡
“囚徒困境”的一般表示
参与人B
参与人A
合作 不合作
合作
不合作
T,T S,R
R,S P,P
满足:满足:
RR>>TT>>PP>>SS;;
SS++RR<<TT++TT
三、用法律解决“囚徒困境
”
满足: X>R-T
参与人B
参与人A
合作 不合作
合作
不合作
T,T S,R-X
R-X,S P,P
四、重复剔除的占优均衡
找出某个参与人的严格劣策略(假定其存在),把这个劣策
略剔除掉;
重新构造一个不包含已剔除策略的新的博弈;
重复这个过程,一直到只剩下一个唯一的策略组合为止。
这个唯一剩下的策略组合就是这个博弈的均衡解,称为“
重复剔除的占优均衡”。
注意,上述表述中强调了“唯一”这个词。也就
是说,如果重复剔除后剩下的策略组合不唯一,那么
该博弈就不是可通过重复剔除劣策略求解的。
思路:
理性共识
0-阶理性共识:每个人都是理性的,但不知道其
他人是否是理性的;
1-阶理性共识:每个人都是理性的,并且知道其
他人也是理性的,但不知道其他人是否知道自己
是理性的;
2-阶理性共识:每个人都是理性的,并且知道其
他人也是理性的,同时知道其他人也知道自己是
理性的;但不知道其他人是否知道自己知道他们
是理性的……
重复剔除与理性共识
重复剔除不仅要求每个人是理性的,而且要求每个人知道
其他人是理性的;
每个人知道每个人知道每个人是理性的,如此等等……
理性是“共同知识”(共识)。
C1 C2 C3
R1 10, 4 1, 5 98, 4
R2 9, 9 0, 3 99, 8
R3 1, 98 0, 100 100, 98
最优选择
C1 C2 C3
R1 10, 4 1, 5 98, 4
R2 9, 9 0, 3 99, 8
R3 1, 98 0, 100 100, 98
这个博弈只要求1-阶理性共识就可以预测到均衡结果
如果R相信C是理性
的,R就知道C不会选
择C3,所以R的最优
选择是R1;
如果C相信R是理性
的,C就知道R不会选
择R2和R3;
此时,C1又成为C的严格
劣战略;
重复剔除的占优均衡:
(R1,C2)
选择越多,对理性共识的要求越高
0-阶理性:C是理性的,C不会
选择C4;
1-阶理性:R相信C是理性的,R
会将C4从C的战略空间中剔除, 所以
R不会选择R4;
2-阶理性: C相信R相信C是理性的,C会将R4从R的战略空间中剔除, 所以
C不会选择C1;
3-阶理性: R相信C相信R相信C是理性的, R会将C1从C的战略空间中剔
除, R不会选择R1;
4-阶理性:C相信R相信C相信R相信C是理性的,C会将R1从R的战略空间
中剔除, C不会选择C3;
5-阶理性:R相信C相信R相信C相信R相信C是理性的,R会将C3从C的战
略空间中剔除, R不会选择R3;
C1 C2 C3 C4
R1 5, 10 0, 11 1, 20 10, 10
R2 4, 0 1, 1 2, 0 20, 0
R3 3, 2 0, 4 4, 3 50, 1
R4 2, 93 0, 92 0, 91 100, 90
不能用重复剔除求解的博弈
许多博弈没有占优均衡,也没有重复剔除的占优
均衡。
左 中 右
上 1, 0 1, 3 0, 1
下 0, 4 0, 2 2, 3
实用性较强的博弈分析方法,必然是以策略之间的
相对优劣关系,而不是绝对优劣关系为基础的,根据
这样的思路,很容易导出博弈分析的“划线法”。
划线法
因此,以上五个
策略都不可能被
双方接受!
左 中 右
上 1, 0 1, 3 0, 1
下 0, 4 0, 2 2, 3
策略组合(下,中)
和(上,右)都不是
两博弈方针对另一方
策略的最佳对策;
策略组合(上,左)(下,左)
和(下,右)仅有一方的策略是针
对另一方策略的最佳对策;
该策略组合的双方策略都是对对方策略的最佳策略,
表明给定一方采用该策略组合中的策略,则另一方也
愿意采用该策略组合中的策略,该策略具有稳定性。
五、纳什均衡与一致性预期
纳什均衡:所有参与人的最优战略的组合,
即给定战略中别人的选择,没有人有积极性
改变自己的选择。
构成纳什均衡的策略一定是重复剔除严格劣
策略过程中不能被剔除的策略,当然,逆定
理是不存在的。
许多不存在占优策略均衡或重复剔除的占优
策略均衡的博弈,也存在纳什均衡。
纳什均衡的正式定义
有n个参与人的战略式表述博弈
G={S1,…,Sn;u1, …,un}
战略组合 s*=(s1
*,…,sn
*)是G的一个纳什均衡,如果对
于每一个i,si
*是在给定其他参与人选择
s-i
*=(s1
*,…,si-1
*,si+1
*…,sn
*)
的情况下第i个参与人的最优战略,即:
ui(si
*,s-i
*)≥ui(si
α,s-i
*)
对任意si
α∈Si,和任意的Γ都成立。
一致性预期
一致性预期:基于预期的选择是合理的,支持选
择的预期是正确的。
预期的自我实现:如果所有人都认为这个结果会
出现,这个结果就会出现,预期是自我实现的,预
期不会错。
如果你预期我会选择X,我就真的会选择X。
如果参与人事前达成一个协议,在不存在外部强
制的情况下,每个人都有积极性遵守这个协议,这
个协议就是纳什均衡。
应用1——古诺的双寡头垄断模型(1938)
假定:
- 只有两个厂商
- 面对相同的线形需求曲线,P(Q)=a-Q, Q=q1+q2
- 两厂商同时做决策;
- 假定成本函数为C(qi)=ciqi
问题:两个厂商的均衡产量和均衡价格如何确定。
该博弈问题的标准式:
- 参与人——厂商1和厂商2
- 战略空间——每个企业可以选择的产品产量:
Si=[0,∞),i=1, 2 ,qi≥0
- 收益——用利润额代表企业的收益
Π1 (q1,q2)=q1P (q1+q2)-c1q1=q1( a-q1-q2-c)
Π2 (q1,q2)=q2P (q1+q2)-c2q2=q2( a-q1-q2-c)
- 均衡——
Max Πi (qi,qj*) = Max qi( a-qi-qj*-c)
0≤qi≤∞ 0≤qi≤∞
企业利润最大化的条件为:
纳什均衡产量为:
纳什均衡利润为:
反应函数
q1
q2
a-c
(a-c)/2 a-c
(a-c)/2
(q1*, q2*)(a-c)/3
(a-c)/3
垄断产量和垄断利润
- 垄断企业的目标函数:
- 垄断利润为:
- 垄断产量:
在古诺均衡解中,这种情况就不会发生,两个企
业的总产量要更高一些,相应地使价格有所降低。
卡特尔与囚犯困境
卡特尔是一种垄断组织,各个厂商互相通过某种协定达成
某种默契以求获得共同的最大收益。
- 价格卡特尔:制定一个共同的价格,销售同样的产品。
- 产量卡特尔:统一控制产量,减少产量,抬高价格,使组
织的共同收益最大,比如欧佩克就是典型的产量卡特尔。
- 卡特尔组织的各成员可能也会作出类似的个体最优的决策,
最终损害卡特尔组织的集体利益,这样就需要强加一些惩罚
性的制度安排,改变支付矩阵,迫使均衡在集体最优的地方
达到。
CH4 混合战略纳什均衡
混合战略及其均衡
策略混合的好处
混合策略的麻烦
纳什均衡的存在性问题
监督博弈
偷懒 不偷懒
监督 1, -1 -1, 2
不监督 -2, 3 2, 2
有些博弈没有“纯”战略纳什均衡,如
给定工人偷懒,老板的
最优选择是监督;
给定工人不偷懒,老板
的最优选择是不监督;
给定老板不监督,工人
的最优选择是偷懒;
如此循环
上述两个博弈的显著特征是
每个参与者都想猜透对方的战略选择,而每个参与者又
都不能让对方猜透自己的战略。
这样的问题在诸如扑克牌比赛、橄榄球赛、战争等情况
中都会出现。
在所有这类博弈中,都不存在纳什均衡。
尽管这两个博弈不存在纯战略意义上的纳什均衡,却存
在混合战略纳什均衡。
混合战略指的是参与人以一定的概率选择某种战略。
混合战略及其均衡
偷懒 努力
监督 1, -1 -1, 2
不监督 -2, 3 2, 2
设想工人推断老板以q
的概率监督,以1-q的概
率选择不监督;
对工人来说
- 当q>1/4时,3-4q<2,所以
工人的最优纯战略是“努力”
;
- 当q<1/4时,3-4q>2,所以
工人的最优纯战略是“偷懒”
;
- 当q=1/4时,工人选择什么无
差异。
- 选择偷懒带来的效用为:
q×(q×(--1)1)++(1(1--q)×3q)×3
==33--4q4q
- 选择努力带来的效用为:
q×2q×2++(1(1--q)×2q)×2==22
混合战略
定义:对标准式博弈G={S1,…,Sn; u1,…,un}
,假设Si={si1,…,siK}。那么,参与者i以概率分布
pi=(pi1,…,piK)随机在其K个策略中选取的“策
略”,称为一个“混合策略”, 其中0≤pik≤1对k=1,
…,K,都成立,且pi1+…+piK=1。
纯战略:参与人在每一个给定信息的情况下只选择
一个特定的行动;相反,如果一个战略规定参与人
在给定信息情况下,以某种概率分布随机地选择不
同的行动,则称该战略为混合战略;纯战略可视为
混合战略的特例。
关于混合战略的支付函数
在纯战略情况下,参与者i的支付ui是纯战略组合s={s1,… si
,… ,sn} 的一个函数,即ui= ui{s1,… si,… ,sn};
对于任何给定的战略组合s={s1,… si,… ,sn}, ui取一个确
定的值;
与混合战略相伴随的是支付的不确定性,此时,参与人关心
的是期望效用。
用πi(pi,p-i)表示参与人i的期望效用函数(其中p-i=(p1,
…,pi-1,pi+1 … , pn)是除i之外所有其他参与人的混合战
略组合);
i的期望支付可以具体定义为:
混合战略纳什均衡
定义:对标准式博弈G={S1,…,Sn;
u1,…,un},混合战略组合p* =(p1*
,…,pn*)是一个纳什均衡,如果对
所有的i= 1,…,n,及参与人i的任意
一个混合战略pi而言,下式成立:
πi(pi*,p-i*)≥ πi(pi,p-i*)
总结
上述的r*(q)称为工人对老板的反应对应函数; q*(r)则称为
老板对工人的反应对应函数;
一个参与人选择不同纯战略的概率分布不是由他自己的支付
决定的,而是由他的对手的支付决定的;
许多人认为混合战略纳什均衡是一个难以另人满意的概念;
一个参与人使用混合战略的目的是给对方造成不确定性,浑
水摸鱼;
尽管混合战略不像纯战略那样直观,但它确实是一些博弈中
参与人合理的行为方式。
求混合战略均衡要先剔除劣战略
设想C以p的概率选择C1,以q的概率选择C2,以1-p-q的
概率选择C3;则对于R而言
C1 C2 C3
R1 2, 0 2, 1 4, 2
R2 3, 4 1, 2 2, 3
R3 1, 3 0, 2 3, 0
- 选择R1的预期效用为:2p2p++2q2q++4(14(1--pp--q)q)==44--2p2p--2q2q
- 选择R2的预期效用为:3p3p++q q ++2(12(1--pp--q)q)==22++pp--qq
- 选择R3的预期效用为:pp++ 3(13(1--pp--q)q)==33--2p2p--3q3q
pp==11
qq=-=-11
问题出在哪里?
纳什均衡的存在性问题
每一个有限博弈至少存在一个纳什均衡(纯
战略或混合战略);
如果一个博弈存在两个纯战略纳什均衡,
那么,一定存在第三个混合战略纳什均衡。
几乎所有有限同时博弈的纳什均衡的数目
都有限,并且这个有限数目是一个奇数。
总结
混合战略纳什均衡
纯战略纳什均衡
重复剔除占优均衡
占优均衡
如何协调
仅仅“理性”是不够的:
FOCAL POINT (Schelling(1960) ):
— 文化与制度
— 行业组织
— Cheap talking
帕累托最优均衡:可以通过协商选择一个
纳什均衡:
聚点均衡 (Schelling(1960) )
谢林指出:
在现实生活中,参与人可能使用某些被博弈模
型抽象掉的信息来达到一个“聚点”均衡。这些
信息可能与社会文化习惯、参与人过去博弈的历
史有关。比如
在“约会博弈”中,如果今天是男友的生日,(足球,
足球)可能是一个聚点均衡;
在“分蛋糕博弈”中,(1/2,1/2)可能是一个聚点
均衡,如果每个参与人都有某种公平意识的话;
在“麦琪的礼物”中,如果事前先告诉对方自己
的想法,非纳什均衡的结果就不会出现;
Cheap talking
在下面的博弈中,如果两个参与人在博弈前相遇,
乙告诉甲“我将选择左”,(上,左)极有可能
会出现。
乙
甲
左 右
上
下
9,9 0,3
3,0 7,7
为什么要相信?
无论乙选择什么,他都有积极性告诉甲
他将选择左:
所以没有理由认为甲应该相信乙的话。
乙
甲
左 右
上
下
9,9 0,8
8,0 7,7
风险优势标准
由于纳什均衡要求理性共识和一致预期,当人们
有可能犯小小的错误时,纳什均衡不一定被选择。
只要B有1‰的概率错误地选择右,A将选择下;
如果B怀疑A怀疑自己可能犯错误,B将选择右;
所以出现的不是帕累托最优的纳什均衡
B
A
左 右
上
下
8,10 -1000,9
7,4 6,5
偏离损失比较法
甲偏离A损失1,偏离B损失7
乙偏离A损失1,偏离B损失7
甲偏离甲偏离AA的损失的损失××乙偏离乙偏离AA的损失<甲偏离的损失<甲偏离BB损失损失××乙偏离乙偏离BB损失损失
均衡B比均衡A具有风险优势
但均衡B却不是一个帕累托均衡!
乙
甲
左 右
上
下
A 9,9 0,8
8,0 B 7,7
可以考虑不同纳
什均衡之间的风险状
况,风险小的优先。
帕累托均衡与风险优势的关系
人是会犯错误的
绝大多数人都是风险规避者
在帕累托标准和风险标准之间,理论给帕累托优势
以优先权,而风险标准只有在局中人不知道选哪个均
衡好的不确定的时候,才变得重要。当一个均衡具有
帕累托优势的时候,居中人一定选择这个均衡,不确
定性就不存在了。
经济学家的结论
哪个纳什均衡具有风险优势?
在位者
进入者
默许 斗争
进入
不进入
A 40,50 -10,0
0,300 B 0,300
没有帕累托最优均衡
偏离损失比较法
无帕累托最优均衡
进入者偏离A损失40,偏离B损失10
在位者偏离A损失50,偏离B损失0
进入者偏离偏离AA的损失的损失××在位者偏离偏离AA的损失的损失
>>进入者偏离偏离BB损失损失××在位者偏离偏离BB损失损失
均衡A比均衡B具有风险优势
在位者
进入者
默许 斗争
进入
不进入
A 40,50 -10,0
0,300 B 0,300
相关均衡
奥蒙证明(1974):如果博弈参与
人可以根据某个共同观测到的信号选
择行动,就可能出现“相关均衡”;
相关均衡可能是参与人事前磋商的结
果,从而使所有的参与人受益。
例子
选择混合战略,各自获得的收益为
假设甲、乙在博弈前一天商量,双方同意根据明天天气
的情况选择行动,比如说
— 明天是晴天就一同郊游;
— 是阴天就一同去购物;
— 假设明天晴与阴的概率各为1/2
每个人的期望收益各为4(1/2×5+1/2×3),大于。
妻子
丈夫
郊游 购物
郊游
购物
5,3 2,2
0,0 3,5
三个Nash均衡解:
{(1,0)(1,0)}
{(0,1)(0,1)}
{(5/6,1/6)(1/6,5/6)}
C1 C2 C3
R1 4, 12 3, 10 2, 12
R2 0, 12 2, 11 1, 11
R3 3, 12 1, 8 2, 13
锁定效应与路径依赖
这个博弈有三个纳什
均衡:
(4, 12) (2, 12) (2, 13)
这些纳什均衡可以用
重复剔除劣战略的方
法得到;
但如何实施劣战略的
消除,对于最终会留
下哪个均衡至关重要
C1 C2 C3
R1 4, 12 3, 10 2, 12
R2 0, 12 2, 11 1, 11
R3 3, 12 1, 8 2, 13
经济学上把结果依赖于路径的现象叫——路径依赖
路径依赖就是人们陷入一种情况而发现从此难以
脱身;
如果博弈参与人很多,达成协议的成本很高,最
初的非帕累托均衡可能被锁定,导致路径依赖:
森林探险
找工作
婚姻
改革
新产品
键盘的预言
VHS 与Betamax
MAC与IBM
经济学上把结果依赖于路径的现象叫——路径依赖
如果博弈参与人很多,达成协议的成本很高,最初的非帕
累托均衡可能被锁定,导致路径依赖:
每个人多偏好于新产品(或标准) ,如果其他人都选择新
产品的话;但每个人都预期其他人不会选择新产品,所以
每个人的最优选择不是转向新产品,结果是整个社会被锁
定在现有的产品(标准)(非帕累托最优)
这常被用来作为市场失灵的理论证据;
经验证据:QWERT vs Dvorak键盘;Beta vs VSH 录象
机;MAC与IBM计算机软件;
但最新的研究似乎正在推翻这些广泛流传的结论。
法律和社会规范如何协调预期
法律和社会规范就是协调预期的规则,帮助人们
在多个纳什均衡中筛选一个特定的纳什均衡。
- 社会规范是通过习惯、长期的交互博弈产生的行为规则;
- 法律是立法机关制定的行为规则;
无论是法律还是社会规范,他们的功能都是协调
预期。
制度是为了稳定预期,频繁的变化会打乱人们的
预期。
交通规则的演变
在多个纳什均衡之间不存在有劣之分时,偶然事件
对选择具有重要意义:
从历史上来考察,许多交通规则一开始并不体现为
法律,而是长期演化而来的。
现在欧洲大陆的靠右走的规则是在法国兴起的。
随着拿破仑对欧洲大陆的征服,拿破仑将法国的规则
带给了欧洲,也包括靠右行驶的规则。
文化的冲突与协调
为什么欧洲大陆的交通规则收敛于一致?
英国将如何办?
文化冲突,无论是组织和组织之间的还是国家与
国家之间的,大部分不过是游戏规则----社会规范
和法律的冲突,用博弈论的话来说,是一个均衡选
择问题:
全球化意味着资源的重新分配。
解决规则冲突的三个方式
一个规则取代其他的规则,让一部分人改变行为规
范适应另一部分人,也就是所谓的‘接轨’,如前面
讲的欧洲大陆交通规则的演变所显示的。
建立全新的规则,如中国人和德国人在一起交流始
都用英语,而不是中文,也不时德文;
建立协调规则的规则,如‘入乡随俗’,‘客随主
便’。
究竟那一中,与规则要解决的问题有关,也与其他
因素有关。
文化既解决冲突又协调预期
尊老爱幼
妇幼保护
尊师重教
先来后到
社会分层与非对称权力(排位
问题;黑社会组织);
公平观念(如分蛋糕博弈)
抓阄
信息与身份(identity)
信息对预期的协调很重要;如果不知
道谁是谁,协调就很困难;
身份是传递信息的重要工具;
身份的外在化:服饰,车座,秘书
学界的官本位问题;
产权的先占规则
人们为什么遵守这个规则?
人们希望得到别人认可的愿望;
一旦规则建立,每个人都预期其他人会遵守规则;给定这
个预期,每个人发现遵守规则是自己的利益所在,也希望别
人能遵守这个规则,任何不遵守规则的行为都会使守规则的
人受到损害或者感到威胁,从而引起后者的愤怒;任何其他
人也因此会觉得自己未来的利益受到威胁,对此种行为表示
不满,对受害人表示同情;
少数人不遵守规则并不会导致规则的消失;
但如果规则总是偏向于某一组特定的人群,受到不公正对
待的人并不会蔑视不守规则的人,规则就容易被违反。
关于论资排辈问题
容易被个人操纵的信息是没有
价值的;
当缺乏其他有效的信息时,资
历可以成为协调博弈的信息;
一、动态博弈
行动有先后顺序,不同的参与人在不同时点行动,
先行动者的选择影响后行动者的选择空间,后行动
者可以观察到先行动者作了什么选择。
因此,为了做出最优的行动选择,每个参与人都必
须这样思考问题:
如果我如此选择,对方将如何应付?如果我是他,我将
会如何行动?
给定他的应付,什么是我的最优先选择?
如下棋
二、动态博弈的扩展式表述概括如下:
参与人集合:I={1,…,n};此外我们以后将用N代表
虚拟的参与人——“自然”;
参与人的行动顺序:谁在什么时候行动;
参与人的行动空间:在每次行动时,参与人有些什么
行动可供选择;
参与人的信息集:每次行动时,参与人知道些什么;
参与人的得益函数:在博弈结束后,每个参与人得到
些什么;
外生事件(即“自然”的选择)的概率分布。
博弈树:不允许的情形
三、动态博弈的策略
1.策略特征:决策不是参与人单个阶段的行为,而是各方在整个
博弈中轮到选择的每个阶段时,针对前面阶段的各种情况作出相
应选择的完整计划。
2.博弈方的非对称性:在信息的占有上,后行动者能观察到此前
各方的选择,所以往往比先行动者更占优势,因此,各方的地位
是不对称的。但所获得的收益不一定比先行动者多。这与单人决
策是不同的。
3. 策略的可置信性问题:策略是博弈方自己预先设定的,在各
个博弈阶段针对各种情况所作的相应行为选择的计划,本身没有
强制力,且实施起来有一个过程。在该过程中,根据自己的利益
需要,他完全可以改变这个计划,从而存在“相机选择”,产生
策略的可置信性问题。
上述分析告诉我们
在一个都有私心,都更重视自身利益的成员组成的社
会中,完善公正的法律制度不但能保障社会的公平,而
且还能提高社会经济活动的效率,是实现最有效率的社
会分工合作的重要保障。当然,要保障社会公平和社会
经济活动效率,法律制度必须满足两方面的要求:
对人们正常权益的保护力度足够大;
对损害他人利益者有足够的震慑作用。
如果达不到这个水平,法律制度的作用就是很有限的甚
至完全无效。
上述分析告诉说明
动态博弈的相机选择——→可信性问题
可信性问题在动态博弈中具有重要意义
但实际上可信性最重要的意义还在于它对纳
什均衡在动态中的有效性问题提出了质疑!
第一阶段“借”
当第二阶段甲选择“不分”时
第三阶段选择“打”。
乙的策略:
第二阶段无条件
地选择“分”。
甲的策略:
纳什均衡
精炼纳什均衡(Perfect NE)
不包含不可置信的行动的战略所组成的纳什均衡
被称为‘精炼纳什均衡’;也就是说,不论过去发
生了什么,构成精炼纳什均衡的战略,其所规定的
行动在每一个决策点上都是最优的,所以,又称为
‘序惯均衡’(sequential equilibrium);
首先必须是‘纳什均衡’,但并非所有纳什均衡
都是合理的;只有战略不包含不可置信行动的纳什
均衡才是合理的。
逆推归纳法(backward induction)
将多阶段动态博弈化为一系列的单人博弈;
确立各方在各阶段的选择,逐步向前推进,找出决策者的
最优决策;
如此一直到初始决策。
最终,对动态博弈的结果,包括博弈的路径和对各博弈方
的得益作出判断,归纳各个博弈方在各个阶段的选择,即
可得到各方在整个动态博弈中的策略。
——从动态博弈的最后一个阶段博弈方的行为开始分
析,逐步向前一个阶段相应博弈方的行为选择,一直
到第一阶段的分析方法。
CH7 讨价还价与耐心
讨价还价问题
纳什合作解
轮流出价谈判
谈判规则
无固定成本的谈判
固定成本的谈判
谈判中的社会规范
问题的一般化
分配规则
纳什解
个人边际贡献的解释
讨价还价问题的普遍性
所有的讨价还价的共同之处
两种思路——合作与独立决策
抛开分类,直面问题
简单的利益分割谈判;
谈判力相同——聚点均衡(平均分配);
谈判力不同——
独裁谈判;
最后通牒谈判
大多数提议人将分给回应者40~
50元之间;
分给回应者50~70元之间的情况
极少;
分给回应者小于20元的方案被拒
绝的概率很高(约40~50%)
非对称谈判能力与公平观念
公平分配无疑是谈判中达成合作的重要保障。因为面对一个
具有公平观念的谈判对手,不公平的分配常常带来他的抗拒行
为——即使他处于谈判的劣势。
非对称谈判力的典型情况。
规则:提议者具有绝对的
谈判优势,回应者只能无条
件接受。
均衡:提议者全部保留,
对手为零。
独裁博弈
规则:提议者提出分配方
案,对手同意,就按此方案
分配,否则双方皆为零。
均衡:给对方略大于零。
最后通牒博弈
谈判的最终目的在于促成合作的达成:
把谈判看作是一个经营
合作的事业,而不是当成一
场争夺利益的斗争。
二、讨价还价问题的解(合作博弈思路)
考虑两家硅谷的企业,安迪和比尔
安迪生产微芯片,他可以以900美元的价格卖给任何一
家计算机制造商。
比尔的软件包可以以100美元的价格进行零售。
两个人凑在一起,发现他们如果生产一个软硬件
的联合产品,可以卖到3,000美元。
他们之间如何分配这3000美元?
他们之间如何分配这3000美元?
如果两人直接面对面地谈判,最终的协议取决于二
人的倔强和耐心。
如果他们试图让一个第三方来仲裁这一争端,仲裁
者的决定则取决于他对于硬件和软件相对价值的判
断,以及两个当事人在他面前陈词的表现力。
假定仲裁者决定利润的分配应为4:1,安迪得4。
假定安迪总收益为x,比尔为y。
那么, x-900=4(y-
100)
x+y=3000
x=2500
y=500
问题的一般化
规范化谈判由两部分组成:
①可行集——谈判的所有可能结局的集
合;
②冲突点——双方不能达成一致,即不
能产生协议约定而出现的一种谈判结
局;
设想两个人,A和B,他们之间要就总价值等于
V的分配问题讨价还价;
如果他们之间能达成协议,V按照协议规定分配。
如果不能达成协议,A得到a, B得到b。
(a, b) 被称‘冲突点’或非合作状态, 是不能达成
协议时的最好选择。
a+b<V;S=V-a-b是合作带来的剩余。
双人谈判局势
a
b
谈判的最终结局需要
符合两种理性前提:
x
y
P
F
c
d
① 个体理性
② 联合理性
——是谈判达成理性
结局的基本条件
谈判的结局是哪一个帕累托最优点?
纳什(1950,1953)运用运用公理化方法得到
谈判的解(纳什解)应该满足4条公理:
① 有效性公理:谈判解应满足个体理性和联合理性的要求,
最后达成的协议应该是帕累托最优的,也就是说,不应该
有没有被分配的剩余。
② 对称性公理:双方势均力敌
③ 线性不变性公理: 如果对谈判的效用函数做保序性线性变
换,即,au+b,其中a>0,则谈判解不变。
④ 无关选择公理:如果原来可行的选择没有被选择,去掉这
些‘无关’选择并不会影响讨价还价的结果。
例:
考虑一个画家与拍卖商之间的讨价还价
问题:如果画家自己出售画,可得1000元;
如果拍卖商干其他事情(如拍卖别人的画),
收入是500元;如果画家委托拍卖商出售画,
画的价格时3000元。
他们之间如何分配这3000元?
① 该合作博弈的表述:B=(S,d;u1,u2)
参与人——画家、拍卖商
S——局中人共有共有的策略集(利润的分配方案)
d——谈判破裂的结果,d∈S;
ui——定义在S上的局中人i的效用函数,满足
对任意的s∈S,u1(s)≥ u1(d), u2(s)≥ u2(d);
至少存在一个s∈S,u1(s)> u1(d), u2(s)> u2(d);
② 可行结果集
记画家和拍卖商所得分别为s1和s2,则
s1+s2≤3000, s1≥1000,s2≥500
假定参与人的效用与其所得到的利润成正比
画家的效用函数
u1(s1, s2)= s1-1000,
拍卖商的效用函数
u2(s1, s2)= s2-500;
局中人共有共有的策略集
S={s= (s1, s2): s1+s2≤3000
, s1≥1000,s2≥500 }
3000
30000
s1
s2
100
0
500
S
③ 讨价还价问题的K-S解法
3000
30000
S
s1
s2
100
0
500
两个参与人的效用函数分别是他们从合作所带来的增值中所
获得的分额,如何进行分配?
S
K-S线
200
0
100
0
又因为:s1+s2=3000
所以: s1=2000
s2=1000
非合作博弈思路
谈判实际上是一个讨价还价的过
程,一个动态博弈;
用非合作博弈的方法更合理。
无固定成本谈判
变量说明
- x:A得到的份额;
- y:B得到的份额,x+y=1;
- s:A的贴现率;a=1/(1+s):A的贴现
因子
- r:B的贴现率;b=1/(1+r):B的贴现
因子
有限期谈判
如果贴现率不是很大,就有后动优势
T=1 T=2 T=3 T=4
参与人1 1 1相当于a 1相当于a2 1相当于a3
参与人2 1 1相当于b 1相当于b2 1相当于b3
精练
纳什
均衡
解
T=1
1
0
T=2
1-b
b 1
T=3
1- b(1-a) a 1
b(1-a) 1-a
T=4
1-b[1- a(1-b)] a(1-b) 1-b
b[1- a(1-b)] 1- a(1-b) b 1
有限期谈判(假设a=b=)
T=2时的讨价还价表
期数 出价者 1 2
1 1
2 2 0 1
T=3时的讨价还价表
期数 出价者 1 2
1 1
2 2
3 1 1 0
T=5时的讨价还价表
期数 出价者 1 2
1 1 0. 7376 0. 2624
2 2 0. 672 0. 328
3 1
4 2
5 1 1 0
T=4时的讨价还价表
期数 出价者 1 2
1 1 0. 328 0. 672
2 2
3 1
4 2 0 1
一般结论
如果两人的贴现率都不是很高,也就是对
未来有足够的耐心,谈判有后动优势(在奇
数次谈判中,先动和后动是一个人);
这个优势随允许谈判次数的增加而递减;
无论如何,一个人对未来越没有耐心,得
到的就越少。
无限次谈判
没有最后一次便不能用逆向归纳法求解,但可以使
用类似的思路得到均衡解(x,y);
假定在时间t(t≥3)时,A出价,得到x;时间t-1时,
B出价,给A为ax,B得到y=1-ax;时间t-2时,A出价,
给B为b(1-ax) ,自己得到x=1-b(1-ax);
精炼纳什均衡解:
基本结论
无限次谈判具有“先动优势”;
一个人的耐心越大(贴现率越小),谈判中的优
势就越大。
如果B先出价:
用贴现率表示:
重新解释纳什谈判解
纳什谈判解中的谈判力(h,k)是由谈
判者的耐心决定的;
越有耐心的人,得到的份额越大:
对称性
纳什的对称性假设可以理解为:如果假定两个人的
耐心是一样的(s=r),那么,纳什解决定的剩余价
值的分配比例就相同(h=k);纳什福利函数就是剩
余之积:(x-a)(y-b);
在应用研究中,一般假定剩余价值是平均分配的;
“平均主义”有了博弈论基础:如果两个人的耐心
相同、机会成本相同、生产率相同,平均分配就是
一个均衡。否则,就不会平均分配。
固定谈判成本
谈判的另一类成本是固定成本,
如劳资谈判拖延的话,企业可能
要为客户支付违约金。
这类似于蛋糕随时间而变小。
案例:分冰激凌
序贯讨价还价分有限回合和无限回合两种情况。对于有限回合
的情况不管多少次,都可以用逆向归纳法来推导其均衡结果。
- 假设冰激凌的重量为100克
- 每个回合冰激凌都会融化掉10克;
- 如果甲先提议,然后是乙
- 在两轮谈判中,均衡结果是什么?
回合 分给甲 分给乙
1 10克 90克
2 0 90克
两回合讨价还价 回合 分给甲 分给乙
1 90克 10克
2 80克 10克
1 80克 0
三个回合讨价还价
九、十回合讨价还价
回合
九回合 十回合
可分配克数
甲 乙 甲 乙
1(甲) 60 40 50 50 100
2(乙) 50 40 40 50 90
3(甲) 50 30 40 40 80
4(乙) 40 30 30 40 70
5(甲) 40 20 30 30 60
6(乙) 30 20 20 30 50
7(甲) 30 10 20 20 40
8(乙) 20 10 10 20 30
9(甲) 20 0 10 10 20
10(乙) - - 0 10 10
结论
谁掌握谈判的最后主动权,谁就具有谈判优势;
谈判的回合数越多,则两个人的利益分享就越接近
于平均分配;
如果谈判回合数足够长,一直到可分配的合作利益
消失殆尽,那么,最终的讨价还价均衡结果将是平均
分配合作利益。
一般情形
假设初始价值为V的冰激凌以x1
, x2,……x10 的速度变为零;
PNE:
-A得到x1+ x3+x5+x7+x9
- B得到x2+ x4+x6+x8+x10
外部机会成本
固定成本的一种特殊形式的外部
机会损失:如谈判期间外部机会
成本就不能得到利用;
此时,外部机会成本损失越大,
对谈判越不利;
问题
理论上,尽管谈判允许多次,但均衡情况
下,双方一开始就达成协议,之后的谈判都
是非均衡路径;
现实中,情况并不如此。通常,谈判总要
进行多个回合,如中国加入WTO时谈判进
行了10年;
Why?
信息与谈判
在理论上,假定了当事人具有完全的信息:知道价值V和
每个人的机会成本或谈判砝码、每个人的耐心、谈判的时
限等等。
但现实中,谈判面临的最大问题是信息不完全。
价值V、生产成本、谈判砝码(a,b)、耐心、机会成本;
谈判的过程实际上是一个信息揭示和窥探的过程。
由于信息不对称,谈判结果并不总是帕累托最优的,事实
上,许多帕累托改进没有被利用。
CH8 重复博弈与合作行为
研究重复博弈的意义
有限次重复博弈
无限次重复博弈
重复博弈战略空间的扩展
重复博弈的应用
一、研究重复博弈的意义
重复博弈问题普遍存在
在重复博弈中,参与人的战略空间变得
复杂
提供了用非合作博弈理论来研究合作博
弈的框架
提供了研究人类行为模式变化的工具
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与人
过去行动的历史是可以观察到的,参与人就可以依
据其他人之前的行动来决定自己的选择,因而,有
了更多的战略可以选择,均衡结果可能与一次博弈
大不相同。
重复博弈理论的最大贡献是对人们之间的合作行
为提供了理性解释:在囚徒困境中,一次博弈的唯
一均衡是不合作(即坦白)。但如果博弈无限重复,
合作就可能出现。
影响重复博弈均衡结果的因素
重复博弈的次数
信息完备性
影响因素
无限次
有限次
完全信息
不完全信息
参与人在短期利益与
长期利益之间权衡
当一个参与人的支付函数不为其它参
与人所知时,该参与人可能有积极性建
立一个“好”声誉,以换取长远利益。
二、有限次重复博弈
企业B
企业A
低价 高价
低价
高价
3,3 6,1
1,6 5,5
只要博弈重复的次数有限,而且单阶段博弈的纳什均衡
是唯一的,重复本身并不改变“囚徒困境”原来的结果!
“囚徒困境”——价格大战
三、无限次重复博弈
阶段博弈之间没有物质上的联系。即,前一阶
段的博弈不改变后一阶段的博弈结构;
所有参与人观察到博弈过去的历史;
参与人的总支付(报酬)是所有阶段博弈支付
的贴现值之和。
三个特征:
无限次重复博弈中合作的达成
乙在第t次选择对抗与始终合作的收益分别为:
假定:
δ—甲乙双方的贴现因子
参与人甲的策略:首先选择合作,
如果观察到对方对抗,自己从下一
个时期开始就永远选择对抗;
乙
甲
合作 对抗
合作
对抗
5,5 0,10
10,0 1,1
表2 对抗合作博弈
合作的达成的条件
结论:
如果博弈的重复是有限次的,那么囚徒困境式的博弈中
是不可能达成合作的;
如果博弈是无限次的,那么眼光长远的参与人在囚徒困
境式的博弈中也可能达成合作,不过如果参与人的目光短
浅,那么合作仍难以达成。
得
由
只要双方对未来都
有足够的信心,双
方可以达成合作。
如果RC≥RU,合作就可以得到维持。
囚徒困境式的有限次重复博弈不可能达成合作
问题:人的生命是有限的,我们所经历的所
有重复博弈都是有限次的,为什么我们能观察
到那么多的合作呢?
不知道博弈何时结束
只要博弈的次数足够长,可近似
看作是无限次的
前一个博弈将对进入后一个博弈
带来影响
四、重复博弈与战略空间的扩展
如果上述博弈重复多次,那么每个参与人就有多
个可以选择的战略,如:
ALL-D:不论过去什么发生,总是选择不合作;
ALL-C:不论过去什么发生,总是选择合作;
合作-不合作交替进行;
触发战略(trigger strategies):只要对手合作,该参与
者也合作;但对方任何背叛就会“触发”规定时间长度的惩
罚期,其间以非合作来回击。
最有名的两个触发策略
冷酷战略(Grim strategies):从合
作开始,一直到有一方不合作,然后永远选
择不合作。
礼尚往来(tit-for-tat):从合作开始,
之后每次选择对手前一阶段的行动;
艾克谢罗德竞赛实验
在开始研究合作之前,艾克谢罗设定了2个前提:
每个人都是自私的
没有权威干预个人决策
要研究的问题:
人们为什么要合作?
人什么时候合作,什么时候又是不合作的?
如何使别人与你合作?
实验的方式:组织一场计算机模拟竟赛
参加者都扮演“囚徒困境”中的一个囚徒;
把自己的策略编成计算机程序,进行捉对博弈,在合作与背叛之
间作出选择;
以单循环赛的方式玩200次。
艾克谢罗德竞赛实验具体设计
“囚徒困境”博弈
乙
甲
合作 对抗
合作
对抗
2,2 -1,4
4,-1 0,0
结果:取胜策略为—
—礼尚往来(tit-
for-tat)
目的:集高手于一室,相
互较量,找出合作的最
佳策略。
礼尚往来(tit-for-tat)策略的特征
善良: 是指它第一步总是向对方表示善意。
可激怒:是指对方出现背叛行动时,它能够及时识别并一定
要采取背叛的行动来报复,不会让背叛者逍遥法外;
宽容:是指它不会因为别人一次背叛而长时间怀恨在心或者
没完没了地报复,而是在对方改过自新、重新回到合作轨道时,
能既往不咎地恢复合作;
简单:是指它的逻辑清晰,易于识别,能让对方在最短的时
间内识别出来其策略所在;
不嫉妒:是指它不耍小聪明,不占对方便宜,不在任何双边
关系中争强好胜。
支付函数
对δ的解释:
* 贴现率;
* 博弈继续的概率
* 二者的结合
* 一般化:未来收益的重要程度
参与人B
参与人A
合作 不合作
合作
不合作
T,T S,R
R,S P,P
满足:满足:
RR>>TT>>PP>>SS;;
SS++RR<<TT++TT
““囚徒困境囚徒困境””的一般表示的一般表示
双方都不合作;
无名氏定理(Folk Theorem)
在无限次重复博弈中,如果参与人对未来足够重
视(δ足够大),那么,任何程度的合作都可以通
过一个子博弈精炼纳什均衡得到;
这里“合作程度”定义为这个博弈中合作出现的
频率;
子博弈是指从某个阶段(不包括第一阶段)开始,
包括此后所有阶段的重复博弈。
50年代人们就有这样的共识,但无人有发明权。
tit-for-tat
纳什均衡,但不是精炼纳什均衡;
T,T S,R
R,S P,P
为什么不是一个精炼纳什均衡?
假设A在t=5时没有合作,根据TFT战略,在t=6时,B
应该选择惩罚A (不合作)。B会这样吗?
如果B相信A采取的是TFT策略,那么
- B如果对A实施惩罚,预期的收入流为:
R,S,R,S,R,…
- 如果B原谅A,预期的收入流为:
T,T,T,T,T,…
尽 管 “tit-for-tat”是 成 功 率 最 高 的 战 略
(Axelrod1984)
Grim strategies
如果未来足够重要,精炼纳什均衡:
合作条件:
- 如果下列条件满足,合作就是均衡的结果:
解释
R-T可以理解为不合作的诱惑;
R-P= (R-T)+(T-P);
条件说明:
给定未来的重要程度,不合作的一次性诱惑(R-T)
相对于合作带来的利益(R-P)越小,合作的可能性
越大;
给定不合作的诱惑和合作带来的利益,未来越重要,
合作的可能性越大;
合作的剩余(利益)
行为的信息传递
假如欺骗两次才被发现:
含义
欺骗行为越难以被发现,欺骗发生的可能性越大;或者说,
合作越困难;
在前面的例子,R=4,T=3,P=0。如果欺骗一次就被发现,
只要
合作就会出现;
如果欺骗两次才被发现,只有当δ≥时,合作才可能出
现;
惩罚与合作
Abreu(1986):最大合作战略是使用最严厉的
可信惩罚;
维护合作并不需要无限期的惩罚,只要惩罚期足
够长就可以了;
胡罗卜加大棒;从合作开始,一直合作,直到
- 如果有任何一方在t期不合作,在t+1期,前期合作者选
择“不合作”来实施惩罚,前期合作者选择合作;
- 如果该合作的没有合作,该惩罚的没有实施惩罚,在
t+2期继续按照上述t+1期的战略规定博弈,否则,合作
恢复。
对“胡萝卜加大棒”策略的解释
采用这个战略的参与人在对方与自己步调一致时
(同时合作或同时不合作),则在下一阶段用合作
奖励对方,即给对方一个胡萝卜。
在对方与自己步调不一致时,则在下一阶段用不合
作来严厉地惩罚对方,即给对方当头一棒。
这个 战略要求不仅惩罚该合作时不合作的对手,
而且惩罚该惩罚时不惩罚的对手,惩罚不惩罚者又
是给惩罚者的一根胡萝卜。
假设A首先不合作
t t+1
A R S或P
B S R或P
说明在t+1阶段,B惩罚了A,而A
未惩罚B;
在t+2阶段,B选择其在t+1阶段的
战略:“不合作”作为对A在t+1阶段
该惩罚而未惩罚的惩罚。
在t+2阶段,B
选择 “合作”
多重交易关系与合作行为
合作 不合作
合作 3, 3 -1, 4
不合作 4,-1 0, 0
合作 不合作
合作 5, 5 0, 9
不合作 9, 0 4, 4
交易关系Ⅰ 交易关系Ⅱ
合作条件
在交易关系Ⅰ中,合作要求δ≥
在交易关系Ⅱ中,合作要求δ≥
如果两种交易在同样的两个人之间进行,只要δ≥,两
种交易中都会合作;
设想实际的δ=,那么如果两种交易发生在不同的人之间,
合作只出现在市场Ⅰ,不会出现在市场Ⅱ。
但如果两个人之间同时存在两种交易,合作存在于两个市
场。
社会关系与合作行为
更一般地讲,市场交易常常镶嵌在复杂的社会关系中,这
种关系可以提高交易的合作程度,这也是人们愿意发展社
会关系的原因。
比如,在交易关系Ⅱ中,假定除了这一交易外,当事人双
方之间还存在另外的社会关系,这一社会关系对每一方的
现值为V;
不合作合作
不合作
合作
4+V, 4+V9, 0
0, 95+V, 5+V 如果交易中出现欺骗,
这一价值就不存在;
合作的条件为:
(δ随V的增加而减少)
应用
家庭学血缘关系;
朋友关系;
同学关系;
老乡关系(保姆市场);
图示
经济
诱惑
感情系数
合作
区域
非合作
区域
Klein-Leffler Model(1981)
如果δ≥(2-1)/(2-0)=,下列战略组合构成一个精炼
纳什均衡;
厂家
开始生产高质量;
继续生产高质量,除非曾经生产过低质量;
如果上一期生产了低质量,之后永远生产低质量;
消费者:
第一个消费者购买;
只要低质量事件没有发生过,之后的消费者继续购买;
但一旦发现低质量,之后的消费者不再购买;
结果:(购买,高质量)
社会规范:集体抵制
Boycott:每个人都应该诚实,都有责任惩罚欺骗
过人的人,不参与惩罚的人,应该受到惩罚;
- 假定A在t期欺骗了B,C在t+1期就不应该与A合作,否
则,D在t+2期就不应该与C合作;
- 如果C在t+1期与A合作,D在t+2期又与C合作, F在
t+3期就不应该与D合作,如此等等;
(美国对不参与伊拉克战争国家的态度)
敌友原则
开始把所有的人当朋友:t期的朋友关系一
直保持到t+1,当且仅当他在t期不曾欺骗过
任何人,并不曾与你的敌人合作;
- 朋友的朋友是朋友;
- 朋友的敌人是敌人;
- 敌人的朋友是敌人;
- 敌人的敌人未必是朋友;
PNE
如果每个人的信息是公共信息,合作是一
个精炼纳什均衡;
信息问题为理解法律的出现提供了一个
原因。法律机关的一个功能是通过集中化
信息使得信誉机制可以更好地发挥作用。
有限次博弈
在完全信息博弈中,只要博弈的次数是有限的,合
作就不会出现。
如果参与人的类型是
不完全信息,只要博
弈进行得足够长,合
作仍然可能出现。
眼前利益与长期利益
欺骗
的
短期
收益
信誉的长期收益
时间
信誉的条件
重复博弈;
足够耐心
相对确定的环境
欺骗可以被观察到
受骗人有积极性惩罚
传统社会的个人信誉
在传统社会,人们常年生活杂封闭的村庄,村民
之间彼此非常熟悉,欺骗行为很容易识别,人们之间
的口头交流足以使任何欺骗行为广为人知,每个人的
历史都存储在别人的脑海里,对欺骗行为的惩罚即使
不能施加于欺骗者本人,也可以通过家庭成员而实现,
如上的前4个条件基本上可以得到满足。
因此,即使没有法律,村民之间也可以建立起高度的
信任,欺骗行为很少发生。
商业社会的问题
现在社会被称为“匿名社会”,与乡村社会不同,
居民的流动性大,交易双方通常并不认识,相互之间
也缺少如乡村社会中存在的其它制约关系,使得受害
人的惩罚措施受到很大限制;开放的社会使得不大在
乎闲言碎语的议论。凡此种种,使得传统的以个人为
基础的信誉机制失灵,这也是都市社会犯罪率高的一
个重要原因。但是,西方市场经济之所以发达到今天
的程度,除了比较完善的司法制度外,是因为他们在
更高的形态上复制出了前面讲的4个条件。
重复博弈的应用
下表为一个努力困境博弈,安迪和比尔都不知道这个博弈将
进行多少次,但知道每次博弈后,有10%的概率会退出,他
们能否走出“囚徒困境”?
比尔
安迪
努力 推卸
努力
推卸
10,10 2,15
15,2 5,5
V(ALL-D,ALL-D)=5+(×5)+(×5)+(×5)+……=50
V(ALL-C,ALL-C)=10+(×10)+(×10)+……=100
比尔考虑实施针锋相对计划
目的:威胁安迪,使之不敢选择“推卸”战略。
安迪选择推卸的收益为: 比尔
安迪
努力 推卸
努力
推卸
10,10 2,15
15,2 5,5
V1=15+5δ+5δ2+5δ3+……
=15+5δ/(1-δ)
如果安迪努力,他的收益为:
V2=10+10δ+10δ2+10δ3+……=10/(1-δ)
如果V1<V2,即15+5δ/(1-δ)<10/(1-δ)时,即δ>
时,安迪会努力。
假定:每个参与者的可选战略有三个
比尔
安迪
总努力 总推卸 针锋相对
总努力
总推卸
针锋相对
100,100 20,150 100,100
150,20 50,50 60,47
100,100 47,60 100,100
(针锋相对,针锋相对)是一个聚点均衡
合谋定价
在寡头垄断市场上,销售商可以维持垄断价格,从而
使销售商团体的总利润最大。但是,在合谋定价中,每一
个销售商都有欺骗的动机,他们可以背地里调低价格,抢
走那些继续维持高价的竞争者的生意。
大中
国美
维持价格 降价
维持价格
降价
5,5 0,8
8,0 1,1
(降价,降价)是占优战略纳什均衡
触发战略
假定国美打算用触发战略,报复能否吓退大中在一轮中
的背叛呢?
如果大中只背叛一次,接着就恢复到维持垄断价格,大
中的收益将为:
8,0,X3,X4,……
如果国美和大中都继续维持垄断价格,二者的收益均为:
5,5,X3,X4,……
所以只要5+5δ>8,即δ>3/5时,就能吓退大。
触发战略
对于国美的冷酷战略,大中降价的收益为:
8+1δ+1δ+1δ+……=
大中继续维持垄断价格的收益为:
5+5δ+5δ+5δ+……=
如果 ,即 时,大中不
敢私自降价。
冷酷战略能够在针锋相对战略失效时吓退不合作。
不完全信息
是现实生活中的常态
海萨尼1967-1968提出贝叶斯博弈理论
不完全信息含义:
局中人对其他局中人、策略、支付不完全了解;
局中人对其他局中人的支付函数不完全了解
静态贝叶斯博弈的一般表述
一个n人静态贝叶斯博弈的标准式:
G={A1,…,An; T1,…,Tn;p1, …,pn; u1, …,un}表述包括:
参与者的行动空间A1,…,An
他们的收益函数u1, …,un 。
他们的类型空间T1,…,Tn,参与人i的类型ti∈Ti,是参与者i的私人
信息;
他们的推断p1, …,pn 。参与者i的一个推断p(t-i|,ti )描述了i在给
定自己的类型ti时,对其它n-1个参与者可能的类型t-i|的概率。
参与者i的收益函数, ui( a1, …,an ;ti)。
不完全信息的古诺模型
假定:
- 只有两个厂商
- 面对相同的线形需求曲线,P(Q)=a-Q, Q=q1+q2
- 两厂商同时做决策;
- 假定企业1成本函数为:C1(q1)=c1q1
企业2成本函数为:C2(q2)=cHq2(或cLq2 , cH>cL)
问题:两个厂商的均衡产量和均衡价格如何确定。
该博弈问题的标准式:
- 参与人——厂商1和厂商2
- 战略空间——每个企业可以选择的产品产量:
Si=[0,∞),i=1, 2 ,qi≥0
- 类型空间——厂商1没有私人信息
厂商2可能是高成本或低成本企业
- 收益——用利润额代表企业的收益
- 对厂商2类型的推断——θ,1-θ
厂商2的产量q2*应满足
- 均衡——
Max Π2 (q1*,q2,cH) = Max q2( a-q1*-q2-cH)
0≤q2≤∞ 0≤q2≤∞
Max Π2 (q1*,q2,cL) = Max q2( a-q1*-q2-cL)
0≤q2≤∞ 0≤q2≤∞
厂商1的产量q1*应满足
Max{θ[q1(a-q1-q2*(cH)-c1)+(1-θ)[q1(a-q1-q2*(cL)-c1)] }
0≤q1≤∞
企业利润最大化的条件为:
Max{θ[q1(a-q1-q2*(cH)-c1)+(1-θ)[q1(a-q1-q2*(cL)-c1)] }
0≤q1≤∞
企业利润最大化的条件为:
海萨尼转换
1967年,海萨尼提出了“海萨尼转换”来处理这种
不完全信息的博弈。其基本思路是引入一个虚拟的
参与人——“自然”,“自然”首先行动选定参与
人的某种类型,各参与人知道自己是哪种类型的(是
高成本的,还是低成本的),但其他参与人不知道。
以对参与人类型的概率的分析代替对参与人确切行
动的分析,这样的转换就是“海萨尼 转换”。
“不完美信息”指的是,“自然”作出了它的选择,
但其他参与人并不知道它的具体选择是什么,仅知
道各种选择的概率分布。
(40,50)
(-10,0)
(30,80) (-10,100)
(0,400)
(0,300)
不进
[θ]
N
[1-θ]
不进
进
在位者
进
在位者
打击
打击
进入者
进入者
海萨尼转换
精炼贝叶斯纳什均衡
不完美信息博弈的均衡必须满足三个要求,即:
1、在每一个信息集上,决策者必须有一个定义在属于该
信息集的所有决策结上的一个概率分布(信念);
2、给定该信息集上的概率分布和其他参与人的后续策略,
参与人在该信息集处的行动必须是最优的(这里后续策略
指的是从给定信息集开始的后续博弈上的行动规则);
3、每一个参与人根据均衡策略和贝叶斯法则作出判断和
修正,得到后验概率。
满足上述要求的博弈均衡就称为满足上述要求的博弈均衡就称为““精炼贝叶斯均衡精炼贝叶斯均衡””
“连锁店悖论”(chain-store
paradox)
进入者
进入
不进入
(0,100)
在位者
默许
斗争
(-10,0)
(40,50)
Selten(1978):
逆向归纳
假定在位者有20个市场。
如果进入者在第一个市场进入,在位者应
该选择斗争,因为尽管从一个市场看,斗争
是不值得的,但这样做可以遏止进入者在其
他市场上的进入。
但唯一的精炼纳什均衡是:进入者总是进
入,在位者总是默许。
问题在哪里?
一个可能的原因在于:现实并不完全满足博弈
的理想假设,如:
参与人是理性的;
信息是完全的——每个参与人可以选择的战
略和效用函数都是共同的知识
如果信息是完全的,谈判一开始就达成协议,
但现实中的谈判不是这样,原因在于信息不称。
不完全信息
KMRW模型(1982):
如果参与人对其他参与人的效用
函数和战略空间的信息不完全,即
使博弈的次数是有限的,人们也有
积极性建立一个合作的声誉,合作
会出现。
不完全信息
博弈论中不完全信息是指博弈中的参与人
对其他参与人(包括他自己)对博弈局势有
关的事前信息了解不充分,而不是指博弈进
行中对博弈进程信息了解得不充分。:
不完全信息意味着,至少有一个参与人有
多种类型(否则就成为完全信息)。
市场阻挠博弈
一个垄断企业已在市场上,另一个企业虎视眈眈的
准备进入,进入者有进入和不进入两种选择,在位
者有“默许”或者“斗争”两种选择,而究竟如何
选择,取决于他的成本的高低。
— 如果是高成本,则选择默许
— 如果是低成本,则选择斗争;
在位者知道自己是高成本还是低成本,但进入者只
知道在位者可能是高成本,也可能是低成本。
不完全信息的市场阻挠博弈
在位者
进入者
高成本 低成本
默许 斗争 默许 斗争
进入 40,50 -10,0 30,80 -10,100
不进 0,300 0,300 0,400 0,400
这时,进入者似乎在与两个不同的在位者博弈,一
个是高成本的在位者,另一个是低成本的在位者,
进入者这时应该如何选择?
进入者不知道在位者的成本函数,只能猜概率
• 如果你是高成本,我就进入,预期收益30;
• 如果你是低成本,我就不进入。
到底进还是不进?
在位者
进入者
高成本 低成本
默许 斗争 默许 斗争
进入 40,50 -10,0 30,80 -10,100
不进 0,300 0,300 0,400 0,400
期望利润:p×40+(1-p)×(-10)
为保证不亏,令期望利润为0,则p=。
P>时会赚钱,对p的判断就是“贝叶斯理念”。
贝叶斯原则:
贝叶斯原则:如果在博弈时对其
他参与人的类型没有确定性的了解,
且不知道其发生的概率,则可在主
观概率的基础上进行判断,而这个
主观概率是根据贝叶斯原则计算出
来的。
由 A1、A2、A3
两两互不相容,得
A1B、A2B、A3B两
两互不相容。
全概率公式:
A1
A2
A3
A1+A2+A3=Ω
B
P(B)=P(A1B+A2B+A3B)
= P(A1B)+P(A2B)+P(A3B)
= P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)
全概率公式的使用说明:
把事件B看作某一过程的结果
把A1、A2、A3看作该过程的若干原因,根据历
史资料
每一原因发生的概率,即P(Ak)已知;
每一原因对结果的影响程度,即P(B|Ak)已知。
可用全概率公式计算结果发生的概率。
P(B)= P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)
例:
某小组有20名射手,情况如下:
级别 一级 二级 三级 四级
人数 2 6 9 3
射中概率
今随机选一人参加比赛,试求该小组在比赛中射中目标的概率。
由全概率公式,有
解:设B=“该小组在比赛中射中目标”
Ak=“第k级选手参加比赛”
Bayes 公式:
A1
A2
A3
随机事件A1、A2、A3两两互不相容;
A1+A2+A3=Ω &
P(Ak)>0
B
则有
Bayes 公式的使用说明:
把事件B看作某一过程的结果
把A1、A2、A3看作该过程的若干原因,根据历史资料
每一原因发生的概率,即P(Ak)已知;
每一原因对结果的影响程度,即P(B|Ak)已知。
如果已知事件B已经发生,要求此时是由第i个原因引起
的概率,则用Bayes公式
例:
用某种方法普查肝癌
A={ 用此方法判断被检查者患有肝癌 }
D={ 被检查者确实患有肝癌 }
现有一人用此法检验患有肝癌,求此人真正患有肝癌的概率
例 9
袋中有10个黑球,5个白球.现掷一枚均匀的骰子,
掷出几点就从袋中取出几个球.若已知取出的球
全是白球,求掷出3点的概率.
解:
设:B={ 取出的球全是白球 }
则由Bayes公式,得
第一章 概率论的基本概念
§3条件概率
返回主目录
%E7%9B%AE%2520%E5%BD%
%E7%9B%AE%2520%E5%BD%
两个厂商联合概率分布表
在位者B
进入者A
高成本 低成本
高成本
低成本
令:H=高成本 L=低成本
P>时会赚钱
进入者进入
囚徒困境博弈
假如2个参与人,A和B,进行囚徒困境博弈;
参与人B
参与人A
合作 背叛
合作 3,3 -1,4
背叛 4,-1 0,0
参与人A有两种可能类型:
- “非理性”型,概率为p;
- “理性”型,概率为(1-p)。
单方不完全信息
- “非理性”型——只有一种战略,tit-for-tat或者
grim strategy;
- 特殊的成本函数或效用函数
- 讲义气、重情义的人,内在化了互惠社会规
范的人;
- 认知问题
参与人 B有一种类型:理性型—可以选择任何一
种战略。(设δ=1)
博弈重复两次
t=1 t=2
A
非理性(p)
理性型(1-p)
B 理性型
合作
背叛
X
X
背叛
背叛
第二阶段 第一阶段
参与人A:如果是非理
性的,选择“合作”;如
果是理性的,选择“背叛
”;
参与人B:如果选择“
合作”,面临被背叛的风
险,但如果A是非理性的,
可以换来第2阶段的合作。
参与人A:如果是
理性的,选择“背叛
”;如果是非理性的,
选择B在第一阶段的
行动(X);
参与人B:选择 “
背叛”
B的选择 合作 背叛
合作 3,3 -1,4
背叛 4,-1 0,0
如果选择背叛,期望效用是
4p+0×(1-p)+0=4p
如果p≥,最优选择是合作。
结论:如果B认为A非理性的概率不小于,B
在第一阶段会选择合作,即使博弈只重复两次。
第一阶段 第二阶段
选择合作,期望效用是:
3p+(-1)×(1-p)+4p+0×(1-p)=8p-1
博弈重复3次
t=1 t=2 t=3
A
非理性(p)
理性型(1-p)
B 理性型
X
背叛
背叛
X
背叛
X
合作
?
X
参与人A(理性)的选择
如果A是理性的,在第2阶段和第3阶段一定会选
择背叛
在第一阶段,A选择
合作: 3+4+0=7(如果p≥,A认为B在第1阶段会
合作)
背叛: 4+0+0=4
结论: 对理性的A而言,(合作,背叛,背叛)
是最优的。
参与人B的选择
B有4种战略:
(合作,合作,背叛)
(合作,背叛,背叛)
(背叛,背叛,背叛)
(背叛,合作,背叛)
(合作,合作,背叛)
t=1 t=2 t=3
A
非理性(p) 合作 X=合作 X=合作
理性型(1-p) 合作 背叛 背叛
B 理性型 X=合作 X=合作 背叛
预期效用= 3+ 3p+(-1)(1-p) +4p+0=8p+2
(合作,背叛,背叛)
t=1 t=2 t=3
A
非理性(p) 合作 X=合作 X=背叛
理性型(1-p) 合作 背叛 背叛
B 理性型 X=合作 X=背叛 背叛
预期效用= 3+ 4p+0(1-p) +0=4p+3
(背叛,背叛,背叛)
t=1 t=2 t=3
A
非理性(p) 合作 X=合作 X=背叛
理性型(1-p) 合作 背叛 背叛
B 理性型 X=背叛 X=背叛 背叛
预期效用= 4+ 0 +0=4
(背叛,合作,背叛)
t=1 t=2 t=3
A
非理性(p) 合作 X=背叛 X=合作
理性型(1-p) 合作 背叛 背叛
B 理性型 X=背叛 X=合作 背叛
预期效用= 4+ -1 4p+0(1-p)=4p+3
图示
P=
4(背叛,背叛,背叛)
8p+2(合作,合作,背叛)
4p+3(合作,背叛,背叛)
(背叛,合作,背叛)
P
u
结论
只要δ≥时,下表所列战略组合是一个精炼纳什
均衡
- 理性型A在第1阶段选择合作,然后在第2阶段和第3阶段
选择背叛;
- B在第1和第2阶段选择合作,然后在第3阶段选择背叛。
t=1 t=2 t=3
A
非理性(p) 合作 X=合作 X=合作
理性型(1-p) 合作 背叛 背叛
B 理性型 X=合作 X=合作 背叛
一般结论
可以证明:如果博弈重复T次,只要δ≥时,
对于所有的T≥3,下列战略组合构成一个精炼纳
什均衡:
- 理性型A在第t=1,…,t=T-2阶段选择合作,然后在T
-1和T阶段选择背叛;
- B在第t=1,…,t=T-1阶段选择合作,在最后阶段T选
择背叛。
背叛只在最后两阶段出现。
双方不完全信息
在单方不完全信息下,只要δ< ,不论
博弈重复多少次,合作都不会出现;
如果双方信息不完全,即使小小的不确定性,
也会导致合作行为;只要博弈重复的次数足够
多(但不需要无限次);
原因在于,如果博弈重复的次数足够多,没
有任何一方愿意一开始就把自己的名声搞坏。
Grim Strategies
假定非理性型选择Grim Strategies;
如果A在一开始时就选择背叛,暴露了自己是非
合作型的,从第2期开始的唯一的均衡是每个人都
背叛,所以A的最大预期收益为:
4+0+0+……=4
假定寻找如下战略:开始选择合作,直到对方选
择不合作,之后永远背叛。最小的预期收益为:
p×(3T)+ (1-p)×(-1+0+0+……) = p×(3T)-(1-p)
合作条件
p×(3T)-(1-p)≥4
T*≥(5-p)/3p;
无论p多小,只要博弈重复的次
数足够多,一开始时就选择背叛不
是最优的。
KMRW定理
在不完全信息的情况下,只要博弈重复的次数足够多,
参与人就有积极性在博弈的早期建立起合作的声誉,只
是在博弈的后期,才会选择背叛,并且非合作阶段的数
量只与p有关,而与博弈的次数T无关;
看似不理性的行为其实是理性的。
“大智若愚”
应该树立什么样的形象?
合作与非合作
强硬与懦弱
对“不理智”(情绪化)行为的新解释
解开“连锁店悖论”
进入者
进入
不进入
(0,100)
在位者
默许
斗争
(-10,0)
(40,50)
Selten(1978):
声誉的积累
为什么越有名气的人越在乎自己的声誉?
终身教授的激励问题;
画家烦恼
政府的声誉
中国与英国有关香港问题的争论