博弈论与信息经济学
Game Theory and Information
Economics
第二局部
非合作博弈理论
第二章 策略型博弈
第三章 扩展型博弈
第四章 贝叶斯博弈
第五章 动态贝叶斯博弈
主要内容
第一节 策略型博弈的表示
第二节 重复剔除严格劣策略均衡
第三节 纳什均衡
第四节 混合策略纳什均衡
第五节 纳什均衡的存在性
第二章 策略型博弈
——同时行动,如何决
策
策略型(标准型〕表述
——适合表示静态博弈
扩展型表述
——适合表示动态博弈
博弈有两种表述方法
一、策略型博弈的含义
完全信息静态博弈又称为策略型博弈。完全
信息是指局中人对自己与其他局中人的所有与博弈
有关的事前信息〔策略空间、支付函数等〕有充分
的了解(局中人的支付函数是共同知识)。静态博弈
是指在博弈中,局中人同时采取行动,或者局中人
的行动有先有后,但后行动者不能知道先行动者的
行动选择。
第一节 策略型博弈的表示
二、策略型博弈的三个要素:
1、局中人〔Players): 1, 2, …, n;
2、策略〔Strategies):
;
3、支付函数 〔Payoff functions)
表示为:
第一节 策略型博弈的表示
1、有限博弈:
(1) 博弈中局中人人数有限;
(2) 每个局中人只有有限个策略。
2、零和博弈:
博弈中局中人所获支付之和为零,即一
方所得为另一方所失。
三、两种特殊博弈类型、两种特殊博弈类型
1、局中人:甲,乙
2、策 略: {坦白,不坦白}
3、支付函数——支付矩阵〔双人有限博弈〕
每个位置上第一个数字表示局中人1在对应的策略组
合中得到的支付,第二个数字表示局中人2的相应所
获支付。
例 囚徒困境及其策略型表示囚徒困境及其策略型表示
(Tucker,1950)(Tucker,1950)
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
不坦白 -8,-1 -2,-2
囚徒困境的支付矩阵
乙
甲
石头 剪刀 布
石头 0,0 1,-1 -1,1
剪刀 -1,1 0,0 1,-1
布 1,-1 -1,1 0,1
例例 石头、剪刀、布的支付矩阵石头、剪刀、布的支付矩阵
田忌
齐王
上中下 上下中 中上下 中下上 下上中 下中上
上中下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1
上下中 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1
中上下 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1
中下上 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1
下上中 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1
下中上 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3
例例 田忌赛马的支付矩阵田忌赛马的支付矩阵
局中人:男,女
策 略:男:看足球,看芭蕾
女:看足球,看芭蕾
支付矩阵:见下一页
例 性别大战〔battle
of the sexes)
女
男
足球 芭蕾
足球 3,2 1,1
芭蕾 -1,-1 2,3
性别大战的支付矩阵
一、根本思想:
如果一个局中人在任何情况下从某种策略
中得到的支付均小于从另一种策略中得到的支付,
那么显然对他而言,前一种策略劣于后一种策略。
从个人利益出发,被剔除的策略不会被局
中人采用。从而可以利用剔除严格劣策略的概念来
简化博弈局势,可能会得到博弈的解。
第二节 重复剔除严格劣策略均衡
,如果存在 ,对于所
有的
都有
且其中至少有一个为严格不等式 ,那么称 是
第i个
局中人的一个严格劣策略。
二、严格劣策略的定义
1、根据理性的局中人不会选择严格劣策略这一原那么,
可以通过重复剔除严格劣策略的方法对博弈进行求解。
2、其方法是:对每个局中人寻找严格劣策略,由于它不
会被局中人选择实施,所以找到一种后就可以将其从博弈
局势中剔除,从而得到一种新的缩减后的博弈局势,对这
种新局势重复上述过程,直到无法找到新的严格劣策略为
止。
三、重复剔除严格劣策略
对局中人甲而言,无论局中人乙采取何种策略,采
用“不坦白〞策略得到的支付都小于采用“坦白〞策略。
局中人甲的“不坦白〞策略严格劣于“坦白〞策略.
“不坦白〞策略都是一种严格劣策略,从而可以剔
除。博弈中局中人各自从自身利益出发的理性选择〔博
弈均衡解〕就是〔坦白,坦白〕。
四、囚徒困境的解、囚徒困境的解
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
不坦白 -8,-1 -2,-2
例 囚徒困境的支付矩阵
甲:“不坦白〞相对于“坦白〞是严格劣策略
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
乙:“不坦白〞相对于“坦白〞是严格劣策略
乙
甲
坦白
坦白 -6,-6
·
例 利用重复剔除严格劣策略求解
乙
甲
左 中 右
上 1,0 1,2 0,1
下 0,3 0,1 2,0
·
乙:“右〞相对于“中〞是严格劣策略
乙
甲
左 中 右
上 1,0 1,2 0,1
下 0,3 0,1 2,0
·
甲:“下〞相对于“上〞是严格劣策略
乙
甲
左 中
上 1,0 1,2
下 0,3 0,1
·
乙:“左〞相对于“中〞是严格劣策略
乙
甲
左 中
上 1,0 1,2
·
重复剔除严格劣策略均衡是(上,中
)
乙
甲
中
上 1,2
1、每一步剔除需要局中人间相互了解的更进一步假定,
如果我们把这一过程应用到任意多步,需要假定“局中人
是理性的〞是共同知识。
2、这一方法对博弈结果的预测经常是不准确的.
五、重复剔除严格劣策略有两个缺陷
乙
甲
石头 剪刀 布
石头 0,0 1,-1 -1,1
剪刀 -1,1 0,0 1,-1
布 1,-1 -1,1 0,0
例例 石头、剪刀、布的支付矩阵石头、剪刀、布的支付矩阵
利用重复剔除严格劣策略无法求解
例 利用重复剔除严格劣策略无法求解
乙
甲
左 中 右
上 0,4 4,0 5,3
中 4,0 0,4 5,3
下 3,5 3,5 6,6
大多数的博弈局势中使用剔除严格劣策略的
方法能够对博弈局势进行简化,但可能得不
到博弈的均衡解。
需要引入非合作博弈理论中的核心概念
——纳什均衡 (Nash Equilibrium)。
六、注意
一、纳什均衡的思想
“双赢〞 或 “多赢〞
第三节 纳什均衡
它是关于博弈结局的一致性预测
如果所有局中人预测一个特定的纳什均衡
会出现,那么这种均衡就会出现。
只有纳什均衡才能使每个局中人均认可这
种结局,而且他们均知道其他局中人也认可这种结
局。
二、纳什均衡的意义
1、博弈的纳什均衡是这样一种最优策
略组合,是一种你好、我好大家都好的理性结局,
其中每一个局中人均不能也不想单方面改变自己的
策略而增加收益,每个局中人选择的策略是对其他
局中人所选策略的最正确反响。
三、纳什均衡的定义
2、数学定义:
在策略型博弈
中,如果对于每个局中人i,存在 ,都有
或
那么称策略组合 是此博弈G的一个纳
什均衡。
三、纳什均衡的定义
1、双人有限博弈:双划线法
首先对局中人2的每一个策略,局中人1寻找支
付最大的策略,在其对应支付下划线;
然后对局中人1进行相应的步骤;
最后,但凡两个局中人支付下均被划线的结局
就是纳什均衡。
四、纳什均衡的求法
用双划线法可以求出纳什均衡:
〔坦白,坦白〕,〔-6,-6〕
意义:揭示个人理性与集体理性之间的矛盾。
例 囚徒困境的纳什均衡
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
不坦白 -8,-1 -2,-2
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
不坦白 -8,-1 -2,-2
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
不坦白 -8,-1 -2,-2
局中人:大猪,小猪
策 略:大猪:按,等待
小猪:按,等待
支付矩阵:见下一页
纳什均衡:〔按,等待〕
例 智猪博弈〔boxed pigs)
小猪
大猪
按 等待
按 5,1 4,4
等待 9,-1 0,0
例 智猪博弈的支付矩阵
小猪
大猪
按 等待
按 5,1 4,4
等待 9,-1 0,0
小猪
大猪
按 等待
按 5,1 4,4
等待 9,-1 0,0
女
男
足球 芭蕾
足球 3,2 1,1
芭蕾 -1,-1 2,3
例 性别大战博弈的支付矩阵
女
男
足球 芭蕾
足球 3,2 1,1
芭蕾 -1,-1 2,3
女
男
足球 芭蕾
足球 3,2 1,1
芭蕾 -1,-1 2,3
局中人:甲,乙
策 略:甲:放左手,放右手
乙:猜左手,猜
右手
支付矩阵:见下一页
没有纳什均衡
例 猜左右手游戏
乙
甲
猜左手 猜右手
放左手 -1,1 1,-1
放右手 1,-1 -1,1
乙
甲
猜左手 猜右手
放左手 -1,1 1,-1
放右手 1,-1 -1,1
乙
甲
猜左手 猜右手
放左手 -1,1 1,-1
放右手 1,-1 -1,1
2、连续性博弈纳什均衡的求法
首先求出每个局中人对其他局中人策略组
合的反响函数——即在其他局中人策略组合给定
时极大化自己的支付,得到的最正确反响策略表
现为其他局中人策略组合的函数;
然后将这些反响函数联立求解即得到博弈
的纳什均衡解。
四、纳什均衡的求法
局中人:厂商1,厂商2
策 略:厂商1:选择产量
厂商2:选择产量
假 设:价格
支付函数 (利润函数) :
例 两寡头产量竞争Cournot〔1838〕模型
Cournot 模型求解
反响函数:
纳什均衡:
Cournot 模型求解
假设两寡头可以串谋,共同确定产量Q使总利润最大化,
利润函数为:(Q)=Q(a-Q-c)
总利润最大的产量为:
——称为契约曲线
总利润为:
比较及含义:
两寡头产量串谋模型
Q1
厂商2的反响曲线
纳什均衡
契约曲线
厂商1的反响曲线
O
Q2
图1 反响曲线、纳什均衡与契约曲线
局中人:厂商1,厂商2
策 略:厂商1选择价格 ;厂商2选择价格
假 设: 两寡头固定本钱都为0,边际本钱为常数c,
消费者对厂商1和2生产产品的需求量分别为:
;
例 两寡头价格竞争Bertrand〔1883〕模型
支付〔利润〕函数:
最优化的一阶条件是:
Bertrand〔1883〕模型及求解
反响函数:
纳什均衡价格:
Bertrand〔1883〕模型及求解
在n个局中人的策略型博弈中,
1、如果重复剔除严格劣策略剔除掉除策略组合s以
外的所有策略,那么这一策略组合s为该博弈的唯一的纳什均
衡。
2、如果策略组合s是一个纳什均衡,那么它就不会
被重复剔除严格劣策略所剔除。
纳什均衡是比重复剔除严格劣策略更强的解概念。
五、纳什均衡与重复剔除严格劣策略均衡
一、举例说明混合策略纳什均衡
例 猜左右手游戏
第四节 混合策略纳什均衡
乙
甲
(q)
猜左手
(1-q)
猜右手
(p)
放左手 -1, 1 1, -1
(1-p)
放右手 1, -1 -1, 1
在甲选 ,乙选
这种策略时,
他们的期望效用分别为:
混合策略与期望效用
甲和乙的目标是:
最优化的一阶条件是:
混合策略纳什均衡
混合策略纳什均衡为:
混合策略纳什均衡
1、混合策略〔mixed Strategy)
局中人 i 的一个混合策略
是在其纯策略空间
上的一个概率分布,其中
是 i 选择策略
的概率。局中人 i的混合策略空间 是他
的所有混合策略构成的集合。
纯策略可以理解为混合策略的特例。如
等价于
二、混合策略纳什均衡
在混合策略组合 下,局中人 i的
期望效用函数为:
其中
2、期望效用函数
在策略型博弈 中,如果对于
每个局中人 i,存在 ,都有
或
那么称 是博弈G的一个混合策略纳什均衡。
3、混合策略纳什均衡
奇数定理 (Wilson 1971) :几乎所有的有限
博弈都有奇数个纳什均衡。
4、奇数定理
例 社会保障博弈
局中人:政府和下岗工人
策 略:政 府:救济,不救
济
下岗工人:找工作,
不找工作
支付矩阵为:
三、应用举例
工人
政府
找工作 不找
救济 3,2 -1,3
不救济 -1,1 0,0
女
男
足球 芭蕾
足球 3,2 1,1
芭蕾 -1,-1 2,3
求出性别大战博弈的混合策略纳什均衡
定理1:〔Nash, 1950〕每个有限策略型博弈至少存在一
个纳什均衡〔纯策略的或混合策略的〕。
第五节 纳什均衡的存在性
Brouwer不动点定理:如果X是非空的有界闭凸集,
f(x)是X到自身的连续映射,那么至少存在一个xX,使得
f(x)=x,x称为不动点。
Kakutani不动点定理:设f(X)是点集X上的一个集值
映射,如果X是非空的有界闭凸集,并且对于所有的xX,
f(x)是非空的、凸的且上半连续的,那么至少存在一个xX
,使得 xf(x),x称为不动点。
纳什均衡的存在性证明
1、集值映射:对于集合X上的任何一个点x,如果f(x)给
出唯一的一个点yY,那么f(x)称为从X到Y的映射;如果f(x)
给出一个集合f(x)Y,那么f(x)称为从X到Y的集值映射。
映射是集值映射的特例。
2、上半连续:设f(x)是X到自身的一个集值映射,
如果对于所有的xX和包含f(x)的开集V,都存在x的一个
邻域U,使得对于所有的xU,有f(x)V,那么称f(x)是上半
连续的。
注:集值映射和上半连续
定理2:(Debreu, 1952 ; Glicksberg,1952 ; Fan, 1952)
在n人策略型博弈中,如果每个局中人的纯策略空间Si是欧氏空
间中的一个非空的有界闭凸集,支付函数ui(s)是连续的且对si
是拟凹的,那么该博弈存在一个纯策略纳什均衡。
定理3:(Glicksberg,1952) 在n人策略型博弈中,如果每
个局中人的纯策略空间Si是欧氏空间中的一个非空的有界闭凸
集,支付函数ui(s)是连续的,那么该博弈存在一个混合策略纳
什均衡。
定理1的推广:从有限到无限