第2讲:适应企业变化的思维
——博弈论
一、博弈论主要概念及表述
二、经典博弈思想的非技术表述
三、博弈论的应用
一、博弈论的主要概念及表述
(一)博弈概念与表述
以纸牌博弈为例说明:局中人、行动(行动组合)、信息、战略(战略组合)、支付(支付函数)、结果、均衡。
局中人(players):指做决策的个体。每个局中人的目标都是通过选择行动来使自己的效用最大化。
行动(actions):是局中人的决策变量。
战略(strategies)或策略,是局中人选择行动的规则,它告诉局中人在什么时候选择什么行动。
例如:“人不犯我,我不犯人;人若犯我,我必犯人”。这既包含了行动顺序,也包含了战略或策略。
信息(information)指局中人在博弈中的知识,特别是有关其他局中人(竞争者或对手)的特征何行动的知识。
支付(payoff)既可以被用来指实际支付,也可以用来指期望支付。在不同的场合会有不同的指代含义。
结果(outcome)是指在博弈结束后,建立博弈模型者从行动、支付和其他变量的取值中所挑选出来的他所感兴趣的要素的集合。或者,结果指博弈分析者感兴趣的要素的集合。
均衡(equilibrium):指所有局中人的最优战略组合或行动组合。或者,均衡s*=(s1*,…, sn*)指由博弈中的n个局中人每人选取的最佳战略所组成的一个战略组合。
局中人、行动和结果合起来统称为博弈规则(rules of the game),博弈分析的目的在于运用博弈规则来确定均衡
博弈的表述
双变量矩阵表:双变量指在两个局中人的博弈中,每一单元格都有两个数字——分别表示两个局中人的收益。
局中人B
左 右
上 2, 1 0, 0
局中人A
下 0, 0 1, 2
(二)博弈的分类:信息结构与行动结构
完全信息:指局中人完全了解其他局中人的收益或收益函数。通俗地说,局中人完全了解其他局中人的特征、战略空间及支付函数。
不完全信息:指博弈中至少有一个局中人不完全了解其他部分局中人的收益或收益函数。通俗地说,局中人可能不太清楚其他人的行动。
静态博弈:博弈中局中人同时选择行动,或虽然不是同时行动但后行动者并不了解前行动者采取了什么具体行动。例如:“石头、剪刀、布”的游戏。
思考题:1)田忌赛马的博弈是否属于静态博弈?2)当你知道对方40%出石头,30%出布和30%出剪刀,但不知道组合的顺序,你的优超战略是什么?
动态博弈:指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
例如:“象棋”;围棋;“升级或拖拉机”、“炒地皮”等纸牌游戏。
政府政策与企业行为之间“上有政策,下有对策”博弈:
—— 关税水平与走私、税收与逃税之间的博弈;
—— 政府与企业之间“鞭打快牛”博弈;
—— 政府官员“四菜一汤”廉正作用的博弈;
—— 国家药品监督管理局:一张处方只能开一种抗生素的博弈。
—— 国有企业经营者“59岁现象”的博弈。
基于信息结构和行动结构划分的博弈类型:
博弈的类型及对应的均衡概念
静态结构 动态结构
(战略博弈) (扩展博弈)
完全信息静态博弈 完全信息动态博弈
完全信息结构 Nash均衡 子博弈精练Nash均衡
不完全信息静态博弈 不完全信息动态博弈
不完全信息结构 贝叶斯Nash均衡 精练贝叶斯Nash均衡
(三)博弈的分类:零和与非零和博弈
按照博弈的收益分配结果划分,博弈可以划分为零和博弈和非零和博弈。
零和博弈指在博弈中一组局中人所得到的支付(或收益)恰好是另一组局中人的损失。通俗地说,博弈结果总合为零的博弈称为零和博弈。
非零和博弈指所有局中人的支付(或收益)的代数和不为零。
例如:赢钱与输钱为零和博弈;工会与厂方达成增加工资的协议双方获得“双赢”。反之,罢工导致“两败俱伤”。
—— 自然假设与自然参与博弈
1994年诺贝尔经济学奖获得者:
美国数学家John F. Nash; 德国经济学家Reinhard Selten; 美籍匈牙利经济学家John C. Harsanyi。
1928年Nash出生于美国,1950年获Princeton大学数学博士学位,曾先后任教于MIT和Princeton大学。其博士论文《非合作博弈》首次区分了合作博弈与非合作博弈,并且提出了非合作博弈的所谓Nash均衡概念。
2002年《美丽心灵》获多项奥斯卡奖。
二、经典博弈思想的非技术表述
(一)完全信息静态博弈:Nash均衡
1. Nash均衡的概念
通俗地说,Nash均衡(Nash equilibrium)指由全部局中人的最优战略组成的均衡。在其他局中人战略既定的情况下,没有任何单个局中人会选择其他战略,从而没有任何局中人会打破这种均衡。
Nash 均衡是一个稳定状态的解。在这个(“僵局”)状态下,每个局中人的决策依赖于均衡知识。
在纳什均衡中,协议可以得到自动实施(self-enforcing)。
出大鬼 局中人B 不出大鬼
出小鬼 左 右
上 2, 1 0, 0
局中人A
下 0, 0 1, 2
不出小鬼
* 支付矩阵(payoff matrix)
* 优超策略(dominant strategy)
2. Nash均衡的主要特征
(1)Nash均衡可能有多重解;
(2)Nash均衡可能是高成本的 —— 囚犯难题(the prisoner’s dilemma);
张 三
坦 白 不坦白
坦 白 -3, -3 0, -6
李 四
不坦白 -6, 0 -1, -1
囚犯难题表明:1)可能不是帕累托最优;2)集体/个体理性;3)强调制度安排的重要性;4)在现实政治经济中,合作具有积极普遍的意义。
(3) 可能不存在纳什均衡
基本假设:策略;预期效益。
小 偷
不 偷 偷
不睡觉 0, 0 0, -1
保安
睡 觉 1, 0 -1, 3
猜硬币博弈:每个局中人的战略空间为(正面,背面)。
局中人2
正面 背面
正面 -1, 1 1, -1
局中人1
背面 1, -1 -1, 1
在博弈中,一旦每个局中人都竭力猜测其他局中人的战略选择,就不存在Nash均衡。因为这时局中人的最优行动是不确定的,而博弈的结果必然要包含这种不确定性。
例如:股票市场。
3. Nash均衡:智猪博弈(boxed pigs)
假设按一下按钮支付2个单位成本,有10个单位猪食进入猪槽。又假设:1)大猪和小猪同时赶到,大猪吃7个单位,小猪吃3个单位;2)大猪和小猪同时按按钮又同时赶到猪槽,扣除2个单位成本后,大猪支付水平为7-2=5,小猪支付水平为3-2=1。3)大猪按按钮,小猪等待,小猪先赶到,小猪吃4个单位,大猪吃6个单位。大猪支付水平为6-2=4,小猪支付水平为4-0=4。4)小猪按按钮,大猪等待,大猪先赶到,大猪吃9个单位,小猪吃1个单位。大猪支付水平为9-0=9,小猪为1-2= -1。
大 猪
按 等 待
按 1, 5 -1, 9
小猪
等待 4, 4 0, 0
现实生活中的智猪博弈例子:
* 如果“大猪控股”和“小猪有限”都计划引进一种新产品,但为了获得公众的认同,须投入广告费用。如大猪控股打头阵,小猪有限跟进也可以获得一部分市场。相反,如小猪有限先进入,大猪控股就会后发制任,独占市场。
* 在每个行业中龙头企业都承担三个“大猪成本”:1)市场开拓成本——群狼策略;2)人才培训成本——猎头策略;3)商业模式创新成本——模仿策略。
* 在股票市场上,大户与小户的战略选择。小户的优超战略是“跟随大户”。大户必须自己搜集信息进行决策。
* 在移动通讯运营中,中国移动与中国联通机站设置;在麦当劳与中国快餐竞争中,中国快餐选址的战略。
* 公共设施或基础设施投资:富人与穷人的博弈。
4. Nash均衡:性别之战(battle of the sexes)
由路茨(Luce)和拉尔法(Raiffa)提出的著名博弈模型。假设:
1)联合行动收益大于非联合行动收益;
2)非合作基础:影响力或影响因子相同。
丈 夫
足 球 芭 蕾
足 球 2, 3 1, 1
妻 子
芭 蕾 1, 1 3, 2
评论:在性别之战中,任一Nash均衡都是帕累托最优,其他任一战略组合都不可能在不降低其他局中人支付的条件下提高另一局中人的支付。
Nash均衡假定局中人的信念是正确且一致的。
情形一:彼此不沟通或误解对方意图,出现非联合行动;
情形二:局中人不沟通,可以通过博弈的重复进行形成共同知识(common knowledge),也有可能出现Nash均衡。
情形三:局中人不沟通,但每晚重复进行这一博弈,他们将最终稳定在某一Nash均衡上。
问题:在性别之战的两个Nash均衡中,究竟最终是哪个?
在性别之战中,最终均衡究竟落在哪里?确定Nash均衡的最常见要素是先动优势(first-mover advantage)。在许多(但非全部)博弈中,先采取行动(这相当于承诺)的局中人拥有先动优势。
卡耐基:第一个拾到的是牡蛎,第二个拾到的是贝壳。
B企业
民用市场 军用市场
民用市场 -10, -10 30, 15
A企业
军用市场 15, 30 -10,-10
案例剖析:招商银行网上银行业务的先动优势。
在合作博弈中,影响性别之战均衡点的方式还包括:
(1)公平性合作战略
(2)补偿性合作战略
(3)随机行动策略
现实中性别之战博弈的例子:
* 同行业内的两大巨头选择行业标准的博弈。两家公司对标准的看法不同,但为了鼓励消费者的需求,都乐于采用统一标准。
* 软件或硬件产品中的标准;通讯市场中的技术标准。
* 商业竞争中的沟通、协调;客户关系与贸易伙伴;业务外包,以及跨国公司中的全球贸易伙伴战略等。
5. Nash均衡:斗鸡博弈(chicken game)/勇士博弈
勇士博弈是反映20世纪50年代美国青年的行为特征,并通过Jame Dean主演的电影典型地表现出来:某个青年集团中有A和B两人争斗集团头领。他们将通过一个勇气的测验来决定谁更勇敢,勇敢者就可以当头领。
测试规则如下:A与B各自驾驶自己的小车在一条道路上面对面朝对方高速开去,谁第一个让开谁就输掉。让开者被称为胆小鬼(chicken)而不能当头领。这样,如果两人斗不让开,结果是车毁人亡。如果两人同时让开,结果是平局。如果一方让开一方不让,让开者则既丢面子,又当不成头领。
勇士博弈的支付矩阵如下。
勇士博弈模型
局中人B
前 进 避 让
前进 0, 0 8, 2
局中人A
避让 2, 8 6, 6
勇士博弈的简单例子:公共产品(道路等)的提供;冷战时期的古巴导弹危机;美苏对朝鲜半岛的划分;警察与游行队伍距离;夫妻吵架。企业产品销售中的竞争。
勇士博弈中的有效策略:高速恫吓或威慑。
6. Nash均衡:市场进入阻挠(entry deterrance)
设局中人A为潜在市场进入者,局中人B为现有市场的占有者。具体博弈模型如下所示:
局中人B:占有者
接 纳 竞 争
进入 20, 30 -10, 0
局中人A:
进入者 不进入 0, 100 0, 100
Nash均衡:(进入,接纳)(不进入,竞争)
7. Nash均衡:聚点(focal points)
在以下的选择中,如果你的选择与其他局中人的选择一致的次数越多,你就赢得越多,那么,请问你在博弈中将采取什么战略?
(1)选择下述一个数并画圈:7,100,13,261,99,666。
(2)你要在中山大学与一个没有来过中山大学的高中同学会面,应在什么公共地点碰头?
(3)选择下述一个数并画圈:14,15,16,17,18,100。
(4)你与他人一起分蛋糕,你们各自报出期望分到的比例,但如果你们报的比例之和超过100%,大家都将一无所获。
评论1:在上述博弈中,每一个题目都有许多Nash均衡。但是,在这些Nash均衡中,总有一些看起来或多或少要更有可能些。这些特点的战略组合就称为聚点。
聚点,就是出于心理或其他非理性原因受到人们关注的那些Nash均衡。
评论2:在重复博弈中,以往的经历或做法通常就确定了聚点的位置。例如,如果我们第一次分蛋糕,往往彼此可能会同意五五分成。但是,如果上次曾经按四六分成过,这个比例就为这次划分蛋糕提供了一个聚点。
现实生活中聚点的例子:习惯法;企业内部薪酬结构;承包分成基数;沙滩零售店;成行成市等。
评论3:边界(boundary)是一种特殊的聚点。在边界外的行为存在极度的不确定性。边界一旦确定就具有重要的作用和公共约束力,如共同知识成为一种边界后,就构成行动规则。
例如,在商业领域,两家生产不益于健康的产品的公司可能会达成某种默契,彼此都不在广告中提及各自产品的相对健康程度。这就构成了边界。但是,“如果你喜欢不妨提一下,只要不大肆渲染就可以了”这样的边界往往不被接受。
思考:现实中还有哪些边界的例子?家庭分工等。
评论4:在没有明确清楚的聚点之前,调解(mediation)和沟通(communication)是十分重要的两种手段。
例如:科斯定理与制度经济学;企业制度;商业纠纷或家庭财产纠纷中的律师或法庭。
(二)完全信息动态博弈:子博弈精练Nash均衡
1. 子博弈精练Nash均衡的概念
子博弈,指包含在一个博弈模型中的一个或若干个阶段博弈。
例如,从选择攻读研究生学位开始到就业一个博弈过程,其中,考取研究生后是否选择硕博连读是这个博弈中的一个子博弈。
子博弈精练Nash均衡:当只当局中人的战略在每一个子博弈中都构成Nash均衡,即组成精练Nash均衡的战略必须在每一个子博弈中都是最优的。
2. 手雷博弈
第一步:局中人A选择支付1000元给局中人B还是一分不给;
第二步:局中人B观察局中人A的选择,然后决定是否引爆一颗手雷将两个人一起炸死。
假设局中人B威胁局中人A,如果他不支付1000元就引爆手雷。
1)如果局中人A相信这个威胁,其最优反应是支付1000元。
2)如果局中人A不对这个威胁信以为真,因为它不可信;即使给局中人B一个机会,让他将威胁付诸实施,局中人B也不会选择去实施它,这样,局中人A就会一分不付。
3. 威胁与威慑
(1)不可信的与可信的威胁
* 不可信威胁模型 潜在进入企业
高 价 低 价
高 价 100, 80 80,100
现有企业
低 价 20, 0 10, 20
可信威胁:U1 > U2; 不可信威胁: U2 > U1
* 战略信息的非对称与威胁
(2)威慑
潜在的进入企业
进入 不进入
高价(接纳战略) 50/20,10 100/70,0
现有企业
低价(竞争战略) 30, -10 40, 0
* 威胁与威慑的差别(明确与潜在进攻或制裁信号)
* 承诺行动:指局中人使自己的威胁战略变得可信得行动。通过承诺行动,局中人可以明确地告诉其他局中人其威胁是可信的威胁,而不是不可信的威胁。
例如:企业威胁;“破釜沉舟”;台湾问题。
4. Selten连锁店博弈模型
假设有一家连锁店(局中人A)在20个城镇中有分店,其编号为1,2,…,20。同时,在每一个城镇都有一个潜在的竞争者,即有一家小公司可能通过银行贷款建立同样类型的商店,第k个城镇的潜在竞争者被称为局中人k。这样,就形成了一个局中人A与它的20个潜在竞争者,即局中人k,k=1,…,20之间的一场博弈。
如果从传统的博弈论来考虑问题,结论应该是每个潜在竞争者在条件许可下,都会采取“进入”策略,即开设一家与连锁店同类型的商店,而连锁店则应该对新开设的商店采取“合作”策略,以便取得更多的收益。
但是,这个结论显然与实际情况不符合。几乎所有的人都会认为,连锁店应该对新开设的商店采取“攻击”策略,以保持其垄断地位。另外一种解的方案是连锁店对前17家商店采取“攻击”策略,而对后三家采取“合作”策略。这种方案似乎更符合实际。
Selten对这个“连锁店博弈悖论”进行了深入分析,提出了分层次的理性抉择的概念,认为人们对察觉到的理性解决方案,不一定会采取行动。
Selten连锁店博弈模型的应用:
—— 爱情博弈模型:n个小伙子同时爱上一位姑娘,每个小伙子的占有策略是什么?
对于任意局中人i,竞争者均为n-1个。
—— 毛泽东抗日战争与解放战争时期的策略:
* 抗日战争时期:抗日民族统一战线;
* 解放战争时期:初国民党顽固派之外的所有力量。
—— 春秋战国时期:秦国“远交近攻”策略。
—— 管理学院MBA、EMBA、MPAcc、MPM广告的投放策略
5. 重复博弈(repeated play)
重复博弈,即战略依存的厂商(局中人)在长期内相互竞争的状态。
在现实中,寡头垄断厂商之间存在重复博弈。重复博弈将改变局中人对博弈的观点,并产生基于长期考虑的新战略,即重复博弈的一种可能结果是产生合作行为。
典型的合作行为包括:
* 公开串谋(explicit collusion)——卡特尔(cartel)
* 暗中串谋(tacit collusion)—— a)针锋相对(tit for tat);b)主导价格(price leadership)。
毛泽东博弈;中国帝王激励机制。
(三)不完全信息静态博弈:贝叶斯Nash均衡
有时,人们将不完全信息博弈称为贝叶斯博弈。在完全信息博弈中,局中人的支付函数是共同知识。在不完全信息博弈中,至少有一个局中人不能确定另一局中人的支付函数。
局中人的类型:将一个局中人所拥有的所有私人信息称为他的类型。或者,局中人的所有私人信息称为类型。
贝叶斯纳什均衡就是这样一种类型依从战略组合:
在给定自己的类型和其他局中人类型的概率分布的情况下,每个局中人的预期效用达到最大化,即没有人有积极性再选择其他战略。
1. 贝叶斯纳什均衡:求爱博弈
假设当有人向你求爱时你是否接受依赖于对求爱者品德的判断。假设如果你准确知道求爱者品德良好,则选择接受;反之则不接受。但是,你可能并不准确地知道求爱者的品德。这时,你的决策依赖于在多大程度上相信他是一个品德优良(或恶劣)的人。下面分别是两种情况下的支付矩阵。
假设无论求爱者品德如何,只要他求爱你接受,他就得到100。但你的支付依赖于求爱者的类型,接受一个品德良好的求爱者得100,反之则损失100。求爱者(不论类型如何)在你拒绝时损失50。
讨论:假设你认为求爱者品德优良的概率为p。求爱者也知道这个p为多少,那么,他求爱你接受时你的预期效用为100p+(-100)(1-p),不接受时的预期效用为零。
1)当p>1/2时,接受才是最优选择。
2)如果p确实大于1/2,贝叶斯(纳什)均衡是:求爱者求爱,你接受。
3)如果p<1/2时,贝叶斯(纳什)均衡为:求爱者不求爱,你不接受。
2. 贝叶斯纳什均衡:市场进入博弈
假设进入企业只有一种类型,现有企业有高成本和低成本两种类型。或者说,进入企业具有不完全信息,而现有企业具有完全信息。
对应两种成本情况的不同战略组合的支付矩阵如下:
现有企业
高成本情况 低成本情况
接纳 竞争 接纳 竞争
进入 40,50 -10, 0 30,80 -10,100
进入企业
不进入 0, 300 0,300 0,400 0, 400
在该模型中,进入企业有关现有企业的成本信息是不完全的,但现有企业了解进入企业的成本函数。如果现有企业是高成本,当进入企业进入时最优选择时接纳。如果是低成本,则最优选择是竞争。
在不完全信息条件下,进入企业的最优选择依赖于它在多大程度上认为现有企业是高成本或低成本的。
在给定进入企业选择进入的情况下,现有企业选择接纳还是竞争依赖于其类型。如果是高成本则接纳,如果是低成本则竞争。进入企业不知道现有企业的真实类型,但知道高成本的概率为p,低成本的概率为(1-p),这样,进入企业选择进入获得的预期利润为40p+(-10)(1-p),选择不进入获得预期利润为零。
计算表明,当p>时,进入获得的预期利润才大于不进入时的预期利润,因而进入才是最优的。
假设p大于,那么,贝叶斯(纳什)均衡是:进入企业选择进入,高成本现有企业选择接纳,低成本现有企业选择竞争。
(四)不完全信息动态博弈:精练贝叶斯均衡
1. 基本概念
精练贝叶斯均衡是完全信息动态博弈的精练纳什均衡与不完全信息静态博弈的贝叶斯纳什均衡的结合。
“颤抖手均衡”:即使其他局中人以较小的概率采取均衡路径以外的行动,构成均衡的战略仍然必须是局中人的最优反应(也就是说,其他局中人的手会“颤抖”)。
例如:是否敢斩断手指的打赌博弈。
精练贝叶斯均衡的模型 —— 黔驴博弈
—— 海尔公司赛马论
一个精练贝叶斯均衡是一个战略组合s和一组信念μ,使得在博弈的每一个结点上都有:
(1)给定其他局中人的信念和战略,博弈剩余部分的战略是纳什均衡战略;
(2)给定博弈到目前为止的历史,局中人在每一个信息集上的信念都是理性的(这意味着局中人假设他们位于均衡路径上,只要有可能,局中人就根据观察到的行动,通过贝叶斯法则来修正后验概率)。
精练贝叶斯均衡的关键在于局中人需要根据观察到的其他局中人的行为来修正自己有关后者类型的信念(主观概率),并由此选择自己的行动。这里,局中人使用贝叶斯规则进行修正。
注意:与其他均衡概念不同,精练贝叶斯均衡不能仅仅定义在战略组合上,它必须同时说明局中人的信念,因为最优战略是相对于信念而言的。
2. 精练贝叶斯均衡:市场进入博弈
在市场进入博弈中,现有企业可能是低成本的,也可能是高成本的,进入企业事先并不知道。在静态博弈中,进入企业只能根据先验判断选择进入还是不进入,现假设现有企业先行动,如定价等,用P表示价格。这样,P本身可能包含有关现有企业成本函数的信息,因为不同成本函数下的最优价格是不同的。又假设存在一个价格P*,只有低成本企业才有利可图,而高成本企业是不会模仿这个价格的。
精练贝叶斯均衡为:低成本的现有企业选择P*,高成本企业选择一个较高的垄断价格。如果进入企业观察到现有企业选择了P*,就推断其为低成本,则不进入;否则,就推断现有企业为高成本,则进入。
四、博弈论的应用
(一)博弈思想的初步模型化:搭便车分析
假设:学生A和B各有财产300元;对风扇的福利评价分别为100元,风扇价格为160元,合伙买风扇的收益为200-160 =40元。
学生B
买风扇 不买风扇
买风扇 320,320 240,400
学生A
不买风扇 400,240 300,300
搭便车问题的主要解决方案:
—— 中央集权制;
—— 投票制:少数服从多数;
—— 征收克拉克税。
—— 绩效评估
现实中的搭便车现象及解决方式:
—— 灯塔、路灯等公共设施;
—— 污染等环境问题;
—— 大学中抄作业等舞弊行为;
—— 各种滥竽充数的广告、产品或服务。
现实政治与外交中的博弈原模:
(1)中国大陆对台湾的威慑行动
台湾当局
分 裂 统 一 维持现状
和平 -20/-50, 30 80/50, 10 60/30, 15
中国政府
战争 -10, 5 40, -20 -10, -10
假设:中国大陆做好武力解决台湾的军事准备的成本为30,可能的均衡为(40,-20),最终均衡为(50,10)。
(2)美国轰炸中国驻南使馆的可能的决策推导
胜利 恶化
目标成功 剧烈反应 改善关系
轰炸 倒退 恢复关系
目标不成功 理赔
一般反应 恶化
不理赔 倒退
不轰炸 停止 失败
地面战
不停止 胜利
失败 长期空袭
小结:企业家的复杂博弈环境
企业成长环境
动力博弈(创造) 潜力博弈(空间)
企业员工 企业家 客户/供应商
能力/毅力博弈(震撼) 合力/和力博弈(领导)
竞争者
企业家的博弈场
完全依靠企业家个人能力,或者企业核心团队连续24小时不睡觉,能否胜任企业复杂多变的博弈环境?
怎么办???