经济博弈论
经济博弈论
第一章 博弈论概况
博弈及博弈论
博弈及博弈论的发展
博弈论与经济学
博弈论的构成要素
博弈论的分类
一、博弈及博弈论
“博弈论” 是译自英文Game Theory。Game是游戏,Game,Theory就是游戏理论。因此,博弈就是游戏的意思,博弈论的英文直译就是“游戏理论” 。
游戏是大家非常熟悉的活动,如下棋、打牌、博彩、田径、球赛等。这些游戏一般有如下一些特征∶第一,一般均有两个及以上的参与人。第二,都有一定的规则。如可以做什么,不能做什么,按什么次序做,什么时候结束及犯规处罚等。第三,游戏总有一个结果。如一方输,一方赢,平局或参与者各有所得等,且结果一般能用正或负的数量表示。第四,战略(也称计谋或策略)的不同选择对应不同的游戏结果。战略在游戏中的作用至关重要。战略间有相互依存性,即游戏的每个参加者所得结果好坏,不仅取决于自己战略的选择,同时也取决于其他参加者的战略选择。
人们发现许多经济、政治、军事活动中的决策问题,也与游戏有着基本相似的特征。为了扩大游戏及游戏理论的应用领域,一般将Game译成博弈,而将Game Theory译成博弈论。
博弈就是参与人(可能是个人,也可能是团体,如国家、企业、国际组织等)在一定的规则下,同时或先后,一次或多次,从各自允许选择的行动或战略中进行选择并加以实施,而取得相应结果(支付函数)的过程。
博弈论就是系统研究具有上述特征的博弈问题,寻求各博奕方合理选择战略情况下博弈的解,并对这些解进行讨论分析的理论。
作为游戏的博弈,应该说自从游戏的产生,就有了博弈的实践活动。如我国战国时代为大家所熟悉的“田忌赛马”。以后进一步扩展到军事领域,从“三国演义”中可以找到很多著名的博弈例子。
但将博弈上升到理论阶段,却是在20世纪。20世纪20年代,法国数学家波雷尔用最佳策略的概念研究了下棋和其他一些具体的博弈问题,并试图将其作为应用数学的分支加以系统研究。第二次世界大战期间,博弈的思想及研究方法被运用到军事领域和战时的其他活动之中。如用博弈的方法研究盟军在日本空军敢死队(神风突击队)在各种攻击情况下的应对措施。
1944年,约翰.冯.诺依曼()和摩根斯特恩(Morgensten)合著的《竞赛论与经济行为》被认为是系统研究博弈理论的开端。
二、博弈及博弈论的发展
20世纪50至80年代,被认为是博弈论巨人产生的年代。50年代,纳什(Nash)定义了“囚徒困境”并提出“纳什均衡” ,奠定了非合作博弈的基石。60年代,泽尔腾(Selten)(1965年)将纳什均衡的概念引入动态博弈,提出“精炼纳什均衡”概念。海萨尼(Harsanyi)(1967-1968年)则把不完全信息引入博弈论的研究,提出“贝叶斯纳什均衡”。到80年代,克瑞普斯(Kreps)和威尔逊(Wilson)等将不完全信息引入动态博弈中,提出了“精炼贝叶斯纳什均衡”。
但在20世纪70年代中期之前,博弈论主要还是作为数学的一个分支。博弈论真正得到重视并成为主流经济学的一部分不过是最近一二十年的事。现在,博弈论正在得到经济学科的接受和运用,贯穿了几乎整个微观经济学,并且已扩展到宏观经济学,产业组织理论,在环境,劳动,福利经济学等方面的研究中也占有重要地位,大有“吞噬”整个西方现代经济理论的趋势。
三、博弈论与经济学
(一)从新古典经济学到主流经济学
博弈论用于研究经济中的决策问题时,一般称为经济博弈论。
新古典经济学认为,经济学是研究面对人的无限欲望与有限资源,如何有效配置这些稀缺资源。经济学中的理性人(即面临给定条件下最大化自己偏好的人)在最大化自己的偏好时,需要相互合作,而合作中又存在冲突。为了实现合作的潜在利益和有效的解决合作中的冲突,理性人发明了各种各样的制度来规范人们的行为。价格制度(又称市场制度)就是人们为达到合作和解决冲突而发明的一种最重要的制度。传统的新古典经济学就是以价格制度为研究对象的,故又称为价格理论。新古典经济学有两个基本假定∶(1)市场参与者的人数足够多,从而市场是完全竞争的,(2)参与人之间的信息是对称的。但这两个假设在现实中一般是不满足的。
首先,在现实中,买卖双方的人数往往是非常有限的,这时的市场不可能是完全竞争的。在不完全竞争的市场上,人们之间的行为不是相互独立的,而是相互影响的。因此,一个人在决策时必须考虑对方的决策,这正是博弈论要研究的问题。
其次,在现实市场中参与者的信息一般是不对称的,如卖者对商品质量的了解通常比买者多。当参与人之间的信息不对称时,任何一种有效的制度安排必须满足“激励相容” 的条件。而这正是不完全信息博弈研究的内容。
而且,不完全信息使得价格制度常常不是实现合作和解决冲突最有效的制度安排。如学校、家庭、政府、企业等的一些决策问题,用非价格制度来解决冲突也许更为有效。非价格制度最显著的特征是参与人之间行为的相互作用。而博弈论最鲜明的特点正是研究理性人如何在给定的约束条件下选择行动及行动间的相互作用的。
因此,当20世纪70年代经济学家开始将注意力由价格制度转向非价格制度时,即当主流经济学取代新古典经济学而占据经济学的主导地位时,主流经济学家认为经济学的研究对象主要是研究人的行为及行为间的相互影响及相互作用时,博弈论逐渐成为经济学的基石。从这个意义上讲,不掌握博弈论的一些基本知识,就不能很好的理解经济学。
(二)经济学发展的几个趋势
博弈论成为主流经济学的基石,反映了经济学发展的几个趋势∶
1、经济学研究的对象越来越转向个体。放弃了一些没有微观基础的假定,如消费函数、投资函数、销售最大化等。一切从个人效用函数及其约束条件开始,解约束条件下的个人效用最大化问题而导出行为及均衡结果。而这正是博弈论研究的模式∶给出个人的支付函数及战略空间,然后看当每个人都选择最优战略以最大化个人支付函数时将发生什么。
2、经济学越来越转向人与人关系的研究,特别是人与人之间行为的相互影响及作用,人们之间利益的一致与冲突,竞争与合作的研究。
过去经济学研究个人行为时,是假定其他人的行为都被总结在一个非人格化的参数 价格里,人们行为之间的相互作用是通过价格来间接完成的。但现在经济学开始转向对人与人之间的直接关系的研究。并注意到个人理性可能导致集体非理性,而传统经济学认为价格可以使个人理性和集体理性达到一致。
3、经济学越来越重视对信息的研究,特别是信息不对称对个人选择及制度安排的影响。而博弈论成为主流经济学的一部分,正是伴随着经济学对信息的重视而来的。从某种意义上说,信息经济学是博弈论应用的一部分,或者说信息经济学是非对称信息博弈论。
(三)博弈论与经济学的关系
严格地讲,博弈论并不是经济学的一个分支,许多人把它看成是数学的一个分支。如纳什在1951年发表的关于博弈论的奠基性文章就是发表在数学杂志上,而不是在经济学杂志上。
但从1994年经济学诺贝尔奖授给纳什,泽尔腾和海萨尼三位博弈论专家后,博弈论被当成经济学的一部份,并成为主流经济学的基石。其原因是
1、博弈论在经济学中的应用最广泛、最成功。博弈论的许多成果是借助于经济学的例子发展起来的,如市场阻挠。
2、经济学家对博弈论的贡献越来越大。将动态分析和不完全信息引入博弈论的就是经济学家的功劳。如1982年克瑞普斯
(Kreps)和威尔逊(Wilson)等4人建立的有关信誉问题的著名的“四人帮模型” 。克瑞普斯和威尔逊都是经济学家。
3、经济学和博弈论研究的模式是一样的。这是最根本的原因,经济学和博弈论都强调个人理性,即在给定的约束条件下追求效用最大化。
博弈论在西方经济学的地位可以从国外流行的经济学教科书的内容的变化中体现出来。
四、博弈论的构成要素
我们用一个例子来说明博弈论的构成要素。
有一房地产开发商A,正考虑在某地段开发一栋写字楼。面临的选择是开发或不开发,若开发,需投入5千万资金;若不开发,投入资金为零。其竞争对手开发商B也面临同样的选择。如果市场上有两栋楼出售,需求大时,每栋售价7千万;需求小时,每栋售价4千万。如果市场上只有一栋楼出售,需求大时,售价9千万;需求小时,售价6千万。这样,可能出现以下8种可能情况∶
1、 需求大,A开发,B不开发,A的利润为4千万,B的利润为零;
2、 需求大,A不开发,B开发,A的利润为零,B的利 润为4千万;
3、需求大,A开发,B也开发,各获利2千万; 4、需求大,A不开发,B也不开发,双方利润为零;
5、 需求小,A开发,B不开发,A获利1千万,B的利润为零;
6、需求小,A不开发,B开发,A的利润为零,B获利1千万;
7、 需求小,A开发,B也开发,双方各亏1千万;
8、 需求小,A不开发,B也不开发,双方利润为零。
(一)参与人
1、参与人的概念
参与人是指一个博弈中独立决策,独自承担博弈结果的决策者,也称博弈方。参与人可以是个人,也可能是团体(如国家、企业、国际组织等)。一般用ni表示,i=1,2,3,. . .,n。房地产开发博弈中有两个参与人,开发商A和B。
2、根据参与人多少的博弈分类
由于博弈中的战略具有依存性,故博弈中的参与人多少非常重要,一般而言,参与人越少,问题越简单,参与人越多,则问题越复杂难解。
(1) 单人搏弈
只有一个参与人的博弈称为单人博弈。严格来说,单人博弈已退化为一般的最优化问题,而不是博奕问题。但单人博弈是双人、多人博弈的基础。对单人博弈而言,参与人获得的信息越多,决策的正确性越高,得益越多。这是单人博弈与双人、多人博弈的根本区别之一。
(2)双人博弈
有且只有两个参与人的博弈,称为双人博弈。这是最普遍,也是研究最多的博弈类型。双人博弈有如下一些特点∶
两参与人之间的关系并不总是相互对抗的,有时会出现利益一致的情况;
信息多的一方不能保证得益也较多;
个人理性并不一定导致集体理性。
(3)多人博弈
参与人为3人及以上的博弈,称为多人博弈。其性质与特征与双人博弈基本相同,但战略相互依存关系更为复杂。
与双人博弈的一个本质区别是可能产生“损人不利已” 的破坏者。若有破坏者时,使多人博弈的结果难以确定,因为破坏者的行为难于用逻辑推理或经济规律耒判断,这是在多人博弈中特别需要注意的。
(二)行动
1、 概念
行动是参与人在某个时点的决策变量。一般用ai表示第i个参与人的特定行动。
Ai=﹛ai﹜表示可供i选择的行动集合。在上例中,每个参与人只有两种行动可供选择,即Ai=﹛开发,不开发﹜。
n个参与人的行动的有序集合a=(a1,a2,. . . ,an)称为行动组合。在上例中,若A选择不开发,B选择开发,则(不开发,开发)是一个行动组合。该例中共有4个行动组合。
2、行动的顺序
行动的顺序对博弈的结果至关重要。有关静态博弈与动态博弈的划分就是依据行动的顺序而进行的。
静态博弈是指参与人同时选择行动的博弈。
动态博弈是指参与人不同时选择行动的博弈。
“同时” 是一个信息概念,而不是一个时间概念。在房地产开发博弈中,如A先选择开发,但B后选择时并不知道A的选择是什么,则是静态博弈;但B后行动时知道了A的选择,则是动态博弈。
(三)信息
1、 信息的概念
知己知彼,百战不殆。信息在博弈中有非常重要的作用。信息是参与人有关博弈的知识。特别是有关博弈的得益,“自然” (虚拟参与人)的选择,其他参与人的特征和行动的知识。
2、信息集
信息集是描述参与人信息特征的一个概念(准确的概念后面给出),这里可理解为参与人在特定时刻有关变量的值的知识。如在房地产开发中,如果A不知道市场需求是大还是小,而B知道,则A的信息集为(大,小),B的信息集为(大)或(小);又假定B先行动A后行动,如果A在行动前准确知道B选择了什么行动,则A(有关B的行动)的信息集为{开发}或{不开发} ,反之,A的信息集为
{开发,不开发} 。
3、完全信息与不完全信息
博弈中最重要的信息之一是关于得益的信息,即每个参与人在每种战略组合下的得益情况。如上例中的8种可能情况下A、B的收益。
如果参与人完全了解所有参与人各种情况下的得益(支付函数),称此参与人具有完全信息。如果参与人不完全了解其他参与人的得益,则该参与人具有不完全信息。所有参与人均具有完全信息的博弈,称为完全信息博弈。至少有一个参与人具有不完全信息的博弈,称为不完全信息博弈。
4、完美信息与不完美信息
在动态博弈中,若参与人完全了解自己行动之前的整个博弈过程,称此参与人具有完美信息(完美回忆)。若参与人不完全了解自己行动之前的整个博弈过程,则该参与人具有不完美信息。
所有参与人都具有完美信息的博弈,称为完美信息博弈。至少有一个参与人具有不完美信息的博弈,称为不完美信息博弈。
如打牌时,打了几轮牌后,当轮到某一个牌手出牌时,记不清前几轮出了些什么牌了,该牌手则具有不完美信息。
5、完全信息与完美信息的关系
首先,完全与不完全信息是按参与人有关得益的信息来划分的。完美与不完美信息是按参与人有关博弈过程的信息来划分的,且在动态博弈中才进行这种划分。
其次,不完全信息意味着不完美信息,但逆定理不成立。在房地产开发中,如果至少有一个参与人不知道各种可能情况下的得益,则信息是不完全的,也是不完美的。如果两开发商若均知道各种情况下的得益,则信息是完全的,若A后行动,B先行动,但A不知道B的选择,则信息是不完美的。
6、共同知识
“共同知识”是与信息有关的一个重要概念。
共同知识是指“所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道. . . . . . ”的知识。
比如,A知道自己的行动集合,B也知道自己的行动集合,
B知道A知道自己的行动集合, A知道B知道A知道自己的行动集合, B知道A知道B知道A知道自己的行动集合,如此等等。
“共同知识”是博弈论中一个非常强的假设。在房地产开发中,一种可能的情况是,A和B都知道市场的需求,但A并不知道B知道市场需求;或者是,即使A知道B知道市场需求,B可能并不知道A知道B知道市场需求。则这时市场需求不是A、B的“共同知识” 。
(四)战略
1、 概念
战略是参与人在给定信息集情况下的行动规则,它规定参与人在什么时候选择什么行动,也称策略。一般用Si表示第i个参与人的一个特定的战略。
用Si=﹛si﹜代表第i个参与人所有可选择的战略集合。
在n人博弈中,n维向量S=(s1,s2 ,. . . ,sn)称为一个战略组合。
在房地产开发中,如果B在不知道市场需求的情况下先行动,A在知道B的行动后再选择自己的行动。则B有两个战略B=﹛开发,不开发﹜;A有4个战略(﹛开发,开发}﹛开发,不开发﹜﹛不开发,开发﹜﹛不开发,不开发﹜)。
战略集合﹛x,y﹜内的第一个元素对应B选择开发时A的行动,第二个元素对应B选择不开发时A的行动。
本例中有8个战略组合∶
如S=({不开发,开发}开发)是一个战略组合,意味着A的战略是“如果B开发,我不开发;如果B不开发,我开发” ,B的战略是开发。读者可写出其它7个战略组合。
2、战略与行动的关系
首先,战略与行动是两个不同的概念,战略是行动的规则,而不是行动的本身。如“人不犯我,我不犯人;人若犯我,我必犯人” 是一个战略,“犯” 与“不犯” 是两种行动,战略规定什么时候选“犯” ,什么时候选“不犯” 。
其次,作为参与人的行动规则,战略依赖于参与人获得的信息。但在静态博弈中,所有参与人同时行动,没有任何人能获得他人行动的信息,故战略与行动是一回事。这时的战略选择就变成简单的行动选择。但在动态博弈中则是两个不同的概念。
3、战略必须是完备的
作为一种行动的规则,在制定战略时,必须给出参与人在每一种可能情况下的行动选择,即使参与人清楚这种情况实际上并不会发生。
如在房地产开发中,如果A、B都知道市场需求是大的,A在B之后行动。A的战略不仅要给出B选择“开发” 时,A如何选择,还必须给出B选择“不开发” 时,A应当如何选择,即使A确信B会选择“开发” ,而不会选择“不开发” 。因为一种特定情况是否真的会发生,往往依赖于参与人的战略。这一点对于动态博弈的均衡是非常重要的。
(五)得益
1、概念
得益(或支付)是指在一个特定的战略祖合下参与人所获得的利益。
它是博弈中参与人追求的主要目标,也是行动和战略选择的依据。
得益可以是确定的收益,也可以用效用水平或期望效用水平来表示。得益常需要用数量来表示,可正,可负。在房地产开发中,参与人的利润就是他们的得益,具体数量见前面的例子。
1、 2、按得益之和的博弈分类
1)零和博弈
一方的收益必为另一方的损失,其支付之和为零的博弈。许多游戏均为零和博弈。零和博弈由于参与方的利益总是相对抗的,具有你死我活的关系。即使重复若干次,也无法改变相互对抗的关系,一般不会产生合作博弈,且结果总是不能完全确定。
2)常和博弈
得益之和不为零,但为一非零常数(或正或负)的博弈。参与人之间的基本关系仍然是对立的,但不一定会产生输家,利益的对抗性有时体现在利益的多少上(如遗产分配),可能产生妥协或合作。在重复博弈中,可能创造出许多新结果,如使总得益增加,达到双赢结果。
3)变和博弈
得益之和不为零,且不同战略组合下的得益之和也各不相同的博弈。这是最一般的博弈,也是研究最多的博弈类型。
(六)均衡
1、概念
均衡是所有参与人的最优战略组合,一般记为S*=(s1*, . . . ,si* ,…,s*n )。Si* 表示第i个参与人在均衡情况下的最优战略。
博弈分析的目的就是预测博弈的均衡及均衡结果,均衡也就是博弈的解。在不同的博弈中,有各种各样的均衡概念,上述均衡概念描述了所有均衡的共同特征。
2、均 衡的不唯一性
正如许多数学题有多个解一样,一个博弈也可能有多个均衡存在。在房地产开发中,若A、B同时行动,在需求大时,(开发,开发)是唯一的均衡;但在需求小时,
(开发,不开发)是一个均衡,(不开发,开发)也是一个均衡。
3、均衡与均衡结果
这是两个非常容易混淆的概念。一般讲“均衡”常指的是“均衡结果” 。许多情况下,二者的区别并不重要,但理解二者的区别对理解博弈的理论很重要,特别是在动态博弈中。
在房地产开发中,若B先选择,A后选择,需求小时,B的最优战略是“开发”,A的最优战略是“如果B开发,我不开发;如果B不开发,我开发” 。均衡是
({不开发,开发} ,开发),而均衡结果是(不开发,开发),即B开发,A不开发。这里不开发是均衡情况下A的最优行动,而非A的最优战略本身。
五、博弈的分类∶
一般将参与人行动的顺序和信息二者结合进行分类∶
完全信息静态博弈
完全信息动态博弈
不完全信息静态博弈
不完全信息动态博弈
第一章小结∶
一、博弈与博弈论
二、博弈论的产生与发展
三、博弈论与经济学
经济学的3个发展趋势
经济学与博弈论的关系∶3点
四、博弈论的构成要素
1、参与人∶概念、单人博弈、双人博弈、多人博弈
2、行动∶概念、行动的顺序;
3、信息∶概念、信息集、完全与不完全信息、完美与不完美信息、两类信息的关系、共同知识;
4、战略∶概念、战略与行动的关系、战略必须是完备的;
5、得益(支付)∶概念、零和博弈、非零和博弈、变和博弈;
6、均衡∶概念、均衡的不唯一性、均衡与均衡结果。
五、博弈的分类
1、完全信息静态博弈 2、完全信息动态博弈
3、不完全信息静态博弈 3、不完全信息动态博弈
第二章 完全信息静态博弈
二人零和博弈
纯战略
混合战略
二人非零和博弈
纯战略纳计均衡
混合战略纳计均衡
纳什均衡的存在性及多重性
应用领域
第一节 二人零和博弈
一、二人零和博弈的特点
有且只有两个参与人;
一方的收益必为另一方的损失;
非合作博弈;
双方具有完全信息;
双方同时行动
二、有纯战略的二人零和博弈
例1∶夫妻露营博弈
有一对夫妻到一旅游地露宿,男的希望住在最高的地方,女的希望住在最低的地方。该地东西向与南北向各有4条道路,他们约定,男的在东西向的路中选一条,女的在南北向的路上选一条,然后在道路的交叉处住宿。他们各自会选中哪一条路呢?
4条道路交叉处的海拔高度如下表∶
女
Y1 Y2 Y3 Y4
X1 6 1 5 1
男 X2 1 2 3 4
X3 4 3 5 5
X4 4 2 1 6
行的最小值
1
1
3
1
列最大值 6 3 5 6
纯战略的寻找∶在得益矩阵中,若存在每行的最小值中的最大值等于每列最大值中的最小值,该值对应的战略称为纯战略。该值也称为鞍点。
单位∶千米
(一)纯战略
在一个博弈中,参与人均有唯一的最优战略,在重复博弈中,参与人的最优行动就是连续不变地使用他的最优战略,这样的战略称为纯战略。
在零和博弈中,当行最小值的最大值等于列最大值的最小值时,可判断该博弈存在纯战略,又称为博弈的极小极大解(鞍点)。
极小极大解表明各参与人安全水准的最大限度,即他们应在X3、Y2的交叉点上露宿,没有其它的战略能提供这种程度的安全水准。
(二)博弈值
在同一博弈中,大量重复博弈的平均得益值。在零和的纯战略博弈中,鞍点值就是博弈值。博弈值可用于分析博弈结果对某个参与人是否有利还是不利。
例2、广告策略博弈
某街道有A、B两汽修厂,其市场占有率分别为55%和45%。某电视台向A汽修厂经理劳尔福推荐了三套广告方案,每一种方案均可从B厂争取到一部份顾客。但A厂经理非常清楚,该电视台会将同样的广告方案向B厂推荐。据有经验的市场人员估计,双方采用三套广告方案的支付矩阵如下∶
B 单位∶%
Y1 Y2 Y3 行最小值
X1 3 - 4 1 - 4
A X2 - 3 0 1 - 3
X3 4 3 2 2
列最大值 4 3 2
在零和博弈中,一方的得是另一方的失,故在支付矩阵中,可只用一个数值表示,一般是根据A的得益来编制的。在上例中,A和B均采用第一套广告方案,则A厂可从B厂争取到3%的市场份额,意味着B厂将失去3%的市场份额。其余同此理。
该博弈有纯战略(X3, Y3)。
三、有混合策略的二人零和博弈(2*2)
例3、手心与手背的游戏
Y
Y1 (手心) Y2(手背) 行最小值
X1(手心) 1 - 1 - 1
X
X2(手背) - 1 1 - 1
列最大值 1 1
可见该博弈没有纯战略。
(一)混合战略
1、混合战略的概念
如果一个战略规定参与人在给定的信息条件下,以某种概率分布随机的选择不同的行动,称这样的战略为混合战略。
2、确定混合战略的原则
1)自己的战略不能预先让对方猜中;
2)选择每种战略的概率一定要恰好使对方无机可乘。
3、概率的计算
上例中,若令X出手心的概率为P(X1),出手背的概率为P(X2);令Y出手心的概率为P(Y1),出手背的概率为P(Y2)。则有∶
P(X1)×(- 1)+ P(X2)×1= P(X1)×1+ P(X2)×(- 1)
解之, P(X1)= P(X2)
因为, P(X1)+ P(X2)=1
得∶ P(X1)= P(X2)=
同理可得∶ P(Y1)= P(Y2)=
可见,两参与人分别以50%的概率出手心和手背。
4、混合战略的博弈值
G=××1+××-1+××1+××-1
=0
搏弈值的含义及作用?
Y
Y1 (手心) Y2(手背) 大减小 互换
X1(手心) 1 - 1 2 2
X
X2(手背) - 1 1 2 2
大减小 2 2
互换 2 2 4
P(X1)=2/4= P(X2)=2/4=
P(Y1)=2/4= P(Y2)=2/4=
5、2×2零和博弈混合战略的简捷算法
例2、福尔摩斯的头几乎被砍掉一半
为逃脱莫里阿蒂教授的追踪,福尔摩斯准备从伦敦的维多利亚港乘火车到多维尔港而转赴欧洲,中途有一站叫坎特布雷。火车开动时,福尔摩斯发现了莫里阿蒂,他相信莫里阿蒂会用专列来追赶他,
若二人碰面,福尔摩斯必死无疑。福尔摩斯应在什么地方下车才能逃脱莫里阿蒂教授的追踪。
福
Y 1(多) Y2(坎) 大减小 互换
X1(多) 100 0 100 150
莫
X2 (坎) - 50 100 150 100
大减小 150 100
互换 100 150 250
P(X1)=150 / 250 = P(X2)= 100 / 250 =
P(Y1)= 100 /250 = P(Y2)= 150 /250 =
G = ××100+××-50+××0+××100
=40
6、可化简为2×2的零和博弈的混合战略求解
Y
Y1 Y2 Y3
X1 0 - 4 0
X X2 - 2 4 0
X3 - 1 - 5 - 2
该博弈不存在纯战略。用剔除劣战略的方法,对X而言,X3劣于X1 ,故X3被剔除;
在剩下的博弈中,对Y而言Y3劣于Y1 ,故Y3被剔除。
在化简为2×2的博弈中,用简捷法可求得∶
P(X1)= P(X2)= P(Y1)= P(Y2)=
第二节 二人非零和搏弈
一、有纯战略的非零和博弈
(一)纳什均衡
纳什均衡的直观意义是∶在n人参与的博弈中,给定其他参与人战略的条件下,每个参与人选择自己的最优战略,所有参与人选择的战略构成一个战略组合。所有参与人的最优战略构成的战略组合,称为纳什均衡。纳什均衡是完全信息静态博弈的解。
纳什均衡的哲学意义∶假设博弈中的所有参与人事前达成一项协议,规定每个人的行为规则。问题在于,在没有外来强有力的约束时,参与人是否会完全自觉自愿的遵守这个协议?
若参与人会自觉遵守这个协议,等于说这个协议构成一个纳什均衡∶即给定别人遵守协议的情况下,没有人有积极性不遵守这个协议。反之,如果至少有一个参与人会违背这个协议,则这个协议不构成纳什均衡,不满足纳什均衡的协议是没有意义的。
寻找纳什均衡的一种方法是划线法。
(二)几个典型的博弈例子
1、 囚徒困境
囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的房子里审讯。警察告诉他们:如果两人都坦白,各判刑3年;如果两个都抵赖,(或因证据不足)各判一年;如果一人坦白一人抵赖,坦白的获释,抵赖的判刑5年。下表给出囚徒困境的战略式表述:
Y
坦白(y1) 抵赖(y2)
坦白(x1)
X
抵赖(x2)
3 ,3 0 ,5
5 ,0 1 ,1
囚徒困境反映了一个很深刻的问题,就是个人理性与集体理性的矛盾。若两人均抵赖,各判刑一年,但这个帕累托改进办不到,因为它不满足个人理性,不是纳什均衡。
重要结论∶一种制度的安排,要发生效力,必须是一种纳什均衡,否则,这种制度安排便不能成立。
应用∶寡头企业选择产量的博弈(寡头竞争模型);
价格竞争模型;
公共产品的供给 ;
公共资源的利用;
基础设施的投资;
军备竞赛;
经济改革等等
2、智猪博弈
圈里有大猪,小猪两头猪,按钮时会有10单位饲料供给,但谁去按钮谁就要付出两单位成本,支付矩阵如下:
小猪
按 不按
按 5 ,1 4 ,4
大猪
不按 9,-1 0 ,0
纳什均衡 ∶ (大猪按,小猪等)
结论:多劳者不多得。
应用∶公共产品的供给;大小股东的行为;大小企业的行为; 经济改革等。
3、山羊过桥
两只山羊过一独木桥,其支付矩阵如下∶
B
进 退
进 - 3,- 3 2,0
A
退 0 ,2 0 ,0
该博弈有两个纳什均衡(A进,B退),(A退,B进),当博弈有两个及以上的纳什均衡时,实际上会发生哪一个不能确定,有可能两败俱伤。
应用∶
公共产品的供给,公共产品的供给可能是囚徒困境,可能是智猪博弈,也可能是山羊博弈;
冷战博弈;
示威游行;
夫妻关系(如麦琪的礼物,夫妻争吵)等。
4、性别博弈
一对恋人每周末相约去参加一次活动,男方是足球迷,女方更倾向看电影,其得益矩阵如下∶
女
足球 电影
足球 3 ,1 0 ,0
男
电影 0 ,0 1 ,2
该博弈也有两个纳什均衡(足球,足球),(电影,电影),
实际生活中可能是先动优势,谁先买票跟谁去;也可能达成默契,一次看足球,一次看电影。
5、市场进入阻挠博弈
这是产业组织经济学中一个著名的例子。一个垄断企业已在市场上(在位者),另一个企业虎视眈眈的准备进入。其得益矩阵如下∶
在位者
默许 斗争
进入 40,50 - 10,0
进入者
不进 0,300 0,300
该博弈也有两个纳什均衡(进入,默许),(不进,斗争),但(不进,斗争)是一个弱纳什均衡。
(三)纳什均衡及寻找
博弈分析的目的是预测(期)博弈的均衡结果,即给定每个参与人都是理性的,每个参与人都知道每个参与人都是理性的。
什么是每个参与人的最优战略?什么是所有参与人的最优战略组合?
纳什均衡是完全信息静态博弈解的一般概念,也是所有其它类型博弈解的基本要求。
下面先讨论纳什均衡的几种特殊情况,然后再给出纳什均衡的一般概念。
1、占优战略均衡
1)占优战略均衡的概念
前面在讲述战略的概念时,说战略具有相互依存性,即每个参与人的最优战略依赖于所有其它参与人的战略选择。
但在一些特殊的博弈中,一个参与人的最优战略可能并不依依赖于其它参与人的战略选择,即不论其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为
“占优战略”
在囚徒困境中,无论囚徒B选择什么,囚徒A的最优战略
是“坦白” ;同理,无论囚徒A选择什么,囚徒B的最优战略
是“坦白” 。因此,(坦白,坦白)是(强)占优战略均衡。
对应的,所有的 被称为劣战略。
这里,S- i=(S1,. . . ,Si-1 ,Si+1 ,. . . ,Sn ),是i之外所有参与人的战略组合。
(强)占优战略∶
称为参与人i的(严格)占优战略,如果对应所有的S -i, 是i的严格最优选择,即∶
(强)占优战略组合
在博弈的战略式表述中,如果对于所有的i, 是i的占优战略,那么,战略组合 称为(强)占优战略组合。
2)结论
在一个博弈中,如果所有参与人都有占优战略存在,那么,占优战略是可以预测到的唯一的均衡。因为没有一个理性的参与人会选择劣战略。在房地产开发中,若需求是大的,(开发,开发)是占优战略均衡。
3)对理性的要求
占优战略均衡只要求每个参与人是理性的,而并不要求每个参与人知道其他参与人是理性的,即不要求“理性”是共同知识。因为不论其他参与人是否是理性的,占优战略总是一个理性参与人的最优选择。
2、重复剔除严格劣战略的占优均衡
1)思路
在绝大多数博弈中,(强)占优战略是不存在的,但可用占优的逻辑找到均衡。
基本思路是∶首先找出某个参与人的劣战略(若存在),剔除这个劣战略后,重新构造一个不包含剔除劣战略的新博弈,然后再剔除某个参与人的劣战略;重复这个过程,一直到只剩下一个唯一的战略组合为止。这个唯一剩下的战略组合称为“重复剔除劣战略的占优均衡” 。
如在智猪博弈中,没有占优战略均衡,因为尽管“不按”是小猪的占优战略,但大猪没有占优战略。大猪的占优战略依赖与小猪的战略∶若小猪“不按” ,大猪的最优战略是“按” ;若小猪“按” ,大猪的最优战略是“不按” 。
按重复剔除劣战略的思路,首先剔除小猪的劣战略“按” ,在剩下的博弈中,小猪只有一个战略“不按” ,给定小猪“不按”时,“不按”是大猪的劣战略,剔除这个劣战略,(按,不按)是剩下的唯一战略组合,这里用重复剔除劣战略的方法找到了该博弈的解。
在占优战略均衡中,我们曾给出“占优战略”和“劣战略”的概念,前面所讲的“占优战略”是指一个参与人所有可选择的战略中严格优于所有其它战略的那个战略,即 是i的占优战略意味着对于所有的
所有的 都是(相对于 ) 劣战略。而在用重复剔除法寻找均衡时,一个战略是占优战略或劣战略可能只是相对于另一个特定的战略而言的。
因此,在这里需要对“占优战略”和“劣战略”从新定义。
严格占优战略与严格劣战略
定义∶令 和 是参与人i可选择的两个战略。如果对于任意的其他参与人的战略组合S- i ,参与人i从选择 得到的支付严格小于从选择 得到的支付,即∶
则说战略 严格劣于战略 。
通常, 称为相对于 的劣战略;对应地, 称为相对于 的占优战略。占优战略均衡中的占优战略 是相对于所有 的占优战略。
弱占优战略与弱劣战略
定义∶ 弱劣于战略 ,如果对于所有的S- i,
且对于某些S- i,严格不等式成立。 称为相对于 的弱占优战略。
重复剔除劣战略的占优均衡
战略组合 称为重复剔除的占优
均衡,如果它是重复剔除劣战略后剩下的唯一的战略祖合。如果这种唯一的战略组合是存在的,则说该博弈是重复剔除占优可解的。
例1∶有如下博弈矩阵
B
Y1 Y2 Y3
X1 1 , 0 1 , 2 0 , 1
A
X2 0 , 3 0 , 1 2 , 0
在该例中参与人A有两个战略,参与人B有叁个战略。A的战略中没有一个战略严格优于另一个战略,而对B而言Y2严格优于Y3 ,
Y3被剔除,
在剩下的博弈中, X1严格优于X2 , X2被剔除。
最后, Y2严格优于Y1 , Y1被剔除。( X1 , Y2 )为唯一战略组合。
均衡结果与剔除劣战略的顺序
如果每次剔除的是严格劣战略,均衡结果与剔除的顺序无关;
如果剔除的是弱劣战略,均衡结果可能与剔除的顺序有关。
例2、有如下博弈矩阵∶
B
Y1 Y2 Y3
X1 2 , 12 1 , 10 1 , 12
A X2 0 , 12 0 , 10 0 , 11
X3 0 , 12 0 , 10 0 , 13
若剔除顺序按X3 , Y3 , Y2 ,
X2 ,进行,则( X1 , Y1)是剩下的战略组合。
若剔除的顺序是按Y2 , X2 , Y1 ,
X3 ,进行,则( X1 ,Y3 )是剩下的战略组合。
因此,在用重复剔除劣战略的方法来寻找博弈的均衡时,一般都是使用严格劣战略剔除,使用严格劣战略剔除法,该博弈是不可解的。
2)对理性的要求
重复剔除严格劣战略的占优均衡不仅要求每个参与人是理性的,而且要求“理性”是共同知识∶即所有参与人知道所有参与人是理性的,所有参与人知道所有参与人知道所有参与人是理性的,如此循环。
在例1中,如果X不能确信Y是理性的,X就不能排除 Y 选 Y3的可能性,则 X1 就不一定是A的最优选择;类似地,即使X知道Y是理性的,但如果Y不知道X知道Y是理性的,或者Y不知道X是理性的,Y就不能排除 X 选 X2 的可能性,从而Y2就不一定是Y的最优选择。
3)结论 ∶由于重复剔除严格劣战略的占优均衡不仅要求每个参与人是理性的,而且要求“理性”是共同知识,当参与人的战略空间越大,对“共同知识”的要求越严格。因此,重复剔除严格劣战略的占优均衡是许多博弈的一个合理预期,但实际中并非总是如此,特别是有极端值时。
例3∶有如下博弈矩阵
Y
Y1 Y2
X 1 8 , 10 - 1000, 9
X
X2 7 , 6 6 , 5
( X 1 , Y1 )是重复剔除严格劣战略的占优均衡。但实验表明,大多数人会选X2 ,尽管X百分之百的相信Y是理性的会选Y1 ,但那怕只有万分之一的可能Y会选Y2 ,则 X2 就优于 X 1 。
该例表明,博弈结果对行为的不确定性是非常敏感的,即使是很小的不确定性。
3、纳什均衡
一些特殊的博弈问题可以用占优战略或重复剔除严格劣战略的方法求得博弈的解,但许多博弈问题不存在占优战略均衡或重复剔除严格劣战略均衡,但博弈仍然是有解的,为了求得这些博弈的解,这里引入纳什均衡的概念。
如在房地产开发中,在低需求时,无论是对A或B,没有一种战略优于另一种战略,每一个参与人的最优战略都依赖于另一个参与人的战略。因此,用重复剔除严格劣战略的方法不能求得该博弈的解。
1)纳什均衡的定义
定义∶有n个参与人的战略表述博弈∶
G={S1,. . . ,Sn ;u1 ,. . . ,un } ,战略组合∶
是一个纳什均衡,如果对于每一个i, 是给定其他参与人选择
的情况下第i个参与人的最优战略,即∶
我们可以用纳什均衡的定义来检查一个特定的战略组合是否是一个纳什均衡。实际中,可以用所谓划线的方法来寻找纳什均衡,一般是,在两人有限战略博弈中,对于每一个B的给定的战略,找出A的最优战略,在其对应的支付下划一横线,再用类似方法找到B的最优战略。如某支付格的两个数值下都有横线,这个数字格对应的战略组合就是一个纳什均衡。
2)有关纳什均衡的几个问题
①这是纳什均衡最一般的定义
许多不存在占优战略均衡或重复剔除严格劣战略的占优均衡,却存在纳什均衡。如例2中的(X1 ,Y1), (X1 ,Y3)
②占优战略均衡、重复剔除占优均衡、纳什均衡的关系
每一个占优战略均衡、重复剔除占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优战略均衡或重复剔除占优均衡。因为构成纳什均衡的唯一条件是它是参与人对其他参与人均衡战略的最优选择。而占优战略均衡则要求它是对所有其他参与人的任何战略组合的最优选择,则自然它也是对所有其他参与人的某个特定的战略组合的最优选择。而重复剔除占优均衡则要求它是在重复剔除过程中剩下的唯一的战略组合。
纳什均衡一定是在重复剔除严格劣战略(不适合弱劣战略剔除)过程中没有被剔除掉的战略组合,但没有被剔除的战略组合不一定是纳什均衡,除非它是唯一的。
在囚徒困境中,(坦白,坦白)是一个占优战略均衡、重复剔除的占优均衡,也是是纳什均衡;在智猪博弈中(大猪按,小猪等)是一个重复剔除占优均衡,也是纳什均衡;
但在下例博弈中,(X3 ,Y3)是一个纳什均衡,但不是一个重复剔除的占优均衡,更不是占优战略均衡。
例4、有如下支付矩阵
B
Y1 Y2 Y3
X1 0 , 4 4 , 0 5 , 3
A X2 4 , 0 0 , 4 5 , 3
X3 3 , 5 3 , 5 6 , 6
该例中,没有任何一个战略严格劣于另外一个战略,因而没有一个战略组合被剔除掉,但(X3 ,Y3)是唯一的一个纳什均衡。
③纳什均衡是弱纳什均衡的定义
纳什均衡有强弱之分,一个纳什均衡是强的,是说如果给定其他参与人的战略,每一个参与人的最优选择是唯一的。即说 是一个强纳什均衡,当只当对于所有的i, , 。
在例2中(X1 ,Y1),( X1 ,Y3)都是纳什均衡,但没有一个是强纳什均衡。在重复剔除劣战略占优均衡中之所以强调重复剔除严格劣战略,是因为用弱劣战略剔除时,可能将纳什均衡剔除掉。在例2中我们看到,若剔除顺序按 X3 , Y3 , Y2 ,X2 ,进行,则( X1 , Y1)是剩下的战略组合, ( X1 ,Y3)被剔除了;若剔除的顺序是按 Y2 , X2 , Y1 ,X3 ,进行,则( X1 ,Y3 )是剩下的战略组合,( X1 ,Y1)被剔除掉了。
在市场阻挠博弈中,前面讲(不进,斗争)是一个弱纳什均衡。若按重复剔除弱劣战略的方法,斗争是在位者的弱劣战略,因而被剔除,(进入,默许)是唯一剩下的没有被剔除的战略组合,故是重复剔除的占优均衡。
可见,纳什均衡允许弱劣战略的存在。
④、纳什均衡是参与人的“一致性”预测 我们说博弈分析的一个重要内容是预测博弈的结果,如果所有参与人预测到一个特定的纳什均衡将会出现,则没有人有兴趣作不同的选择。因为,只有纳什均衡且只有纳什均衡有这样的特征∶参与人预测到均衡,参与人预测到其他参与人预测到均衡,如此等等。对比之下,预测到一个非纳什均衡的战略组合将意味着至少有一个参与人会犯错误(可能是关于对手的选择的预测是错误的,也可能自己的选择是错误的)。
说纳什均衡是参与人的“一致性”预测并不意味着纳什均衡一定是一个好的预测,因为一个博弈有的有多个纳什均衡,为了预测哪一个纳什均衡实际会发生,还需要知道博弈进行的具体过程。
二、混合战略的非零和博弈
(一)混合战略的纳什均衡
1、一个抽象的例子
例1、有如下支付矩阵
Y
Y1 Y2
X1 2 , 3 5 , 2
X
X2 3 , 1 1 , 5
该博弈为非零和博弈,用划线法知不存在纯战略。根据纳什均衡的存在性定理(后面给出),则该博弈存在混合战略的纳什均衡。
根据前面所讲确定混合战略的两原则。令X 选择 X1 、 X2 的概率分别为
P( X1 ),P( X2 ),则有∶
3P ( X1 )+ 1 P( X2 )= 2 P( X1 )+ 5 P( X2 )
解之∶ P( X1 )= ,P( X2)=
令Y选择 Y1 , Y2 的概率分别为P( Y1 ),P( Y2 ),则有∶
2 P( Y1 )+ 5 P( Y2 )= 3 P( Y1)+ 1 P( Y2 )
解之∶ P( Y1 )= , P( Y2 )=
2、混合战略纳什均衡的定义
在n个参与人博弈的战略式表述
G={S1,…,Sn;u1,…,un}中,假定参与人i有K个 纯战略∶SI = {si1,…,sik} ,那么,概率分布
Pi =(Pi1,…, Pik)称为i的一个混合战略,这里
Pik=P(sik)是i选择sik的概率,对于所有的K=1,…
,k,0≤Pik≤1, 。
在这个定义下,纯战略可理解为是混合战略的特例,比如说,纯战略Si1等价于混合战略Pi= (1,0,…,0),
即选择纯战略Si1的概率为1,选择其它纯战略的概率为0。
(二)纳什均衡的奇数定理
威尔逊(Wilson)在1971年证明,几乎所有有限博弈都有有限奇数个纳什均衡。这意味着一般情况下,如果一个博弈有两个(或偶数个)纯战略纳什均衡,则一定存在第三个(奇数个)混合战略的纳什均衡。
在前面的性别博弈中,有两个纯战略纳什均衡(足球,足球),(电影,电影)。则一定存在第三个混合战略的纳什均衡。比如说,男、女双方同时得到两张足球票,两张电影票,到底去看足球还是电影争论不下。
于是双方同意各自背地在纸上写足球或电影,若同为足球或电影,则一起去观看;若不相同,则呆在家里。
若双方均为理性人,他们应以多大的概率来选择写足球还是电影呢?
女
足球 电影
足球 3 ,1 0 ,0
男
电影 0 ,0 1 ,2
令男方以P(X1)、P(X2)的概率选择写足球和电影,女方以P(Y1)、P(Y2)的概率选择写足球和电影,则有∶
1 P(X1)+ 0 P(X2)= 0 P(X1)+ 1 P(X2)
因P(X1)+ P(X2)= 1
解之得∶ P(X1)= , P(X2)=
同理得∶ P(Y1)= , P(Y2)=
(三)混合战略的博弈值
在纯战略非零和博弈中,博弈值就是纯战略下支付格的数值。如性别博弈中,若纯战略(足球,足球)实际发生,则男方的博弈值为3,女方的博弈值为1;若纯战略(电影,电影)实际发生,则男方的博弈值为1,女方的博弈值为2。
在混合战略下,男女双方的博弈值(期望得益)为∶
男∶2/3×1/4×3+1/3×3/4×1=;
女∶ 2/3×1/4×1+1/3×3/4×2=
这个结果显然还不如一方迁就另一方的得益高(一方至少可得1)。实际中,一般不会采取这种低效率的博弈方式解决。
第三节 纳什均衡的存在性及多重性
一、纳什均衡的存在性
1、纳什均衡的存在性定理1
纳什在1950年证明∶每一个有限博弈至少存在一个纳什均衡(纯战略的或混合战略的)。
有限博弈是指有限个参与人且每个参与人有有限个纯战略。(纳什用不动点理论加以证明了参与人有有限个纯战略时纳什均衡的存在性。但经济上的许多博弈模型是无限博弈,当参与人有无穷多个时,则有如下的存在性定理)。
每个参与人有有限个纯战略是纳什均衡存在的充分条件,而不是必要条件。
2、纳什均衡的存在性定理2
在n人战略式博弈中,如果每个参与人的纯战略空间Si是欧氏空间上一个非空的、闭的、有界的凸集,支付函数ui(S)是连续的且对Si是拟凹的,那么,存在着一个纯战略纳什均衡。(Debreu,1952;Glicksberg,1952;Fan,1952)
纳什定理可以看作是上述定理的特例。
支付函数的拟凹性是一个很严格的条件,这个条件在许多情况下是不满足的。当支付函数不满足拟凹性时,纯战略均衡可能不存在。当然,这些条件同样是充分条件而不是必要条件。
当支付函数在纯战略空间上是连续的但不一定是拟凹的,引入混合战略可以保证纳什均衡的存在。
3、纳什均衡存在性定理3
在n人战略式博弈中,如果每个参与人的纯战略空间Si是欧氏空间上一个非空的,闭的、有界的凸集,支付函数ui(S)是连续的,那么,存在着一个混合战略纳什均衡。
(Glicksberg,1952)
二、纳什均衡的多重性
博弈分析的目的是想预测参与人的合理的行为方式。我们说纳什均衡是参与人如何博弈的一致性预测∶如果所有参与人预测一个特定的纳什均衡将出现,那么,没有人有积极性选择非纳什均衡的战略,这个纳什均衡就会实际发生。
但当一个博弈有多个纳什均衡时,要所有参与人预测同一个纳什均衡会出现是非常困难的。尽管所有参与人都预测纳什均衡会出现,但如果不同的参与人预测的不是同一个纳什均衡,实际出现的就不是纳什均衡,而是非纳什均衡。
如在性别博弈中,有三个纳什均衡;在两人分蛋糕博弈中,每人独立提出自己所分份额,只要两人所
分份额之和小于1,各自得到自己的份额,若二者之和大于1,则什么也得不到。可见,该博弈有无穷多个纳什均衡。
在性别博弈中,若男的预期是(足球,足球),女的预期是(电影,电影),实际出现的是非纳什均衡(足球,电影)。
当一个博弈有多个纳什均衡时,尽管要预测某一个纳什均衡会实际发生是困难的,但某些方法可能会使某一个特定的纳什均衡成为参与人的一致性预测。
1、聚点均衡
萨林(Schelling,1960)指出,参与人可能利用某些被博弈模型抽象掉的“信息”来达到一个“聚点”均衡。
这些信息可能与社会文化习惯,参与人过去博弈的历史等有关。
如在性别博弈中,如果某天正好是女方生日,则(电影,电影)很可能是一个“聚点均衡” ;在分蛋糕中,如果两人都有公平意识的话,则(,)可能是一个“聚点均衡” ;如果是姐弟俩分蛋糕,则(,)可能是一个“聚点均衡” ;再如,要求两人在26个英文字母中各选13个,不能有重复,且要求第 一人的字母中必须有F,第二人的字母中必须有W,则第一个人选(A、B、. . . ,M),第二个人选(N、O、. . . ,Z)是一个“聚点均衡” 。
2、廉价磋商
是指参与人在博弈开始前进行不花什么成本的“廉价磋商” 。尽管不能保证磋商能达成一个协议,或者仅管达成一个协议也不一定会遵守。但事前磋商确实可以使某些纳什均衡会实际发生。
在性别博弈中,如男方买足球票前先打一个电话通知女方,女方一般就不会去买电影要了,反之亦然。
当然,这一结论并不总是成立。考虑如下博弈∶
B
Y1 Y2
X1 9 , 9 0 , 8
A
X2 8 , 0 7 , 7
该博弈有两个纳什均衡( X1 , Y1),( X2 , Y2)。
显然( X1 , Y1)帕累托优于( X2 , Y2)。在没有事前磋
商时, ( X1 , Y1)可能是一个“聚点均衡” ,但奥蒙(A u mann)1990)认为,即使事前磋商也不能保证( X1 , Y1)一定会出现,
因为,在未磋商时,X2是A的最安全的选择,Y2是B的最安全的选择∶只要A认为B选Y2 的可能性大于1/8, X2是A的最优选择;同理,只要B认为A选X2 的可能性大于1/8, Y2 是B的最优选择。
现假定事前B告诉A他会选Y1 ,A是否会相信B的话呢?不一定会,因为不论B自己选什么,A选X1都会使B受益,因此,即使B并不打算选Y1 ,他也会告诉A他将选Y1 。所以没有理由认为A应该相信B的话, ( X2 , Y2)很可能出现。
当然,即使事前磋商没有结果,纳什均衡也可能通过参与人的学习过程而出现。假如博弈重复许多次,即使参与人最初难以协调行动,在博弈若干次后,某种特定的协调模式可能会形成(如打牌)。
特别地,假定参与人在每一轮根据其对手以前的“平均”战略来选择自己的最优战略,博弈可能收敛于一个纳什均衡。
当然,这样的学习过程并不必然导致纳什均衡结果的出现。
3、相关均衡
纳什均衡是假定每个参与人独立行动。奥蒙1974年提出“相关均衡”的概念。他证明。如果参与人可以根据某个共同观测到的信号选择行动,就可能出现“相关均衡” 。相关均衡可能使所有参与人受益。.
如A、B两参与人销售与天气相关的且配套的产品,如晴天,A出售冰淇凌,B出售装冰淇凌的杯子;如雨天,A出售烧烤,B出售穿烧烤的竹签。因此,当天各人根据天气的变化来选择自己的战略,这样,通过天气的变化使两个参与人的选择相关了。
更重要的是,奥蒙证明,如果每个人收到不同的但相关的信号,每个人都可以得到更高的期望效用 。
有如下博弈矩阵∶
B
Y1 Y2
X1 5 , 1 0 , 0
A
X2 4 , 4 1 , 5
在该博弈中,有三个纳什均衡∶( X1, Y1 )
( X2 , Y2)和一个混合纳什均衡。若两参与人的战略选择与天气有关,若是晴天,给定B选Y1 ,A的最优选择是X1 ;给定A选X1
B的最优选择是Y1 ,因此,两人都会遵守这个规则,纳什均衡为( X1, Y1 )。同理,阴天时,两人也会遵守这个规则,纳什均衡为( X2 , Y2 )。
现假定两人同意由第三人通过掷骰子的方法决定每个人的选择,规定如果1或2出现,A选X1 ;如果出现3至6,A选X2 。如果出现1至4,B选Y1 ;如果出现5或6,B选Y2 。第三人只告诉每个人选择什么行动,而不告诉出现的点数。
这样,当A被告诉应选X2 时,他只知道3至6中的一个出现了,并不知道具体出现的是哪个数,特别地,他并不知道B被告诉选择什么,所以,每个人收到的信号是相关的但不相同。
现在来说明上述规则是一个纳什均衡。
当A被告之选X1 ,他知道1或2出现了,因而B被告之选Y1 ,这时, X1是A的最优选择;当A被告之选X2 ,他不确定3至6中哪一点出现了,因而不知道B被告之选Y1还是选Y2 ,但根据概率,A知道B选Y1和Y2的概率相等(各为)。这时,A选X1和选X2的期望效用均为,故A没有理由不选X2 。同理,B也会自愿遵守这个规则。所以,这个规则构成一个纳什均衡。
按照这个规则,( X1, Y1), ( X2 ,Y2), ( X2 ,Y1)三种结果各以1/ 3的概率出现,而“坏结果” ( X1 ,Y2)不会出现,每个参与人的期望效用为,不仅大于混合战略纳什均衡的期望效用,也大于完全相关信息时的期望效用3。
三、几种均衡概念的关系
占优均衡
重复剔除占优均衡(IEDE)
纯战略纳什均衡(PNE)
(DSE)
混合战略纳什均衡(MNE)
图
第四节 纳什均衡的应用
应用一、古诺(Cournot)寡头竞争模型
古诺1838年提出的寡头竞争模型是纳什均衡应用的最早版本,是研究产业组织理论的重要基础。
设某一市场有厂商1,厂商2。他们生产完全相同的产品(产品间有完全的替代性),每个厂商的战略是同时选择产量,支付是利润,它是两个厂商产量的函数。若令 代表第i个厂商的产量,i=1、2
即厂商1选择产量q1,厂商2选择产量q2,则总产量为∶
Q= q1+ q2 ,设P为市场的出清价格(可以将产品全部卖出去的价格),则P是市场总产量的函数,
P=P(Q)=P( q1+ q2 ),为简化起见,令P取如下的
线性形式∶P = a - ( q1+ q2 ),a可理解为该产品的市场最大的需求量,为常数。Ci(qi)为成本函数。假定两厂商均无固定成本,单位边际成本分别为C1,C2 。则两厂商的利润函数分别为∶
该例中两参与人有无限多种产量战略,但纳什均衡的概念对此仍然适用,即找到战略组合 ,
使其利润最大,这就是数学中求极大值的问题。
因此,分别对u1 ,u2求偏导数并令其为零,则有∶
解此方程组,得纳什均衡产量∶
纳什均衡产量下的利润为∶
为让该问题有个更直观的概念,令a=8,两厂商的边际成本c1 = c2 = c = 2,代入则有∶
纳什均衡下的市场总产量和总利润为∶
而垄断企业的最优产量和垄断利润为∶
对U求导,并令其为零,则有∶
a = 8 ,c = 2时 , Q = 3 U = 9
可见,与纳什均衡比较,垄断企业的总产量较小,而总利润较高
该问题也可以这样理解,如果两厂商能进行合作,生产利润最高的产量,即q1 = q2 =,则u1 = u2 =。
但在独自决策时,这种合作是不容易的;即使达成协议,由于不是纳什均衡的协议,也往往由于缺乏足够的强制力而很难真正执行。这是典型的囚徒困境问题。
从另一个方面看,个人理性与集体理性的冲突,有时对参与人是坏事,但对全社会可能是好事(该例是消费者可购买到更便宜的商品)。
反应函数
在寻找本例的纳什均衡时,由于战略的无限性,支付不能用矩阵的形式表达,这里运用了反应函数的解法。
反应函数∶是指每个博弈方针对其他博弈方所有战略的最佳反应构成的函数,称为反应函数。
纳什均衡就是各博弈方的一组互为最佳反映对策的战略,因此,各博弈方的反应函数的交点(如果有的话),就是纳什均衡。
在该例中我们对u1,u2求偏导数得∶
从上两式中可分别求得厂商1和2的反应函数,
当a = 8,c = 2时,
这两个反应函数都是线性函数,可用平面上两条直线表示(图)
0 1 2 3 4 5 6 q1
6 5 4 3 2 1 0
q2
N(2、2)
R1(q2)
R2(q1)
图
为什么反应函数的交点是纳什均衡呢?
该模型不存在占优战略均衡,但可用重复剔除劣战略的思想来解释。令 为企业i的垄断最优产量(即另一个企业不生产时的最优产量),本例为 ,显然
严格劣于 ,没有任何一个企业会选
择大于垄断产量的产量,这时的利润会下降。因此,第一轮剔除得到 。其次,给定企业1知道2不会选择
,企业1将不会选择 ,因为
严格劣于 ,则第二轮剔除得到 。如此不断重复剔除,使剩余的战略空间不断缩小。由于剔除是无穷尽的,但其过程是收敛的,可证明,二者均收敛于 。因此,重复剔除严格劣战略过程产生 为唯一均衡,即为纳什均衡。
在上述论证中,是假定稳定的均衡是存在的,且是唯一的。满足这个要求的条件是∶
1)利润函数是严格凹的,即 ;
2)交叉偏导数是负的,即 ;
3)两条曲线只交叉一次,且在交叉点R1比R2更陡。
上述1、2两个条件意味着两个反应函数R1和R2是斜率为负的连续函数。
满足这些条件的古诺模型是重复剔除严格劣战略可解的。若不满足这些条件,则无法用重复剔除的方法找到均衡解。此外,如果存在3个以上的寡头厂商,重复剔除也无法给出均衡解。
混合战略纳什均衡的反应函数
在性别博弈中,我们说该博弈有两个纯战略纳什均衡和一个混合战略均衡,其反应函数图如下∶
(0,0) 2/3 1 P(X1)
P(Y1)
1
1/4
(1,1)
(2/3,1/4)
R1[P(X1)]
R2[P(Y1)]
图中,横轴表示男的选足球的概率P(X1) ,纵轴表示女的选足球的概率P(Y1) 。图中有三个交点, (0,0)和(1,1)表示两个纯战略纳什均衡,而(2/3,1/4)表示混合战略纳什均衡。
R1[P(X1)] 和R2[P(Y1)]分别为女的和男的反应曲线
R1[P(X1)]为女的对男的战略选择的反应曲线 ,其含义为,当男的选择足球的概率P(X1)<2/3时,则女的选择足球的得益为
1 P(X1)<2/3,而选择电影的得益为2{1- P(X1)}>2/3,因此,女的应选择电影,即P(Y1)=0;而当P(X1)>2/3时,女的选足球的得益为
1 P(X1)>2/3,大于选电影的得益2{1- P(X1)}<2/3,这时女的应选足球,即P(Y1)=1;当P(X1)=2/3时, P(Y1)取0与1之间的任何值对女的得益均一样。
对R2[P(Y1)]的含义可以作出相似的解释。
应用二、豪泰林(Hotelling)价格竞争模型
“伯川德(Bertrand ,1883)悖论” ∶在古诺模型中,是假设产品是完全相同的。在这个假设下,如果企业的竞争战略是价格而不是产量,伯川德证明,即使只有两个企业,在均衡条件下,价格等于边际成本,企业的利润为零,与完全竞争市场均衡一样。这就是有名的伯川德悖论。
证明∶若n个企业均无固定成本,且边际成本均为c,则n个厂家博弈的纳什均衡为∶
总产量为∶
总利润为∶
当
这表明,随着厂商的增加,产量越来越多,而利润越来越少,最终使参与市场竞争的企业均得不到任何利润。国内近几年家电价格大战充分说明了这一点。
解开这个“悖论”的办法之一就是引入产品的差异性(如品牌、质量、包装、售后服务、地理位置等)。如果产品是有差异的,产品之间的替代性就不是完全的,消费者对价格不是唯一感兴趣的变量,这时均衡价格不等于边际成本。
现假定产品的差异性是地理位置的差异,这是经典的豪泰林(1929)模型。
情况一∶若有一个长度为1的线性城市,消费者均匀地分布在[0,1]区间,分布密度为1。假定有两商店1、2,分别位于城市两端,即商店1在X = 0,商店2在X = 1 。每个商店提供单位商品的成本为C ,消费者购买商品的旅行成本与商店的距离成反比,单位距离成本为t ,则住在X的顾客在1购买的旅行成本为 tX ,在2购买的旅行成本为 t(1-X) 。假定顾客具有单位需求,即或者消费1个单位,或者消费0个单位。
现考虑两商店之间价格竞争的纳什均衡。若两商店同时选择自己的销售成本,令Pi为商店 i的的价格,Di(P1 ,P2)为需求函数,i = 1, 2 。如果住在X的顾客在两商店之间是无差异的,那么,所有住在X左边的都在商店1购买,而住在X右边的将在商店2购买。需求分别为D1 = X,D2 = (1 – X ),这里,X满足∶
P1 + t X = P2 + t (1-X)
解之∶
利润函数∶
对利润函数求偏导数,则有
P2 – 2P1 + C + t=0 ; P1 – 2P2 + C + t = 0
解之,得到纳什均衡的价格∶
纳什均衡价格下的利润为∶
情况二∶两商店位于同一个位置X
他们出售的是同质产品,消费者关心的只是价格,则得到古诺模型的纳什均衡∶
P1 = P2 = c ,u1 = u2 = 0
情况三∶商店位于任何位置
假定商店1位于a≥0,商店2位于1 -b( b ≥0)。为不失一般性,假定1-b-a ≥0 (即商店1位于商店2的左边)。
0 1 2 1
a b
如果旅行成本为二次式 ,d是消费者到商店的距离,需求函数为∶
图
需求函数的第一项是商店自己的地盘(a是住在商店1左边的消费者,b是住在商店2右边的消费者);第二项是位于两商店之间的消费者靠近自己的一半;第三项代表需求函数对价格差异的敏感度。
纳什均衡为∶
当a=b=0时,商店1位于0,商店2位于1,回到第一种情况;
当a=1-b时,两商店位于同一位置,回到第二种情况 ;
应用三、草地的悲剧(公共资源的过渡利用)
这是制度经济学中典型的例子。从休漠(Hume)1739年开始,许多学者认识到,如果一种资源没有排他性的所有权时,人们就会完全从私人动机出发来使用公共资源,这将导致这些资源的被过度利用,而过度利用会达到任何利用它的人都无法得到多少实际的好处,甚至都会承受其带来的灾难。
如森林的砍伐,河流的污染,鱼类的过度捕捉,土地的沙漠化,矿产的过度开发等等。
设某村庄有n家农户,该村有一片可供大家自由放羊的草地。但只能放养一定数目的羊群,若超过这个数目,则会使羊的产出(皮、毛、肉的总价值)减少。
假定养羊数由各农户自行同时决策,且都知道总的放羊数目及每只羊的产出。
该问题中的参与人是n户农户,战略空间是选择养羊数目qi(I=1,2, . . . ,n),羊的总数为Q=(q1 + q2 + . . .+qn ),
每只羊的产出是羊的总数的减函数∶
V=v(Q) = v( q1 + q2 + . . .+qn )
假定每只羊的放养成本均为c,则农户养qi只羊的得益
ui = qiv(Q)- q ic =qi v ( q1 + q2 + . . .+qn )- q ic
为得出简单而直观的结论,假定n=3,c=4
V=100-Q=100 - ( q1 + q2 + q3),则三农户的得益分别为∶
可分别求得反应函数∶
解之∶
Q = 72
U = 1728
若从总体利益来考察草地上的最佳放羊数,总得益为∶
求导得∶96Q - 2Q = 0 解之得∶Q = 48 , U = 2304
可见,总体最优的放养只数比纳什均衡只数少,而得益却高于纳什均衡的得益。
若三农户若能达成协议,即每户放养只数为16只,却能获得更多的收益。但这个协议不是纳什均衡的协议,没有人有自觉性自愿遵守,反而是人人都有不遵守的积极性。因此,草地被过度地被使用了,这就是草地的悲剧
应用四、公共物品的私人自愿供给
与公共资源过度使用的情况相反,公共物品的私人自愿供给会导致供给不足。
设想有一个由n个居民组成的社区正在建设一座防洪堤坝,每个居民自愿提供沙袋,沙袋的总供给等于所有居民个人供给之和。沙袋越多,大堤越坚固,所有居民都受益。
设第i个居民提供的沙袋为qi ,总供给为 。
假定居民i的效用函数为ui(xi,Q),这里xi是私人物品的消费量,假定 且私人物品
和公共物品的边际替代率是递减的。
令px为私人物品的价格,pQ为沙袋的价格,Mi为个人总预算收入。则每个居民面临的问题是∶给定其他居民选择的情况下,选择自己的最优战略(Xi,qi)以最大化下列目标函数∶
是拉格朗日乘数。最优化的一阶条件为∶
则有∶
这是消费者理论中的均衡条件。每个居民选择购买公共物品就如同它是私人物品一样,假定其他人的选择给定,n个均衡条件
决定了公共物品自愿供给的纳什均衡∶
下面我们给出帕累托最优解
假定社会福利函数取下列形式∶
总预算约束为∶
帕累托最优的一阶条件为∶
这里 是拉格朗日乘数。使用n个等式消除掉 ,得到均衡条件∶
这就是所渭的存在公共物品下帕累托最优的萨谬尔逊条件。
尽管个人最优选择导致个人边际替代率等于价格比率,帕累托最优要求所有居民的边际替代率之和等于价格比率。上式可另写为∶
这意味着帕累托最优的公共物品的供给大于纳什均衡的公共物品的供给。
为了对这一点有更直观的认识,这里假定个人效用函数取柯布
----道格拉斯形式,即
在这个假设下,个人最优的均衡条件为∶
将预算约束条件代入并整理,得到反应函数为∶
反应函数意味着,一个人相信其他人提供的公共物品越多,他自己的供给就越少。
1、所有居民有相同的收入水平时的纳什均衡
所有居民有相同的收入水平时,均衡情况下所有居民提供相同的公共物品,纳什均衡为∶
纳什均衡的总供给为∶
所有居民有相同的收入水平时的帕累托最优的一阶条件为∶
将预算约束条件代入,得到单个人的帕累托最优供给和总供给∶
纳什均衡的总供给与帕累托最优的总供给的比率为∶
结论∶在居民收入相同时,公共物品的纳什均衡供给是囚徒困境。纳什均衡供给小于帕累托最优供给,且二者之间的差距随社区居民人数的增加而扩大。
另外,供给不足的程度与效用函数的特征也有关,比如,β相对于α的比率越大,供给不足就越小;当α趋于零时,纳什均衡的供给趋近于帕累托最优供给。
2、当收入分配不相等时的纳什均衡
结论∶供给不足的的程度会随收入分配差距的扩大而减弱(Olson,1982)。
为给出更直观和简单的结论,假设该社区由两人组成。当两人的收入完全相同时,令M1=M2=,其纳什均衡为∶
纳什均衡总供给为∶
如果居民1的收入是居民2的两倍,即M1=2m,M2=m,假定α ≧ β ,纳什均衡为∶
即是说,只有高收入居民提供公共物品,而低收入居民不提供公共物品。
可以验证,收入平均分配下的纳什均衡总供给小于收入分配不均时的纳时均衡总供给∶
收入分配不平均时,公共物品的自愿供给是一个智猪博弈。高收入者是大猪,低收入者是小猪,原因是高收入者提供公共物品的外部效应较小。
应用五、中央与地方政府基础设施投资的博弈
背景∶20世纪80年代,中国经济建设中出现一个引人注目的现象,地方政府热衷于投资加工业而忽视基础设施的投资,许多经济学家批评这是地方政府投资行为不合理的表现。但90年代后,出乎许多经济学家的预料之外,地方政府又开始大量投资于基础设施建设。这一现象可用搏弈模型加以解释。
假设∶ C 代表中央政府; L 代表地方政府
E 代表基础设施投资 I 代表加工业投资
EC 中央用于基础设施的资金 IC 中央用于加工业的资金
EL 地方用于基础设施的资金 IL 地方用于加工业的资金
再假定中央与地方政府的投资收益函数分别取如下的柯布--- 道格拉斯形式∶
中央政府∶
地方政府∶
这里,
因为基础设施建设有外部效应,中央政府考虑这种效应而地方政府不考虑,因此这里假定 。这是该模型的一个重要假设。
在该博弈里,中央政府和地方政府的战略是选择各自的投资分配,假若对方的投资分配给定。我们用BC 和 BL分别代表中央和地方政府可用于投资的总预算资金。
中央和地方政府的目标都是在满足预算约束的条件下最大化各自的收益函数。则中央政府的问题是∶
地方政府的问题是∶
假定预算约束条件的等式成立(即全部可投资资金用于投资)
解上述最优化问题的一阶条件,则得到中央和地方政府的反应函数。
中央政府的反映函数∶
地方政府的反应函数∶
这里,使用预算约束条件消掉了IC和IL。
反应函数意味着,地方政府在基础设施上的投资每增加一个单位,中央政府的最优投资就减少一个单位;地方政府的反应函数也是类似的意思。
重要的是,中央政府理想的基础设施的最优投资总规模大于地方政府理想的基础设施的最优投资总规模:
上述不等式意味着,在均衡点,至少有一方的最优解是角点解。
0 d b L’ C’ EL
EC
C
L
c
a
b’
a’
d’
c’
图
在图中,CC’代表中央政府的反应曲线 ,LL’代表地方政府的反应曲线。
情况一∶中央政府可用于投资的总预算大于中央政府理想的基础设施的最优投资规模。即∶
使用重复剔除劣战略的方法,得到C是唯一的纳什均衡。
给定地方政府不会选择EL>OL’ ,对中央政府来说,[ 0 ,a)严格劣于[ a,C] ,因此,第一轮剔除得到(0L’ , [ a,C] )。
其次,给定地方政府知道中央政府不会选择 EC < a,对地方政府而言,(b,L’] 严格劣于 [ 0,b] ,因此,第二轮剔除得到( [ 0,b] , [ a,C] )。如此不断重复剔除,(0,C)是唯一剩下的战略组合。
结论一∶如果 ,纳什均衡是∶
即地方政府将全部资金投资于加工业,中央政府满足所有基础设施投资的需求,然后将剩余资金投资于加工业。
情况二∶如果中央政府的预算资金小于中央政府理想的基础设施最优投资规模,但大于地方政府理想的基础设施最优投资规模。
用图很容易得到以下结论。
结论二∶如果
纳什均衡为∶
即地方政府将全部资金用于投资加工业,中央政府将全部资金投资于基础设施。
情况三∶如果中央政府的总预算资金小于地方政府理想的
基础设施最优投资规模。
在图中,假定 BC = a ,给定地方政府知道中央政府投资于基础设施的资金不会大于 a ,地方政府的最优选择是用于基础设施的资金是 b ;给定地方政府选择 b,中央政府没有兴趣使用于基础设施的资金小于 a 。
结论三∶ 如果 ,纳什均衡为∶
即中央政府将全部资金投资于基础设施建设,地方“弥补”中央投资的不足直到地方政府的理想状态,将剩余资金投资于加工业。
综合上述三种情况,第一种情况下,资金分配格局满足了中央政府的偏好;在第二种情况下,资金分配格局介于中央政府的偏好和地方政府的偏好之间;在第三种情况下,资金分配格局满足了地方政府的偏好。
但应指出的是,上述模型并不能为提高中央预算的比例提供理论依据,因为不能忽略激励机制的问题。由于激励机制的原因,总预算资金 (BC+BL)并不独立于预算资金的分配格局。比如说,如果全部预算归中央所有,地方政府就没有发展经济的积极性,总预算资金就会减少,其结果是,即使从中央角度看投资比例合理了,但投资于基础设施建设的总资金可能小于现在的水平。
可以用上述模型来说明这一点。
假定α=,β=, γ= ;总预算资金
BC+ BL=3m,此时 ,中央政
府将全部预算投资于基础设施,地方政府将选择 ,
这时基础设施的总投资为 E* = m+=,等于地方政府偏好的投资水平,小于中央偏好的投资水平。
若假定BC∶BL=1∶1时,总预算资金为BC+ BL=,总预算资金下降了20%,因为地方政府的积极性下降了,此时中央的预算上升了。此时,
此时基础设施的总投资为 E* = ,中央政府将全部预算投资于基础设施,地方政府将全部预算投资于加工业。这样的分配格局尽管满足了中央政府的偏好(因此是“合理”的),但比前一种情况相比,基础设施的总投资由下降到,下降了10%,更不用说对其它方面的影响了。
此外,上面模型也没有考虑基础设施的地方特性。在像中国这样大的国家,许多基础设施的地方性很强,其外部效应很难溢出到其他地区。对这类基础设施,只要中央不投资,地方就会投资,并且,地方的最优水平就是全国的最优水平。这可能是近几年来全国各地大力建设高速公路的重要原因。对于那些地方性大于全国性的基础设施来说,出现“过度”投资的情况是可能的。
应用六∶门卫与小偷的博弈(激励的悖论)
一小偷欲偷窃有守卫看守的仓库,若小偷去偷时守卫睡觉,则小偷偷窃成功(令其价值为V),若守卫没有睡觉,则小偷会被抓住坐牢(设其效用为 -P);再假设守卫睡觉而未被偷的效用为S,守卫睡觉而被偷则被解雇,其效用为 -D。其得益矩阵如下∶
守卫
睡 不睡
小 偷 V ,-D -P ,0
偷 不偷 0 , S 0 ,0
用划线法知该博弈没有纯策略纳什均衡,但可求混合策略。
下面我们用图解法求小偷偷与不偷,门卫睡与不睡的概率分布∶
守卫期望得益(睡)
0
1
S
小偷偷的概率
Pt*
-D
图中的横坐标反映小偷选择偷的概率,在0,1之间,纵坐标反映对应于小偷偷的不同概率,守卫选睡的期望得益。可证明,S到-D连线与横轴的交点Pt*就是小偷选偷的概率,1- Pt*就是小偷选不偷的概率。因为,S到-D连线上每一点的纵坐标就是守卫在小偷选择该点横坐标表示的偷的概率时选睡的期望得益∶S(1-Pt)+(-D)Pt 。假定小偷选偷的概率大于Pt*时,守卫的期望得益小于0,守卫会百分之百选择不睡,在守卫不睡的情况下,小偷偷一次被
抓住一次,因此,大于Pt*的偷窃概率对小偷是不可取的。反之,小偷选偷的概率小于Pt*时,会使守卫选睡的期望得益大于0而使守卫睡大觉,小偷会使选偷的概率趋向于Pt* 。
小偷期望得益(偷)
0
1
守卫睡的概率
V
-P
Pg*
同理可证, 和1-Pg*是守卫选择睡与不睡的混合纳什均衡的概率。
Pg*
结论∶激励的悖论
当局为减少盗窃而加重对小偷的处罚时,小偷在守卫同样的混合策略下偷的期望值为负,短期内小偷会停止偷窃,但这样会提高守卫睡觉的概率,从Pg*提高到Pg’ 。
Pg’
-P ’
这时,小偷偷与不偷的期望值又相等,因此小偷又会选择混合策略,而混合策略的概率分布取决于S和-D。
因此,只要S和-D的值不变,加重对小偷的处罚虽然在短期内能抑制偷窃,但长期却只能使守卫多睡觉,偷窃的情况不会有什么改善。
守卫期望得益(睡)
小偷偷的概率
Pt*
S
0
1
-D
-D’
Pt’
若加重对守卫的处罚呢?加重对守卫的处罚意味着守卫的期望值由-D变到-D ’ ,此时,在小偷的混合策略不变的情况下,守卫不敢轻易偷懒睡觉,这样,小偷首先会选择不偷而长期小偷仍会选择混合策略,但只能减少偷窃,偷窃概率由Pt*降于Pt’ 。从而达到新的混合策略。
因此,加重对守卫的处罚在短期中使守卫尽职尽责,而长期中则起到抑制偷窃的作用。只要V和-P的值不变,守卫在长期中的勤勉程度就不会变化。这就是所谓的“激励的悖论” 。
应用七∶监督博弈
监督博弈包括诸如税收检查、质量检查、惩治犯罪、雇主监督雇员等问题。
下面以税收检查为例来寻找纳什均衡。该博弈的参与人是税收机关和纳税人,税收部门的战略是检查或不检查,纳税人的战略是逃税或不逃税。博弈矩阵如下∶
纳税人
逃税 不逃税
检查 a-c+F,-a-F a-c,-a
税收部门
不检查 0 , 0 a , -a
这里,a是应纳税款,c是检查成本,F是罚款。若假定c<a+F,在此假定下,不存在纯战略纳什均衡,存在混合战略纳什均衡。
若用P代表税收机关检查的概率,用D代表纳税人逃税的概率。给定D,税收机关选择检查(P=1)和不检查(P=0)的期望收益分别为
令
解之得∶
即∶如果纳税人逃税的概率小于c/(a+F),税收机关的最优选择是不检查;如果纳税人逃税的概率大于c/(a+F),税收机关的最优选择是检查;如果纳税人逃税的概率等于c/(a+F),税收机关随机选择检查和不检查。
给定P,纳税人选择逃税和不逃税的期望收益分别为∶
令
解之得∶
即∶如果税收机关检查的概率小于a /(a+F),纳税人的最优选择是逃税;如果税收机关检查的概率大于a /(a+F),纳税人的最优选择是不逃税;如果税收机关检查的概率等于a /(a+F),纳税人随机选择不逃税或逃税。
因此,该博弈的混合纳什均衡是∶税收机关以a /(a+F)的概率检查,纳税人以c/(a+F)的概率选择逃税。更为合理的解释可能是,经济中有许多个纳税人,其中有c/(a+F)比例的纳税人逃税,税收机关随机地检查a /(a+F)比例的纳税人的纳税情况。
税收博弈的混合纳什均衡与应纳税款a、对逃税的惩罚F、以及检查成本c有关。
对逃税的惩罚越重,应纳税款越多,纳税人逃税的概率就越小。这或许可以解释为什么小企业的逃税现象比大企业更多,低收入逃税比高收入多等现象。
检查成本越高,纳税人逃税的概率就越大。
当然,这个结论与有关逃税技术和检查成本的假设有关。
首先,比如前面是假定税收机关检查,逃税人就一定会被发现。如果不是这样,如高收入者有很好的逃税办法而不会被发现。
则该结论就不一定成立。其次,如果检查成本与应纳税款有关,如应纳税款越多,检查成本越高,上述结论也难以成立。此外,应纳税款较多的纳税人如果更有积极性贿赂税务人员,上述结论也难成立。将所有这些情况考虑进去,逃税概率与应纳税款的关系可能是非单调的,比如,最遵纪守法的可能是中上等收入阶层。但有一点是可以肯定的,通过对逃税者的惩罚,纳税人逃税的积极性就会下降,税收机关检查的必要性也就降低。
结 束