盘点博弈论&纳什均衡&囚徒困境&零和博弈&智猪博弈
1.博弈论是什么
博弈论(game theory),又译为对策论,或者赛局理论,经
济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博
弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因
此他被称为“博弈论之父”。博弈论被认为是 20世纪经济学最伟
大的成果之一。目前在生物学、经济学、国际关系、计算机科学、
政治学、军事战略和其他很多学科都有广泛的应用。主要研究公
式化了的激励结构(游戏或者博弈)间的相互作用。是研究具有
斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要
学科。
具有竞争或对抗性质的行为称为博弈行为。在这类行为中,参
加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自
的目标和利益,各方必须考虑对手的各种可能的行动方案,并力
图选取对自己最为有利或最为合理的方案。比如日常生活中的下
棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最
合理的行为方案,以及如何找到这个合理的行为方案的数学理论
和方法。
2.纳什均衡(Nash equilibrium)
3.囚徒困境(Prisoner’s Dilemma)
纳什平衡的经典例子就是囚徒困境。囚徒困境(Prisoner’s
Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最
佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性
选择却往往导致集体的非理性。虽然困境本身只属模型性质,但
现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷
希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式
阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下
相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而
对方保持沉默,此人将即时获释,沉默者将判监 10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样
判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监 5年。
用表格概述如下:
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)
都是利己的,即都寻求最大自身利益,而不关心另一参与者的利
益。参与者某一策略所得利益,如果在任何情况下都比其他策略
要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。
另外,没有任何其他力量干预个人决策,参与者可完全按照自己
意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最
短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能
交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,
检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名
理性囚徒会如何作出选择:
若对方沉默、我背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所
以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结
论——选择背叛。背叛是两种策略之中的支配性策略。因此,这
场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,
结果二人同样服刑 5年。
亚当·斯密的理论(“看不见的手”原理),在市场经济中,
每一个人都从利己的目的出发,而最终全社会达到利他的效果。
但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个
悖论:从利己目的出发,结果损人不利己,既不利己也不利他。
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两
国都可以声称有两种选择:增加军备(背叛)、或是达成削减武
器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最
终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国
的“理性”行为,但结果却显得“非理性”(例如会对经济造成
损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来
遏制对方的进攻,以达到和平。
经济学例子:关税战
两个国家,在关税上可以有以下两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)
时,另一国也会作出同样反应(亦背叛),这就引发了关税战,
两国的商品失去了对方的市场,对本身经济也造成损害(共同背
叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果
是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告
较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质
量类似的广告,收入增加很少但成本增加。但若不提高广告质量,
生意又会被对方夺走。
此二公司可以有二选择:
互相达成协议,减少广告的开支。(合作)
增加广告开支,设法提升广告的质量,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛成为支配性策略时,二
公司将陷入广告战,而广告成本的增加损害了二公司的收益,这
就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协
议是较为困难的,多数都会陷入囚徒困境中。
4. 零和博弈
零和博弈(zero-sum game),又称零和游戏或零和赛局,与非
零和博弈相对,是博弈论的一个概念,属非合作博弈。零和博弈
表示所有博弈方的利益之和为零或一个常数,即一方有所得,其
他方必有所失。在零和博弈中,博弈各方是不合作的。非零和博
弈表示在不同策略组合下各博弈方的得益之和是不确定的变量,
故又称之为变和博弈。如果某些战略的选取可以使各方利益之和
变大,同时又能使各方的利益得到增加,那么,就可能出现参加
方相互合作的局面。因此,非零和博弈中,博弈各方存在合作的
可能性。国际经济中许多问题都属于非零和博弈问题,即国际经
济中各方的利益并不是必然相互冲突的。
也可以说:自己的幸福是建立在他人的痛苦之上的,二者的大
小完全相等,因而双方都想尽一切办法以实现“损人利己”。零
和博弈的例子有赌博、期货和选举等。
5.智猪博弈
在长条形的猪圈中关着大小两头猪。猪圈一端有一个猪食槽,
另一端有一个按钮,可以控制猪食槽中的食物,按下按钮后就有 10
单位的猪食进入食槽。大猪进食的速度快,如果大猪先到达食槽
处,可以吃到 9个单位的猪食(小猪吃到剩余的食物,下同);
如果同时到达,大猪吃到 7个单位猪食;如果小猪先到,大猪吃
到 6个单位。另外,按下按钮者跑到猪食槽处需要付出 2单位猪
食的代价。假设两头猪从按钮处跑到猪食槽处所需时间相同。
两头猪都有两种选择:按按钮后跑到猪食槽,或者在猪食槽处
等待。因此,可以列出下列支付矩阵(行表示大猪,列表示小猪):
容易看出,无论大猪如何选择,小猪选择等待获得的收益总是比
按按钮更高。换言之,小猪选择等待是一个优势策略。给定小猪
选择等待,大猪会选择按按钮去获得更大的收益。因此,整个博
弈的纳什均衡是大猪按按钮,小猪等待。
在市场中,大企业和小企业类似智猪博弈中大猪和小猪的关系。
按下按钮好比研发推出新产品,可以为企业带来高额利润,但需
要的成本只有大企业负担得起。因此,小企业更愿意选择模仿大
企业的技术创新,紧随其后出售廉价产品占据市场份额。