博弈论课件 - MBA智库文档

博弈论目录第一讲博弈是一种竞合游戏第二讲博弈论基础第三讲完全信息静态博弈第四讲完全信息动态博弈第五讲几个专题本课程的说明为什么开设博弈论 “如果你想成为一个有文化的人，你必须对博弈论有个大致了解”——萨缪尔森。博弈论是自然科学与社会科学完美渗透的结晶。加入世贸的中国（世界竞争）与缺乏现代科学理论、方法的中国的矛盾。本课程的说明课程的讲授风格文理学生兼顾不损失博弈论的理论严密特点一定程度上反映博弈论的人文学科特点力求不同专业的学生都有所收益体现博弈论的博大博弈论多学科、多领域交叉性明显力求理论与实际的融合本课程的说明学习方法尽可能多读些推荐的参考著作与日常实践相联系由于博弈论涉及知识较多，因此一些相关数学、经济学知识需要课后阅读。推荐书目（1）张维迎著博弈论与信息经济学. 上海三联书店，上海人民出版社. 1996年8月. [美]迪克西特, 奈尔伯夫著. 王尔山译. 策略思维. 中国人民大学出版社. 2003. 王则柯《博弈论教程》，人民大学出版社。以上书目文理科学生可选读，尤其是[1]，[3] 推荐书目（2） [美]迈尔森(Myerson, R. B.)著. 于寅, 费剑平译. 博弈论——矛盾冲突分析. 经济出版社. 2002 [加]马丁 J.奥斯本, [美]阿里尔. 鲁宾斯坦. 当代经济学教科书译丛. 博弈论教程. 中国社会科学出版社. 2000. [美]朱.富登博格/Drew Fudenberg/，[法]让.梯若尔/Jean Tirole/.博弈论.中国人民大学出版社(一本翻译的较差的博弈论名著)。以上书目推荐有兴趣的理科学生选读。第一讲博弈是一种竞合游戏 2000多年前，雄才大略的秦始皇第一次统一了中国大地，并创建了当时世界上最庞大的帝国，得以名垂青史。从当时的历史条件来看，秦国虽然在商鞅变法之后实力大增，但其经济、政治、军事实力是远远不能与六国总和相匹敌的。这种情况下，六国与秦国的形势就产生了两种针锋相对的可能：其一，六国采用“合纵”政策对抗秦国，也就是各国缔结军事盟约，共同抵御秦国的侵略，秦国若对任一国家发动侵略，其它国家必须无条件出兵营救；其二，六国采用“连横”政策与秦国妥协，也就是各国都与秦国签订友好互助条约，保持双边和平关系。　　当时七国之中，只有齐国实力比秦国稍逊一筹，成为六国军事同盟的核心。一旦齐国放弃“合纵”政策，六国的军事同盟就土崩瓦解。真实的历史也证明了这一点，秦国对六国联盟的破坏正是从齐国开始的。在这种情况下，秦国与齐国都有两种战略政策可以选择，那就是“合纵”与“连横”。秦国如果默许六国“合纵”，齐国采用“合纵”政策，结果是秦国势力扩张被遏制，而齐国成为六国领袖，势力得以扩张。秦国采取“连横”政策，齐国仍然采取“合纵”政策，结果是秦国与六国处于对峙状态。秦国默许六国“合纵”，齐国却采用“连横”政策与秦国示好，结果是秦国没有吞并六国的野心自然无法一统天下，齐国的势力也没有得以扩张。而历史的真相是，秦国采取“连横”政策，齐国默许秦国的“连横”政策并与秦国建立友好外交关系，齐国最终被灭，千古一帝秦始皇得以名扬千秋。　　“博弈论”的英文是“Game Theory”，实际上Game的本意是游戏，博弈论直接翻译成中文最贴切的直译是“游戏理论”。更准确点说，是一种竞合的智力游戏。　　从秦始皇的故事中，我们看到博弈中包含了竞争冲突与合作两种截然不同的策略。所谓竞合，就是竞争合作的简写，一个博弈，并不仅仅是竞争，实际上竞争中包含着潜在合作的种子，合作中包含着潜在竞争的种子。其实生活中处处渗透着竞争和合作的统一：譬如：同在一个班上学的同学之间。同学和同学之间既要在学习上、要求进步上、个人修养上、甚至爱情上都有一定的竞争，这很自然，没有竞争整个社会就会失去动力；但同时作为有缘在一起上学的同窗，又有利益一致的地方。同学之间要相互帮助、相互尊敬、共同进步，甚至以后还有可能是事业上的搭档。（例如电视剧《少年包青天》上的包拯和公孙策就是从同学上升为同事、同僚和亲密的战友。）尤其大家是来自不同省份，有着不同的生活环境和经历以及见闻，同学之间的交流可以互通有无，增长见识。再譬如近代史上国共两党的三次合作。充分体现了两党由于政治见解不同、主张分歧而产生的你死我活的斗争，也同时为了打倒共同的敌人而携手合作的需要。第一次和第二次在孙中山先生的倡导下，反对军阀；第三次为了抗战救国，赶走日寇。生活中处处有“竞合”，所以处处有博弈。因而博弈被广泛应用在军事、经济、外交、文化、行政等等领域。厉以宁教授讲“龟兔赛跑”故事：要竞争还是要合作？以前的故事是乌龟和兔子之间的竞争，结果乌龟趁兔子睡觉之际夺得胜利。新故事：兔子和乌龟合作双赢。当陆地时，兔子拖着乌龟跑；到水里时，乌龟驮着兔子过河。最后两人都比原先更快达到目的地，实现了双赢。我国以前一些同类出口企业，为了夺市场互相排挤、竞相压价，结果没有获利，而是国外买方获利。现在大家认识到这个问题，纷纷合作，以共同的价格、同一声音，一致对外，取得了良好的经济效益。（例如俄罗斯边境贸易）这说明：市场经济在早期，企业间的竞争是合理的，是发展经济的前提。但是发展到一定阶段，合作凸现重要性，合作才是趋势。以竞争为基础，以合作共赢为目标。博弈分为合作博弈与非合作博弈。一般学者研究的是非合作博弈（最有名的是囚徒困境，后面会讲到），理论上和生活中，合作博弈都比较少。合作博弈并不是指合作各方具有合作的意向或态度，而是指在博弈中有一些对博弈各方有约束力的协议或契约，或者说是博弈各方不能公然“串通”或“共谋”。合作博弈最典型的例子就是石油输出国组织欧佩克（Organization of Petroleum Exporting Countries，简称Opec）。。 1960年9月，伊朗、伊拉克、科威特、沙特阿拉伯和委内瑞拉的代表在巴格达开会，决定联合起来共同对付西方石油公司，维护石油收入。欧佩克在这个时候应运而生。欧佩克现在已发展成为亚洲、非洲和拉丁美洲一些主要石油生产国的国际性石油组织。它统一协调各成员国的石油政策，并以石油生产配额制的手段来维护它们各自和共同的利益，把国际石油价格稳定在公平合理的水平上。比如有些时候为防止石油价格飚升，欧佩克可依据市场形势增加其石油产量；为阻止石油价格下滑，欧佩克则可依据市场形势减少其石油产量。对于个人来说，从博弈论的角度来看，在人生、事业一筹莫展的时候，如何能寻找到一个快速突破困境的办法？　　首先要寻找一个合理的策略，而这个合理的策略，势必要建立在一个牢固的基点之上，才能切实可行。如果在困境之中，有人与你因为同样的原因无法抽身，那么是否能够和这个人一起摆脱不利的处境，在合作的基础上走向双赢呢？　　《红楼梦》里面形容四大家族的时候，用过一个评语，叫做“一荣俱荣，一损皆损”，就是因为这四个家族你中有我，我中有你，相互之间有利益的合作，也有亲缘关系，所以结成一个牢固的联盟。那么，如果两个同时处在困境中的人，也有这种利益+亲缘的双重关系，他们合作起来就会更加容易，而且形成的合力就会更大。正所谓“二人同心，其利断金”，而要做到“同心”，只有利益上的合作是不够的，还需要一种近乎亲情的亲缘关系。显然，这是可遇而不可求的，因为亲缘关系不是能够随便形成的。　　　　智力游戏与博弈相近似的本质是：在确定游戏规则的约束下，游戏参与者决策、行动的过程。各种智力游戏实质上就是一个社会的经济、管理、军事、政治等现象抽象出来的缩微模拟模型。在这个意义上不妨说，博弈论就是研究怎么玩好游戏的理论。　　游戏是一种抽象。面对复杂现象时，人们经常会“只见树木不见森林”，无法抓住某种现象的关键所在。而在游戏中，可以通过抽象出现实生活中的要点，并将干扰因素减至最低，从而轻松地分析问题并找到合理可行的解决方法。中国最古老的围棋智力游戏，其最初的功能形态就是模拟战争。围棋包含最多的就是博弈的内涵，特别是战争中的博弈内涵，如围而歼之，生死存亡为先，争地夺利为上。围棋以获得最大的利益为胜，抽象出战争的本质和目的，来研究战争的规律。　　围棋游戏的规则极其简单，不过是两气生，一气死，附加帖目、打劫等辅助规则，最终以所占地盘大小定胜负。然而，其作为一项智力游戏，围棋与战争在很多方面都相通。围棋棋手在小小棋盘上较量，就是战争、战场、战斗在棋盘上的演绎。　　战争理念和战争指导思想是“基于毁伤”，以破坏、消耗、摧毁敌方为上。现代西方国家提出“基于效果”的作战思想，美国人将这一战争理念上的革命称为新的战争哲学。基于效果就是，着眼于敌方整个作战系统的控制，使之丧失作战能力。美军在伊拉克发动“斩首行动”的前一天，还专门召开了推出基于效果作战理念的新闻发布会，接着就发动了进攻。围棋模拟出“基于效果”的战争理念，强调从全局上控制，而不是基于蝇头小利。即所有的作战方法都必须是有效的，着子要看在全局中是否有用、有效，而不再是基于棋理、棋道、棋风等虚幻的在形式。基于效果的思想就是赢棋第一，实事求是。比如韩国棋手李昌镐就是基于效果的典范。　　现在很多世界级公司都已经明白智力游戏的作用。比如著名的微软公司在招聘员工时出过非常“儿童化”的招聘考题，题目是这样的：“某合唱团的4名成员A、B、C、D往演出现场，他们途中要经过一座小桥。当他们赶到桥头时，天已经黑了，周围没有灯。他们只有一只手电筒。现在规定：一次最多只许两人一起过桥，过桥人手里必须有手电筒，而且手电筒不能用扔的方式传递。4个人的步行速度都不同，若两人同行，则以较慢者的速度为准。A需花1分钟过桥，B过桥需花2分钟，C需花5分钟过桥，D需花10分钟过桥。请问：他们能在17分钟内过桥吗？” 　　这可不是微软公司的别出心裁，据说许多跻身世界500强的公司在招收新员工时，都要出类似的智力题。　智力游戏可以锻炼人的思维能力，培养人的思维方法。良好的思维方法能使我们从错综复杂的现象中找到事物的本质，从纷繁的因素中找到事物变化的主要原因，使事物呈现出条理性。　　思维方法是抽象的，它不像1＋1＝2那么简单，只有通过自己的想象，亲自动手操作，经历失败，才能逐步形成。思维科学化程度越高的人，工作中发现问题、解决问题的能力就越强。这一点已成为人们的共识。　　在许多智力游戏中，都存在这么一个共同的特点：就是参与者所选择的策略对于胜负有着举足轻重的影响。一个游戏的规则一旦定好之后，策略选择的好坏就成了游戏参加者所能自由运用的左右游戏结果的最关键因素。特别是在围棋、象棋之类参与者的初始条件完全相同的游戏中，策略选择就成了游戏结果的唯一决定因素。第二讲博弈论基础一、博弈论相关背景知识二、什么是博弈论三、博弈的基本概念博弈论相关背景知识博弈思想自古有之 2000年前中国著名的“田忌赛马” 1500年前巴比伦犹太法典的“婚姻合同问题” 1838年的古诺(Cournot)模型，被看成是早期博弈研究的起点 1883年伯特兰德 (Bertrand)提出的通过价格进行博弈的寡头竞争模型与古诺模型有异曲同工之妙。艾奇沃斯(Edgeworth)提出的“契约曲线”则是后来合作博弈论重要概念“核”的特例。一、博弈论相关背景知识 John von Neumann 生平 8岁就掌握了微积分，19岁发表了第一篇学术论文 30岁成为最年轻的普林斯顿数学学院6名教授之一 (Einstein was one of the others)（1933年）博弈论相关背景知识博弈论的诞生 von Neumann和Morgenstern合著的《博弈论和经济行为》(The Theory of Games and Economic Behavior)的诞生（1944）该书首创的博弈一些术语，表示形式，至今仍在使用提出了v-N-M效用，用以表示博弈的支付使博弈论从数学家的圈子中走出，建立了数学与经济学间的桥梁博弈论相关背景知识 1957年英年早逝（纯粹数学、应用数学、物理学,polymath） 20世纪40年代开始转向应用数学领域 1943年为Manhattan项目的顾问(atomic bomb) 1944年第一台计算机的诞生，他作了主要贡献 1944年与摩根斯坦合作的博弈论第一部著作博弈论相关背景知识首部博弈论专著出现的历史背景普林斯顿大学汇集了当时最一流的著名科学家数学在物理学的成功应用激发了von Neumann等博弈论先驱，采用数学对冲突局势下人们的思维、行为过程的数学描述的想象力博弈论相关背景知识 John Nash Jr.与Nash均衡 1950年纳什在普林斯顿的博士论文(27pages)，首次提出了纳什均衡、并证明了纳什定理 “这是对博弈论高度的原创性和重要的贡献”——Tucker 30岁后，曾陷于精神疾病数十年 1994与 Harsanyi, Selten共获诺贝尔奖纳什与爱因斯坦、冯诺依曼的轶事博弈论相关背景知识 20世纪50年代是博弈论的第一个研究高潮 Nash均衡理论的建立理论与实验并行的博弈研究方式 1950年兰德公司的囚徒问题的实验合作博弈论的第一次鼎盛时期 “40年代末50年代初是博弈论历史上令人振奋时期，原理已经破茧而出，正在试飞它们的双翅，活跃着一批巨人。”（Aumann, 1985）博弈论相关背景知识 20世纪50年代中后期到70年代的兴盛期博弈研究成果不断丰富 1965年则而滕与海萨尼的博弈的精炼理论进化博弈(evolutionary game, 1972)的出现 “共同知识 (common knowledge)”假设的建立博弈论相关背景知识 20世纪80~90年代的成熟期 Kohlberg的前向归纳法(forward induction, 1981) Kreps和Wilson的sequential equilibrium ( 1982) Smith的“Evolutionary and The Theory of Games” (1982) 博弈学习理论(learning theory)的完善博弈论相关背景知识 20世纪80~90年代的成熟期博弈论几乎涉及经济学所有领域，改变了微观经济学的理论基础博弈论在心理学、行为科学、认知科学等人文科学都取得了成功应用博弈论在生物学、智能技术、计算机科学等也都有着应用多名博弈论专家获得诺贝尔经济学奖二、什么是博弈论博弈即一些个人、队组或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。博弈论就是描述和研究行为者之间的策略相互依存和相互作用的一种决策理论。二、什么是博弈论博弈的分类：完全信息静态博弈完全信息动态博弈不完全信息静态博弈不完全信息动态博弈三、博弈的基本概念 1、参与人（players）：一个博弈中独立决策、独立承担结果的主体。 2、行动（actions or moves）：参与人在博弈的某个时点的决策变量。 3、策略（strategies）：参与人在给定信息集的情况下的行动规则 4、得益（pay off）（或支付、报酬）：指在一个特定的策略组合下参与人得到的确定效用水平，或者是指参与人得到的期望效用水平。囚徒困境（prisoners’ dilemma) 囚徒困境坦白不坦白坦白不坦白－3，－3 0，－5 －5，0 －1，－1 无论对方如何选择，每个人的最优选择：坦白。所以，我们可以预测，结果将是（坦白，坦白）乙甲第三讲完全信息静态博弈完全信息：局中人都清楚各种对局情况下每个局中人的得益。静态博弈：（最简单的博弈）所有参与人同时选择行动，并且只选择一次； “同时”是一个信息概念，而不一定与日历上的时间一致；一、占优策略：囚徒困境（prisoners’ dilemma) 乙坦白抵赖甲坦白抵赖－3 －3 －5 0 0 －5 －1 －1 囚徒困境的哲学意义：个人理性与集体理性的冲突 “囚徒困境”表明个人理性与集体理性的冲突。这样的例子很多：寡头竞争，军备竞赛，团队生产中的劳动供给，公共产品的供给，等等；许多的制度就是为解决“囚徒困境”而存在的；从更深刻的意义上讲，囚徒困境模型动摇了传统社会学、经济学理论的基础，这是经济学的重大革命。传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制：“当个人在追求他自己的私利时，市场的看不见的手会导致最佳经济后果。”这就是说，每个人的自利行为在“看不见的手”的指引下，追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。　　。　　传统经济学秉承了亚当·斯密的思想。传统经济学认为：因此经济学不必担心人们参与竞争的动力，只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正，自然会增进社会福利。　　但是囚徒困境的结果，恰恰表明个人理性不能通过市场导致社会福利的最优。每一个参与者可以相信市场所提供的一切条件，但无法确信其他参与者是否能与自己一样遵守市场规则。一般来说，由于每个参与人的效用依赖于所有人的选择，因此每个人的最优选择（战略）也依赖于所有其他人的选择（战略）。但在上述例子中，一个人的最优选择并不依赖于他人的选择。这样的最优战略，被称为“占优策略”(dominant strategy)。由所有参与人的占优战略构成的战略组合被称为“占优均衡”。占优策略均衡的出现只要求所有人都是理性的，但不要求每个参与人知道其他参与人是否理性。囚徒困境博弈有占优均衡，所以其结果很容易预测。占优（优势）策略与占优均衡故事一： “原地高天，堪叹古今情难尽；痴男怨女，可怜风月债难偿。” 　　我们来先看欧·亨利的小说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的妻子和丈夫，很是穷困潦倒。除了妻子那一头美丽的金色长发，丈夫那一只祖传的金怀表，便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦，他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进对方的利益，他们愿意奉献和牺牲自己的一切。　　话说明天就是圣诞节了，小两口都是身无余钱。为了让爱人过得好一点，每个人还是想悄悄准备一份礼物给对方。丈夫卖掉了心爱的怀表，买了一套漂亮发卡，去配妻子那一头金色长发。妻子剪掉心爱的长发，拿去卖钱，为丈夫的怀表买了表链和表袋。最后，到了交换礼物的时刻，他们无可奈何地发现，自己如此珍视的东西，对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西，竟成了无用之物。出于无私爱心的利他主义行为，结果却使得双方的利益同时受损。　　欧·亨利在小说中写道：“聪明的人，送礼自然也很聪明。大约都是用自己有余的物事，来交换送礼的好处。然而，我讲的这个平平淡淡的故事里，两个住公寓的傻孩子，却是笨到极点，彼此为了对方，白白牺牲了他们屋檐下最珍贵的财富。” 　　从这段文字看，欧·亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨，单从利益的角度来解读。我们假定，他们每个人，有一个“毫不利己，专门利人”的偏好系统，毫不考虑自身利益，专门谋求别人的幸福。这样，个人选择付出还是不付出，只看对方能不能得益，与自己是否受损无关。以这样的偏好来衡量，最好的结果自然是自己付出而对方不付出，对方收益增大；次好的结果是大家都不付出，对方不得益也不牺牲；再次的结果是大家都付出；最坏的结果是别人付出而自己不付出，靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结果的评价：第一种结果给3分，第二种结果给2分，第三种结果给1分，最后那种给0分。　　不难看出，无论对方选择付出，还是选择不付出，个人自己的最佳选择都是付出。然而这并不是对大家都有利的选择。事实上，大家都选择不付出，明显优于大家都选择付出的境况，这就达到了上文提到的纳什均衡。　　实际上，这里的例子有一个占优策略均衡。通俗地说，在占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的占优策略都是他的最优策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。　　因此，占优策略均衡一定是纳什均衡。在这个例子中，妻子选择不付出，也就是不剪掉金发对于妻子来说是一个优势策略，也就是说妻子不付出，丈夫不管选择什么策略，妻子所得的结果都好于丈夫。同理，丈夫不卖掉怀表对于丈夫来说也是一个优势策略。　　二、纳什均衡：概念：给出对方的策略，你所选策略是最优的（至少不比其它策略差），如果每个局中人都是这样，那么所构成的策略组合（对局），就称为纳什均衡。精髓：没有任何一个局中人愿意偏离目前状态（对局），大家处于静态对峙状态。纳什均衡：举例广告博弈纳什均衡：（做广告，做广告）企业1 企业2 利用纳什均衡寻租考虑股票市场融资的例子：设想企业价值是100，现在发行的流通股为100股，每股价值1元。现在假定经理想筹集100元，投资价值只有50元。有人买新股吗？假定每一股配4股，价格为元。如果股东不接受配股：原来一股1元的价值就变成元（=150/500）；如果接受配股，他持有的股票的价值是元；因为配股的成本是1元，所以他的最优选择是接受配股。故事二：公共地悲剧与和谐社会有一个关于牧民与草地的故事，说的是当草地向牧民完全开放时，每一个牧民都想多养一头牛。因为多养一头牛增加的收入大于其供养成本，明显这是有利可图的。　　虽然对于单个牧民来说，他增加一头牛是有利的。但是如果所有的牧民都看到这一点，都增加一头牛，那么草地将被过度放牧，从而不能满足牛的需要，导致所有牧民的牛都饿死。这个故事就是公共资源的悲剧，即哈定悲剧，也叫作公共地悲剧。　　哈定悲剧，由英国留学生哈定（GarritHadin），在1968年在《科学》杂志上发表的文章《Tragedy of Commons》(公共策略)中提出。哈定在文中指出：“在共享公有物的社会中，每个人，也就是所有人都追求各自的最大利益。这就是悲剧的所在。每个人都被锁定在一个迫使他在有限范围内无节制地增加牲畜的制度中。毁灭是所有人都奔向的目的地。因为在信奉公有物自由的社会当中，每个人均追求自己的最大利益。公有物自由给所有人带来了毁灭。” 　　　　在市场经济中最常见的“哈定悲剧”现象就是环境污染。当无政府管制时，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。　　按照“看不见的手”的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而达到纳什均衡状态。　即使有一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。　　这便是“看不见的手”的有效竞争机制失败的明证。　　拿我们国家来说，20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但自然环境将变得更加和谐优美。　从历史上来看，中国的国家发展战略一波三折。　　20世纪50年代，我们学苏联，走的是低就业、低消费、高消耗、自我封闭的重工业模式。然而，这个模式并不符合中国人均资源短缺、资本稀缺、劳动力资源丰富的基本国情，再加上政治动荡，走了一段就走不下去了，使我们延误了发展的黄金时期。　　20世纪80年代，我们又学欧美传统的发展模式，用资源高消耗和生活高消费，来刺激经济高速增长。这一模式追求资本生产率与利润最大化，而忽视资源利用率与环境损失。　　到了今天，中国成了世界上最大的制造业国家，也成了世界上自然资产损耗最严重的国家。45种主要矿产15年后将剩下6种，5年以后60％以上的石油依赖进口，我们单位GDP的能耗是日本的7倍、美国的6倍、印度的倍。单位GDP污染排放量是发达国家平均水平的十几倍，劳动生产率却是人家的几十分之一。　建国50多年来，我们的人口从6亿增长到了13亿，多了一倍，而可居住的土地由于水土流失从600多万平方公里减少到300多万，减少了一半。中国在人均GDP400～1000美元时，出现了发达国家人均GDP3000～10000美元期间出现的严重污染。按照目前的污染水平，若干年后我们的经济总量翻两番时，污染负荷也会跟着翻两番。资源和环境作为公共自由物，是全体国民的公共财产，政府作为人民大众管理社会事务的工具，责无旁贷地负有保护资源环境、实现经济、社会、自然协调发展的历史使命。　　不少政府官员和学者，总是寄希望于通过技术手段，来解决公共地悲剧问题。然而早在20世纪60～70年代在现代自然科学领域已经形成一种认识，那就是包括人口问题、核战争及环境污染等在内的问题都只是一个局部问题，而这些是无法靠技术手段解决的。　要解决公共地悲剧，就必须要明晰公共地产权、牧民之间有效沟通形成共同愿景、采取违规行为之后的及时惩罚、牧民自身道德素质的提高、改善牛或者草的品种，甚至是牧民也可以换个职业等都是可行的方法。　　这些方法对我国建设节约型社会也有很大的启发，比如增加资源环境危机的宣传和教育，以形成大众心理暗示，对公共自由物中的不可再生资源采用国家管理的形式严格控制使用；对可再生资源采取委托管理的形式，培育社会力量加以保护，国家起到监督和引导作用等。占优均衡与纳什均衡的区别公明博弈装修行给看不给看公明要求看不要看最后的结果是有两个纳什均衡，而占优均衡只有一个。主要区别：占优均衡是不管对方出什么策略，我的这个策略都是唯一的，最好的。而纳什均衡要视对方策略而动，譬如上例：在公明要求看时，给看是装修公司最优策略。而公明不要求看时，装修公司就不给看为上策。 600 800 0 0 1000 0 1000 0 混合策略纳什均衡有些情况下没有纯策略纳什均衡：如扑克牌配色游戏乙红黑红甲黑 1 －1 －1 1 －1 1 1 －1 故事三：警察与小偷某个村庄上只有一名警察，他要负责整个村的治安。小村的两头住着两个全村最富有的村民A和B，A、B分别需要保护的财产为2万元、1万元。整个小村某一天来了个小偷，要在村中偷盗A和B的财产，这个消息被警察得知。　　因为分身乏术，警察一次只能在一个地方巡逻；而小偷也只能偷盗其中一家。若警察在某家看守财产，而小偷也选择了去该富户家，就会被警察抓住；若警察没有看守财产的富户家而小偷去了，则小偷偷盗成功。一般人会凭着感觉认为，警察当然应该看守富户A家财产，因为A有2万元的财产，而B只有1万元的财产。实际上，对于警察的一个最好的做法是，警察抽签决定去A家还是B家。　　　　某个村庄上只有一名警察，他要负责整个村的治安。小村的两头住着两个全村最富有的村民A　　因为A家的财产是B家的2倍，小偷自然光顾A家的概率要高于B家，不妨用两个签代表A家，比如如果抽到1、2号签去A家，抽到3号签去B家。这样警察有2／3的机会去A家做看守，1／3的机会去B家做看守。小偷的最优选择是：以同样抽签的办法决定去A家还是去B家实施偷盗，只是抽到1、2号签去A家，抽到3号签去B家，那么，小偷有l／3的机会去A家，2／3的机会去B家。这些数值是可以通过联立方程准确计算出的，笔者这里就不给出具体的数学计算过程了。　所谓混合策略是指参与者采取的不是惟一的策略，而是其策略空间上的概率分布。这就是纳什于1950年证明了的纳什定理。而这个博弈没有纯策略纳什均衡点，而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的混合策略选择。　　最常见混和策略就是猜硬币游戏。比如在足球比赛开场，裁判将手中的硬币抛掷到空中，让双方队长猜硬币落下的正反面。由于硬币落下是正是反是随机的，概率应该都是1/2。那么，猜硬币游戏的参与者都是1/2的概率选择正与反，这时博弈达到混和策略纳什均衡。再比如我们儿时玩的“剪、布、锤”就不存在纯策略均衡，对每个小孩来说，自己采取出“剪”、“布”、还是“锤”的策略应当是随机的。一旦一方知道另一方出其中某个策略的可能性增大，那么这个对弈者在游戏中输的可能性就增大。因此，每个小孩的最优混合策略是采取每个策略的可能性是l／3。在这样的博弈中，每个小孩各取三个策略的1／3是纳什均衡。　　由此可见，纯策略是参与者一次性选取的，并且坚持他选取的策略。而混合策略是参与者在各种备选策略中采取随机方式选取的。　　猎鹿模型的合作哲学社会学告诉我们，在人类文明之初的原始社会，人们维生的方式主要是狩猎。　　话说某个部落有两个出色的猎人，某一天他们狩猎的时候，看到一头梅花鹿。于是两人商量，只要守住梅花鹿可能逃跑的两个路口，梅花鹿就会无路可逃。只要他们能够齐心协力，梅花鹿就会成为他们的盘中餐。不过只要其中有任何一人放弃围捕，梅花鹿就会逃跑掉。　“福兮祸之所依；祸兮福之所伏。”有时运气太好并不一定有好的结果。正当两个猎人严阵以待，围捕梅花鹿的时候，在两个路口都跑过一群兔子，如果猎人去抓兔子，会抓住4只兔子。从维持生存的角度来看，4只兔子可以供一个人吃4天，1只梅花鹿如果被抓住将被两个猎人平分，可供每人吃10天。这里不妨假设两个猎人叫A和B。　乙猎鹿打兔猎鹿甲打兔 10 10 4 0 0 4 4 4 　两个纳什均衡，就是两个可能的结局。两种结局到底哪一个最终发生，这无法用纳什均衡本身来确定。　　比较[10，10]和[4，4]两个纳什均衡，明显的事实是，两人一起去猎梅花鹿比各自去抓兔子可以让每个人多吃6天。按照经济学的说法，合作猎鹿的纳什均衡，分头抓打兔子的纳什均衡，具有帕累托优势。与[4，4]相比，[10，10]不仅有整体福利改进，而且每个人都得到福利改进。　　换一种更加严密的说法就是，[10，10]与[4，4]相比，其中一方收益增大，而其它各方的境况都不受损害。这就是[10，10]对于[4，4]具有帕累托优势的含在经济学中，帕累托效率准则是：经济的效率体现于配置社会资源以改善人们的境况，主要看资源是否已经被充分利用。如果资源已经被充分利用，要想再改善我就必须损害你或别的什么人，要想再改善你就必须损害另外某个人。一句话简单概括，要想再改善任何人都必须损害别的人了，这时候就说一个经济已经实现了帕累托效率。　　相反，如果还可以在不损害别人的情况下改善任何人，就认为经济资源尚未充分利用，就不能说已经达到帕累托效率。效率是指资源配置已达到这样一种境地，即任何重新改变资源配置的方式，都不可能使一部分人在没有其他人受损的情况下受益。这一资源配置的状态，被称为“帕累托最优”(Pareto optimum)状态，或称为“帕累托有效”(Pareto efficient)。目前在世界上比比皆是的企业强强联合，就接近于猎鹿模型的帕累托改善，跨国汽车公司的联合、日本两大银行的联合等等均属此列，这种强强联合造成的结果是资金雄厚、生产技术先进、在世界上占有的竞争地位更优越，发挥的影响更显著。　　总之，他们将蛋糕做得越大，双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好，还是其他什么重组方式,最重要的在于将蛋糕做大。在宝钢与上钢的强强联合中，宝钢有着资金、效益、管理水平、规模等各方面的优势，上钢也有着生产技术与经验的优势。两个公司实施强强联合，充分发挥各方的优势，发掘更多更大的潜力，形成一个更大更有力的拳头，将蛋糕做得比原先两个蛋糕之和还要大。猎鹿模型的讨论，我们的思路实际只停留在考虑整体效率最高这个角度，而没有考虑蛋糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。　　我们不妨做这样一种假设，猎人A比猎人B狩猎的能力水平要略高一筹，但B猎人却是酋长之子，拥有较高的分配权。　　可以设想，A猎人与B猎人合作猎鹿之后的分配不是两人平分成果，而是A猎人仅分到了够吃2天的梅花鹿肉，B猎人却分到了够吃18天的梅花鹿肉。在这种情况下，整体效率虽然提高，但却不是帕累托改善，因为整体的改善反而伤害到猎人A的利益。我们假想，具有特权的猎人B会通过各种手段方法让猎人A乖乖就范。但是猎人A的狩猎热情遭到伤害，这必然会导致整体效率的下降。进一步推测，如果不是两个人进行狩猎，而是多人狩猎博弈，根据分配可以分成既得利益集团与弱势群体，这和我国的现状非常相似。　　我国改革的进程在九十年代中期以前是一种帕累托改善的过程。但是随着各种复杂的不确定因素影响，贫富差距逐渐拉大，基尼指数甚至超过的国际警戒线，帕累托改善的过程受到干扰。故事四：斗鸡博弈话说某一天，在斗鸡场上有两只好战的公鸡发生遭遇战。这时，公鸡有两个行动选择：一是退下来，一是进攻。如果一方退下来，而对方没有退下来，对方获得胜利，这只公鸡则很丢面子；如果对方也退下来双方则打个平手；如果自己没退下来，而对方退下来，自己则胜利，对方则失败；如果两只公鸡都前进，那么则两败俱伤。因此，对每只公鸡来说，最好的结果是，对方退下来，而自己不退，但是此时面临着两败俱伤的结果。不妨假设两只公鸡如果均选择“前进”，结果是两败俱伤，两者的收益是-2个单位，也就是损失为2个单位；如果一方“前进”，另外一方“后退”，前进的公鸡获得1个单位的收益，赢得了面子，而后退的公鸡获得-l的收益或损失1个单位，输掉了面子，但没有两者均“前进”受到的损失大；两者均“后退”，两者均输掉了面子获得-1的收益或1个单位的损失。当然这些数字只是相对的值。如果博弈有唯一的纳什均衡点，那么这个博弈是可预测的，即这个纳什均衡点就是一事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点，则无法预测出一个结果来。斗鸡博弈则有两个纳什均衡：一方进另一方退。因此，我们无法预测斗鸡博弈的结果，即不能知道谁进谁退，谁输谁赢。由此看来，斗鸡博弈描述的是两个强者在对抗冲突的时候，如何能让自己占据优势，力争得到最大收益，确保损失最小。斗鸡博弈中的参与者都是处于势均力敌、剑拔弩张的紧张局势。这就像武侠小说中描写的一样，两个武林顶尖高手在华山之上比拼内力，斗得是难分难解，一旦一方稍有分心，内力衰竭，就要被对方一举击溃。斗鸡博弈在日常生活中非常普遍。比如，警察与游行者相遇，最好有一方退下来。再比如，收债人与债务人之间的博弈类似于斗鸡博弈：假如债权人A与债务人B双方实力相当，债权债务关系明确，B欠A100元，金额可协商，若合作达成妥协，A可获90元，减免B债务10元，B可获10元。如一方强硬一方妥协，则强硬方收益为100元，而妥协方收益为0；如双方强硬，发生暴力冲突，A不但收不回债务还受伤，医疗费用损失100元，则A的收益为-200元，也就是不仅100元债收不回，反而倒贴100元，B则是损失了100元。因此，A、B各有两种战略：妥协或强硬。每一方选择自己最优战略时都假定对方战略给定：若A妥协，则B强硬是最优战略；若B妥协，A强硬将获更大收益。于是双方都强硬，企图获100的收益，却不曾考虑这一行动会给自己和对方带来负效益100。故这场博弈有两个纳什均衡，A收益为100，B收益为0，或反之，这显然比不上集体理性下的收益支付，A、B皆妥协，收益支付分别为90、10。也就是债权人与债务人为追求利益最大化，会选择不合作，从某种意义上说双方陷入囚徒困境。尽管在理论上有两个纳什均衡，但由于当今中国信用不健全(如欠债不还、履约率低、假冒伪劣盛行)，法律环境对债务人有利，可想而知B会首先选择强硬。因此，这是一个动态博弈，A在B选择强硬后，不会选择强硬，因为A采取强硬措施反而结局不好，故A只能选择妥协。而在双方强硬的情形下，B虽然收益为-100，但B会预期，他选择强硬时A必会选择妥协，故B的理性战略是强硬。因此，这一博弈纳什均衡实际上为B强硬A妥协。欠债还钱博弈是假定A、B实力相当，如实力相差悬殊，一般实力强者选择强硬。比如在家庭夫妻冲突中，首先退下阵的一般是丈夫。大部分夫妻怄气或吵架，最终得利的总是妻子。战国思想家庄子讲过一个故事，说斗鸡的最高状态，就是好像木鸡一样，面对对手毫无反应，可以吓退对手，也可以麻痹对手。这个故事里面就包含着斗鸡博弈的基本原则，就是让对手错误估计双方的力量对比，从而产生错误的期望，再以自己的实力战胜对手。然而，在实际生活中，两只斗鸡在斗鸡场上要作出严格优势策略的选择，有时并不是一开始就作出这样的选择的，而是要通过反复的试探，甚至是激烈的争斗后才会作出严格优势策略的选择，一方前进，一方后退，这也是符合斗鸡定律的。因为哪一方前进，不是由两只斗鸡的主观愿望决定的，而是由双方的实力预测所决定的，当两方都无法完全预测双方实力的强弱的话，那就只能通过试探才能知道了，当然有时这种试探是要付出相当大的代价的。在现实社会中，以这种形式运用斗鸡定律，却比直接选用严格优势策略的形式，要常见的多。这也许是因为人有复杂的思维、更多的欲望。斗鸡博弈进一步衍生为动态博弈，会形成这样一个拍卖模型。拍卖规则是：轮流出价，谁出的最高，谁就将得到该物品，但是出价少的人不仅得不到该物品，并且要按他所叫的价付给拍卖方。假定有两人竞价争夺价值100元的物品，只要双方开始叫价，在这个博弈中双方就进入了骑虎难下的状态。因为，每个人都这样想：如果我退出，我将失去我出的钱，若不退出，我将有可能得到这价值100元的物品。但是，随着出价的增加，他的损失也可能越大。每个人面临着是继续叫价还是退出的两难困境。这个博弈实际上有一个纳什均衡：第一个出价人叫出100元的竞标价，另外一个人不出价（因为在对方叫出100元的价格后，他继续叫价将是不理性的），出价100元的参与人得到该物品。一旦进入骑虎难下的博弈，尽早退出是明智之举。然而当局者往往是做不到的，这就是所谓“当局者迷，旁观者清”。这种骑虎难下的博弈经常出现在企业或组织之间，也出现在个人之间。赌红了眼的赌徒输了钱还要继续赌下去以希望返本，就是骑虎难下。其实，赌徒进入赌场开始赌博时，他已经进入了骑虎难下的状态，因为，赌场从概率上讲是必胜的。从理论上讲，赌徒与赌场之间的博弈如果是多次的，那么赌徒肯定输的，因为赌徒的“资源”与赌场的“资源”相比实在太小了。如果你的资源与赌场的资源相比很大，那么赌场有可能输的；如果你的资源无限大，只要赌徒有非0的赢的可能性，那么赌徒肯定会赢的。因此，像葡京这样的赌场要设定赌博数额的限制。当然骑虎难下的局面，在国家之间也经常碰到，20世纪60年代，美国介入越南就是一个骑虎难下博弈。博弈论专家，有时候也将骑虎难下博弈称之为“协和谬误”。 20世纪60年代，英国和法国政府联合投资开发大型超音速客机，即协和飞机。该种飞机机身大、设计豪华并且速度快。但是，英法政府发现：继续投资开发这样的机型，花费会急剧增加，但是这样的设计定位能否适应市场还不知道；而停止研制将使以前的投资付诸东流。随着研制工作的深入，他们更是无法作出停止研制工作的决定。协和飞机最终研制成功，但因飞机的缺陷（如耗油大、噪音大、污染严重等），它不适合市场，最终被市场淘汰，英法政府为此蒙受很大的损失。在这个研制过程中，如果英法政府能及早放弃飞机的开发工作，会使损失减少，但他们没能做到。第四讲完全信息动态博弈行动有先后顺序，不同的参与人在不同时点行动，先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者做了什么选择，因此，为了做出最优的行动选择，每个参与人都必须这样思考问题：如果我如此选择，对方将如何应对？如果我是他，我将会如何行动？给定他的应对，什么是我的最优选择？如下棋一、博弈树（game tree) A B B 进入不进入进入不进入进入不进入 (-1,-1) (1, 0) (0, 1) (0, 0) 二、动态博弈中的战略战略是一个完备的行动计划：在博弈开始之前就规定出每一个决策点上的选择，即使这个决策点实际上不会出现。考虑老师与学生之间考试之后的一个博弈：老师先行动（判分），学生后行动（在不同分数下如何应对）。假定学生的实际成绩是不及格。战略表式下的纳什均衡及格不及格老师学生 A，F F，A A，A F，F -1，1 -10，-10 -1，1 -10，-10 -10，-10 1，-1 1，-1 -10，-10 三个纳什均衡（及格；A，F）；（不及格；F，A）；（不及格；A，A）问题：哪一个会出现呢？老师学生学生及格不及格报复接受报复接受 (-10,-10) (-1, 1) (-10, -10) (1, -1) 考试博弈三、逆向归纳法(backward induction) 在有限博弈中，我们可以用逆向归纳法求解精炼纳什均衡：从最后一个决策点开始，找出该子博弈的纳什均衡；然后再倒回到倒数第二个决策点，找出决策者的最优决策（假定最后一个决策者的决策是最有的；如此一直到初始决策点，所有子博弈上的最优选择就是精炼纳什均衡。又称“rollback”. 举例 1 2 1 （2，0）（5，0）（4，2）（1，1） U D R L U’ D’ 四、精炼均衡与理性共识逆向归纳的过程实际上就是重复剔除劣战略的过程，其前提是博弈规则和理性共识：每个人是理性的，每个人知道每个人是理性的，如此等等。因此，精炼纳什均衡的合理性取决于理性共识的合理性。后面再讨论。五、先动优势与后动优势在动态博弈中，行动总有先后顺序。有些博弈具有先动优势(first-mover advantage),但有些博弈具有后动优势(second-mover advantage). 让产量竞争具有先动优势，而价格竞争可能是后动优势；开会发言？在不完全信息下，顺序更重要。但有些博弈既没有先动优势，也没有后动优势，如抓阄。 ● ● ● (2,1) (0,0) (-1,-1) 男女女足球芭蕾足球芭蕾（1,2）足球芭蕾 ● ● ● (2,1) (0,0) (-1,-1) 男女女足球芭蕾足球芭蕾（1,2）足球芭蕾 × × × 最后的结果是（足球，足球） ● ● ● (1,2) (-1,-1) (0,0) 女男男足球芭蕾足球芭蕾（2,1）足球芭蕾 × × × 最后的结果是（芭蕾，芭蕾）从上面的例子我们看到：如果男方先行动，那么结果就有利于他，如果女方先行动那么结果有利于女方。这里面就有一个先发优势的问题。但是生活中有时候又会存在后发优势：看分蛋糕例子：　有一天，这对恋人的女B过生日，两人庆祝生日不是去看电影，而是跑去切蛋糕了。那么怎样才能保证分配的公平合理呢？　　最简单的一个方法，就是一方将蛋糕一切两半，另一方则选择自己分得哪一块蛋糕。不妨假设切蛋糕这种累活分配给男A，女B则在两块蛋糕中选择一块。　　很显然，男A在这种切冰淇淋蛋糕的规则下一定是努力让两块蛋糕切得尽量相同大小。这就是著名的最后通牒博弈（Ultimatum games）。然而在现实中，谁都不可能将两块蛋糕切得完全一样大。就算使用高精密仪器去测量，使用高精密刀具去切割，这样做的成本太高，实在是得不偿失。　　当然，在实际中，总是女士优先，男士礼让，不管谁去切，女士分得的蛋糕一定是比较大的那一块。如果这位女士还要保持身材，坚持减肥，最后吃到肚中最多的还是男士。　　然而，如果两人都是斤斤计较、毫不体谅对方的人，他们都不愿意先去切这块蛋糕，于是又有了另一种分配蛋糕的规则。不妨假设蛋糕总量为1，男A和女B各自同时报出自己希望得到的蛋糕的份额，如4/5，8/9。他们之间约定，两人所报出的份额相加总和必须等于1，否则从新分配。　　从数学上可以得到，这个两人博弈的纳什均衡点会有无数个，只要两人所报出份额相加之和为1的组合都是均衡结局，比如男A报1/2，女B报1/2；男A报2/3，女B报1/3，依此类推。这里的问题在于如果女B报8/9，男A报1/9。这个时候男A也只有接收这个条件，因为这是一次性博弈，如果男A不接收那么双方连一丁点的蛋糕都分不到，从理性人的角度来看这显然不会出现的。　　在实际生活中，除了绝对的利他主义者，或者带有其它目的的博弈参与者，显然8/9的蛋糕归某一参与者，剩余的部分仅仅1/9的蛋糕留给另一参与者的情况是很难发生。就这个例子来看，男A一定不满足于只能分到1/9的蛋糕，他一定要求再次分配。这种情况下，分蛋糕的博弈就不再是一次性博弈。　　事实上，当分蛋糕博弈成为一个动态博弈时，这就形成一个讨价还价博弈的基本模型。在经济生活中，不管是小到日常的商品买卖还是大到国际贸易乃至重大政治谈判，都存在着讨价还价的问题。比如中国加入WTO的时候，为了国家或民族利益与许多发达国家的讨价还价，进行了漫长而又艰难的谈判。一个谈判的过程实际上就是很多讨价还价的过程组成的。比如发达国家首先对中国提出一个要求，中国决定是接受还是不接受，假如中国不接受，可以提出一个相反的建议，或者等待发达国家从新调整自己的要求。这样双方相继行动，轮流提出谈判要求，形成了一个多阶段的动态博弈。　我们来看这样一个故事。在某个朝代有个破落贵族的后代A，穷困得实在没有办法过下去，不得不将家中祖传的古字画拿到一个大财主B家去卖。这副字画在A看来至少值200两银子，财主B认为这副字画最多只值300两银子。　　这样看来，如果顺利成交，字画的成交价格将在200～300两银子之间。这个交易的过程不妨简化为这样：首先由B开价，A选择成交或还价。这个时候，如果B同意A的还价，交易顺利结束；如果B不接受，则交易结束，买卖没有做成。这是一个很简单的两阶段动态博弈的问题。我们应该解决动态博弈问题的倒推法原理来分析这个讨价还价的过程。首先看第二轮也就是最后一轮的博弈，只要A的还价不超过300两银子，B都会选择接受还价条件。　　回过头来，我们再来看第一轮的博弈情况，A拒绝由B开出的任何低于300两银子的价格，这是很显然的，比如B开价290两银子购买字画，A在这一轮同意的话，只能卖得290两；如果A不接受这个价格反而在第二轮博弈提高到299两银子时，B仍然会购买此副字画。两项比较，显然A会还价。　　细心的读者可以发现，这个例子中的财主B先开价，破落贵族A后还价，结果卖方A可以获得最大收益，这正是一种后出价的“后发优势”。这一优势在这个例子中相当是分蛋糕动态博弈中最后提出条件的人几乎霸占整块蛋糕。事实上，如果财主B懂得博弈论：他可以改变策略，要么后出价，要么是先出价，但是不允许A讨价还价。如果一次性出价，A不答应，就坚决不会再继续谈判，来购买A的字画。这个时候，只要B的出价略高于200两银子，A一定会将字画卖于B。因为200两银子已经超出了A的心理价位，一旦不成交，那一文钱也拿不到，只能继续受冻挨饿。　　在博弈理论中已经证明出，当谈判的多阶段博弈是单数阶段时，先开价者具有“先发优势”。它是双数阶段时，后开价者具有“后发优势”。　　这在我们的生活中是非常常见的现象：非常急切想买到物品的消费者，往往要以较高的价格，购得所需之物；急于销售产品的业务员，往往也是以较低的价格，卖出自己所销售的商品。六、重复博弈重复博弈是动态博弈的一种特殊情况，指的是一个基本博弈重复进行构成的博弈过程。重复博弈类型：无限次重复博弈有限次重复博弈（有明确重复次数或结束时间）重复次数虽然有限但博弈结束的时间却是不确定的六、重复博弈无限期重复博弈：厂商2 低价高价低价 10，10 100，-50 厂商1 高价 -50，100 50，50 第五讲几个专题一、逆向选择问题－－－－－劣币驱逐良币美国经济学家阿克洛夫（）1970年提出了著名的旧车市场模型，开创了“逆向选择”（adverse selection）理论的先河。案例:旧车市场在旧车市场上，买者和卖者之间对汽车质量信息的掌握是不对称的。卖者知道所售汽车的真实质量。一般情况下，潜在的买者要想确切地辨认出旧车市场上汽车质量的好坏是困难的。他最多只能通过外观、介绍及简单的现场试验等，来获取有关汽车质量的信息。然而，从这些信息中很难准确判断出车的质量。因为车的真实质量只有通过长时间地使用才能看出，但这在旧车市场上又是不可能的。所以我们说，旧车市场上的买者在购买汽车之前，并不知道哪辆汽车是高质量的，哪辆汽车是低质量的，他只知道旧车市场上汽车的平均质量。在这种情况下，典型的买者只愿意根据平均质量支付价格。但这样一来，质量高于平均水平的卖者就会将他们的汽车撤出旧车市场，市场上只留下质量低的卖者。结果是，旧车市场上汽车的平均质量降低，买者愿意支付的价格进一步下降，更多的较高质量的汽车退出市场。在均衡的情况下，只有低质量的汽车成交，极端情况下甚至没有交易。　在旧车市场上，高质量汽车被低质量汽车排挤到市场之外，市场上留下的只有低质量汽车。也就是说，高质量的汽车在竞争中失败，市场选择了低质量的汽车。这违背了市场竞争中优胜劣汰的选择法则。平常人们说选择，都是选择好的，而这里选择的却是差的，所以把这种现象叫做逆向选择。从上述分析过程还可以看出，产品的质量与价格有关，较高的价格诱导出较高的质量，较低的价格导致较低的质量。逆向选择使得市场上出现价格“决定”质量的现象。买者无法掌握产品质量的真实信息，这就为卖者通过降低产品质量来降低成本，从而争取低价格提供了可能。因而出现低价格导致低质量的现象。逆向选择对经济是有害的：高质量的卖者和需要高质量产品的买者无法进行交易，双方效用都受到损害；低质量的企业获得生存、发展的机会和权利，迫使高质量的企业降低质量，与之“同流合污”；买者以预期价格获得的却是较低质量的产品。如同“道德风险”一样，“逆向选择”这一术语也起源于保险行业。因为保险市场上的逆向选择现象相当普遍。以医疗保险为例。不同投保人的风险水平可能不同。有些人可能有与生俱来的高风险，比如他们容易得病，或者有家族病史。而另一些人可能有与生俱来的低风险，比如他们生活有规律，饮食结构合理，或者家族寿命都比较长。这些有关风险的信息是投保人的私人信息，保险公司无法完全掌握。如果保险公司对所有投保人制定统一保险费用（这属于总体保险合同）。由于保险公司事先无法辨别潜在投保人的风险水平，这个统一的保险费用，只能按照总人口的平均发病率或平均死亡率来制定。所以，它必然低于高风险投保人应承担的费用，同时高于低风险投保人应承担的费用通过这种方式，低风险投保人会不愿负担过高的保险费用，退出保险市场。这时，保险市场上只剩下高风险的投保人。简单地说，这时，风险投保人驱逐低风险投保人的逆向选择现象发生了。其结果是保险公司的赔偿概率，将超过根据统计得到的总体损失发生的概率。保险公司出现亏损甚至破产的情况必然发生。资本市场上也存在着逆向选择。比如对于银行来说，其贷款的预期收益既取决于贷款利率，也取决于借款人还款的平均概率，因此银行不仅关心利率，而且关心贷款风险，这个风险是借款人有可能不归还借款。　　一方面，通过提高利率，银行可能增加自己的收益；另一方面，当银行不能观测特定借款人的贷款风险时，提高利率将使低风险的借款人退出市场，从而使得银行的贷款风险上升。　　结果，利率的提高可能降低而不是增加银行的预期收益。显然，正是由于贷款风险信息在作为委托人的银行和作为代理人的借款者之间分布并不对称，导致了逆向选择现象。不仅在经济生活中存在很多“劣币淘汰良币”的现象，日常生活中的逆向选择也随处可见。比如人们常说“巧妇常伴拙夫眠”，漂亮女孩身边的男孩总是貌不出众、能力平常。而那些普通女孩倒是不乏优秀男生与之相伴。　　造成这种情况的真正原因就是信息不对称下的逆向选择。那些对漂亮女孩向往已久的崇拜者们相互之间，以及和漂亮女孩之间都不能沟通信息。　　漂亮女孩的追慕者会这样想：这么漂亮的女孩，怎么轮得到我来追？肯定有那些比我有钱的阔佬，比如巴菲特去追求她。于是长叹一声，转而追求其他女孩去了。而巴菲特在华尔街上巧遇来纽约观光的漂亮女孩之后，也颇为心仪，但是巴菲特转念一想：这么漂亮的女孩，怎么轮得到我来追？肯定有那些比我年轻的阔佬，比如比尔·盖茨，去追求她。于是巴菲特长叹一声，转而与结发老妇相伴去了。漂亮女孩去微软公司面试时，巧遇比尔·盖茨。面对如此佳人，比尔·盖茨再也不能正襟危坐了，心中一阵激动，但比尔·盖茨转念一想：这么漂亮的女孩，怎么轮得到我来追？肯定有那些比我更强壮的阔佬，比如乔丹，去追求她。于是比尔·盖茨长叹一声，埋头继续与司法部周旋。　　漂亮女孩去观看篮球比赛时，邂逅飞人乔丹。面对如此佳人，乔丹岂能坐怀不乱，脑海中翻起千层浪，但乔丹冷静下来一想：这么漂亮的女孩，怎么轮得到我来追？肯定有那些比我更英俊的小伙，比如她的什么同学或同事，早就已经把她追到手了。于是乔丹长叹一声，转身来个空中走步。这就是漂亮女孩的困惑。　　那些想追求她的人相互之间都不能互通信息，也不了解漂亮女孩的尴尬处境和真实想法。结果是每个想追求她的男人都根据自己的预期来决定是否要去追求漂亮女孩。由于大家都预期追求金发女郎一定是极高的门槛，最后造成大家都退缩不前。二、威胁、承诺、允诺 ________ ———————打破囚徒困境的方法西方哲学家卢梭说过，“究竟是什么不可思议的艺术，使人类找到一种法，通过强迫人们服从，从而使他们获得自由？” 　　其中最著名的一个答案是由托马斯·霍布斯给出的。霍布斯是现代英国君主立宪政体的理论奠基人，其代表作是政治学名著《利维坦》（Leviathan）。所谓“利维坦”，是《圣经》中的一种力大无穷的巨兽名字的音译，在书中意指一个强大的国家。　　　霍布斯说：“人的自然本性是自私自利、恐惧、贪婪、残暴无情，人对人互相防范、敌对、争战不已，像狼和狼一样处于可怕的自然状态中。于是出于人的理性，人们相互间同意订立契约，放弃各人的自然权利，把它托付给某一个人或一个由多人组成的集体（如议会、董事会、法院等），这个人或集体能把大家的意志化为一个意志，能把大家的人格统一为一个人格；大家都服从他的意志，服从他的判断。这个人或这个集体就是主权者，而像这样通过社会契约而统一在一个人格之中的一群人就组成了国家。这就是伟大的利维坦的诞生，用更尊敬的方式来说，这就是活的上帝的诞生。” 按照他的观点，没有集权的合作是不可能产生的。因此，一个有力的政府是必要的。　　霍布斯对合作协议的观点是：“不带剑的契约不过是一纸空文。它毫无力量去保障一个人的安全。”这就是说，没有权威的协议并不是导致民主，而是导致无政府状态。最后，霍布斯总结道，“在一切政体中，最坏的政体并不是专制而是无政府状态。” 　　　霍布斯的观点虽然有些偏激，但却不无道理。根据博弈论的观点，无论是一次性或有限次重复博弈，“囚徒困境”产生这种结局的原因是两个囚犯都基于自身利益的角度考虑，这最终导致合作协议无法稳定遵守。　　实际上，决定合作协议是否能够被囚徒双方执行的最关键的基本要素有两个，即承诺与威胁。所谓承诺，在囚徒困境中就是囚徒向对方相互许诺，在下一次博弈时会采取让对方有利的行为，也就是不坦白与对方合作；所谓威胁，就是某个囚徒告知对方如果下一次博弈时其采取招供策略而不合作，在第三次博弈时就会采取不利于对方的策略，即招供。　　其实，在社会生活中，承诺与威胁是非常常见的现象。比如女生告诉她的男朋友，如果他敢结交其他的女生，只要被发现一次，就立刻分手，这是威胁；而她男朋友向她发誓绝对自己是个专一的情圣，决不会背叛爱情，这就是承诺。　　再如在外交中，美国经常向中国承诺只承认一个中国的原则，我国政府向国际社会承诺中国强大也决不会采用霸权政策。很多常见的耳熟能详的俗语都是承诺与威胁，比如“人不犯我，我不犯人”、“坦白从宽，抗拒从严”、“以眼还眼，以牙还牙”等。　　合作的关键是承诺与威胁的可信度有多大。因为承诺与威胁都是在博弈者进行策略选择之前作出的，如果承诺与威胁对博弈者的约束力越小，那么合作的可能性就越小。比如很多手慈心软却遇人不淑的妻子，一次又一次地原谅胡作非为的丈夫，希望用真情感动他回心转意。但结果却往往是丈夫反而得寸进尺，因为他知道无论如何，只要用一些花言巧语假装可怜的承诺就会获得宽恕。在这种情况下，妻子的威胁对丈夫是毫无作用的。假想一个可信度很小的承诺与威胁。比如参加考试的学生承诺在没有老师监考的时候决不作弊，但却不难想象监考老师不在的时候，考场中将会是一种什么样的景象。　　学生并不都是道德高尚、具有很强自制能力的人。即使在有老师监督考场，并威胁如果有学生敢于顶风作案，必然严惩不怠，比如考卷直接判零分。设想一下，如果这种威胁仅仅是威胁，在学生作弊后并未真地采取什么严惩的行动，那么学生作弊的风险非常小，考场纪律依然与没有老师一样。由此可见，监考老师在一定程度上不得不要做一个霍布斯所说的“利维坦”式的专制者。　　从实际的整个社会生活说来，对于有限次重复博弈合作问题的解决主要有两个典型方法，那就是社会道德与国家法律。至于其他解决方法在本质上并不会超脱于它们。三、公共物品供给的三种情况 ————————囚徒困境、智猪博弈、斗鸡博弈 1、囚徒困境（故事略）例如，一个村子住着两个穷人，他们通往村外的路（公共设施）需要修了，不然无法顺利走出山村。但是两个穷人都没钱，所以他们谁都不愿出钱，结果构成囚徒困境（大家都怕自己修路而对方“搭便车”，所以没人出钱）。这就是为什么，公共设施没人愿意出钱的原因之一。所以公共物品往往是国家、政府出面建设。我们的马路、公路、路灯、水利、国防、治安等等都是此类物品。 2、智猪博弈博弈论里面有个十分卡通化的博弈模型，叫做“智猪博弈”（Pigs' payoffs）。整个故事是这样的：笼子里面有两只猪，一只大，一只小。笼子很长，一头有一个踏板，另一头是饲料的出口和食槽。每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。如果定量地来看，踩一下踏板，将有相当于10个单位的猪食流进食槽，但是踩完踏板之后跑到食槽所需要付出的“劳动”，要消耗相当于2个单位的猪食。如果两只猪同时踩踏板，再一起跑到食槽吃，大猪吃到7个单位，小猪吃到3个单位，减去劳动耗费各自2个单位，大猪净得益5个单位，小猪净得益1个单位。如果大猪踩踏板，小猪等着先吃，大猪再赶过去吃，大猪吃到6个单位，去掉踩踏板的劳动耗费2个单位净得4个单位，小猪也吃到4个单位。如果小猪踩踏板，大猪等着先吃，大猪吃到9个单位，小猪吃到1个单位，再减去踩踏板的劳动耗费，小猪是净亏损1个单位。某大学公开招聘两名教授，一个是教经济学的，一个是教会计学的。经过层层选拔，最终有两人获得机会，姑且称之为A教授和B教授。接下来就是一个让所有人想不通的选择过程，但这个事情却是现实得不能再现实了。会计学教授的工资是5000元/月，而经济学教授的工资是3500元/月。A、B两教授具有相同的学历背景———会计学硕士。同时又都有经济学的教学经验，A授的会计学教学经验优于B教授。依一般人的想法，知识就是金钱，知识越多，工资越高，A教授理所当然地会获得会计学教授职位。这就是我们这些聪明人的天真之处，殊不知现实并非如此。因为B教授知道市场行情，而且知道到了目前，不可能有新的竞争者加入。因此，在与教务主任谈判时，极力否认自己具有经济学的教学经验，甚至说如果让他去讲授经济学会误人子弟，与其这样，自己宁可不要这份工作。而A教授为了证明自己的能力，一开始就合盘托出，甚至大谈特谈自己的经济学教学经验。事情到此为止，我想每个人都看出了门道，学校不可能重新招聘，而两个教授也都不可能随便丢掉到手的美差。最终的结果就是B教授获得了会计学的教授职位，而A教授只好退而求其次，教授经济学。分析：如果一个村子住着一个富人，一个穷人。出山的路需要修理。穷人反正没什么人来看，路好坏他并不关心，所以他坚决不拿钱。而富人朋友很多，路修好，他得益较多。所以穷人不修，他也会拿钱去修路。这是一个典型的“智猪博弈”，大猪（富人）多付出，小猪（穷人）吃现成，“搭便车”。生活中有很多这样的例子。例如，一个居民小区，有一段路不好，一般人不会出钱修理。而公司经理类则会为了行车方便而出钱修理。别人也跟着受益。 3、斗鸡博弈故事：话说某一天，在斗鸡场上有两只好战的公鸡发生遭遇战。这时，公鸡有两个行动选择：一是退下来，一是进攻。如果一方退下来，而对方没有退下来，对方获得胜利，这只公鸡则很丢面子；如果对方也退下来双方则打个平手；如果自己没退下来，而对方退下来，自己则胜利，对方则失败；如果两只公鸡都前进，那么则两败俱伤。因此，对每只公鸡来说，最好的结果是，对方退下来，而自己不退，但是此时面临着两败俱伤的结果。不妨假设两只公鸡如果均选择“前进”，结果是两败俱伤，两者的收益是-2个单位，也就是损失为2个单位；如果一方“前进”，另外一方“后退”，前进的公鸡获得1个单位的收益，赢得了面子，而后退的公鸡获得-l的收益或损失1个单位，输掉了面子，但没有两者均“前进”受到的损失大；两者均“后退”，两者均输掉了面子获得-1的收益或1个单位的损失。当然这些数字只是相对的值。如果博弈有唯一的纳什均衡点，那么这个博弈是可预测的，即这个纳什均衡点就是一事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点，则无法预测出一个结果来。斗鸡博弈则有两个纳什均衡：一方进另一方退。因此，我们无法预测斗鸡博弈的结果，即不能知道谁进谁退，谁输谁赢。由此看来，斗鸡博弈描述的是两个强者在对抗冲突的时候，如何能让自己占据优势，力争得到最大收益，确保损失最小。斗鸡博弈中的参与者都是处于势均力敌、剑拔弩张的紧张局势。这就像武侠小说中描写的一样，两个武林顶尖高手在华山之上比拼内力，斗得是难分难解，一旦一方稍有分心，内力衰竭，就要被对方一举击溃。斗鸡博弈在日常生活中非常普遍。比如，警察与游行者相遇，最好有一方退下来。再比如，收债人与债务人之间的博弈类似于斗鸡博弈假如债权人A与债务人B双方实力相当，债权债务关系明确，B欠A100元，金额可协商，若合作达成妥协，A可获90元，减免B债务10元，B可获10元。如一方强硬一方妥协，则强硬方收益为100元，而妥协方收益为0；如双方强硬，发生暴力冲突，A不但收不回债务还受伤，医疗费用损失100元，则A的收益为-200元，也就是不仅100元债收不回，反而倒贴100元，B则是损失了100元。因此，A、B各有两种战略：妥协或强硬。每一方选择自己最优战略时都假定对方战略给定：若A妥协，则B强硬是最优战略；若B妥协，A强硬将获更大收益。于是双方都强硬，企图获100的收益，却不曾考虑这一行动会给自己和对方带来负效益100。故这场博弈有两个纳什均衡，A收益为100，B收益为0，或反之，这显然比不上集体理性下的收益支付，A、B皆妥协，收益支付分别为90、10。也就是债权人与债务人为追求利益最大化，会选择不合作，从某种意义上说双方陷入囚徒困境。尽管在理论上有两个纳什均衡，但由于当今中国信用不健全(如欠债不还、履约率低、假冒伪劣盛行)，法律环境对债务人有利，可想而知B会首先选择强硬。因此，这是一个动态博弈，A在B选择强硬后，不会选择强硬，因为A采取强硬措施反而结局不好，故A只能选择妥协。而在双方强硬的情形下，B虽然收益为-100，但B会预期，他选择强硬时A必会选择妥协，故B的理性战略是强硬。因此，这一博弈纳什均衡实际上为B强硬A妥协。欠债还钱博弈是假定A、B实力相当，如实力相差悬殊，一般实力强者选择强硬。比如在家庭夫妻冲突中，首先退下阵的一般是丈夫。大部分夫妻怄气或吵架，最终得利的总是妻子。分析：有些公共物品的供给就是这样。例如，一个村子住着两个富人，那么谁都不愿先出钱修路。但是他们都有需求，于是，就要看那一方妥协了。如果都怄气，那么谁都不好（斗鸡）。先修路的富人出钱，另一个富人就“搭便车”。总结一下，公共物品的供给既有可能是囚徒困境（谁都不出钱），也可能是智猪博弈（有钱的一方出），也可能是“斗鸡博弈”（有钱的双方，一方妥协，一方占便宜）。