学术型硕士研究生课程博弈论杜少甫
第2章完全信息动态博弈完全信息静态博弈vs 完全信息动态博弈信息:complete局中人、策略集、支付函数均为共同知识出手顺序:静态:同时出手,或不清楚先后顺序动态:先后出手中国科学技术大学管理学院@ 20132
博弈的扩展式表述策略式表述(Strategic Form)用<N, (S), (U)>三元组来描述博弈ii没有显式反映出手时间(隐含在策略集中),更适用于静态博弈。扩展式表述(Extensive Form)将历史集、信息集等引入,更适用于动态博弈常用树状图几何表示——博弈树(Game Tree)局中人出手的顺序局中人的行动空间(action set)局中人出手时所拥有的信息中国科学技术大学管理学院@ 20133
博弈的扩展式表述(Cont.)例:田忌赛马典型的动态博弈隐含假设:齐威王先出手,田忌观察后出手。注:由于前两次选定后,第三次就已确定,相当于分别两次出手。零和博弈支付可用田忌的净胜局数表示。齐312田131313222齐333332221122231111田332223131133332222231311231311212121−3−3−1−111−1−1−1−1−1−1−1−111中国科学技术大学管理学院@ 20134
博弈的扩展式表述(Cont.)低需求情形高需求情形例:房地产开发博弈−3,−31,04,48,0局中人:两开发商A、B 0,10,00,80,0市场需求可能为“高”,也可能为“低”若无人开发,谁也不知道市场需求具体是什么若有人开发,后面的人可能会观察到市场需求当局中人对博弈局势中某事件/状态不被完全了解时凭借经验、通过调研等方式去“猜”在一定程度上,“听天由命”、“顺其自然”、“如有神助”当人对某事件/状态完全无法判断时,往往采取等概率处理虚拟局中人(quasi-player)——“自然(nature, NA)”or “神(god)”假设高、低需求的自然概率分别为1/2 牛顿晚年:“宇宙第一原动力”,“引力解释了行星的运动,但却不能解释谁让行星运动起来的。上帝统治万物,知晓所有做过和能做的事。”中国科学技术大学管理学院@ 20135
博弈的扩展式表述(Cont.)行动顺序:开发商A先行动:“开发D”与“不开发U”;自然选择市场需求:“高H”与“低L”;开发商B观测到A的行动及市场需求情况,再行动。AU不同行动路D径对应不同NaNa支付向量HLHLBBBBUDUUDDUD(4,4)(8,0)(0,8)(−3,−3)(1,0)(0,0)(0,1)(0,0)中国科学技术大学管理学院@ 20136
博弈的扩展式表述(Cont.)博弈树构成结点(node):决策结点(decision node)□局中人采取行动的时点□初始结点(initial node)为树根;终端结点(terminal node)□博弈行动路径的终点标注支付向量。枝(branch):每一枝代表局中人在出手时点的可选行动。中国科学技术大学管理学院@ 20137
博弈的扩展式表述(Cont.)博弈树构成(续)信息集(information set):对于某一特定的局中人而言,所谓信息集就是能够回答以下问题的某种集合,即:当博弈进行到某个阶段的时候,根据已观察到的情况,局中人所了解的博弈已发生的所有可能行动□In game theory, an information setis a set that, for a particular player, establishes all the possible movesthat could have taken place in the game so far, given what that player has observed so far中国科学技术大学管理学院@ 20138
博弈的扩展式表述(Cont.)博弈树的结点X:博弈树所有结点的集合。≺:定义于X上的二元优先关系(precedence relation)∀x,x∈X,x≺x表示“结点x处在x之前”,此关系满足121212□非自反性(irreflexivity):∀x∈X,x≺x不成立□传递性(transitive):∀x,x,x∈X,若x≺x,x≺x,则x≺x123122313□不对称性(asymmetric):∀x,x∈X,若x≺x,则x≺x不成立121221□注:反对称性(antisymmetry)vs 不对称性if a ≤ band b ≤ athen a= b≺是严格偏序关系(strict partial order)注:并非X内任意两结点间均是可比较的不同行动路径上的结点不可比较。中国科学技术大学管理学院@ 20139
博弈的扩展式表述(Cont.)博弈树的结点前趋(predecessor):对于x∈X,∀x'∈X满足x' ≺x,称x'是x的一个前趋前趋集:P(x)={x'| x' ≺x, x'∈X}P(x)=Øx为初始结点直接前趋(immediate predecessor):某结点直接相连的前趋结点□∀x∈X,若存在一个x*∈P(x),对于∀x'∈P(x), x'≠x*,均有x' ≺x*,则称x*为x的直接前趋。直接前趋记为p(x)中国科学技术大学管理学院@ 201310
博弈的扩展式表述(Cont.)博弈树的结点后继(successor):对于x∈X,∀x'∈X满足x ≺x',称x'是x的一个后继后继集:T(x)={x'| x≺x', x'∈X}T(x)=Ø x为终点结点直接后继(immediate successor):某结点直接相连的后继结点□∀x∈X,若存在x*∈T(x),使得p( x*)=x ,则称x*为x的直接后继。□一个结点的后继结点可有多个,x的所有直接后继的集合记为t(x)中国科学技术大学管理学院@ 201311
博弈的扩展式表述(Cont.)博弈树的结点初始结点未必唯一,但可转换成一个等价的单初始结点博弈树。方法:引入虚拟局中人“自然Na”Na例:AAAABBBBBBBB可以假定博弈树初始结点唯一中国科学技术大学管理学院@ 201312
博弈的扩展式表述(Cont.)博弈树性质有向图(Digraph):任一枝均是个有向边,自上而下不允许有闭环(传递性+不对称性)所有非初始结点的入度(InDegree)为1,出度(OutDegree) 为可选择的行动数。入度=直接前趋数非初始结点的直接前趋唯一出度=直接后继数非初始结点x入度为1 前趋集P(x)是全序集(totally-ordered set)□∀x,x∈P(x),则x≺x和x≺x有且只有一个成立。121221□前趋集P(x)构成一条链(Chain)×ו中国科学技术大学管理学院@ 201313
博弈的扩展式表述(Cont.)行动顺序的表述在决策结点中标注局中人(包括“自然”)可记局中人集合为N={1,…,n};自然为0,用N= {0,1,…,n}表示包括虚拟局+0中人在内的所有局中人。x0函数表述——i: XN0+0i(x)即为在决策结点x处出手的局中人1x1x1211以下图博弈树为例:i(x)=0;i(x)=i(x)=101112xxx222324x222221i(x)=i(x)=i(x)=i(x)=221222324中国科学技术大学管理学院@ 201314
博弈的扩展式表述(Cont.)支付函数的表述博弈树的每个终端结点z唯一决定了某条博弈路径——≺关系是严格偏序的(传递性、不对称性)任何结点的前趋集是全序的可用终端结点z来表示z对应的博弈路径U(z)=(u(z),…, u(z)):博弈路径z所导致的支付向量。1n中国科学技术大学管理学院@ 201315
博弈的扩展式表述(Cont.)信息集(Information Set)对于某一特定的局中人而言,所谓信息集就是能够回答以下问题的某种集合当博弈进行到某个阶段的时候,根据已观察到的情况,局中人所了解的博弈可能已发生的所有可能行动在扩展式表述中,通常信息集被定义为局中人出手时的结点集合,因为这样的结点集合可回答上述问题中国科学技术大学管理学院@ 201316
博弈的扩展式表述(Cont.)例:房产开发动态博弈AUDRightLeftNaNaHLHLxxxx32313433BBBBUDUUDDUD(4,4)(8,0)(0,8)(−3,−3)(1,0)(0,0)(0,1)(0,0)1.若在局中人B出手的时候,他清楚地知道在此之前局中人A和虚拟局中人“自然”的行动,那么他就能准确地知道自己处在博弈树第三层(阶段)的哪个决策结点上——此次出手时,局中人B有四个信息集,每个信息集中只有一个决策结点;2.若局中人B出手的时候,他知道局中人A的行动但不知道“自然选择”,那么他能够知道自己当前是处在博弈树的Left(x和x)还是Right(x和x),但却分不清31323334“x与x”或“x与x”。这些无法被局中人B区分的结点放在一起构成一个信息31323334集,即此时局中人B的信息集有两个:{x, x}和{x, x}31323334中国科学技术大学管理学院@ 201317
博弈的扩展式表述(Cont.)信息集(Information Set)信息集是决策结点(状态)的集合信息集反映了局中人每次出手时对已发生的情况所掌握的程度集合中的每个结点对应于某一局中人当局中人达到信息集时,局中人无法对信息集中结点加以区别□局中人只知道博弈是否到达信息集中某决策结点(状态),但却并不确知究竟哪一个。□当信息集中有多个结点时,局中人无法判断当前到达信息集中具体哪个结点(状态)中国科学技术大学管理学院@ 201318
博弈的扩展式表述(Cont.)信息集(Information Set)完美信息(perfect information):在某时点局中人能确定处于某一结点(状态)信息集只包含一个结点——单结点信息集不完美信息(imperfect information):局中人不能准确判断之前所发生的事,故不了解当前在博弈树中的精确位置(状态)。信息集包含多个结点——多结点信息集中国科学技术大学管理学院@ 201319
博弈的扩展式表述(Cont.)例:性别战博弈女FootballOpera假设男方先出手F男2, 10, 0O0, 01, 2完美信息:□女方出手时确知男方已采取的行动Nd0□男方信息集:{Nd}0男□女方信息集:{Nd}和{Nd}12OF完美信息Nd1Nd2女女OOFF(0,0)(2,1)(0,0)(2,1)中国科学技术大学管理学院@ 201320
博弈的扩展式表述(Cont.)例:性别战博弈不完美信息:女方出手时不知道男方已采取的行动□男方信息集:{Nd}0□女方信息集:{Nd, Nd}12□习惯在博弈树上用虚线将同一信息集下的结点相连Nd0不完美信息男在本例中,此不完美信OF息动态博弈事实上就是Nd1Nd一个静态博弈2女女OOFF(0,0)(2,1)(0,0)(2,1)中国科学技术大学管理学院@ 201321
博弈的扩展式表述(Cont.)例:房地产开发博弈Nd0ANd0AUDUDNdNd1112NdNd1112NaNaNaNaHLHLHLHLNdNdNdNd21222324NdNdBB21BB24NdNd22BBB23BUDUUDDUDUDUUDDUD(4,4)(8,0)(0,8)(−3,−3)(1,0)(0,0)(0,1)(0,0)(4,4)(8,0)(0,8)(−3,−3)(1,0)(0,0)(0,1)(0,0)若开发商B出手时①确知A的行动,但不知道自然选择(即市场需求情况)B的信息集:{Nd, Nd}和{Nd, Nd}21222324②确知自然选择,不了解A的行动B的信息集:{Nd, Nd}和{Nd, Nd}21232224中国科学技术大学管理学院@ 201322
博弈的扩展式表述(Cont.)信息集H:信息集的集合h:某一特定信息集h∈H。h(x):含有决策结点x的信息集若两结点x, x'同属一个信息集,即x, x'∈hx'∈h(x), x∈h(x'),则x∉P(x'),x∉T(x');x'∉P(x),x'∉T(x)□同一信息集内的决策结点不互为前趋、后继i(x)=i(x')□同一信息集内的决策结点同属一个局中人记A(.)为决策结的行动空间,A(x)=A(x')□同一信息集内的决策结点的行动空间一致□可通过前面例子验证□故只需针对信息集定义行动空间,可引入A(h)表示信息集h的行动空间。中国科学技术大学管理学院@ 201323
博弈的扩展式表述(Cont.)信息集虚拟局中人“自然”的信息集总可认为是单结点的自然在局中人后行动自然在局中人前行动,但未被观察到自然选择是随机的(可能服从某种概率分布)ANaUDLHNaNaAAHLDHLUDUBBBBBBBBUDUUDDUUDDUUDDUD(4,4)(8,0)(0,8)(−3,−3)(1,0)(0,0)(0,1)(0,0)(4,4)(8,0)(0,8)(−3,−3)(1,0)(0,0)(0,1)(0,0)完美信息博弈形式不完美信息博弈形式注:同一博弈可通过不同博弈树表述中国科学技术大学管理学院@ 201324
博弈的扩展式表述(Cont.)静态博弈的扩展式表述局中人同时出手博弈树可从任何一个局中人的决策结点开始局中人出手时互不了解行动选择每个局中人只有一个信息集例:囚徒困境BA招供沉默招供沉默AABB招供沉默招供沉默招供沉默招供沉默−(−1,−1))(0,−8)(8,0(−5,−5)(−8,0)(0,−8)(−1,−1)(−5,−5)中国科学技术大学管理学院@ 201325
完美记忆(Perfect Recall)完美记忆:每个局中人均不会忘记以前已获取的任何信息。每个局中人能牢记自己先前已采取过的行动;每个局中人能牢记自己先前已掌握的事情。Perfect recallrefers to the assumption that, at every opportunity to act, each Player remembers what he did in prior moves, and each player remembers everything that he knew before. Effectively, the assumption is one that players never forget information once it is acquired ()完美信息:每个局中人在任一行动时点均了解博弈所有以往的历史博弈树中每个结点都是一个信息集不会出现多个局中人同时出手的情况注:若博弈中出现多个局中人同时出手情形,事实上可转换为不完美信息博弈。完美信息必然完美记忆,完美记忆未必完美信息中国科学技术大学管理学院@ 201326
关于完美记忆的例子AADDUUBBBBRRRRLLLLAAAAAAAA不完美记忆完美记忆但不完美信息A第二次出手时忘记了自己第一次出手采取的行动A第二次出手时仍记得以前的出手,但不了解BA所采取的行动DUBBRRLLAAAA在下围棋或打牌时,参与者BBBBBBBB经常会忘记以前的行动不完美记忆B在第一次出手时知道A第一次出手时的选择;但在第二次出手时却把这一信息忘记了中国科学技术大学管理学院@ 201327
扩展式博弈的Nash均衡A例:质量选择博弈(Turocy & vonStengel, 2001)高低局中人A:服务供应商;局中人B:服务消费者BB局中人A先出手,选择提供高/低质量的服务不买买不买买局中人B根据局中人A的选择,决定买或不买(1,0)(2,−)(0,0)(,2)双方策略集:S={高,低};S={(买,买),(买,不买),(不买,买),(不买,不买)}AB先出手者不了解后出手者选择策略=行动在完美信息动态博弈中,后出手者了解先出手者选择策略≠行动后出手者的策略:针对先出手者的不同行动均有相应的应对行动策略(x,y)s=高? x: yA中国科学技术大学管理学院@ 201328
扩展式博弈的Nash均衡例:质量选择博弈(Turocy & vonStengel, 2001)A用策略式博弈的双矩阵表述高低(买,买)(买,不买)(不买,买)(不买,不买)BB高, , 20, 00, 0不买买不买买低2, , 02, , 0(1,0)(2,−)(0,0)(,2)Nash均衡——1.策略组合:(高, (买, 不买)) 和(低, (不买, 不买))2.行动组合:(高, 买)、(低, 不买)可见:策略式博弈的分析方法同样适用于动态博弈中国科学技术大学管理学院@ 201329
扩展式博弈的Nash均衡逆向归纳法(Backward Induction)又称“Kuhn方法”适用对象:完全且完美信息动态博弈Perfect:□后出手者了解历史□最后出手者无后续阶段牵制,能够作出准确的选择;Complete:□所有局中人的策略、支付为共同知识□先出手者虽然不知道后出手者的具体行动,但却知道后出手者对己方行动的反应,及其所带来的支付中国科学技术大学管理学院@ 201330
扩展式博弈的Nash均衡逆向归纳法(Backward Induction) 从树叶向树根方向逆推:枝加粗:由粗树枝形成的行动路径为均衡路径剪枝:完整的行动路径为均衡路径AA高高低低BBBB不买买不买买不买买不买买(1,0)(2,−)(0,0)(,2)(1,0)(2,−)(0,0)(,2)博弈Nash均衡(用行动组合表示):(高,买)思考:为什么用策略式博弈的双矩阵划线法与用扩展式博弈的逆向归纳法得出的结果有所不同?中国科学技术大学管理学院@ 201331
扩展式博弈的Nash均衡原因在于:“扩展式表述策略式表述”并不意味着“博弈树双矩阵”在静态博弈中,双矩阵能够反映策略式博弈的全部信息(局中人、策略、支付);而在动态博弈中,双矩阵丢失了部分博弈信息(策略部分)□双矩阵中所列的“策略”虽能够反映后出手者对先出手者的应对方案;却丢失了各方出手顺序的信息,即:没反映出“后出手者能够观察到先出手者的行动,并将应对方案付诸实施”□双矩阵中,型如(买,不买)这样的动态策略被静态化了。NE(逆向归纳法) ⊆NE(划线法)中国科学技术大学管理学院@ 201332
扩展式博弈中的策略参数符号H:局中人i的信息集集合;h∈H为某一信息集;iiiA:局中人i的所有可选行动集合;i局中人i在信息集h下的可选行动集iA≡A(h)iih∈Hii局中人i的每一个纯策略都是从信息集到行动集的映射反映了处于某信息集的局中人如何行动s:H→AiiiA高低S=A(h)∏ii局中人i的纯策略空间:h∈HiiBBS=A(h)={低,高}Aa不买买不买买S=A(h)×A(h)Bb1b2 ={不买,买}×{不买,买}(1,0)(2,−)(0,0)(,2) ={(不买,不买),(不买,买),(买,不买),(买,买)}中国科学技术大学管理学院@ 201333
行为策略Behavioral Strategy前文提到,同一信息集内决策结点的行动空间一致,故只需考虑每个信息集所对应的行动空间即可行为策略(Behavioral Strategy)局中人对自己的每个信息集所对应的所有可能行动所赋予的某一概率分布,且不同信息集下相互独立A behavioral strategy assigns to each information set of a player a probability distribution over the actions available at this information setH={h,,h}假设局中人i有k个信息集,信息集的集合为ii1ik1LA(h)={a,,a}其任一信息集h对应的行动空间就为ijijijA(h),假设ijij局中人在此行动空间上设定一个概率分布b,反映出他在此信息集下的行动态度ijL1Lllb∈(p,,p)|p≥0,l=1,,L,p=1∑ijijijijijl=1则局中人i的某一行为策略可表示为b=(b,,b)ii1ik中国科学技术大学管理学院@ 201334
行为策略Behavioral Strategy动态博弈的行为策略的内涵类似于静态博弈的混合策略A右图描述了局中人A和B的一种行为策略高低局中人A有一个信息集,行为策略——(, )局中人B有两个信息集,行为策略不买买不买买(,),(,)()(1,0)(2,−)(0,0)(,2)定理 (Kuhn, 1953):在完美记忆博弈中,行为策略等价于混合策略。[]关于Kuhn定理和行为策略,见附录本课程只简单介绍行为策略概念,围绕着行为策略的更深入讨论略。中国科学技术大学管理学院@ 201335
扩展式博弈的简化策略式例图博弈局中人A第一次出手为U时,博弈结束出手为D时,马上又与局中人B展开一个静态博弈ADU为方便起见,可用局中人的各次行B动构成的向量来描述纯策略A有四个纯策略RL{(U,u),(U,d),(D,u),(D,d)}AAudud中国科学技术大学管理学院@ 201336
扩展式博弈的简化策略式定义:两个纯策略是等价的,若它们在其他局中人所有纯策略下都能产生相同的结果(结果分布)。显然,若局中人A第一次出手选择了U,那么他的第二阶段信息集是不可达的,因而(U,u)和(U,d)是等价的扩展式博弈的简化策略式就是将等价纯策略合并(只保留一个而舍弃其他)而得到的。简化后,局中人A的(U,u)和(U,d)可合并为(U,u)或(U,d)或直接用UA只有三个纯策略{U,(D,u),(D,d)}中国科学技术大学管理学院@ 201337
承诺与威胁动态博弈中先出手局中人是否应该相信后出手局中人的某种行动选择?可信性问题承诺(Promise):若后出手局中人选择的某一行动对先出手局中人是有利的,则此行动选择对先出手局中人来说是一种“承诺”;威胁(Threat):若…不利的,则…“威胁”定义:某一局中人发出一个威胁(承诺),若执行此威胁(承诺)所对应的支付水平比不执行更小,则称为不可置信(incredible)的威胁(承诺)威胁与承诺是博弈论中的一个重要议题威胁与承诺的可信性(有效性)往往会带来不同的博弈结果中国科学技术大学管理学院@ 201338
承诺与威胁例:哥哥常抢弟弟的玩具,弟弟则常向父亲告状。父亲烦了,订下规矩“别烦我;无论谁烦我,你们俩零花钱全扣”扣零花钱显然比没玩具玩更令人郁闷哥哥的策略集{抢,不抢},弟弟的策略集{不告发,告发}某次,哥哥准备抢弟弟的玩具,弟弟以“告发”相威胁。哥哥想:虽然告发让我损失惨重,但你自己不但没便宜占,还要蒙受损失。威胁不可信对威胁不予理会理性的弟弟不会告发。中国科学技术大学管理学院@ 201339
例:Selten(1965)中的一个两人动态博弈1LRUD双矩阵U(2, 2)(2, 2)22(2,2)LLRRD(3, 1)(0, 0)(2,2)(2,2)3,)(,),1)(0,0)双矩阵描述的策略式比博弈树描述的扩展式多出一个NE,但Selten认为均衡(U, R)是不可信的(incredible)。均衡(U, R)依赖于“局中人2采取R行动”局中人2的威胁而此威胁是无效的。局中人2并非愿意真采取此行动中国科学技术大学管理学院@ 201340
例:市场进入壁垒博弈1静态博弈进退进入退却默许100, 80400, 02(0,400)阻挠0, -20400, 0许阻(80,100)(−20,0)按照现实逻辑,此博弈显然应有个出手顺序欲进入者(局中人1)先决定进入与否原垄断者(局中人2)再决定是否阻挠原垄断者的阻挠威胁是无效的均衡为(进入,默许)中国科学技术大学管理学院@ 201341
1例:借贷博弈借不借局中人2向局中人1私下借钱无借条、不受法律约束2(0,0)还不还局中人2是无赖(10,20)(−5,35)不担心声望损失局中人2承诺“还”是“不可置信”的均衡为(不借,不还)中国科学技术大学管理学院@ 201342
可信威胁的例子自断归路:两国均想占据某小岛,都有桥梁与之相连。某国登岛,拆断与本国相连的桥梁没有退路缩小行动空间,反而使己方有利破釜沉舟;置于死地而后生中国科学技术大学管理学院@ 201343
适度原则局中人发出承诺或威胁要适度,不应超出一定范围如:台湾宣布独立或发生重大动乱,大陆将出兵可信,《反国家分裂法》日本首相参拜靖国神社,中国就向日本宣战不可信在理性假设下不可信承诺/威胁是不会发生的行动,将被剔除;剩下的行动是可信的、会发生的。可信行动组合(行动路径)动态博弈的均衡路径中国科学技术大学管理学院@ 201348
连续行动集的逆向归纳法前面提到的逆向归纳法针对博弈树(有限动态博弈)对于行动集连续情况,逆向归纳法同样适用例:双寡头投资博弈——两企业投资前单位生产成本为2;企业1可投资f装备一种新技术,使得单位生产成本为0。企业1先出手决定是否投资企业2观察到企业1的决策后与之展开Cournot竞争企业1和2的产出水平分别为q和q。12假设p(q,q)=10-q-q1212企业1收益π=(8−q−q)q□不投资:1121π=(10−q−q)q−f□投资:1121π=(8−q−q)q企业2收益:2122中国科学技术大学管理学院@ 201352
1Cournot Game 1Cournot Game 2π=(10−q−q)q−fπ=(8−q−q)q11211121π=(8−q−q)qπ=(8−q−q)q21222122∗∗∗∗(q,q)=(4,2)(q,q)=(8/3,8/3)1212∗∗∗∗(π,π)=(16−f,4)(π,π)=(64/9,64/9)12121.若f < 16-64/9, 企业1投资2.若f> 16-64/9 ,企业1不投资3.若f = 16-64/9 ,企业1投资与否等效,对企业2收益有影响,视企业1对企业2的态度而定中国科学技术大学管理学院@ 201353
子博弈(Subgame)子博弈(Subgame):动态博弈(扩展式博弈树)中满足如下准则的任意部分——(1) 以原博弈的某一单结点信息集的决策结点为初始结点(树根):h(x)={x} ;00(2) 包含原博弈中此决策结点的所有后继T(x);0(3) 被包含的任一结点所处信息集中的所有结点也都被包含其中∀x∈T(x),若x'∈h(x),那么x' ∈T(x)。00注:在很多文献中,将满足(1)和(2)的称为子博弈(Subgame),而将还满足(3)的称为适当子博弈(proper subgame)中国科学技术大学管理学院@ 201354
子博弈(Subgame)子博弈的性质:原博弈本身是个子博弈;如果原博弈的一个信息集中包含多个决策结点,那么此信息集中任一结点均不能成为子博弈初始结点;局中人能确切知道博弈是否到达子博弈子博弈是原博弈树的一个完整独立的子树完整:从某一结点出发,覆盖所有后继独立:与子树外结点无“虚线”相连,即:原博弈的任意信息集不被子博弈分割当博弈进行到子博弈的初始结点,局中人只须关注子博弈,博弈结果不会受到影响完美信息动态博弈的每个结点均开始一个子博弈中国科学技术大学管理学院@ 201355
子博弈(Cont.)AADDUUBBBBRRRRLLLLAAAAAAAA不是子博弈是子博弈不是子博弈博弈1:只有一个子博弈,即本身博弈2:有三个子博弈。中国科学技术大学管理学院@ 201356
子博弈完美Nash均衡Subgame Perfect Nash Equilibrium又称“子博弈精炼Nash均衡”、“子博弈完美均衡”Selten的主要贡献双矩阵划线法可能比博弈树逆向归纳法找出的均衡要多双矩阵划线法Nash均衡博弈树逆向归纳法子博弈完美Nash均衡定义(Selten, 1965):若一个策略组合能给定原博弈每个子博弈的Nash均衡,则被称为“子博弈完美Nash均衡”注:此处的“策略组合”≠“行动组合”中国科学技术大学管理学院@ 201357
子博弈完美Nash均衡Subgame Perfect Nash Equilibrium子博弈完美Nash均衡完全信息动态博弈的一种“解”定义:是比Nash均衡更强的动态博弈解定义对Nash均衡的一种精炼(refinement),即:消除了不可置信威胁A refinement of the Nash equilibrium that eliminates non-credible threats一定是个Nash均衡一定程度上消除了Nash均衡的多重性,增强了博弈可预测性比Aumann的相关均衡(Correlated Equilibrium)理论更好地解决Nash均衡的缺陷中国科学技术大学管理学院@ 201358
子博弈完美Nash均衡(Cont.)例:房产开发博弈(D,D)(D,U)(U,D)(U,U)subgame 1AD(-3,-3)(-3,-3)(1,0)(1,0)开发不开发U(0,1)(0,0)(0,1)(0,0)subgame 2subgame 3BB开发不开发开发不开发三个Nash均衡:(U, (D,D))、(D, (U,D))和(D, (U,U))(−3,−3)(1,0)(0,1)(0,0)从博弈树上易看出,此博弈有三个子博弈,分别检验上述Nash均衡subgame 2和3均是单人博弈(决策)问题,局中人B的最优行动分别是(U)和(D);(U, (D, D)):在subgame 3上构成Nash均衡;但在subgame 2上却不构成Nash均衡不是子博弈完美的(D, (U, U)):在subgame 2上构成Nash均衡;但在subgame 3上却不构成Nash均衡不是子博弈完美的(D, (U,D)):在所有子博弈上均构成Nash均衡子博弈完美的此动态博弈的唯一合理NE中国科学技术大学管理学院@ 201359
子博弈完美Nash均衡(Cont.)完全且完美信息动态博弈可通过逆向归纳法求解。某些完全但不完美信息动态博弈,若能将不完全信息的子博弈用它的均衡结果(支付向量)所代替,新博弈拥有完美信息,也可通过逆向归纳法求解例如:A右图所示博弈,当局中人B第二次出手UD11时,他并不清楚局中人A刚采取的行动。(2,)B(1,1)可以发现,Subgame 3是个静态零和博LR11弈,只有一个混合策略Nash均衡,即A(0,0)((1/2,1/2),(1/2,1/2)),对应的均衡结果支(2,)UD付向量为(0,0)22BB用(0,0)作为终点结点代替整个subgame 3LRLR2222运用逆向归纳法(1,−1)(1,−1)(−1,1)(−1,1)子博弈完美Nash均衡路径为(D, L)11中国科学技术大学管理学院@ 201360Subgame 3
子博弈完美Nash均衡(Cont.)例:Turocy & von Stengel, 2001,芯片制造商双头垄断模型现实背景:当前计算机CPU主要由Intel和AMD两家占据市场两家芯片制造商A和B,分别能选择产出水平:高(H)、中(M)、低(L)、不生产(N)同时出手时:Nash均衡(M, M)动态博弈时:若A先出手,则子博弈完美Nash均衡路径为(H, L)B AH M L N A NHMLH 0, 0 12, 8 18, 9 36, 0 BBBBNNNNMHHHH 8, 12 16, 16 20, 15 32, 0 MLMLMLMLL16329151827000 9, 18 15, 20 18, 18 27, 0 012183682001601820180363227089012150N 0, 36 0, 32 0, 27 0, 0 思考:前文提到“子博弈完美Nash均衡”一定是个Nash均衡,在此例中为何两者不吻合?中国科学技术大学管理学院@ 201361
供应链契约与协调考虑单期背景(single-period or newsvendor)下,一个供应商S和一个零售商R,零售商面向市场,市场零售价为p,市场需求x随机,服从.和.为f(.)和F(.)的概率分布。供应商制定某个批发策略(供应契约,supply contract),零售商在此批发策略下决定接受或拒绝,若接受则制订其订货决策q。分散决策(distributed decision-making):双方均以个体利益最大化为目标,“各自为政”集中决策(integrated decision-making):两者就像一个整体(比如集团公司的两个子公司),以系统整体利益最大化为目标协调(coordination):在分散决策下达到集中决策效果的状态1.分散决策的系统总利润与集中决策一样;2.分散决策下的订货量与集中决策一样;3.供应链的绩效(performance)达到最大中国科学技术大学管理学院@ 201362
供应链契约与协调非协调性契约——批发价(wholesale price)供应商制订一个批发价wπ=pS(q)−wqrπ=(w−c)qsπ=pS(q)−cq其中S(q)为期望销售量(expected selling quantity)∞S(q)=(q∧x)f(x)dx∫0q∞=xf(x)dx+qf(x)dx∫∫0qq=F(x)dx∫0′S(q)=F(q)中国科学技术大学管理学院@ 201363
供应链契约与协调集中决策情形π∂pco−1=pF(q)−c=0;q=F∂分散决策情形∂πp−w∗−1r=pF(q)−w=0;q=F∂∗𝒐𝒐∗𝒐𝒐易于证实:𝒒𝒒<𝒒𝒒;𝝅𝝅<𝝅𝝅,说明批发价契约不能实现供应链的协调,原因在于𝒄𝒄<𝒘𝒘(<𝒑𝒑),被称为“双重加价”或“双重边际化(double marginalization)”中国科学技术大学管理学院@ 201364
供应链契约与协调继续考虑分散决策下供应商的决策,他了解零售商的反应函数,故会纳入自己的考虑中π(w,q(w)=(w−c)q(w)s或者写成π(w(q),q)=(w(q)−c)q=pF(q)−cq()s∂πs=pF(q)−pqf(q)−c=0∂q∗∗Nash均衡为满足上条件的(𝒘𝒘𝒒𝒒,𝒒𝒒)中国科学技术大学管理学院@ 201365
协调性契约如:回购契约(buyback)、收益共享契约(revenue-sharing)、数量折扣契约(quantity-discount)、期权契约(option)等以回购契约为例:保持其他情况一致供应商的批发策略(或者说契约安排)为带回购的批发价,即制订二元组𝒘𝒘,𝒃𝒃,其中𝒘𝒘为批发价,𝒃𝒃为回购价(𝒃𝒃<𝒘𝒘)供应商以𝒃𝒃价格将零售商未售出的产品回购,相当于分担了零售商的部分风险以激励零售商订货。中国科学技术大学管理学院@ 201366
此时,各方及供应整体利润为+Π=p(x∧q)−wq+b(q−x)r+Π=(w−c)q−b(q−x)sΠ=p(x∧q)−cq现场推导最优订货量和协调条件让零售商利润函数与供应链利润函数形成仿射关系中国科学技术大学管理学院@ 201367
蜈蚣博弈悖论Centipede Game ParadoxRosenthal (1981)提出:蜈蚣博弈(centipede game)对逆向归纳法与子博弈完美均衡的批评两个局中人A和B轮流在“合作R”与“退出D”间作出选择,各出手n次任意局中人出手时若选择D,博弈终止;若选择R,博弈继续;局中人A第K次出手时若选择D,支付向量为(K, K);局中人B第K次出手时若选择D,支付向量为(K-1, K+2)RRRRRRR(n+1,n+1)AAAABBBBDDDDDDDD(3,3)(2,5)(4,4)(n−1,n+2)(1,1)(0,3)(2,2)(1,4)中国科学技术大学管理学院@ 201368
蜈蚣博弈悖论Centipede Game ParadoxRosenthal (1981)提出:蜈蚣博弈(centipede game)RRRRRRR(n+1,n+1)AAAABBBBDDDDDDDD(3,3)(2,5)(4,4)(n−1,n+2)(1,1)(0,3)(2,2)(1,4)在此博弈格局下,按照逆向归纳法,很显然子博弈完美Nash均衡路径就是:A第一次出手就退出;均衡结果为(1, 1);而在二人均拥有完全信息情况下,双方往往会形成一种默契,均选择合作,最终达到圆满结果。在此例中:逆向归纳法是严谨的,而得出的结论却是荒诞的。人们在博弈中的真实行动“偏离”了运用逆推法关于博弈的理论预测,造成二者间的矛盾和不一致蜈蚣博弈悖论出现此悖论的原因传统理性假设存在局限性中国科学技术大学管理学院@ 201369
序贯博弈Sequential Game动态博弈包括序贯博弈(sequential game)和重复博弈(repeated game)前面所讲到的动态博弈均属于序贯博弈范畴序贯博弈:博弈结构不重复可用一棵博弈树表示局中人出手有先后,且至少有一个后手局中人对前手局中人的选择有所把握所有局中人都能把握出手前的所有信息完美信息序贯博弈部分局中人部分把握出手前的信息不完美信息序贯博弈所有局中人均不了解出手前的任何信息静态博弈通常情况下所提的“动态博弈”就是“一次性序贯博弈one-shot sequential game”中国科学技术大学管理学院@ 201370
重复博弈Repeated/Iterated Game重复博弈:一类特殊的动态博弈,即某一博弈G被重复执行多次相同博弈结构反复出现mG被称为阶段博弈(stage game),可用G表示阶段博弈被重复执行m次的重复博弈。m□若m有限,G为有限重复博弈(Finitely),m为∞则为无限重复博弈(Infinitely)。m□理论上说,只要m≠ ∞,G就是有限重复博弈;但事实上只要m足够大,以至于超出局中人认知能力,而难以事先了解到该过程何时结束,就会视为“无限”。划分准则:局中人是否能共同预见到博弈何时结束中国科学技术大学管理学院@ 201371
重复博弈(Cont.)阶段博弈G 静态博弈或序贯博弈重复博弈的“动态性”主要体现在阶段博弈随时间重复执行上阶段博弈,无论是静态的还是序贯的,均可用一棵博弈树刻画;重复博弈是一个博弈森林每棵博弈树结构完全相同,时间存在先后;树与树间并非独立,前面博弈树的行动路径会对后面树(一棵或多棵)的行动路径产生影响中国科学技术大学管理学院@ 201372
重复博弈(Cont.)每个局中人都会事先确定“如何应对其他局中人在前面阶段的各种行动”,并在博弈开始前公开宣称(能够被其它局中人了解到)Restated as: 其他局中人在前面阶段的各种行动会“触发”自己什么样的应对性行动触发策略(Trigger Strategies)公开宣称的“触发策略”承诺或威胁是否可信(有效)若可信:在每个阶段博弈中,局中人必须考虑“当前行动对其他局中人未来行动的影响”——声誉(reputation)中国科学技术大学管理学院@ 201373
重复囚徒困境Iterated Prisoners' Dilemma例:以囚徒困境为阶段博弈的重复博弈阶段博弈的唯一Nash均衡为(D, D)II 合作(C) 背叛(D) I 合作(C) 4, 4 0, 5 背叛(D) 5, 0 1, 1 中国科学技术大学管理学院@ 201374
重复囚徒困境Iterated Prisoners' Dilemma各方制定的“触发策略”(Trigger Strategies):承诺:己方一开始选定“合作”,只要对方不“背叛”,将一直坚持;威胁:若对方在前面阶段“背叛”m次,己方将在未来n阶段中持续“背叛”作为惩罚。Tit for Tat触发策略(宽容型,forgiving):□己方在现阶段总采取与对方上阶段一样的行动,即m=1, n=1。一旦对方背叛,马上报复;报复完马上原谅。Tit for two Tats策略:□m=2, n=1。宽大为怀,给对手一次回心转意的机会——“有一不可再”中国科学技术大学管理学院@ 201375
重复囚徒困境Iterated Prisoners' Dilemma各方制定的“触发策略”(Trigger Strategies):Tit for Tat with forgiveness策略:□m=1, n∈{0,1},Prob(n=1)<1。若对方背叛,己方以某一概率报复(也有可能不报复)。Grim触发策略(严酷型,severe):□一旦对方“背叛”,己方将永远“背叛”,即m=1, n=∞描述了其他局中人在未来阶段中对当前阶段局中人行动的反应触发策略之所以被称为“策略”,原因在于:它说明了局中人在博弈各阶段采取行动的指导原则中国科学技术大学管理学院@ 201376
重复囚徒困境(Cont.)m有限囚徒困境(Finite Prisoners' Dilemma)——G使用逆向归纳法:第m阶段:□双方均了解这是最后一阶段当前行动不会对未来产生任何影响。而“背叛”又是各自的占优策略都“背叛”第m-1阶段:□双方都知道在第m阶段对方必定“背叛”无所谓本阶段的行动选择会对下一阶段对方行动产生影响(无所谓声誉) 双方都只会考虑当前阶段的博弈局势都“背叛”……如此反推,直至到第1阶段。可见,在有限囚徒困境中,各局中人触发策略中的承诺均是不可置信的有限囚徒困境的子博弈完美Nash均衡就是“全部背叛”。逆向归纳法可用于求解有限重复博弈。m定理:对于有限重复博弈G,若阶段博弈G有唯一Nash均衡,则mG有唯一子博弈完美Nash均衡,且为NE(G)的m次重复。中国科学技术大学管理学院@ 201377
重复囚徒困境(Cont.)无限囚徒困境(Infinite Prisoners' Dilemma)诺奖得主R. Aumann(1959)研究显示:无限囚徒困境的理性局中人会持续“合作”在无限囚徒困境中,局中人无法预知博弈的结束时间□逆向归纳法不适用□在对方的触发策略下,己方选择“背叛”会使总体支付水平下降□对方的承诺与威胁是可信的□在每个阶段博弈中采取利他策略(合作)比采取自私策略(背叛)更佳中国科学技术大学管理学院@ 201378
重复囚徒困境(Cont.)无限囚徒困境(Infinite Prisoners' Dilemma)在各种触发策略中,计算科学家、经济学家、心理学家和博弈学家均informally believe(虽然没有formal proof):tit for tat策略是最优的。采取的方法通常是贝叶斯Nash均衡(Bayesian Nash Equilibrium)蒙特卡罗仿真(Monte Carlo Simulation)中国科学技术大学管理学院@ 201379
重复囚徒困境(Cont.)无限囚徒困境(Infinite Prisoners' Dilemma)Axelrod, R. 1984. The evolution of cooperation若某一触发策略满足如下性质,即被称为是“成功的”触发策略——善意性(Nice): □不会首先背叛(对方不背叛,己方不背叛) □局中人乐观(optimistic)、善良,是个“好人”报复性(Retaliating):□对对方的背叛行为有惩罚性报复□不盲目乐观(not a blind optimistic),不是“老好人”中国科学技术大学管理学院@ 201380
重复囚徒困境(Cont.)宽容性(Forgiving):□虽然会用报复行为惩罚对方背叛,但若对方不再背叛,我方应能回归合作□避免报复与反报复的恶性循环(death spiral)不好胜性(Non-envious):□不追求支付水平高于对手□若局中人采取的触发策略具有善意性(Nice Trigger Strategy),则其支付水平不可能高于对手。中国科学技术大学管理学院@ 201381
重复囚徒困境(Cont.)检验Tit for Tat触发策略的成功性己方在现阶段总采取与对方上阶段一样的行动;善意性一旦对方背叛,马上报复;报复性报复完马上原谅宽容性显然采取Tit for Tat策略的局中人并不追求利益高于对方不好胜性故:Tit for Tat是成功触发策略类似地,可以检验Tit for two Tats, Tit for Tat with forgiveness均是成功的检验Grim触发策略的成功性己方开始不“背叛”,一旦对方“背叛”,己方将永远“背叛”显然,持Grim策略的局中人不首先背叛(善意性),若对方背叛就会报复(报复性),但对对方的任一背叛报复到底(不宽容)。故Grim不是成功触发策略中国科学技术大学管理学院@ 201382
重复囚徒困境(Cont.)无限囚徒困境(Infinite Prisoners' Dilemma)若将无限囚徒困境视为一棵博弈树的话,那么触发策略事实上是对原博弈的一种剪枝方案,即在原博弈树上只保留符合触发策略的行动路径。例如Grim触发策略下的无限囚徒困境□“背叛”之后有“合作”的行动路径被剪去。触发策略也确实是动态博弈策略,因为它给出了每个局中人在每阶段对上阶段其它局中人出手的完整应对方案。在任何阶段,任一个局中人的应对策略都是(合作, 背叛),即若对方在上阶段为"合作",本阶段“合作”;否则“背叛”;两阶段间的策略组合都是(合作, (合作,背叛))。最终均衡路径就是(合作, 合作, …)Tit for Tat触发策略不是子博弈完美的,而Grim触发策略往往是子博弈完美的中国科学技术大学管理学院@ 201383
重复囚徒困境(Cont.)定理:在无限囚徒困境中,只要各方有足够耐心(patience),Grim触发策略是个子博弈完美Nash均衡。[]证明:见附录类似方法可用于证明Tit for Tat不是子博弈完美均衡“耐心”:不同的人对货币时间价值的态度□可通过连续复利贴现因子(Continuously Compounded Discount Factor)反映中国科学技术大学管理学院@ 201384
重复囚徒困境(Cont.)用r表示主观单期利率/贴现率,则连续复利贴现因子δ为−n−rδ=lim(1+r/n)=en→∞假设某人可选择在现在或将来得到一笔钱,数额均为m贴现因子δ越靠近1(主观贴现率越小) 人越认为现在的m元钱和未来的m元钱差不多(货币的主观时间价值不大) 人越不在乎是现在得到还是未来得到这m元钱局中人表现出更大的“耐心”同理,δ越接近0(主观贴现率越大) 人越认为现在的m元钱和未来的m元钱间差别大人对现在的m元钱更越兴趣而不愿意中国科学技术大学管理学院@ 201385
重复囚徒困境(Cont.)管理启示(managerial insights):在无限囚徒困境重复博弈中,只要每个人有足够耐心,1.任何短期的机会主义往往得不偿失2.局中人都会积极主动地建立自己"合作共赢"的良好声誉3.同时,也会积极主动地对损人利己的不合作行为进行惩罚中国科学技术大学管理学院@ 201386
重复博弈的问题无限重复博弈的普遍问题子博弈完美均衡的多重性例如:无限囚徒困境有无数个子博弈完美均衡Grim策略是个子博弈完美均衡,均衡结果为双方长期合作易于证明:“始终背叛”策略也是此博弈的子博弈完美均衡新议题和难题:消除子博弈完美均衡多重性,以增强博弈的可预测性中国科学技术大学管理学院@ 201387
无限Bertrand博弈例:Tirole (1988)——阶段博弈:Bertrand价格博弈两企业生产相同产品(完全替代、同质),生产边际成本均为c低价方将占领整个市场;若价格相同,则分享市场垄断价格为p,垄断利润为πmm阶段博弈均衡与完全竞争市场相同,即最终均衡价格都是c。双方竞相降价,导致两败俱伤。将Bertrand博弈重复T+1次,T可能有限,也可能无限。记π(p, p)为第t阶段企业i的利润, i, j=1, 2, t=0,…, TiitjtT假设双方贴现因子δ相同,双方的利润贴现值为tPV=δπ(p,p)∑iiitjtt=0中国科学技术大学管理学院@ 201388
无限Bertrand博弈例:Tirole(1988)T有限情况下,根据定理知,均衡结果就是单次Bertrand博弈均衡的(T+1)次重复□双方均将价格定为边际成本c,长期利润为0。T无限情况下,考虑双方均声称一个Grim触发策略,即□各方将按垄断价格p定价,一旦对方稍微调低价位,己方将永远按m边际成本c定价实施报复□这是可信的承诺和威胁。中国科学技术大学管理学院@ 201389
无限Bertrand博弈(Cont.)这事实上就演变成一个无限囚徒困境问题′πm若从第k阶段,某企业微降价格,那么除了此阶段该企业独享的利润外,此后将会是零利润;若一直坚持按垄断价格定价,则与对π/2m方分享市场,获得利润。′′𝝅𝝅略小于𝝅𝝅,记为𝝅𝝅≦𝝅𝝅𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎Grim触发策略是子博弈完美均衡的充要条件是∞πt−km′δ≥π∑m2t=k中国科学技术大学管理学院@ 201390
无限Bertrand博弈(Cont.)′ππmm而,则得到一个充分条件(接近充要条件)∞πt−kmδ≥π ⇔∑m2t=k∞11tδ≡≥2 ⇔ δ≥∑1−δ2t=0事实上,在满足上述条件下若将双方Grim触发策略中的p替换成[c, p]间的任一价格p,Grimmm触发策略仍然子博弈完美;该无限重复博弈有无数个子博弈完美Nash均衡中国科学技术大学管理学院@ 201391
无名氏定理(Folk Theorem)无限囚徒困境和无限Bertrand博弈均是Friedman (1971)改进的无名氏定理(Folk Theorem)的应用早在1950s,无名氏定理就已为博弈论学界所共知,但未曾公开发表过,也就成为没有归属的知名成果,故称之为“无名氏”原先的无名氏定理是考虑无限重复博弈的Nash均衡,后来被Friedman扩展到子博弈完美均衡上中国科学技术大学管理学院@ 201392
无名氏定理(Folk Theorem)定理:无名氏定理(Folk Theorem)∞令G为一个n人博弈,G(δ)为以G为阶段博弈的无限重复博弈,局中人的贴现因子为δ。若a*为G的一个Nash均衡(纯策略或混合策略),e=(e, 1e,…,e)是此Nash均衡下的均衡支付向量。v=(v, v,…,v)是任一可行支付2n12n向量,V为可行支付向量集合。那么对于V中任意满足v>e(向量元素对应比较)的支付向量,均存在一个贴现因子δ*∈(0,1),使得对于所有的δ≥δ*,v=(v, v,…,v)均是某一特定子12n博弈完美均衡的均衡结果。证明:类似于无限囚徒困境构造一个Grim触发策略:任意局中人i声称他将在每个阶段博弈G中坚持对应于支付向量v=(v, v,…,v)的策略(pure or mixed),一旦有人偏离,他将从下一12n阶段开始用a*中的策略永久报复。∞易于证明:∃δ*∈(0,1),使得上述触发策略在δ≥δ*时是G(δ)的子博弈完美均中国科学技术大学管理学院@ 201393
无名氏定理(Cont.)“无名氏定理”的管理启示在无限重复博弈中,只要局中人有足够耐心(δ足够靠近1),任何满足个人理性的可行支付向量均可通过某一特定的子博弈完美均衡得到。无限重复博弈的子博弈完美均衡可能有多个、甚至可能无数个。在这种情况下,子博弈完美均衡丧失了预测能力e是由阶段博弈的Nash均衡a*决定的支付向量,是其它局中人对背叛者的集体惩罚,故被称为Nash威胁点(Nash Threat Point)注:e虽是集体惩罚,却并非合谋,而是各局中人根据个人理性自发决定却表现出“集体性”的一致行动。中国科学技术大学管理学院@ 201394
无名氏定理(Cont.)a*可以是阶段博弈的任一Nash均衡,并非每个Nash均衡对应的Nash威胁点都能对背叛者构成最大惩罚惩罚力度最大者则可借助von Neumann的“Maximin解”思想来构造Maximin解是局中人在最保守情况下的Nash均衡,或换言之□每个局中人均是在其它局中人各种可能策略组合下“小中取大”□为了形成对背叛者的最大惩罚,其它局中人则是针对背叛者的支付水平采取“大中取小”的反制策略。Fudenberg & Maskin (1986)认为:□若定义一个保留效用(reservation utility)向量v,将无名氏定理中的e替换成v同样成立,且v能够给出子博弈完美均衡的边界v=minmaxu(a,a)iii−iaa−ii中国科学技术大学管理学院@ 201395
动态博弈的著名应用例:著名的鲁宾斯坦讨价还价模型(Rubinstein Bargaining Game)讨价还价模型:议价模型、谈判模型Rubinstein, A. Perfect Equilibrium in a Bargaining Model. Econometrica, 1982, 50(1): 97-109[]全文见附录无限期、完全且完美信息、轮流出价的议价模型Rubinstein考虑了两种情形□Case 1:固定谈判成本(Fixed Bargaining Cost)□Case 2:固定贴现因子(Fixed Discounting Factor)本例介绍Case 2中国科学技术大学管理学院@ 201396
动态博弈的著名应用例:著名的鲁宾斯坦讨价还价模型(续)问题:两局中人如何分配蛋糕(利益分配)局中人1先出价,即提出一种分配方案(x, 1-x),局中人2可接受或拒绝;若局中人2接受,则博弈结束,蛋糕按局中人1方案分配;若局中人2拒绝,则由他还价,提出另外分配方案(y, 1-y),局中人1也可接受/拒绝;同样,若局中人1接受,博弈结束,蛋糕按局中人2的方案分配;如果局中人1拒绝,他再出价;如此一直下去,直到一方出价被另一方接受为止。局中人1在偶数(0,2,4,…)阶段出价,局中人2则在奇数(1,3,5,…)阶段还价若双方的贴现因子分别为δ,δ,双方在第t阶段达成协议(ρ, 1-ρ)。则支付水12平的贴现值为ttδρ,δ(1−ρ)()12中国科学技术大学管理学院@ 201397
动态博弈的著名应用定理:无限Rubinstein Bargaining Game存在唯一一个子博弈完美均衡划分(, Perfect Equilibrium Partition) ,即1−δδ(1−δ)221,1−δδ1−δδ1212且在首次出价时即达成协议,即t*=0[]证明:见附录中国科学技术大学管理学院@ 201398
动态博弈的著名应用若记−δ−δ∗∗21ρ=; ρ=12δδδδ1212上述定理说明,无限、完全完美信息、轮流出价的议价博弈的唯一为(ρ*, δρ*),最先出价方占据一定的优势122上述.所对应的子博弈完美Nash均衡策略组合(s, s)为12局中人1策略s:1□若己方出价,总提出(ρ*, δρ*)方案;122□若对方出价,则接受任何己方份额≥δρ*的出价而拒绝<δρ*的出价;1111局中人2策略s:2□若己方出价,总提出(δρ*, ρ*)方案;112□若对方出价,则接受任何己方份额≥δρ*的出价而拒绝<δρ*的出价。中国科学技术大学管理学院@ 2013222299
动态博弈的著名应用t=3t=1t=2t=0∗∗∗∗∗∗∗∗(δρ,ρ)(ρ,δρ)(δρ,ρ)(ρ,δρ)11212211212211122接受接受接受接受4∗3∗∗∗2∗∗2∗3∗(δρ,δρ)(ρ,δρ)(δρ,δρ)(δρ,δρ)112212211221122任一出价方“接受”与“还价”的支付水平贴现相同,双方不会陷入无休止的议价循环,而使支付水平随时间消耗而贬值中国科学技术大学管理学院@ 2013100