1
用博弈论来解读孙子兵法
摘要:两千五百多年前中国学者孙武在其所著的《孙子兵法》中试图对战争与冲
突中的普遍性策略特点进行系统解释,并据此就如何在军事冲突中获胜提出实际建
议。据认为孙子的智谋极大地影响了日本军事和商业实践,也影响了毛泽东对冲突
和革命的看法。但孙子到底是否(或者说在何种程度上)预见到了当代冲突理论---
博弈论---所包含的含义呢?本文的观点是,孙子可以被认为想到了优势策略
(dominant strategy)、最小最大化策略(minmax strategy,也称保留策略)、以及
混合策略(mixed strategy)这些概念,但他没有意识到均衡策略这个概念的全部意
义。因此,尽管孙子部分地提出了解决“对方认为我认为…”这种逆推(regress)
的方案,他的理论在更完整的策略分析面前显得脆弱。但在判断孙子对策略性思考
的贡献之前,我们应该记住解决某些情况下的循环推理问题必须借助高等的概率论
和数学原理,所以我们对孙子在信息操作问题上讨论得不够完整不应感到惊讶。实
际上,我们应该惊叹于他已经直觉地想到了这么多。
2
一、导言
很早以来,学者们就对如何阐明一般性的策略原则有着极大的兴趣,无论这
策略是应用于战争、棋类游戏、还是政治。对于像中国古代战略家孙子这样的人来
说,他们感兴趣是因为需要就眼前的事务出谋划策,而对其他人来说,他们的兴趣
源自知性的好奇心。不管兴趣来源为何,对策略原理进行研究都是有意义的,因为
它抓住了人类生存的基本性事实:首先,人们的命运是相互决定的;其次,这种互
赖性一般情况下表现为人们的目标相互冲突;最后,前面两点说明战争不是偶然
的,而是国家政策的有目的性的延续,并因此必须用理性去解释。
写于两千五百多年前的《孙子兵法》是人类有记载以来第一次试图连贯地、
一般性地理解冲突和策略。它的年代对于我们来说并不太重要,重要的是它写于一
个形成中的中国内部长年交战时期,其时各诸侯国富有外交和军事上的策略经验。
所以我们应该认为《孙子兵法》系统整理了那个时代战略和战术方面的精湛洞见。
对《孙子兵法》加深理解不光有助于我们了解孙子写作的那个年代,也能对今日冲
突的本质加深认识。
但尽管我们可以假设孙子的洞见适用于过去和现在,我们不能以为我们对策
略的理解在过去两千五百年里没有进步。新的分析模式,包括决策论和数学应用,
已经进入了策略分析的领域并使我们的思考得到了精炼和概括。所以要想理解孙子
对策略理论的贡献,我们必须搞清楚怎样在现在的背景下理解和分析他的著作,因
为只有这样我们才能最大化《孙子兵法》的当代意义。这也是本文所要分析的问
题。但我们的讨论不从孙子本人开始,而从二十世纪下半叶发展出来的策略行为理
论---博弈论开始。博弈论既可以被看成是数学的一个分支,也可以被看成是政治学
或者经济学的一个分支(Ordeshook, 1986)。简单地说,博弈论试图就如下情况下
的决策得出一般性的、抽象的原则:一个人行为会有什么结果取决于他人的行为,
而每个人又都知道他们的行为是互赖的。所以博弈论不仅能应用在军事战略规划
上,也能用于分析商业公司在争夺利润和市场份额时,政客们为了赢得选举、委员
会成员们为了形成对自己有利的派系,以及各个国家为了在合纵连横中占据有利位
置而进行的决策行为。
因此,博弈论和《孙子兵法》各自为我们带来了一些对理解策略有用的东
西。博弈论给了我们一般性原则和数学上的精确性,并使我们对策略互动的思考具
备逻辑上的连贯性。孙子则提供了对一般性原则的具体应用,并说明了抽象的逻辑
推理如何能艺术般地应用在实践之中。本文的计划是回顾博弈论的基本要素并据此
来分析孙子兵法在何种程度上与博弈论相符或者给博弈论作了生动说明。
当然,要一个两千五百年前的人预见到今日正式数学推理所揭示的策略互动
的所有微妙之处是不可能的,所以我们也要考察孙子兵法在哪些方面没有达到我们
现在在策略选择方面所掌握的知识程度。本文在第 2 节首先讨论“前博弈”决策行
为---也就是决策人只有一个时的情况。第 3 节触及博弈论的核心内容,讨论互赖策
略处境与单人的决策处境有什么不同。第 4 节更详尽地讨论孙子兵法中与依序博弈
(sequential game)---比如象棋或围棋之类的棋类游戏---有关的内容。第 5 节讨论
与战场上的决策更为相关的博弈:同步博弈(simultaneous move game)和不完全
信息博弈(imperfect information game),并把纳什均衡(Nash equilibrium)这个
3
概念作为这种博弈的一般解作了介绍。第 6 节对没有简单纳什均衡的博弈进行了考
察,并进而介绍了混合策略(mixed strategy)。我们认为包含随机成分的混合策略
并不仅仅能满足数学上的好奇心,实际上也是孙子策略思想的一个中心内容。第 7
节研究了战争中信息操纵的重要性,并发现在这个方面我们没有什么理由相信孙子
预见到了当代博弈论的分析结构。
二、单人决策
为了理解博弈论的看法和能教我们的东西,也为了理解孙子的洞见,我们首
先应该考察决策人只有一个时的情况,这个决策人必须从某个可选行为的集合里选
取一个。要用决策论(decision theory)讨论这种问题,通常我们需要详细说明下列要
素:
(1) 该决策者所能选择的所有行为。这个行为清单必须是详尽的,也就
是说决策者必须最终从中选择其行为。清单里的行为也必须是排他
的,换句话说决策者只能选择其中一项行为。
(2) 所有可能的行为结果。这个结果清单也必须是详尽的和排他的。
(3) 各行为与各结果之间的关系,也就是说某项具体行为被采取后会发
生什么结果。
与上述内容相对应的是,《孙子兵法》的第一篇一开始就细述了连接行为与
结果的策略环境要素:道(内政、民心)、天(气候、天象、季节)、地(地形、
远近等)、将(将领、领袖的品质)、法(国家和军队的组织、管理效率)。其中
的“将”是与策略和行动相关的决策变量。
决策环境的另一个重要成分是决策参与者的目标(对各种不同结果的偏
好)。当然,国王和军队统帅的目标是显而易见的---赢得胜利。正如孙子所言,取
得战争胜利实际上是一个国家生存所必需的:“兵者,国之大事,死生之地,存亡
之道,不可不察也”(计篇);“其用战也胜”(作战篇)。不光如此,孙子还指
出,对胜利的追求应该放在社稷安危的框架下考虑,不能太短视:“兵贵胜,不贵
久”(作战篇)。
更具体地来说,《孙子兵法》的开始几篇有好几段与持久性冲突相关。这些
段落我们可以这样理解:应该避免会耗尽己方资源的冲突。“百战百胜,非善之善
者也;不战而屈人之兵,善之善者也”(谋攻篇)。所以,正确的目标不应仅仅是
取得某场战斗的胜利,而是用最小的成本取胜,并为将来的可能冲突保持实力。此
外,我们应该采取能最大化胜利果实的战术:“凡用兵之法,全国为上,破国次
之”(谋攻篇)。
除了统帅之外,孙子也没有忽视那些在战争中实际执行任务的人们---士兵---
的目标:
“故杀敌者,怒也;取敌之利者,货也。故车战,得车十乘已上,赏其先得者”(作战
篇)。
4
在最简单的---也就是没有不确定性的---决策环境中,我们假设每个行为都会
导致一个定义精确的(well-defined)具体结果。在这种情况下,我们只需知道决
策者对各种不同结果的偏好顺序,然后就能推测出决策者会选择的行为。但是在一
种更普遍的决策环境中,也就是带有风险的决策环境中,我们或者决策者可能不确
定某个具体行为会导致什么结果。
在简单的决策论里我们假设行为的结果由“大自然”决定,这个“自然”是
指一个自身不具目的、不追求任何目标的实体。因为自然没有目标---它既无善意也
无恶意---我们可以认为我们对它的行为不具影响力。我们只能对自然的各种可能行
为给定概率。
举例来说,农夫在决定种植何种作物时面临的就是这种决策环境。农夫可以
选择播撒不同的种子,土地的出产是结果;农夫的偏好顺序由各种结果的相对收益
率决定;而自然的行为则可能跟该年的气候相关。在这个例子里,我们一般不会把
自然当作一个仁慈的或者邪恶的生命;相反,我们只会给该年可能出现的各种气候
特征一定的概率(而这可能由历史纪录决定)。
某个具体行为会导致的后果可以看成是在各种可能的结果中进行抽彩
(lottery)。决策理论家们关注的一个问题是人们如何看待这些抽彩---对各个具体的
结果的偏好决定了对这些结果组成的抽彩的偏好。总的来说,博弈理论家假设我们
可以给各个结果一个价值---即用数字表达的偏好,这样我们就可以计算每个行为的
预期值并且推测决策者会选择那个带来最大预期收益的行为。
为了在下文进行更复杂的讨论,我们先在这里举个例子,请看图 1。图 1 假设
决策者(代号 1)必须在两个行为 A 和 B 中选择一个。自然也有两个行为可以选
择,其选择每个行为的可能性分别为 p 和 1-p。方格里显示的是决策者给每个结果
赋予的值。在这个例子里,行为 A 的预期值 E(A) 等于 4p+2(1-p) = 2+2p;行为 B
的预期值 E(B) 等于 p+3(1-p) = 3-2p。如果 E(A) > E(B), 或者说 2+2p > 3-2p,即 p >
1/4, 那么决策者选择 A。如果 p = 1/4, 决策者对选择 A 还是 B 无所谓。如果 p < 1/4,
那么决策者喜欢 B 超过 A。
图 1:风险下的(单人)决策
自然
P 1-p
A 4 2
B 1 3
孙子偶尔也会对类似于上述的简单策略结构提出建议。比如他说:
“凡火攻有五……发火有时,起火有日。时者,天之燥也;日者,月在箕、壁、翼、轸
也。凡此四宿者,风起之日也”(火攻篇)。
但《孙子兵法》仅有少数几处地方集中讨论主要对手是自然的决策问题。很
明显,孙子意识到一个全面的决策结构包括自然的可能行为、决策者的策略、以及
5
决策者的对手们所拥有的策略。“知彼知己,胜乃不殆;知天知地,胜乃可全”
(地形篇)。因此,要探究事务深处,我们必须求助于博弈论和互动决策分析。
三、博弈
我们上面对简单决策的讨论只是为了抛砖引玉。实际上,孙子很早就警告说
我们不能停留于这种初级决策模型对行为和目标的讨论:“兵者,诡道也”(计
篇)。我们显然不能欺诈自然,因为自然是没有思维的匿名实体。所以战争都是两
人或更多人之间的策略互动,我们接下去要讨论的就是面对自然的决策与面对他人
的决策的区别。
为了清楚说明这种区别的重要性,我们把图 1 中的自然换为另一个决策人
(代号 2),此人也有两个选择:C 和 D。所以 1 号采取某项行为会有什么结果取
决于 2 号的行为,反之亦然。另外,我们假设这第 2 个人的目标与第 1 个人有所不
同:具体地说,他们两人的偏好正相反,就象军事冲突双方通常遇到的情况。图 2
描述了这种新局面,每个方格中的第一个数字是第 1 个人的收益,而第二个数字是
第 2 个人的收益。
图 2:两人定和博弈(Constant-Sum Game)
C D
A 4, 1 2, 3
B 1, 4 3, 2
现在我们有两种方式来描述 1 号和 2 号面临的决策局面:(1)完全信息: 在
博弈中其中一个人先做选择,第二个人在知道第一个人的选择后再做选择;(2)
不完全信息:两人同步做选择。在完全信息情况下,该博弈很直截了当。比如 1 号
先行,他知道如果他选择 A 的话 2 号会选择 D,而如果他选择 B 的话 2 号会选择
C。所以 1 号应该选择 A,因为这最大化了他的最小收益。
在不完全信息下,事情就复杂多了。也正是在这种情况下我们能看出图 1 和
图 2 的重大区别。具体地说,我们可以想象 1 号进行决策时的如下思考过程:
我想我应该选 A,因为这是我最好的选择,它给我的保留收益比 B 要高 (2 比 1)。但是
如果 2 号也象我这样想的话,他会推测出我会选择 A,这样他就会选择 D,而那样我就应该选
择 B (因为这时我的收益是 3 而不是 2)。但是……如果 2 号也想到了这些,他就会预测到我
会因为他选择 D 而选择 B,那样他就会认为 C 才是他的上策,而那样我就应该选择 A。但是,
如果他又想到我刚刚想到的这些的话,他就知道我会选 A,然后他就会回应以 D……等等。
当然,2 号决策人也会同样地进行上述循环推理。假设 1 号在愤怒和困惑中最
后断定 2 号会以相同的概率选择 C 和 D。这样他选 A 的预期收益就是 4/2 + 2/2 =
3,而选 B 的预期收益是 3/2 + 1/2 = 2。我们的 1 号决策人因此会选择 A。但是话
说回来,如果 1 号相信 2 号能预见到 1 号会推测 2 号将进行随机选择,1 号也同样
应该能预见到 2 号能想到 1 会选择 A,而此时 2 号就不再会随机性地进行选择,而
6
是确定地选择 D,因为这是针对 A 的最好回应。但是话再说回来,如果 1 号自己
又能预见到上述推理……等等等等。
这种循环推理在简单的单人决策环境里不会出现,因为自然不会思考。因
此,一旦我们改变假设,认为“自然”并不是一个匿名实体,而是一个具备策略思
维能力的人,情况就急剧变化了。这个变化要求我们发展新工具来分析理性人的行
为。
我们讨论循环推理的一个隐含的假设是不光每个决策人都意识到了这种循环
推理,同时他们也都意识到对方也意识到了,等等。博弈理论家把这种情况称为公
共知识(common knowledge)。以孙子为例,如果冲突双方都读过《孙子兵法》
(或者类似的书籍),而且双方都知道双方都读过这本书,那么这就是他们的公共
知识。要评价孙子兵法在博弈论方面的造诣,我们必须问的一个问题是孙子的计谋
是否(或者说在何种程度上)包含了对公共知识所接纳的循环推理问题的解决方
案。
为了能够做出这个评价,我们必须首先讨论博弈赛局的一般成分。简要地
说,这些成分大多与我们前面讨论的单人决策问题相同,不同的是我们现在要考虑
两个或更多的决策人。我们也必须容许决策人之间长期互动所能产生的复杂策略效
应。为了有助说明问题,读者们在阅读下文时可以以象棋或其他室内游戏为例。要
描述一个博弈赛局,我们必须说明:
(1) 所有相关的决策人或者选手。在(国际)象棋游戏里,一共只有两
个决策人,一方执白,另一方执黑;但在牌类游戏里,参与者可以
有好几个。
(2) 哪个决策人在什么时候可以行为,以及这些决策人行为的顺序。在
象棋游戏里,白方先行,黑方后行。同时象棋双方依序走的棋可以
有很多步。但在其他一些赛局里,选手可能必须同步行动,能走的
棋也没有几步,甚至可能每个决策者只能走一步。
(3) 每个赛局参与者在每个他可以行动的时候能采取的所有选择。在象
棋里,白方的首步可以有十个选择:他可以动兵(一共八个),或
者走马(一共两个)。随着赛局的深入,这些选项可能会随着自由
棋子的增多而越来越多,也可能随着棋子被吃而越来越少。
(4) 各选手在每一步对其他选手之前的行为的知晓程度。在象棋里,每
一方都知道对方之前每一步走的棋。在其他赛局如扑克游戏中,参
与者不一定知道其他人之前出的牌。在另外一些情况下,选手们可
能需要同时行动。
(5) 每个选手的目标,也就是他对赛局所有可能结果的偏好。在象棋和
战争中,这些结果包括胜利和失败,我们假设每个人都喜欢胜利而
不是失败。
我们最后需要介绍的概念是“策略”,也就是关于如何在博弈中进行选择的
行动计划。这个计划---每个选手都有一个---明确说明了该选手在每一步他能做选择
时应该采取的行动。因此策略包含的是各种应变行为,形式如下:“如果我的对手
这么走,那么我就这样;如果我的对手那样走,那我就那样……”。象棋里白方的
7
策略包括开局走什么,以及对黑方对自己开局走法的每一种可能回应方式的回应,
等等。
《孙子兵法》里的下面一句清楚地说明了孙子在试图制订一个完整的策略---
也就是针对对手行为的依序回应:
“隘形者,我先居之,必盈之以待敌;若敌先居之,盈而勿从,不盈而从之”(在两山间有
狭窄通谷的隘形地区作战,如果我方先占领,一定要在隘口而布兵以待敌;若敌方先占据隘
口,陈兵据守,就不要去攻打;如果敌方并未布阵全部封锁隘口,则可以进攻)。(地形
篇)。
理解策略这一概念在博弈论里的中心地位是很重要的。在一个好的博弈模型
里,我们可以知道一个选手所有可能遇到的情况,包括由自然带来的各种不确定
性。因此,一个策略应该允许选手随着博弈的进行不断获得信息并进而调整自己的
行动选择。因为策略允许在各种不同情况下转变行动,在所有选手都已确定其策略
之后,在这些策略被实施之前,我们就可以确定博弈的结局(在自然所带来的不确
定性之内)。策略确定之后一切都是根据计划进行,而每个选手的策略的详情也都
随着时间推移逐步显现。
不出意料,孙子似乎完全意识到了这一点。除了指出要正确评估形势,孙子
说:
“上兵伐谋”(谋攻篇)。
“策之而知得失之计”(虚实篇)。
“夫兵形象水,水之行,避高而趋下;兵之行,避实而击虚。水因地而制流,兵因敌而制
胜。故兵无常势,水无常形;能因敌变化而取胜者,谓之神。”(虚实篇)
至于结局,孙子指出:
“知彼知己者,百战不殆;不知彼而知己,一胜一负;不知彼,不知己,每战必殆。”
(谋攻篇)
“是故胜兵先胜而后求战,败兵先战而后求胜。”(形篇)
从这些论述中我们可以看出孙子的总体思想是很清楚的:分析战争中互赖选
择的多样性并推断出有效的、能够引向广义胜利的策略。
四、依序博弈
由此看来,我们的问题是怎样找到好的策略并解决类似图 2 所示的博弈中的
循环推理问题。让我们回到前面提到过的如下两种不同的博弈:(1)选手们依次
行动的博弈,比如象棋、围棋、井字过三关游戏(tic-tac-toe);(2)选手们同步
做选择的博弈,或者选手们做决策时不知道他人做过什么选择的博弈。这一节我们
先考虑第一种博弈,也就是完全信息博弈。
让我们看一下类似于象棋的一个博弈,第一个人先行,然后第二个人行动,
接着又是第一个人行动,然后第二个人行动,等等。假设我们可以画出所有可能序
8
列里的所有选择。有些序列很快就结束了,比如某方采取了一系列精湛行动,而对
方实力却不堪一击。但是博弈论有一个广为人知的结论,即无论某赛局多么复杂,
原则上该赛局的结果是确定的,每个选手都有一个明确的最佳策略。
这个结论具普遍性。举例来说,如果图 2 所述的博弈是依序进行的,1 号先
行,那么正象我们先前所述,博弈结果是(2,3)。用策略的语言来说,1 号只面
临一个可能性---他必须先行。所以他只有两个选择,A 和 B。但 2 号却面临两个可
能性,即 1 号的两个可能选择,所以 2 号有四个策略:
策略 1 (s1):不管 1 号选择什么,选 C;
策略 2 (s2):如果 1 号选择 A,那么选 C, 如果 1 号选择 B, 那么选 D;
策略 3 (s3):如果 1 号选择 A,那么选 D, 如果 1 号选择 B, 那么选 C;
策略 4 (s4):不管 1 号选择什么,选 D。
从图 2 直接看,我们可以看出如果 1 号选择 A,那么 2 号会选 D, 如果 1 号选择 B,
那么 2 号会选 C。所以 1 号很清楚应该选择 A,而 2 号以 D 回应。因此在序列博弈
中结果会是(2,3)。换句话说,我们可以直截了当地推定 1 号会选择“A”这个
策略,而 2 号会选择“如果 1 号选择 A,那么选 D, 如果 1 号选择 B, 那么选 C”这
个策略。
所以说博弈论告诉我们原则上象棋这类游戏是有解的。当然实际上在这类博
弈中我们很难制订所有的可能行动,所以我们到现在还在用智力和经验比拼这类游
戏。但另一方面,简单一些的游戏比如井字过三关因为可以被轻易地解出,所以只
有那些还没有完全理解该游戏的策略结构的小孩才会对它感兴趣。但是要想下好象
棋这类游戏所必需的技巧和经验和玩任何复杂博弈的技巧是差不多的---我们都得学
会把复杂的策略结构简化以知道哪些走法是应该避免的,并因此可以得知我们的对
手是在下好棋还是坏棋。技巧和经验也可以帮助我们减少博弈的复杂度,即使之后
该博弈还是比井字过三关游戏复杂,我们还是有可能理解该博弈的总体原理并因此
制订最佳的应变计划。
制订最优应变计划也很明显是孙子想要做的。比如他说:“践墨随敌,以决
战事”(避免墨守成规,随敌情变化来决定作战方案)(九地篇)。
依序博弈还有一个问题需要考虑:是先行占优还是后行占优?当然,依序博
弈里先行者是否有利或者在哪方面有利取决于赛局的具体结构。让我们以比孙子晚
一百年的孙膑讨论过的现在非常有名的赛马博弈为例。齐国将军田忌常与诸公子赛
马,但问题是对手的三匹马总体上胜过田忌的三匹马。孙膑的计策非常简单:用己方下等马与
对方上等马比赛,用己方上等马与对方中等马比赛,然后用己方中等马与对方下等马比赛。这
样田忌就赢了三场比赛中的两场。很明显,后行对田忌有利---他可以先知道对方出什么马,再
决定自己相应地出什么马。
但为了能够正确理解上面这个例子,我们必须紧记策略与行为之间的区别。
策略是指行动计划,也就是出现各种不同情况时选择应变行为的规则,而行为只是
计划中的具体行动。孙膑赛马的例子很简单,因为这里的行为(选择什么马出赛)
和策略是一致的。但在象棋游戏或者复杂的战争运作中,这种一致性就不存在了。
至于谁占优势的问题,对于本文要考虑的博弈类型---也就是纯粹冲突博弈---
来说,最晚暴露自己策略的一方占优,但这不一定是后行一方。在象棋或者井字过
三关游戏里,先行一方总是有利的,但先行一方并不见得就是先暴露自己策略的一
9
方。我们来看看孙子对占优问题的看法。他在有个地方认为与其首先进攻敌方,在
某些地形条件下应该迫使对方县采取行动比较有利:
“我出而不利,彼出而不利,曰支;支形者,敌虽利我,我无出也;引而去之⑾,令敌半
出而击之利”(地形篇)。
但在另外的地方孙子又似乎认为先行是占有的:
“凡先处战地而待敌者佚,后处战地而趋战者劳。故善战者,致人而不致于人。”(虚实
篇)。
“我可以往,彼可以来,曰通;通形者,先居高阳⑦,利粮道⑧,以战则利。”(地形
篇)。
看上去孙子写得有点混乱,但实际上,如果我们紧记行为和策略的区别,我
们就知道这并不混乱。在上面引述的第一句里,各方所处的位置已经决定,也就是
说博弈的环境已被确定,这时候最好的办法是晚暴露己方的策略。但在后面两句
里,战场还没确定,孙子实际上在说最占优的是能够决定双方玩什么博弈的一方,
或者说占优的是能够决定谁在博弈中处于什么位置的一方。所以在这两句里孙子在
说要先行。所以孙子并不矛盾,我们可以认为他确实理解了后选择策略的好处。
五、不完全信息博弈
战争前的准备,包括评估自己的国内实力、招募精干的军队指挥官、训练部
队、以及选择要不要开战,都是依序进行的。这样随着事情的进展,双方的特点都
一一显现。战术的选择则遵循不同的规则。战斗方案是否成功要看战场上的具体情
况,包括对手的准备情况和战术,而当我们知道后者这些情况时,往往以来不及改
变自己的行动,所以说决策经常是在不完全信息状态下作出的。在有些情况下,信
息不完全是因为博弈各方的行动是同时进行的;其他时候,各方行动并不同步,但
是对手的行动我们看不见。不管信息不完全是因为什么缘故,博弈理论家处理不完
全信息的一个方法是找出信息是否完全无关紧要的那些赛局。图 3 的例子中每个选
手都有优势策略(dominant strategy),也就是不管对方如何选择对自己都是最有利的
行动。不管 2 怎么做,选 A 对 1 号都比选 B 好,所以 A 是 1 号的优势策略。对 2
号来说,不管 1 号怎么做选 D 都比选 C 好,所以 D 是 2 号的优势策略。当决策者
有优势策略时,对策略和结果进行的分析就能避免图 2 所示的循环推理问题。
图 3:存在优势策略的两人零和博弈(Zero-Sum Game)
C D
A 4, 1 3, 2
B 2, 3 1, 4
10
需要强调的是,优势选择是否存在与博弈是同步的还是依序的并非完全无
关。实际上,依序进行的博弈,比如象棋,总有优势策略,所以我们可以把占优这
个概念看作对上述分析的一般化。让我们回顾一下图 2 所示的博弈,该博弈是顺序
进行的,1 号先行,2 号后行。1 号有两个策略:A 和 B;而 2 号有四个策略,我们
上面用 s1, s2, s3, s4 表示。我们再来看图 4,该图所描述的是 1 号和 2 号选择各个
策略后的博弈结果。请注意 1 号虽然没有优势策略,对 2 号来说 s3 无论何时都不
会比 s1 和 s4 差,而有时比它们要好,同时 s3 无论何时都比 s2 要好。所以 s3 是 2
号的优势策略,2 号应该选它。由于 1 号选手清楚上述情况,他应该能够推测出 2
号会选 s3,这样 1 号就应该选 A。这种推理的结果与我们前面已经推导出的结果
完全一致:1 号选 A, 2 号会应以 D, 最后结果是 (2,3)。
图 4:正规形式(normal form)的序列博弈
s1 s2 s3 s4
A 4, 1 4, 1 2, 3 2, 3
B 1, 4 3, 2 1, 4 3, 2
因此,选择的依序性是优势策略存在的充分条件(但不是必要条件)。正象
我们将要阐述的那样,孙子虽然似乎理解了博弈从同步变为依序的意义,他的策略
分析的很大一部分在于寻找优势策略和劣势策略(dominated strategy)。首先,对于
劣势策略,也就是在任何情况下都应避免的那些策略,他说:
“合军聚众,汜地无舍……绝地无留……途有所不由,军有所不击,城有所不攻,地有所
不争”(九变篇)。
“战隆无登……客绝水而来,勿迎之于水内……视生处高,无迎水流”(行军篇)。
对于优势策略,他认为:
“围地则谋,死地则战”(九变篇)。
“绝山依谷,视生处高……绝水必远水;客绝水而来,勿迎之于水内,令半济而击之……
绝斥泽,惟亟去无留”(行军篇)。
我们在这里介绍优势策略的概念不仅是为了更好地理解《孙子兵法》的部分
内容,也是因为这种策略的存在可以帮助我们避免循环推理。具体地说,我们来看
看图 3 中由(A, D)两个选择构成的方格的特点---两个选手一旦处于这个方格里
面,他们中的任何一个人都没有动机去单方面改变行动。实际上,就是(A, D)的
这个特点终止了循环推理。但优势策略的存在性并不是博弈有解的关键。请看图 5
里与(B, E)这两个选择对应的方格。首先请注意这两个选手都没有优势策略。比
如说,如果 2 选 D,那么 1 最好选 A,但如果 2 选择 E,那么 1 最好选 B,如果 2
选择 F, 那么 1 最好选 C。尽管如此,一旦两人进入(B, E)这个状态,他们谁都不
想单方面地选择其他行动。因此有了(B, E),循环推理就结束了。换句话说,优
势策略的存在是终止循环推理的充分条件,但它并不是必要条件。
11
图 5:存在纳什均衡(Nash Equilibrium)的定和博弈
D E F
A 8, 1 3, 6 1, 8
B 7, 2 5, 4 6, 3
C 2, 7 4, 5 9, 0
象(B, E)这样的能够终止循环推理的策略组合,叫做纳什均衡(Nash
Equilibrium)。博弈理论家纳什对不同类型博弈里的这种均衡给出了一系列重要证
明,所以此概念以他命名。纳什均衡对于寻找博弈的最终结果是个非常深刻的概
念,因此博弈理论家们投入了巨大精力分析该均衡的特点,提炼纳什的最初公式,
把这些提炼后的概念应用于比本文所提到的例子远为复杂的博弈,并实证检验这些
思想。如果我们对孙子兵法有什么批评的话,那就是他似乎对解决循环推理这个两
难问题注意地太少了,并因此没有把均衡作为互赖决策的解提出来。换句话说,他
没有考虑到除了他自己所辅佐的君王,敌人的君王可能也了解孙子兵法,而且各方
对这个公共知识的认识本是就是公共知识。在这种情况下,只有均衡这个概念可以
用来制订策略规划并解决循环推理问题。
尽管如此,我们在博弈论本身中可以找到一个理由说明为什么孙子的上述不
足并没有减少他的计谋和分析的价值。具体来说,纳什均衡的一个能够适用于孙子
所关心的博弈类型----你死我活型的纯粹冲突博弈(即零和博弈,也称定和博弈)--
-的事实是:决策者们在选择行动时如果能遵循一些简单的经验方法就能确保取得
均衡结果。假设某人假设其对手和他一样聪明,而且能预见到他所想到的东西。在
这种情况下,我们所研究的这个决策者应该作好最坏打算,即假设不管他采取什么
行动,对手总会尽其所能占其便宜。假设对手能力不如自己是很危险的,这会导致
令人不快的结果。所以排除这种假设后,决策者应该最大化自己的最小收益,或者
说最小化自己的最大损失。这就是最小最大化策略(minmax strategy,也称保留策
略)。
把上述方法应用到图 5 所示的博弈,我们注意到 1 号选择 A 的最小收益是
1,选择 B 的最小收益是 5, 选择 C 的最小收益是 2。所以 1 号应该选择 B。同样
地,2 号选择 D 的最小收益是 1,选择 E 是 4,选择 F 是 0。所以 2 号应该选择
E。有意思的是,上述推理的结果是策略组合 (B, E),而这也是该博弈的纳什均
衡结果。可见在纯粹冲突博弈里谨慎的保留策略与博弈论所要求的策略决定是一致
的。
虽然《孙子兵法》里没有任何地方直接用均衡这个概念来解决循环推理问
题,我们仍然可以合理地假设孙子已经掌握了能最小化己方损失同时让智谋不足的
对手吃亏的策略的本质。
“昔之善战者,先为不可胜,以待敌之可胜”(形篇)。
“故善战者,立于不败之地,而不失敌之败也”(形篇)。
12
“不可胜在己,可胜在敌。故善战者,能为不可胜,不能使敌之可胜。故曰:胜可知,而
不可为”(形篇)。
可见孙子至少部分地把我们引向了均衡这个概念,因为如果冲突双方都根据
他的建议采取措施最小化己方面对善战的对手的潜在损失,同时在面对不善战的对
手时能获胜,那么博弈结果就是均衡。所以只要我们所考虑的博弈是定和或者说零
和类型的,只要简单的均衡策略存在,孙子已经为我们提供了取得均衡并在面对不
按均衡概念行为的对手时获胜的必要手段。
六、混合策略(mixed strategy)
我们上面的讨论的一个结论是博弈是否属于完全信息在优势策略或者定义精
确的均衡存在的情况下是无所谓的。博弈选手们可以解出该赛局,得出确定的结
果。但是军事冲突一般来说有与上述不同的特点。具体地说,军事冲突一般情况下
没有简单的策略均衡。所以我们在讨论均衡概念的适用性时必须谨慎,因为如果博
弈并不总是有均衡解,那么我们就不能得出科学意义上的一般结论。
有了上面这些,让我们回到图 2 所示的博弈。我们上面用图 2 来说明循环推
理问题,所以这个博弈猛然一看似乎没有均衡解。我们上面提到 1 号可能会在经历
循环推理之后恼怒中断定 2 号会进行随机选择,但我们当时暂时地否决了该想法,
因为它并没有终止我们一开始就想避免的循环推理。但是请注意我们当时假设 2 号
采用的是一种 50 对 50 的抽彩,而我们没有确认是否所有抽彩都会把我们引向循环
推理。
更一般地,假设 2 号选择 C 的可能性为 p,选择 D 的可能性为 1-p,并且 1 号
选择 A 的可能性为 q,选择 B 的可能性为 1-q。如果在给定 2 号的概率 p 和 1-p 之
后, A 和 B 两个选项所代表的抽彩对于 1 号选手来说并非等优,那么 1 号就应该
确定地选择 A 和 B 中的一个选项。也就是说,当且仅当选 A 的预期价值与选 B 的
预期值相等时(这些预期值由 2 号选定的策略决定),1 号才会在 A 和 B 之间保
持 q 和 1-q 的概率。对于图 2 所示的博弈,2 号选手的方程是 4p + 1(1-p)= p + 3
(1-p),所以 p =1/4。我们的 1 号选手也是一样---他只有在 2 号在选 C 和选 D 之
间没有偏向时才会愿意给 A 和 B 一定的权重,所以 q + 4(1-q)= 3q + 2(1-q),
即 q = 1/2。
我们得出的结论是:如果 1 号以相同的概率选择 A 或者 B,而且 2 号以 1/4
的可能性选 C,3/4 的可能性选 D,那么双方没有一人愿意单方面地选择其他抽彩
(包括在 A 和 B 以及 C 和 D 中确定地选择其中一项)。因此图 2 所示的博弈有混
合策略纳什均衡解。
给与混合策略均衡特殊意义的是 Von Neumann 和 Morgenstern (1944)证明
的一个重要定理,该定理指出在任何一个 n 人博弈中,如果每个决策人的选择都是
有限的,那么该博弈至少有一个混合或者纯粹策略均衡
1
。这样,纳什均衡的潜在
科学一般性就被建立了。
1 纯粹策略是指经过对博弈结构的直接分析而得出的策略,而混合策略是指由纯粹策略组成的抽
彩。
13
请注意混合策略(1)最小化了己方面对同样策略性地思考的对手时的易受攻
击程度,(2)可以在对手犯错误时占其便宜。此外,随机概率的运用确保了己方
的战术不能为对手所识别。有了混合策略,我们就可以把有限的纯粹策略变成无限
多的选择。还有,即使己方的纯粹策略已经暴露,对手还是不能确定某项在短期看
来次等的选择会不会是某个更宏大的更长远的策略规划的一部分。也就是说,混合
策略的存在使得对手不能从我们以往的行为中确定地推测出我们将来的选择。
我们不知道孙子是否曾经明确地推荐过用随机概率来掩饰自己的策略意图,
孙子兵法的众多评论者对此也没有澄清。尽管如此,我们还是可以对他为“正”和
“奇”作的区分给于解释,从中可以看出混合策略在孙子的分析中还是占有中心地
位的。他说:“战势不过奇正,奇正之变,不可胜穷也;奇正相生,如环之无端,
孰能穷之?”(势篇)。
“奇”表示不寻常、不普通、不典型。一个策略如果不能为对手所预见,那
就是“奇”。所以没有什么策略会永远是“正”或者“奇”。正可以是奇,奇也可
以是正。策略到底是正还是奇要看对手怎么看你的策略。所以“奇”和“正”这两
个概念已经反映出博弈双方之间的策略思考
2
。如果我们把“奇”理解为对手认为
你不大可能采用的策略,而“正”是对手认为你有可能采用的策略,那么你必须随
机选择你的策略以防止对手推测出你下一步的行动。这样理解“奇”和“正”,我
们就能完全明白为什么孙子说:
“形而错胜于众,众不能知;人皆知我所胜之形,而莫知吾所以制胜之形;故其战胜不
复,而应形于无穷”(虚实篇)。
当然,对于“奇”和“正”还有一种别的解释:“奇”是指对手不知道是否
可能或者可行的策略。如果我们对“奇”这么理解,那么我们就不能(轻易地)用
博弈论去分析孙子的这部分论述,因为博弈论假设所有选手都清楚各个对手所能采
用的策略。不过即使我们用“奇”和“正”作为证据来证明孙子理解了混合策略的
作用,我们还是可以对他的分析提出批评。我们在前面一节已举出证据证明孙子理
解最小最大化纯粹策略的作用。但问题是如果某博弈只有混合策略均衡解,最小最
大化策略是不能导致均衡的,而且循环推理也因此无法终止。另外,不幸的是,我
们在《孙子兵法》里找不到任何清晰的指导方针告诉我们什么时候采用最小最大化
策略,什么时候采用混合策略。在这个意义上说,孙子的分析是不完备的。
七、间谍计
《孙子兵法》的最后一篇写的是间谍问题,其最后一句是:
“故惟明君贤将,能以上智为间者,必成大功,此兵之要,三军之所恃而动也” (用间
篇)。
2 请注意“奇”和“正”这两概念是一百年后的孙膑所详细阐述的。我们对奇和正的解释来源于孙
膑。
14
孙子对间谍的作用的强调是可以理解的,因为如果能事先刺探到对手的策略
计划,那么己方就拥有非常好的策略优势。间谍的实际作用是使决策者的决策信息
基础更丰富,并使同步博弈变为依序博弈。我们看看图 2 所示的博弈就明白这种变
化的好处。如果双方的选择是同步进行的,或者说如果没有哪一方在博弈中具备完
全信息,而且每一方都采用混合策略,那么图 2 中每一方的预期支付是 。但如
果博弈中 1 号先行,2 号在知道 1 号的选择后再行,那么 1 号最终得到的支付是
2,而 2 号得到的支付是 3。此外,如果 1 号不知道 2 号拥有良好信息而仍然采用
混合策略,那么 2 号的预期支付就增到 ,而 1 号的预期支付降为 。正如孙子
所指出的:“吾所与战之地不可知,不可知,则敌所备者多”(虚实篇)。
间谍的作用于是就很明显了:让决策者能够根据对手的选择而进行选择,使
得博弈序列式地进行。孙子曰:
“故明君贤将,所以动而胜人,成功出于众者,先知也。先知者不可取于鬼神,不可象于
事,不可验于度,必取于人,知敌之情者也”(用间篇)。
对于孙子所关心的这种博弈类型,先知对方的选择再选择自己的策略总是有
好处的,不管对方知不知道我们知道这件事。但孙子的最大问题似乎是双方都会有
可能让特工给对方喂假情报。他说:
“必索敌人之间来间我者,因而利之,导而舍之,故反间可得而用也”( 用间篇)。
问题是,如果这“反间”其实不是双面间谍,而是三面或者更多面间谍呢?
这个问题使得我们又回到了博弈论试图避免的循环推理。不同的是,博弈现在不仅
是不完全信息,同时也是不完全信息,每一方都想知道对方对己方的看法---自己的
能力、自己的意图---而对方的看法将取决于己方的行为。因此,选择行为时不光要
考虑其直接所影响的结果,还要考虑其间接影响的各方的信念(belief)。当各方都意
识到大家可能进行这种信息操作时,策略分析就变得加倍复杂了。
前面我们在解释孙子说的“兵者,诡道也”时,认为这表明我们需要用博弈
论而不仅仅是单人决策理论理解他的分析。显然,混合策略是一种“诡道”。但同
时我们很清楚孙子说的“诡道”远非仅仅是随机选择行为:
“故能而示之不能,用而示之不用,近而示之远,远而示之近。利而诱之,乱而取之”
(计篇)。
“卑而骄之”(计篇)。
但一旦我们接受这种“诡道”观点,许多新问题应运而生,比如:如果对手
清楚我们的意图和机会,我们还能欺骗他们吗?各方能否同时相互欺诈而又都知道
对方在欺诈,并且都知道对方也知道?
但要判断孙子对我们对策略的理解的贡献,我们应该紧记一点:虽然博弈论
已经经历了半个世纪的发展,成百上千的研究者为此作出贡献,我们也只是在最近
才知道怎样把信息操纵当作博弈者策略的一部分来分析(如 Kreps, 1990; Myerson,
1991)。理解信息操纵是很困难的,因为它是在一场博弈进行过程中试图改变对手
对这场博弈的认识,而对手又知道我们有这种企图。我们必须用高等数学和概率论
15
才能解决这种循环推理问题,所以我们对孙子在信息操纵问题上讨论得不够完整不
应感到惊讶。实际上,我们应该惊叹于他已经直觉地想到了这么多。