- 1 -
基于信息熵风险和收益的纳什均衡选择
朱晓建,吴迪
大连理工大学计算机系,大连 (116024)
摘 要:纳什均衡是博弈论的关键概念,它是理性决策者最优决策的结果。但纳什均衡的多
重性使得决策者仍然面临不确定性问题,这限制了博弈论的应用。本文提出了一种基于信息
熵风险和收益的纳什均衡选择方法,该方法根据博弈者的风险类型,综合考虑博弈决策者的
收益和风险,对多重纳什均衡进行选择。通过一个具有两个严格纳什均衡解的 2×2博弈实例
对该方法进行了验证,结果表明该方法是有效的。
关键词:纳什均衡;信息熵;风险特性;收益
中图分类号:TP181
1.引言
博弈论(game theory),也称“对策论”,是研究决策主体的行为发生直接相互作用的时
候所进行的决策以及这种决策的均衡问题的,它被广泛应用于市场经济、军事及人工智能等
领域并取得了一系列的显著成果。博弈论中的关键概念纳什均衡为相互影响的决策者提供了
博弈可能结果的一致性预测,也是理性决策者最优决策的结果,从而为决策者指明了决策方
向。但是博弈论本身的缺陷阻碍了博弈论的更广泛应用,其中最重要的缺陷是纳什均衡的多
重性,即有的博弈问题存在多个纳什均衡解,使得决策者仍然面临不确定性问题。如何在众
多的纳什均衡中选择一个合理的均衡解是博弈论研究的重要内容。
博弈人以追求自己的最大收益为目标,因此收益作为均衡选择的依据是客观自然的;由
于多重纳什均衡解的存在,对方选择的具体策略是不确定的,这使得博弈人在一局博弈中追
求最大收益的同时会面临一定的风险。熵的概念最早起源于热力学,之后Shannon把熵推广到
了信息科学领域,表示为系统不确定性的度量,用被消除不确定性的多少来表示。由不确定性
把信息熵与风险联系在一起引起了众多学者的研究兴趣并取得了良好的效果,信息熵可以有
效的度量风险[1]。本文认为纳什均衡解的选择应从博弈参与者的博弈收益和博弈参与者的风
险两方面对博弈结果进行分析,根据博弈参与者的不同风险类型(风险偏好或厌恶),从多
个纳什均衡中选择一个最适合该参与者的均衡解,也即最适合该参与者的策略。基于这一思
想,本文提出了一种根据参与者的不同风险类型,综合考虑博弈收益和博弈风险的纳什均衡
选择方法,其中博弈风险的度量采用了信息熵方法。
2.相关理论
对本文涉及到博弈理论和信息熵的基本概念和原理作简单介绍,为后文给出的纳什均衡
选择方法做好铺垫。
博弈论
博弈论是研究理性的主体之间冲突及合作的理论,也就是关于包含相互依存情况中理性
行为的研究。由于局中人的相互依存性,博弈中一个理性的决策必定建立在预测其他局中人
的反应之上。一个局中人将自己置身于其他局中人的位置并为他着想从而预测其他局中人将
选择的行动,在此基础上该局中人决定自己最理想的行动,这是博弈论方法的本质和精髓。
博弈行为包括三个基本要素:局中人、策略集和支付函数。
局中人:在一个博弈行为中,有权决定自己行动方案的博弈参加者。每个局中人都应该
- 2 -
是理智的,或者说在选择策略时应选择对自己最有利的策略。
策略集:在一局博弈中,可供参与人选择的一个实际可行的完整的行为方案称为一个策
略。参加博弈的每一局中人都有自己的策略集。
支付函数:在每一局博弈中,各参与人所选定的策略形成的策略组称为一个局势,即若
is 是第 i个参与人的一个策略,则 n个参与人的策略组 ( )1 2, , ns s s s= L 就是一个局势。当
局势出现后,博弈的结果也就确定了,那么,对任一局势 s,局中人 i可以得到一个赢得 ( )iu s ,
显然 ( )iu s 是局势 s的函数,称为第 i个局中人的支付函数。
Nash 均衡策略是指这样的策略组合,为了极大化自己的赢利或效用,每个局中人所采
取的策略一定是关于其他局中人所取策略的最佳反应,因此没有一个局中人会轻率地偏离这
个策略组合而使自己蒙受损失[2]。
Nash 均衡的的定义:有n个局中人的战略式表述博弈 { }1 2 1 2, , , ; , , ,n nG S S S u u u= L L ,战
略组合 { }* * * * *1 2, , , , ,i ns s s s s= L L 是一个 Nash 均衡,如果对于每一个 i, *is 是给定其他局
中 人 选 择 { }* * * * * *1 2 1 1, , , , ,i i i ns s s s s s− − += L L 的 情 况 下 第 i 个 局 中 人 的 最 优 战 略 , 即
* * *( , ) ( , ), ,i i i i i i i iu s s u s s s S i− −≥ ∀ ∈ ∀ 。
如果纳什均衡 *s 中每个博弈人的策略 *is 为其对应策略集中的某个具体的策略,则称该
纳什均衡为纯纳什均衡或严格纳什均衡;如果纳什均衡 *s 中存在一个或多个博弈人的策略
*
is 为其对应策略集中所有策略的概率组合,则称该纳什均衡为混合纳什均衡。纯纳什均衡
可以看作是混合纳什均衡的特殊情况。
纳什均衡相关性定理:
纳什么均衡存在性定理(纳什,1950):每一个有限博弈至少存在一个纳什均衡。
纳什均衡具有多重性,即许多博弈问题有多个纳什均衡。Wilson 研究了均衡的计算方
法并提出了著名的奇数定理:
奇数定理(Wilson,1971):几乎每一个有限博弈问题具有奇数个纳什均衡。
信息熵
熵理论作为信息融合的基础理论,从信息论的观点解释了信息融合的过程实质上就是不
确定性减少的过程,可以为信息融合系统提供有力的理论依据。
对于某个离散型随机变量 X 具有 n 中可能结果 1 2, , nx x xL 的概率分别为
1 2, , np p pL ,且
1
0 1( 1,2, , ), 1
n
i i
i
p i n p
=
≤ ≤ = =∑L ,则该离散概率事件 X 的信息熵为[3]:
1
ln
n
i i
i
H k p p
=
= − ∑ (1)
其中, k是一个取决于度量单位的正常数,通常取值为 1,且定义0ln 0 0= 。
对于某个连续型随机变量 X ,其概率密度为 ( )f x ,则该连续概率事件 X 的信息熵为:
( )( ) lnH f x f x dx= − ⎡ ⎤⎣ ⎦∫ (2)
信息熵作为风险度量的方法受到越来越多人的重视,方差是统计学中最常用的描述随机
- 3 -
变量特性指标,下面从熵和方差的计算公式入手用简明方式来验证信息熵作为风险度量的一
种方法是合理的[4,5]。
当风险变量 ( )1 2, , nX x x x= L 为离散变量时,设 X 的分布律为 { }ip ,其中
( ) ( 1,2, )i ip PX x i n= = = L 。变量 X 对应的方差为:
[ ]{ }2 2 2 2
1 1
( ) ( ) ( ( )) 2 ( ) ( )
n n
i i i i i
i i
D X E X E x p x E X p x x E X E X
= =
⎡ ⎤= − = − = − +⎣ ⎦∑ ∑ (3)
其中, ( )E X 为随机变量 X 的均值。
变量 X 对应的熵为
( )
1
1
2 3
1
1
ln
( ln )
( 1) ( 1) ( 1)[ ( 1) ( 1) ( 1)]
2 3
n
i i
i
n
i i
i
nn
ni i i
i i n i
i
H X p p
p p
p p pp p R p
n
=
=
−
=
= −
= −
− − −= − − + − + − − −
∑
∑
∑ L
(4)
其中 ( )nR ⋅ 为拉格朗日余项。
比较式(3)和式(4)可以发现:
(1) 变量 X 的熵和方差的表达式都可以看作是一种距离表达式。因此具有类似度
量风险的作用。不同的是方差是表示 ix 到均值的一种平均距离,即方差是集
中在变量 X 的均值附近的度量;而熵是 ip 到均匀分布的一种平均距离,是对
系统整体的一种度量;
(2) 方差只可以刻画出风险变量 X 的二阶矩特性,而熵则可以表达风险变量 X 的
多阶矩特性
(3) 通常方差度量要求风险变量服从正态分布,而熵度量方法对风险变量的分布
没有要求。
(4) 方差是在已知统计数据序列下进行计算的,具有滞后性;而熵是对概率分布
的一种无偏估计,因此,是可以起到预测作用的。
通过熵与方差在度量风险的比较,可以看出信息熵能更好、更准确的描述出各种复杂
环境下的风险,且能适应各种复杂多变环境。
3.基于信息熵风险和收益的纳什均衡选择方法
博弈风险的信息熵度量
风险中的损失和收益变化均是随机变量,风险度量分析的方法应体现风险的不确定性、
风险的行为主体、风险的损失量及期望的收益等。在博弈研究中,我们利用标准差(或方差)
和信息熵共同衡量风险。博弈风险计算公式如下:
( ) ( ) ( )X XR X H Sθ θ= + (5)
其中, ( )R X 代表事件 X(选择策略 X)的风险, ( )XH θ 为风险事件在θ 状态(某一
混合均衡下)下的信息熵; ( )XS θ 表示风险事件 X 的标准差,其计算公式如下:
- 4 -
2 2
1
( ) ( ( ) ( ))
n
X i i
i
S p E X E Xθ
=
= −∑ (6)
其中, ip 为我方选择策略 X,对方选择策略 iX 时的概率, ( )iE X 代表我方选择策略 X,
对方选择策略 iX 时我方的收益, ( )E X 为我方选择策略 X 时的收益期望。
用熵和收益的标准差来共同衡量博弈风险,不仅考虑了博弈风险事件整体的不确定性引
起的风险,而且反映出了选择各个策略所要面临的风险。
基于风险和收益的纳什均衡选择
不同性格的博弈人对待风险的态度是不一样的,我们按照博弈人对待风险的态度把博弈
人分为两类:风险偏好型和收益偏好型。风险偏好型愿意冒险以获得更大的收益,收益偏好
型更注重稳定收益的获得,不愿意去冒险,更愿意稳定的获得相对高的收益。无论博弈人是
风险偏好还是收益偏好参与者,收益在任何时候都是一个效益性指标;而对于风险来说则不
然,风险对风险偏好型参与人为效益性指标,对收益偏好型参与人为成本性指标。
为了描述参与人的风险特征,我们引入两个变量λ 和α 。其中 [0,1]λ∈ ,
tan / | tan | (0,)
1 0,
1 1
λπ λπ λ
α λ
λ
− ∈⎧⎪= − =⎨⎪ =⎩
(7)
λ 为参与人的风险偏好程度,当 [0,]λ∈ 时, 1α = − 参与人为收益偏好型,此时风
险为成本性指标,某个策略风险越大,同等收益下,选择该策略的适合度越小;当 (,1]λ∈
时, 1α = 参与人为风险偏好型,此时风险为效益性指标,某个策略风险越大,同等收益下,
选择该策略的适合度越大。
在上述定义的基础上,假设选择某个策略 X 的风险为 ( )R X ,选择策略 X 时的期望收
益为 ( ) ( )G X E X= ,则对于一个风险偏好程度为λ 的博弈人来说,选择策略 X 的适合度评
价 ( )V X :
( ) ( ) (1 ) ( )
( ( ) ( )) (1 ) ( )
V X R X G X
Hx Sx E X
αλ λ
αλ θ θ λ
= + −
= + + − (8)
由于λ 的值的大小是由我们主观确定的,有时并不能准确的反映适合度评价中风险和收
益的权重,需要对主观确定的权重进行调整;同时为了比较和衡量选择不同策略时风险和收
益的差别,我们对选择不同策略时的风险和收益进行归一化处理。设归一化后的风险和收益
为 ( )R X′ 、 ( )G X′ ,调整后的权重分别为 1 2,w w ,则调整后的选择策略 X 的适合度评价
( )V X′ :
1 2( ) ( ) ( )V X w R X w G Xα′ ′ ′= + (9)
此时得到的 ( )V X′ 为选择某个策略适合度的比较准确的度量。如果一个博弈存在多重
纳什均衡解,博弈人面临多个可选的策略,此时博弈人应选择使 ( )V X′ 最大的策略。
适合度评价中权重调整系数的确定
权系数ω的确定有多种方法,如均权法、离差权法、专家咨询法、最优权法、熵技术法
等。均权法赋予每个无量纲化指标同样的重要程度,离差权法以每一项指标的样本标准差作
- 5 -
为该项指标的权数,而最优权法则是在构造全部无量纲化指标的加权线性函数基础上, 按该
函数的样本方差最大为准则来确定权数。
与上述方法不同的是,熵技术(熵权法)不单纯是建立在概率的基础之上, 它以决策者预
先确立的偏好权系数为基础, 将决策者的主观判断与待评对象的固有信息有机结合起来, 实
现了主客观的统一。熵权法正适合策略适合度评价中收益和风险权重的确定。
对于有n个评价单位,j个评价指标的权重分配问题,利用熵权法修正权重的步骤为[6]:
(1)规范化决策阵
1
| |
, 1, 2, ; 1,2,
| |
ij
ij n
ij
i
Z
p i n j p
Z
=
= = =
∑
L L (10)
(2)求第 j 个指标输出的熵
1
ln , 1, 2, ,
n
j ij ij
i
E K P P j p
=
= − =∑ L ,其中 1(ln )K n −= (11)
(3)求偏差度 1 , 1, 2, ,j jd E j p= − = L ,从而可得各目标的客观权系数,即决策者
没有明显偏好时的权系数:
1
j
j p
j
j
d
d
ω
=
=
∑
(12)
(4)利用客观权系数 jω 修正决策者预先偏好的主观权系数 jτ ,得到较为准确的估计:
1
j j
j p
j j
j
τ ωω
τ ω
=
′ =
∑
(13)
4.算例分析
我们设计了一个具有两个严格纳什均衡解的博弈算例对本文给出的纳什均衡选择方法
进行验证,给出了策略选择过程和结果分析。
博弈算例
海萨尼、泽尔腾在《A general theory of equilibrium selection in games》中提出博弈问题
解的概念,即在多个纳什均衡中选择一个作为博弈问题的解,其中的关键是具有两个严格纳
什均衡的 2×2 博弈问题中的均衡选择问题。我们选用一个具有了两个严格纳什均衡的 2×2
博弈对本文提出的选择方法进行验证。考虑一个 2 个人参加的博弈问题,其收益矩阵如下:
表 1 博弈收益矩阵
Tab. 1 Payoff matrix of game
参与者 B
B1 B2
A1 (9,9) (8,10) 参与者 A
A2 (12,6) (3,4)
- 6 -
算例分析
上述博弈存在两个纯策略的 NASH 均衡解:((0,1),(1,0)),((1,0),(0,1))和一个混合策略均
衡解((2/3,1/3),(5/8,3/8))。对应参与者 A,有两个策略可以选择,分别为 A1,A2。
1 设参与者 A 的风险偏好 λ = ,则参与者 A 为收益偏好型,采用上述方法来衡量他
的策略选择方式。
(1) 计算相应风险和收益
选择策略 A1 时:
在混合纳什均衡中选择策略 A1 的风险可按照公式(5)求得为:,期望收益为
9*5/8+8*3/8=;同样的方法可求得在纯纳什均衡中选择策略 A1 的风险和收益分别
为:0,8。因此选择策略 A1 的总风险和收益为:,。
同理可求得选择策略 A2 的总风险和收益为:,。风险收益对照表如 2:
表 2 风险收益对照表
Tab. 2 Comparison of rewards and risk
风险 收益
A1
A2
(2)归一化风险和收益
归一化后的风险和收益对照表如表 3:
表 3 归一化风险和收益
Tab. 3 Standardize risk and rewards to 1
风险 收益
A1
A2
(3) 计算风险和收益的熵权,确定最终的权重
按照 节给出的最终权重设置方法,求得最终风险和收益的权重如下表:
表 4 风险和收益的权重
Tab. 4 Weight of risk and payoff
风险权重 w1 收益权重 w2
(4)计算选择策略 A1 和 A2 的适合度
根据公式(9)求得选择策略 A1 和 A2 的适合度评价
( 1) * * A′ = − + = −
( 2) * * A′ = − + = −
(5) 确定选择的策略
对于参与者 A 来说,因为他选择策略 A1 的适合度大于选择策略 A2 的适合度,因此,
参与者 A 应选择策略 A1。
2 当参与者 A 的风险偏好 λ = 时,则参与者 A 为风险偏好型。
- 7 -
采用和参与者 A 为收益偏好型时同样的分析方法和步骤,可以求得当参与者 A 为风险
偏好型时选择 A1 和 A2 的适合度评价: ( 1) , ( 2) A V A′ ′= = 。因为选择 A2
的适合度要大于选择 A1 的适合度,所以当参与者 A 为风险偏好型时,他应选择策略 A2。
在本博弈中,策略 A1 的期望收益不如策略 A2,但是选择 A1 的风险要小于选择 A2 的
风险,因此当参与者 A 为收益偏好型时,他追求的是稳定收益的获得,不喜欢冒险,选择
A1 是合理的;当参与者 A 为风险偏好型时,他喜欢冒险以获得更大的收益,选择策略 A2
是合理的。
5.总结
本文对博弈问题解,即在多个纳什均衡中选择一个作为博弈问题的解进行了研究,提出
了一种基于风险和收益的纳什均衡选择方法。在该方法中,我们采用信息熵和期望方差对博
弈风险进行了准确度量,同时引入了博弈人风险特征,综合考虑博弈风险和博弈收益两方面
对纳什均衡的选择进行了研究。通过具有两个严格纳什均衡的 2×2 博弈对该方法进行了验
证,结果表明该方法能根据博弈参与人的不同类型给出相应的合理的策略选择。虽然本文考
虑的是 2×2 博弈博弈问题,但按照海萨尼、泽尔腾的方法,完全可以把它推广到一般的具有
多个纳什均衡的多人博弈问题上去。
参考文献
[1] Maasoumi E, Racine J. Entropy and predictability of stock market returns [J]. Journal of Econometrics, 2002,
107(10):209-212
[2] 钟卫,徐友云,蔡跃明. 多用户 MIMO 系统中的一种基于博弈论的功率控制[J]. 电子与信息学报,2006,
28(8):1-2
[3] 胡方,黄建国,张群飞. 基于信息熵的水下航行器灰色评估方法研究[J]. 西北工业大学学报,2007,
25(4):1-2.
[4] 李英华,李兴斯,姜昱汐. 信息熵度量风险的探究[J]. 运筹与管理, 2007,16(5):1-6.
[5] 翁跃明.熵在风险型决策中的应用[J]. 决策参考.2006 ,11(5):36-37.
[6] 宋杰鲲,张在旭,张晓慧. 一种基于熵权多目标决策和人工神经网络的炼油企业级效评价方法[J]. 中国
石油大学学报, 2006,30(1):2-3.
Nash Equilibriums Selection Based on Information Entropy
Risk and Payoff
Zhu Xiaojian, Wu Di
Department of Computer Science, Dalian University of Technology, Dalian (116024)
Abstract
Nash equilibrium is the key conception of game theory and it’s the best decision-making result of
rational players. But the multiple Nash equilibriums still makes the players into uncertainty and it
constrains the application of game theory. In this thesis, we give a Nash equilibriums selection method
based on information entropy risk and rewards. This method takes both risk and rewards into account
according to the player’s risk characteristic and gives a selection. We give a 2×2 game example with
two strict Nash equilibriums to justify this method and the result proves the given method is
reasonable.
Keywords: Nash equilibrium; information entropy; risk characteristic; payoff
作者简介:朱晓建,男,1985 年生,大连理工大学计算机应用硕士研究生,主要研究方向
是人工智能。