1
2
第四章 决策中的收益、损失与效用
§ 决策问题的三要素
§ 决策准则
§ 先验期望准则
§ 损失函数
§ 常用损失函数
§ 效用函数
3
§ 决策问题的三要素
决策就是对一件事要作决定.它与推断的差别在于是
否涉及后果.统计学家在作推断时是按统计理论进行的,
很少考虑结论在使用后的损失.可决策者在使用推断结
果时必需与得失联系在一起,能带来利润的就会用,使他
遭受损失的就不会被采用,度量得失的尺度就是损失函
数.它是著名的统计学家(1902-1950)在40年
代引入的一个概念.从实际归纳出损失函数是决策的关
键.
贝叶斯决策:把损失函数加入贝叶斯推断就形成贝叶
斯决策论,损失函数被称为贝叶斯统计中的第四种信息.
一、决策的基本概念
4
例1 设甲乙二人进行一种游戏,甲手中有三张牌,分别标以
.乙手中也有三张牌, 分别标以 .游戏的规则是
双方各自独立地出牌,按下表计算甲的得分与乙的得分.
甲的得分矩阵(乙的失分矩阵)
3 -2 0
1 4 -3
-4 -1 2
这是一个典型的双人博弈(赌博)问题.不少实际问题可归结
为双人博弈问题.把上例中的乙方改为自然或社会,就形成人
与自然(或社会)的博弈问题.
5
例2 某农作物有两个品种:产量高但抗旱能力
弱的品种 和抗旱能力强但产量低的品种 .
在明年雨量不知的情况下,农民应选播哪个品
种可使每亩平均收益最大?这是人与自然界的
博弈.以明年600mm雨量为界来区分雨量充足
和雨量不充足 .写出收益矩阵(单位:元)
1000 200
-200 400
6
例3 一位投资者有一笔资金要投资.有以下几个投资供他选择
:
:购买股票,根据市场情况,可净赚5000元,但也可能亏损
10000元;
:存入银行,不管市场情况如何总可净赚1000元.
这位投资者在与金融市场博弈.未来的金融市场也有二种情
况:看涨 与看跌 .可写出投资者的收益矩阵
5000 1000
-10000 1000
投资者将依据此收益矩阵决定他的资金投向何方.
这种人与自然(或社会)的博弈问题称为决策问题.
7
二、决策问题的三要素
1. 状态集 ,其中每个元素 表示自然
界(或社会)可能出现的一种状态,所有可能状态的
全体组成状态集.(如例2中的两种状态:雨水充
足和雨水不充足)
2. 行动集 ,其中a表示人对自然界可能采取
的一个行动.
注意:一般行动集有两个以上的行动供选择.若
有两个行动无论对自然界的哪一个状态出现, 总
比 收益高,则 就没有存在的必要,可把它从行
动集中去掉,使留在行动集中的行动总有可取之处.
8
3.收益函数 。函数值 表示当自然界
处于状态 ,而人们选取行动 时所得到的收益大小。
收益函数的值可正可负,其正表示赢利,负表示
亏损,单位常用货币单位。收益函数的建立不是件容
易的事,要对所研究的问题有全面的了解才能建立起
来(P125例4)。收益矩阵
9
§ 决策准则
一、行动的容许性
二、决策准则
1.乐观准则
2.悲观准则
3.折中准则
10
一、行动的容许性
定义:在给定的决策问题中,A 中的行
动a1称为是容许的。假如在A 中不存在满
足
如下两个条件的行动a2,
1.对所有的θ∈Θ,有Q(θ,a2)≥Q(θ,a1)
2.至少有一个θ,可使上式不等式严格成立。
假如这样的a2存在的话,则称a1是非容
许的;假如二个行动a1和a2的收益函数在Θ上
处处相等,则称行动a1与a2是相等的。
11
两点说明:
1.一般情况下,行动集中只存在容许行动。
2.上面的讨论是对收益函数而言的,但我们
还可以对支付函数(或亏损函数、成本函
数)进行讨论,此时需要支付函数(或亏
损函数、成本函数)越少越好。
例5(P126)
12
13
二、决策准则
1.乐观准则
(1)定义:乐观准则也称“好中求好”决策准则,
或称“最大最大”决策准则。这种决策准则就是充
分
考虑可能出现的最大利益,在各最大利益中选取最
大者,将其对应的方案作为最优方案。这种决策准
则的客观基础就是所谓的天时、地利和人和,决策
者感到前途乐观,有信心取得每一决策方案的最佳
结果。
14
(2)乐观准则决策方法的一般步骤:
①确定各种可行方案;
②确定决策问题将面临的各种自然状态;
③将各种方案在各种自然状态下的收益值列于决策
矩阵表中(表4-1);
④求每一方案在各自状态下的最大收益值,将其填
写在决策矩阵表的最后一列;
⑤取 中的最大值 ,所对
应的方案为最佳决策方案。
15
自然状态
行动方案 θ1 θ2 … θn
a1
a2
…
am
决 策
“乐观准则”决策矩阵表表4-1
16
(3)“乐观准则”决策方法的应用
①假设某一决策问题的决策收益矩阵表如
下,按乐观准则选取最优方案。
θ1 θ2 θ3
决 策
a1
a2
a3
自然状态
行动方案
17
②假设某一决策问题的决策损失矩阵表如
下,按乐观准则选取最优方案。
5
5
7
6
6
11 8 8 5
9 10 7 11
6 12 10 9
7 6 12 10
θ1 θ2 θ3 θ4
决 策
a1
a2
a3
a4
自然状态
行动方案
18
2.悲观准则
(1)定义:悲观准则又称“小中取大”决策
准则或叫“坏中求好”决策准则。这种决
策准则的客观依据是决策的系统功能欠佳,
形势对决策者不利,所以,决策者没有理
由希望获得最理想的结果。面对这种情况,
决策者必须从每一方案的最坏处着想,从
每个方案的最坏结果中选择一个最佳值,
即在所有不利的收益中,选取一个收益最
大的方案作为最优决策方案。
19
(2)悲观准则决策方法的一般步骤:
若决策矩阵为收益矩阵,则先对每一行动选
出最小的收益,再在所有选出的最小收益中选
取最大值。此最大值对应的行动就是悲观准则
下的最优行动;
若决策矩阵为损失矩阵,则先对每一行动选
出最大的损失,再在所有选出的最大损失中选
取最小值。此最小值对应的行动就是悲观准则
下的最优行动;
20
(3)“悲观准则”决策方法的应用
①假设某一决策问题的决策收益矩阵表如
下,按悲观准则选取最优方案。
θ1 θ2 θ3
决 策
a1
a2
a3
自然状态
行动方案
21
②假设某一决策问题的决策损失矩阵表如
下,按悲观准则选取最优方案。
10
11
10
12
12
11 8 8 5
9 10 7 8
6 12 11 9
7 6 12 11
θ1 θ2 θ3 θ4
决 策
a1
a2
a3
a4
自然状态
行动方案
22
3.折中准则
(1)定义:折中准则又称α系数决策准则,是对
悲观准则和乐观准则进行折中的一种决策
准则.
α是一个依决策者认定情况乐观还是悲
观而定的系数,称为乐观系数.若认定情况
完全乐观,则α=1,若认定情况完全悲观,则
α=0;一般情况下,则0<α<1.
23
(2)折中准则的基本步骤
第一步:确定系数α的值;
第二步:对每一行动a计算:
其中 表示行动a的最大收益值,
表示行动a的最小收益值
第三步:取行动a0,使H(a0)达到最大,即
此种a0就是这种准则下的最优行动.
24
(3)折中准则决策方法应用案例
某工厂预备生产一种新型童车,根据市场需求分析和
估计,产品销路可分为三种状态:θ1-销路好;θ2-销路
一般;θ3-销路差.可供选择的行动方案也有三种:a1,大
批量生产;a2,中批量生产;a3,小批量生产.根据产量多
少和销售情况,工厂的盈利情况也有所不同,可能获利
也可能亏损,将此数值称为损益值.获利时称为收益值,
亏损时称为损失值,用负号表示.现调查得本月的损益
值见下表.试用α系数法作出决策.
25
新型童车损益值表
自然状态
行动方案
销路好
θ1
销路一般
θ2
销路差
θ3
大批量生产a1 30 23 -15
中批量生产a2 25 20 0
小批量生产a3 12 12 12
26
解:第一步,确定系数α的值α=
第二步,计算H(a)
H(a1)=[max(30,23,-15)]
+[min(30,23,-15)]=12(万元)
H(a2)=[max(25,20,0)]
+[min(25,20,0)]=15(万元)
H(a3)=[max(12,12,12)]
+[min(12,12,12)]=12(万元)
第三步,计算收益中的最大者
H(a0)=max(12,15,12)=15(万元)
所以最佳方案应为中批量生产,即为a2.
27
§ 先验期望准则
一、先验期望准则
(1)定义:对给定的决策问题,若在状态集Θ上有一个正常的先
验分布π(θ),则收益函数Q(θ,α)对π(θ)的期望与方差
分别称为先验期望收益和收益的先验方差。使先验平均收益达
到最大的行动a'
称为先验期望准则下的最优行动。若此种最优行动不止一个,
其中先验方差达到最小的行动称为二阶矩准则下的最优行动。
28
几点说明:
1.定义中的先验分布只能用正常先验分布,而
不能采用广义先验分布。
2.如果在比较先验期望收益的大小时,有两个
或两个以上的行动使先验期望收益达到最大,
这时才需要比较先验方差的大小做出决策。
3.使用合理的先验信息,按照先验期望准则和
二阶矩准则进行决策,所得结果更加可信。
29
(2)案例分析
状态
方案
较高θ1 一般θ2 较低θ3
a1 700 250 -200
a2 980 -500 -800
a3 400 90 -30
例1 某厂准备开发一种新产品,有三种方案供选择:
a1、a2和a3。预计一年后市场对该种产品的需求量
可分为较高、一般和较低。且预计一年后市场需求量
是高、中、低的主观概率为:π(θ1)=,π(θ2)=
,π(θ3)=,同时算得收益矩阵如下。试用先验
期望准则确定最佳行动方案。
30
先验期望准则和其他准则的关系
市场需求量 Θ1高 θ2中 θ3低
悲观准则下π1 0 0 1
乐观准则下π2 1 0 0
折中准则下π3 0
先验期望准则下π
31
例2 (P125例题)
例3 一卖花姑娘每天从花市按每棵5元购进,而按每
棵10元卖出,当天若卖不完则剩下的花只能当垃圾。
问该姑娘每天购进多少花?
出售量(棵/日) 频数(日) 频率
14 4
15 11
16 10
17 7
18 7
19 6
20 5
累计 50
32
二、两个性质
定理 在先验分布不变的情况下,收益函数
的线性变换不会改变先验期望准则下的最优
行动。
定理 设Θ1为状态集Θ的一个非空子集,假
如在Θ1上的收益函数Q(θ,a)都加上一个常数
c,而在Θ上的先验分布不变,则在先验期望
准则下的最优行动不变。
例4(P138例题)
33
§ 损失函数
1.损失函数的含义
这里的损失函数不是负的收益,也不是亏损。例
如,某商店一个月的经营收益为-1000元,即亏1000
元。这是对成本而言。我们不称为损失,而称其为
亏损。我们讲的损失是指“该赚而没有赚到的钱”
,例如该商店本可以赚2000元,但由于某种原因亏
了1000元,那我们说该商店损失了3000元。用这种
观点认识损失对提高决策意识是有好处的。
按上述观点从收益函数可以很容易获得损失函数。
34
例5 某公司购进某种货物可分大批、中批和小批三
种行动,记为 。未来市场需求量可分为高、中、
低三种状态,记为 。三个行动在不同市场的
利润如下:
这是一个收益矩阵,我们把它改写成损失矩阵如下:
由此可见,决策者在做决策时,要尽量避免大损失,
追求小损失甚至无损失.
35
2.损失函数
构成决策问题的三要素:
由收益函数容易获得损失函数
例6 某公司购进一批货物投放市场,若购进数量
低于市场需求量 ,每吨可赚15万元, 若购进数量 超
过市场需求量 ,超过部分每吨反而要亏35万元.由此
可写出收益函数
显然,当购进数量 等于市场需求量 时,收益达到最
大为15 .
则立即可得损失函数:
36
3.损失函数下的悲观准则
第一步,对每个行动 ,选出最大损失值,记为
第二步,在所有选出的最大损失中再选出最小者 ,
则 满足
则称 为悲观准则下的最优行动.这是一种保守策略.
不求零损失,但愿少损失.
37
例7 某公司购进某种货物可分大批、中批和小批三种
行动,记为 ,未来市场需求量可分为高、中、
低三种状态,记为 ,三个行动在不同市场的收
益矩阵和损失矩阵如下:
试比较在Q与L下的最优行动。
思考:为什么所选行动不一样?
38
例8 某股票投资者对金融市场上的两种资产进行
投资,其收益矩阵如Q,请帮助作出合适的决策(按悲
观准则).
用Q做决策(按悲观准则
),
结果为a2是最佳行动,显然该
决策不好。
用L做决策(按悲观准则
),
结果为a1。
说明这样一个道理:用损
失函数做决策要比用收益函
数做决策更合理(P143)。
39
4.损失函数下的先验期望准则
(1)定义:对给定的决策问题,若在状态集Θ上有一个正常的先
验分布π(θ),则损失函数L(θ,α)对π(θ)的期望与方差
分别称为先验期望损失和损失的先验方差。使先验期望损失达
到最小的行动a'
称为先验期望准则下的最优行动。若此种最优行动不止一个,
其中先验方差达到最小的行动称为二阶矩准则下的最优行动。
40
注意事项:
1.定义中的先验分布只能用正常先验分布,而
不能采用广义先验分布。
2.损失的先验方差有着特别的意义:
(1)可以作为挑选最优行动的标准(在平均先
验损失相等或者相差不大时).
(2)衡量风险的大小.
3.使用合理的先验信息,按照先验期望准则和
二阶矩准则进行决策,所得结果更加可信。
41
(2) 例题
例9 若有一决策问题如下,试用损失函数
下的先验期望准则选出最优行动.
例10 P146例题
42
§常用损失函数
(1)平方损失函数
这是在统计决策中用得最多的损失函数.
(2)线性损失函
数
(3)0-1损失函数
(4)多元二次损失函
数
43
(5)二行动线性决策问题的损失函数
定义:若某一决策问题只有两个行动a1,a2,而在每个行
动下的收益函数都是状态θ(连续或离散)的线性函数,即
则称此决策问题为二行动线性决策问题.
下列函数称为该决策问题对应的损失函数
44
例题11 甲乙两厂生产同一种产品,其质量相同,零
售价也相同,现两厂都在招聘推销员,但所付报酬不
同,甲厂每公斤给报酬元;乙厂每公斤给报酬3元,
还另给每天10元的津贴,应聘人如何选择?
收益函数:
损失函数:
Q Q(θ,a2)
0 θ0 θ
Q(θ,a1)
45
§效用函数
46
博弈论基本知识
一、太多的疑惑
1.为什么腐败现象这么猖獗?怎样惩治才有效?
2.为什么治理假冒伪劣现象如此困难?
3.为什么三个和尚没水吃?
4.为什么长街上的商店常挤在一块?
5.为什么各种考试舞弊屡禁不止?
6.老师怎样促使学生全面复习?
7.为什么老年人投保很困难?
8.为什么总统竞选人总是花很大气力推出自己的
纲领?
47
二、什么是博弈论?
1.海滩占位问题
设较长的海滩上比较均匀地散布着许多日光浴者。太阳
的照射使人们需要补充水分。假如有A与B两个小贩来到海
滩,以同样的价格,相同的质量向日光浴者提供同一品牌的
矿泉水(或啤酒)。问在直线上的海滩上他们如何设置自己
的摊位?
2.狩猎游戏:
两个猎人围住了一头鹿,他们各卡住鹿的可能逃跑的
两个关口中的一个。只要他们齐心协力,鹿就会成为他们的
猎物。如果此时周围跑过一群兔子,两位猎人中的任何一个
只要去抓兔子一定会获得成功,他会抓到一只兔子,但鹿却
从他把守的关口逃跑。现在他们必须同时作出决定:是猎鹿
还是抓兔子?
48
以上两例的共同特点:
(1)每个游戏常有两个以上的参与者,他们在游戏中都有
着自己的切身利益,今后我们称他们为局中人。
(2)每个局中人都有着自己的可行行动集供自己选择,这
种选择毫无疑问地会影响到其他局中人的切身利益。
(3)游戏中的各个局中人理性地采取或选择自己的策略行
为,使得在这种相互制约、相互影响的依存关系中,尽可
能地提高自己的利益所得。这正是游戏理论的关键所在。
博弈:一些个人、队组或其他组织,面对一定的环境条件,
在一定的规则下,同时或先后,一次或多次,从各自允许
的行为或策略中进行选择并加以实施,各自取得相应结果
的过程。
博弈论:英文为game theory,是系统研究各种博弈问题,
寻求博弈方合理的策略和合理选择策略时博弈的结果,并
分析结果的经济、效率意义的理论和方法。
49
三、博弈的分类
1.博弈的三要素:
(1)局中人;
(2)局中人的策略空间;
(3)每个局中人的盈利函数;
2.博弈论的基本概念:局中人、行动、信息、
战略、支付函数、结果、均衡
50
局中人:指的是博弈中选择行动以最大化自己效用的
决策主体。
行动:是局中人的决策变量。
信息:指局中人在博弈中的知识。
战略:是局中人选择行动的规则,它告诉局中人在什
么时候选择什么行动。
支付函数:是局中人从博弈中获得的效用水平,它是
所有局中人战略或行动的函数,是每个局中人真正
关心的东西。
结果:是博弈分析者感兴趣的要素组合。
均衡:是所有局中人的最优战略或行动的组合。
51
3.博弈的分类
从两个不同的角度进行划分:
(1)从信息(指对其他局中人的特征、战略空间及支付
函数的知识)的角度,分为完全信息博弈与不完全
信息博弈;
(2)从局中人行动的先后次序,分为静态博弈和动态博
弈。
按以上两种进行交叉组合共有4种情形:完全信
息静态博弈、完全信息动态博弈、不完全信息静态博
弈、不完全信息动态博弈。
52
静态博弈:是指博弈中,局中人同时选择行
动或虽非同时但后行动者并不知道先行动
者采取了什么具体行动。
动态博弈:指的是局中人的行动有先后顺序,
且后行动者能够观察到先行动者所选择的
行动。
53
博弈的分类及对应的均衡概念
行动顺序
信 息
静态 动态
完全信息
完全信息静态博弈;
纳什均衡;
纳什(1950,1951)
完全信息动态博弈;
子博弈精练纳什均衡
泽尔腾(1965)
不完全信息
不完全信息静态博弈;
贝叶斯纳什均衡;
海萨尼(1967-1968)
不完全信息动态博弈;
精练贝叶斯纳什均衡;
泽尔腾(1975)
Kreps和Wilson(1982)
Fudengberg和Tirole(1991)
54
四、博弈论的基本模型及应用
1.囚徒困境模型(prisoner’s dilemma)
应用:两个寡头企业选择产量的博弈、
公共产品的供给、军备竞赛、经济改革
2.智猪博弈模型(boxed pigs)
应用:股东监督经理、股票市场上的小户
跟大户、小企业模仿大企业等
3.性别战(battle of the sexes)
4.斗鸡博弈(chicken game)
~
55
1.囚徒困境模型(prisoner’s
dilemma)
两个嫌疑犯作案后被警察抓住,被分别关在不同
的房间里审讯。警察知道两人有罪,但缺乏足够的
证据定罪,除非两人当中至少有一人坦白。警察告
诉他们:如果两人都不承认,每人判刑一年;如果
两人都坦白,各判刑8年,如果两人中一人坦白一
人抵赖,坦白的无罪释放,抵赖的判刑15年。问两
个囚徒各自的最优策略是什么?
56
(1)结果的解释:(坦白,坦白)均衡但不有效
(抵赖,抵赖)有效但不均衡
(2)模型反映的深刻问题:个人理性与团体理性的矛盾。
(3)模型的应用:两个寡头企业选择产量的博弈、公共产
品的供给、军备竞赛、经济改革等。
囚犯B
坦白 抵赖
囚犯A
坦白
抵赖
-8,-8 0,-15
-15,0 -1,-1
57
2.智猪博弈模型(boxed
pigs)
大猪与小猪喂养在同一个猪圈中,猪圈的一头安装有一杠
杆,只要一踩杠杆,猪圈的另一头固有的食物槽里将会流出饲
料。踩杠杆需要花费能量,相当于消耗2份饲料,大小猪都不踩的
话,他们虽然不耗费热量但吃不到任何东西.设食物槽内一次流出
的饲料共有10份,如果小猪踩杠杆,等它跑到食物槽跟前时,将
发现不劳而获的大猪已经吃了8份饲料,小猪只能分享2份饲料;
而若大猪踩杠杆后再跑到食物槽跟前时,则大猪吃6份,小猪吃4
份;两猪同时踩杠杆再到食物槽,则大猪吃7份饲料,小猪吃3份
饲料。大猪、小猪各自的最优策略是什么?均衡解是什么?
58
(1)结果及解释:(大猪踩,小猪不踩),均衡且有效。
(2)模型反映的深刻问题:多劳不多得,少劳不少得.
(3)模型的应用:股东监督经理、股票市场上的小户
跟大户、小企业模仿大企业等。
最成功的应用案例是石油输出国组织(OPEC)的分
配方案。
小猪
踩 不踩
大猪
踩
不踩
5,1 4,4
9,-1 0,0
59
五、推广
1.可推广到每个局中人有两个以上纯策略的情形。分析方法与前
面完全类似。
2.纯策略Nash均衡可推广到混合策略Nash均衡。
例 两人零和博弈(猜谜)
游戏规则:两人要么出示一个指头,要么出示二个指头,
如果两人各出示的指头数相同,乙给甲1元,否则,甲给乙1
元。支付矩阵如下:
局中人乙
1 2
局中人甲
1
2
1,-1 -1,1
-1,1 1,-1
60
显然,该博弈在纯策略的范围内不存在均衡解。
但可推广到混合策略,寻找混合策略均衡解。例如,
局中人由于输赢的刺激,会乐意猜谜多次。每次操作
中,局中人(甲)对于两个纯策略(伸一个指头,伸
二个指头)各赋予一定的概率p1与p2其中p1与p2均非
负,且p1+p2=1,因此,向量p=(p1,p2)即甲的混合
策略,相应地乙的混合策略设为q=(q1,q2)。问对于
甲而言,他最理想的混合策略是什么?(即最理想的
p值是多少?)
61
P的确定原则:对于局中人1,如果混合策略(p,1-p)
比较合适,那么从输赢的角度来看,无论局中人2采取什么
策略,至少不能让他(局中人2)赢钱。即:
若局中人2出示一个指头,其期望盈利为
E2=-p+(1-p)=1-2p ≥ 0 (1)
若局中人2出示二个指头,其期望盈利为
E2=P-(1-P) ≥0 (2)
(1)与(2)必须同时成立,当且仅当p=1/2。即局中人1的理
想混合策略是(1/2,1/2)。类似地,即局中人2的理想混
合策 略也是(1/2,1/2)。故甲乙二人理想的混合策略组
合为: ( (1/2,1/2), (1/2,1/2))
~