(决策管理)统计与决策
统计在线学习课件讲义
《统计与决策》
主讲人:袁卫
制作单位:北京市统计局
2007年 5月
第一部分绪论
同志们,同学们,大家好!下面我们一起学习统计与决
策。这一部分共分 3个单元,第一单元介绍统计的应用,我
把它称为绪论;第二单元介绍描述统计,就是搜集数据、整
理数据的一些基本知识;第三单元介绍如何应用统计方法来
帮助我们进行管理,进行决策。
首先,我们看一下什么是统计。我们每一个人在做每一
项工作时都会有自己对统计的认识,比如,我们经常在报刊
上看到类似这样的消息:“思科公司(Cisco)在纳期达克
周一收盘时的市值为 5550亿美元”,这条信息就是一个统计
分析的结果,就是经济管理统计的一项工作。再比如,“50
家最大公司 CEO的年均收入是 930万美元”,这是 2000年福
布斯报道的一个消息,这又是一个统计,里边含有一个概
念,即:什么是“平均收入”,它反映了什么样的问题,能
够带给读者什么样的信息?再看第三个,“股票平均能够使
75%的投资者盈利”,这样的一条信息又意味着什么?我们在
国内的报刊上也经常看到这样一些信息,比如:股票的一个
百分比。对于每一位投资者,当你进行投资选择的时候,这
个百分比会有什么样的作用呢?
统计,简单地说就是搜集数据、整理数据、分析数据的
一些简单方法。如果用更简单的方法给它下个定义,统计就
是处理数据的一门科学。更简单地说,统计学就是数据的科
学。由于现在任何一项工作在信息时代都有很多数据,我们
在日常的工作和生活中都离不开数据,因而,统计离我们的
生活很近很近。
下面我就分别介绍统计在经济管理中的一些主要应用,
这里叫做统计在商务中的应用。
首先我举一个财务会计方面的例子。会计师事务所在对
某公司进行审计的时候,并不是要对它的每一笔流水都进行
核实,因为通常一个规模较大的公司,一年的经济往来会有
几万、甚至几十万笔,如果对每一笔业务都做逐项核对,会
花费大量的时间、精力、人力、物力。他们所做的工作是选
择一个抽样的方式,从有效的应收帐款账目中抽取一小部分
进行核实。但是,根据对这一小部分账目核实的结果,他们
就能对这个公司整体的经济运行状况做出一个结论,即:这
个公司在财务方面是否合法,是否遵守规章制度,是否有财
经方面的问题。因此,从大量的数据中抽出一部分作为样
本,并且通过对样本的分析和计算,就能够推断出总体,正
是统计的科学性所在。
其次,看一下统计在营销方面的应用。举一个在零售付
款柜台上的例子。现在,中国无论是大型超市、百货商场,
还是小型零售商店,在收款时都用扫描仪对条型码进行扫
描。在扫描的同时,商品的所有信息就进入到计算机。在很
多大公司,特别是在国外,人们通常使用信用卡或银行借记
卡支付,在刷卡的同时,一些个人信息也就进入了数据库。
这些消费者的个人信息和购买商品的信息,无论是对生产
商、制造商还是对零售商,都非常有用。例如,作为国际知
名的数据供应商,和
InformationResources,Inc.的主要工作就是花钱从零售商
店或超市购买刚才提到的顾客购买商品时扫描的基础信息,
进行加工后,再卖给制造商或者零售商。一份关于啤酒这种
商品的数据,大概可以卖到 30多万美元。由此可见,数据
经过整理,就可以变成一种产品,一种商品,制造商和零售
商购买后,就可以为他们的生产和服务做决策。例如,大型
超市在掌握了这个信息后,就能合理地安排超市的进货,甚
至货架的摆放。众所周知,沃尔玛作为世界知名的大型零售
商,对自己客户的信息做了大量分析,由专门的分析人员运
用数据挖掘技术,对所有客户信息进行分析,如:客户中有
多少客户购买什么样的商品,在什么时间购买,在购买某一
种商品的同时是否还购买其他商品等。所有这些信息,对像
沃尔玛这样的零售商非常有用。通过对大量数据进行分析,
我们会发现经常买啤酒的顾客会买一些熟食作为下酒食品,
假定通过分析发现这两种商品具有非常紧密的联系,零售商
沃尔玛就会考虑两种设计:一种设计是将啤酒专柜与熟食专
柜放得非常近,好处是当顾客往购物车上装入一箱啤酒后,
可以到不远的地方很方便地购买一些熟食;另一种设计是将
这两种商品放得远一点,中间摆放一些商品货架,顾客在买
完啤酒再去购买熟食时,会路过这些货架,在四处观看的过
程中,也许会发现他原本没有准备购买的东西,这样就增加
了顾客购买商品的机会。所以,现在很多大公司都对这样一
些信息非常重视,会考虑什么样的客户会在什么时间购买什
么样的商品,购买某种商品的客户群是什么等,并利用这样
一些信息来做最好的安排,满足客户的需要。这样的研究,
对提高管理水平非常有效。最近,我也在网上看到中国的一
些商品信息。目前,中国的数据分析公司已经对彩电、洗衣
机、冰箱等家用电器的数据做了整理和分析,包括各个品牌
的市场需求情况等,制造商和零售商可付费购买。上述这些
对统计的应用,在营销管理方面有着非常好的前景。
第三,在金融领域,金融部门也通过利用统计信息来指
导他们的客户,包括他们自己进行投资。例如,如果把个股
信息和股票市场的均值进行比较,可以分析个股的价格是否
被高估。如果在 Barron报告中,道琼斯 30种股票的平均市
盈率是 ,而其中一支股票 PhilipMorris的市盈率是
9,假定这个信息的数据是准确的,投资者就会通过把这 2
个数据进行比较来做投资决策,因为按照一般的常识,购买
市盈率低的股票,投资回报的周期就会比较短。所以,如果
有适当的统计知识,会应用这些统计知识。所有公布的信息
对于消费者、投资者和我们的客户都会有价值,它可以帮助
我们选择,帮助我们做更好的投资。
在现在的保险领域里,就更离不开统计。在保险业里有
一种特殊的职业——精算师。这一职业就是专门利用概率和
统计知识分析风险、计算风险、尽量回避或减少在投资和保
险业中的风险。这里是 2006年我国保费的一些情况。首
先,我们来看寿险和健康险。保险可以分成寿险和非寿险两
类。在寿险里,精算师所做的统计分析有什么用呢?在寿险
中,所有健康险、医疗险和意外险,最重要的工作是怎样设
计保单、怎样设计保费。计算保费的根据是什么?在寿险
中,最基本的根据是生命表。生命表,简单地说就是不同性
别的人,在 0岁到 100岁之间每一个年龄的死亡率。通过这
个死亡率,就可以计算每个年龄不同性别人群的风险,进而
计算合理的保费。假如一个 30岁的男性和一个 60岁的男性
都想购买一年 30万保额的保险,大家想一想,两个人支付
的保费是不是应该一样?一定是不一样的。那么谁应该多付
一些保费呢?是 30岁的人还是 60岁的人?显然应该是 60
岁的人。为什么呢?就是因为 60岁的死亡率比 30岁的死亡
率要高一些,换而言之,就是 60岁比 30岁的风险要大一
些。既然风险大,他就应该多支付保险,因为他想得到同样
的保险补偿。因此,要想科学地制定人寿保险的保单和保
费,最基本的就是要有一个好的生命表。简单地回顾一下我
们国家的人寿保险。众所周知,我国在解放以后的 50年代
有保险业务,但到了大跃进时期,似乎一切事务都要由国家
承担风险,所以,中国人民保险公司在大跃进后就停滞下
来。直到文革结束以后,我国实施了改革开放政策,随着社
会主义市场经济的建立,人们逐渐认识到,我们的国家、社
会、企业、家庭,包括我们个人,实际上无时无刻不面临着
风险。国家有国家的风险,个人有个人的风险,家庭有家庭
的风险,国家不可能把所有的风险全部承担下来。因此,到
了 1982年,我国的保险业开始恢复。恢复人寿保险的第一
件事情就是制定保费,但由于保险业已经停滞了 20年,我
国实际上已没有自己的生命表。为了计算保费,我们借用了
台湾地区和其他国家的生命表。我国是一个拥有十几亿人口
的大国,国土面积达 960万平方公里,南北东西城乡差异很
大,而台湾作为我国的一个地区,用他的生命表来计算大陆
寿险的保费,显然是不尽合理的。随着保险事业的开展,我
们不断积累了很多数据,到 90年代初,就开始着手进行生
命表的编制。大概在 1993—1994年,我国第一张生命表编
制完成,并且在 90年代开始使用。又经过大概 10年的时
间,我国对这张生命表进行了完善,而且编制了第二张生命
表。在第二张生命表即将编制完成、准备使用时,社会上有
一些人制造舆论,说“新的生命表已经编出来了,如果使用
新的生命表,保险产品要涨价”,因而在那里煽动,“如果要
购买保险,现在买是合适的,因为一旦要实行新的生命表,
保费要涨了”。这里,用我们的知识判断一下,如果其他条
件不变,购买同样保额的保险,用 10年后的生命表取代 10
年前的生命表进行计算,我们的保费应该是升还是降?显
然,应该降。因为,随着社会经济的发展,随着医疗条件的
改善,每个年龄组的死亡率都在不断下降,人均的预期寿命
在不断上升,在这样的条件下,我们的保费不是应该升,而
是应该降。这也说明,如果有一些概率、统计、保险方面的
知识,我们就不会被那些蛊惑人心的言论所左右。事后,也
有一些专家出来澄清这一事实,希望大家不要抢购,而应该
根据自己的计划来购买保险。
在财产保险中,我们重点看一下航空意外保险。大家在
坐飞机前通常要做一件事就是购买一份航空意外保险。过去
曾经是 20元钱保 20万,现在是 20元钱保 40万。利用我们
的知识可以做一点基本分析:如果暂时不考虑保险公司的利
润和管理费用,保险的保费价格应该和什么有关系?应该与
航空的风险有关,风险越高,你所支付的保费就应该越多。
请大家计算一下,现在用 20元钱购买 40万的保额,这就意
味着航空意外的风险应该是多少?二万分之一。中国民航的
实际风险是多少?这个数据大家可能不太在意。我国在计算
民航实际风险时,是以 10年间所有的航班作为一个统计周
期,即:10年间我国共有多少万次航班,航空意外事故有
几次。目前,我国民航的平均风险是二百万分之一。刚才已
经计算过,我国航空意外保险保费设计的风险是二万分之
一,而实际风险是二百万分之一,如果不考虑保险公司的利
润和管理费用,那么保险公司在航空意外险上的利润就是
100倍。正是因为航空意外险有如此大的利润空间,在过去
的几年里,我国航空意外险的保险市场非常混乱,出现了一
些不规范、不合法的保险公司和中介公司,甚至卖出一些假
保单。因为我国民航的风险非常低,所以,他们一旦把保单
卖出去,就可以净赚 20元钱。为此,我国保监会、保监局
等部门整顿了航空保险市场。从技术层面讲,一般国外的保
险公司,其利润仅占所有保险产品的 10%-20%,据此分析,
我国的航空意外险应该降价,如果保额仍为 40万元,保费
不应该超过 1元钱,这个比例比较合理,也能够保证保险公
司正常的利润空间。这就是我们利用概率统计进行分析的结
果。
生产管理是概率统计方法应用得最为经典,也最为成功
的领域。在生产过程中被广泛应用的 SPC管理
(StatisticalProcessControl),简称为统计过程控制,是
在上个世纪 30年代,由美国的贝尔电话实验室首先创建
的。它是利用统计方法制作控制图,运用统计分析技术对生
产过程进行实时监控,它的贡献是对整个工业企业的生产效
率和产品质量的提高起了极大作用,是一个非常伟大的应
用。此外,还有大家同样熟悉的 6西格玛管理,从上个世纪
80年代后期到今天,一直在国际上的一些大公司,包括
GC、摩托罗拉等世界级大公司广泛使用,并且取得了成
功。6西格玛管理运用了概率统计中关于正态分布标准差的
理论,这是一种非常成功的管理模式,已成为现在国际化大
公司进行管理的一种重要工具。第三个重要应用是实验设
计,它的作用是在生产之前,用统计方法进行实验设计,从
而保障企业在生产过程中可以尽量少生产、甚至不生产不合
格产品。以上三个例子,都是利用统计进行生产管理的典型
案例。作为经济的宏观管理部门,包括政府管理部门,我们
会应用到对经济的预测和分析,也会应用到经济计量模型,
这里会涉及到一些统计的指标和概念,如:通货膨胀率、物
价指数和失业率等。作为一个好的管理者,我们应该熟悉一
些在生活和管理中用得最多的一些统计指标,了解其内涵、
应用范围等。如果想更深入地做一些研究,我们还会利用到
回归分析和统计模型进行预测。这种建立在比较准确的数据
分析基础上的分析和预测,能使管理者的工作效率更高,工
作做得更好。
统计不仅在生产和管理中被广泛应用,而且在生活中也
有许多应用,比如:体育。首先,我们来看篮球比赛。由于
姚明加入了美国 NBA,所以在 NBA中我们的影响很大,NBA
还专门建立了一个中文网站,网址为。该网站中有两个关于
统计数据的网页,分别是“数据”和“排名”。2007年 NBA
的常规赛刚刚结束,目前正在进行季后赛。在“数据”页面
中,我们可以看到季后赛的得分情况,这就是 NBA球员的技
术统计,它是按照球员平均每场的投篮命中率和得分情况进
行排序的。目前排在第一位的是洛杉矶湖人队的科比布莱恩
特,他平均每场得分为 分。排在第二位的球员平均每
场得分为 32分。中国非常优秀的球员姚明,在 NBA季后赛
中排在第 8位,平均每场得分为 分。在球员的技术统
计数据中,还包括平均每场出场时间,投球数,命中数。姚
明平均每场投篮 个,平均命中 个,命中率是
44%,罚球的命中率是 88%。这些观众和球迷都能看到的数
据,对球队管理者更为有用。NBA每一支球队的教练员和教
练组,都会利用这些数据安排技战术,球队的老板和管理人
员用更为具体的数据安排球员的奖金,甚至是出场费。在国
外,体育比赛的数据搜集得非常详细。众所周知,美国哥伦
比亚大学经济系非常知名,去年诺贝尔奖金获得者就是哥大
经济系的教授,另外,该系的蒙黛尔教授、斯第格里西教授
等也都曾获得过诺贝尔经济学奖。有一位马丁教授,除了在
哥大经济系做教授外,还兼任西班牙巴塞罗那足球队体育技
术委员会的主席,其工作就是进行统计数据的收集和分析。
该委员会把巴塞罗那队的每一场比赛进行录像,把每一名队
员的每一个动作作为数据输入到计算机里,用来做分析、做
管理。严格地说,他所做的工作是记录队员在球场比赛的每
一个动作,包括成功、失误、助攻、射门的次数等,这些情
况全部与队员的奖金挂钩,这就是一位经济学教授在巴塞罗
那足球队所做的管理性的工作。通过上述案例可以看出,对
数据的搜集、整理和分析,不仅在管理和工作中非常有效,
而且在生活中、在体育比赛中,甚至在娱乐中都被经常用
到。著名科学家爱因斯坦曾经说过,“数学定律不能百分之
百确实地用在现实生活中间;能够百分之百确实地用数学定
律描述的,就不是现实生活。”意思是说,我们的现实生活
是纷纭复杂的,不能简单地用数学公式进行描述,如果需要
做补充,统计的方法、概率的方法恰恰是能够从比较纷纭复
杂的现实生活中发现规律的一种方法和一种有效工具。它能
够从杂乱无章、无规律可循的数据中间发现事务的内部规
律,换而言之,统计方法就是要发现事务内部的、规律性的
数量关系和数量变化。
请看下面一组统计数据。第一,在正常情况下新生婴儿
的男女性别比率是 106:100,其含义是,在大量的新生儿
中,男孩和女孩的比例是 106:100。现实生活中,新生婴
儿并非是男孩和女孩一样多,而是平均每 100个女孩就会有
106个男孩,即:新生婴儿中男孩比女孩要多,平均每 206
个新生婴儿中,男孩就比女孩多 6个。那么,人类是如何保
持男女性别的平衡、保证人类的遗传、社会的和谐发展呢?
是什么原因使人类具有这样一个基本规律呢?为什么在新生
婴儿中是男孩比女孩多一些呢?因为男性比女性的死亡率
高,不仅在新生婴儿时期,在所有的年龄组中,男性的死亡
率都比女性要高。因而,在新生婴儿中男孩比女孩多一点,
恰恰可以保证人类社会能够和谐地、可持续地发展。虽然新
生婴儿男孩略多一些,但是由于男性在每一个年龄组的死亡
率都比女性要高一点,在中青年结婚生育的时候,男性与女
性的人数就基本相等了,从而保证了在生育时期人口性别的
平衡。随着人们进入中年、进入老年,由于男性的死亡率仍
然比女性高,就导致了真正长寿的女性要比男性多一些。由
于处在婴幼儿时期的男性比女性多一点,中青年时男女大体
持平,年老时期的男性比女性要少,从人口的总规模来看,
男女的人口总量又保持了另外的一个平衡,这就是人类社会
几十万年、几百万年甚至更长时间遗传变异的结果,就形成
了一个规律。在我国尚未实行计划生育政策时,多数家庭都
有 4—5个孩子,也许有些家庭都是女孩,而有些家庭都是
男孩。如果到一些居委会去做统计,也许某一个居委会的女
孩多、而另一个居委会的男孩多,可一旦我们进行大量数据
的搜集整理,新生婴儿的男女性别比一定符合这个规律:
106:100。这个规律在古今中外、每一个国家、每一个大洲
都基本相同。这是我们对大量数据进行分析发现的规律。早
在 17世纪,英国伦敦的统计学者就发现了这个规律,这也
应该作为统计学发展的源头之一。
第二个数据来自于生活中常做的一种游戏:当随机地投
掷一枚硬币时,出现正、反面的规律都应该是 50%。这也是
经过大量实验得出的规律。同样,如果我们随机地投掷一个
骰子,其六面中每一面出现的可能性都是六分之一。这些规
律,对于现代人来说毋庸质疑,但在 200—300年前,一些
数学家和学者为研究这一规律进行了大量的投掷,最多可达
2万多次。在这个过程中,他们发现,投掷的次数越多,硬
币正、反两面出现的比率就越接近 50%。
第三,美国越战时期通过“抓阄”征兵时出现的两个数
据:73/183和 110/183。越南战争在 60年代初期刚爆发
时,美国的年轻人非常踊跃地报名参军,但几年后,随着越
南战争被拖入一个没有尽头的泥潭,美国社会出现了反战情
绪。虽然战争还没有结束,但美国的年轻人已不再愿意去当
兵。美国政府迫于无奈,由国会通过了一个征兵法案。因为
美国的立国之本就是平等,该法案为了保证每一个年轻人拥
有平等的当兵机会,采取了类似“抓阄”的方式,其做法与
我国现在的体育彩票、福利彩票相似,即:把一年中的每一
天和闰年的 2月 29日分别写在纸条上,把这 366个纸条分
别装在蓝色小球中,再放到一个大的透明的玻璃罐中,像体
育彩票和福利彩票摇奖一样进行摇号。这项法案获得美国国
会通过后,1969年在美国现场直播。当把 366个生日小球
放入一个透明的大玻璃罐中搅拌均匀后,小球一个接一个地
掉下来,并被按照掉下来的顺序排队。如果某一个生日第一
个掉下来,在征兵时,这一天出生的人就要第一批去当兵。
显然,生日摇得越靠前,被征兵的机会就越大,如果某一个
生日被排在一年的一半以后,那么这一天出生的人去当兵的
机会就比较小,因为美国不会把他所有的年轻人都派去当
兵。实际上,如果某一个生日被排到了 183以后,即一年的
一半以后,这一天出生的人就基本上不会去当兵。当时征兵
的范围是 18至 29岁的男性青年,只要身体健康,都要按照
摇号的顺序去当兵。为什么?因为这是公平的、这是随机
的、这是合理的。电视直播后,统计学家立即对这个数据进
行了分析,正如幻灯片上所讲,摇出的结果是,在前 183个
生日中,有 73个是上半年、有 110个是下半年,而并非为
各 50%左右。因为国会在通过该法案的时候,就是要保证公
平,保证每一个生日被抽中的机会是相等的,但实际上,上
半年出生的人征兵的机会是 73/183,而下半年出生的人去
当兵的机会是 110/183。显然,下半年出生的人去当兵的机
会要大一些。统计学家对这个数据进行了假设检验,结果是
这两个数据之间有显著的差异。因此,统计学家立刻对国会
提出质疑:这一次征兵过程中的摇号不随机,对下半年出生
的人不公平,他们去当兵的机会远远大于上半年出生的人,
似乎对下半年出生的人存在着歧视。国会为检验这个数据也
请了学者,证明统计学家是正确的。国会于是承认,“这一
次的设计还不够科学,366个小球放到一个大玻璃罐中应该
完全摇匀,但实际上还不够均匀,导致了在掉下来的前 183
个小球中,下半年的生日多一些。明年我们会做得再好一
些,今年就这样了。”从这个例子中可以看出,统计在我们
的日常生活和工作中,都可以被广泛地应用。
第四个是上个世纪 50年代初期小儿麻痹症疫苗试验的
数据。一般情况下,新药和新疫苗在研究过程中,都要经过
三个严格的试验阶段。例子中的这组数据是在试验的最后一
个阶段,服用疫苗和没有服用疫苗的孩子各有 20万,服用
疫苗的孩子中有 56人得了小儿麻痹症,而没有服用疫苗的
孩子中有 138个孩子患病。根据对这一数据进行统计计算和
分析后,研究人员就可以得出这种疫苗是否有效的结论。目
前,所有新药都要经过这样严格的数据检验,包括中国正在
着力开发的非典疫苗、艾滋病疫苗等,都在做这样的检验。
最后是一个关于广告费用、企业知名度和销售额的一组
数据。如果能够搜集到充分的数据,我们就可以描述出某一
个公司、某一个企业通过做广告,为提高企业知名度和销售
额所带来的变化。通过发现他们之间的数量关系,就可以制
定科学的广告策略。
从上述例子中可以看出,统计的方法,或者说是数据分
析的方法,是在各个领域里进行科学研究的一个基本工具,
既包括经济、管理、医疗、物理、天文等领域,也包括人文
社会科学的一些领域,如法律、历史等。在现在的法庭审判
中,越来越多地依赖于数据分析,数据分析作为法庭审判中
的证据,有非常好的应用。因而,作为一种数据分析的方
法,统计不仅渗透在几乎所有的学科领域里,而且在日常生
活的每一个角落,都可以找到很好的数据分析、统计分析的
应用。
统计的方法可以分成两大类,一类是描述统计,一类是
推断统计。在推断统计中,又可以分为参数估计和假设检
验。实际上,幻灯片中的框图已非常简单地勾画出完整的统
计体系。
首先看描述统计。在幻灯片的右边是一个柱形图,我们
可以直观地看到数据变化的过程。每个柱形下面分别标有
Q1、Q2、Q3、Q4,这是英文和数字的缩写,大家很容易就可
以猜到这可能是反映一个公司、一个企业甚至一个行业季度
销售额或利润的变化,这里的 Q代表季度。假定这反映的是
销售额的变化,我们从直观的柱形图中可以看到,这种商品
或服务具有在前三个季度逐渐上升、在第四季度下降的规律
或趋势。我们会很快联想到饮料、游泳衣或某地区旅游业等
情况,因为这些商品或服务都具有这样的规律。因此,凡是
看到这样的柱形图,如果我们有统计的知识,就可以很容易
地联想到这背后反映的是一类什么样的事务,这就是描述统
计。简单地说,描述统计就是怎样有效地搜集数据、整理数
据、显示数据,并且发现数据基本的、数量的特征。在此图
下边有两个数据,一个是平均数,用表示;一个是方差,用
表示。这两个数据是统计的核心数据,分别表明数据的平均
水平和数据之间的一个平均的差异水平,有了这两个数据—
—平均值和方差(也叫标准差),我们就可以比较清楚地把
握数据的规律。
其次是推断统计。推断统计的思路和原理就是幻灯片中
右边的这张图,其目的是了解一个总体的数量特征,并对总
体的数量特征做出科学的估计或推断。通常情况下,这个总
体非常大,有时是没有数量界限的一个无穷的总体,要对它
的特点做出估计或了解,就很难对总体里每一个单位都进行
调查。我们能够做的是从总体中抽出一个样本,通常是一个
很小的样本,通过对样本的分析或数据描述,就可以推断出
总体的特征。例如,美国在总统大选期间都要做民意测验。
美国总统大选的总体就是美国的全体选民,是 18岁以上的
美国成年人。目前,美国的总人口已经超过 3亿,选民在 2
亿左右。如果通过对每一个选民都进行调查的方式进行总统
大选预测,显然是不可能的,因为即使到了美国大选投票的
那一天,一般也只会有 60%—70%的选民去投票,而几千万
甚至更多的选民不会去投票。因此,美国一些大的新闻机构
和调查公司就采取随机抽样的方式,从 2亿的选民总体中抽
取一个样本进行调查。如果想研究全部 2亿人,并做出一个
科学的推断,估计的误差不超过 2—3个百分点,即:误差
不超过 2%或 3%,那么,样本量应该是多少呢?盖洛普——
美国一个非常有名的调查机构,只调查 1000—1500人,
即:从 2亿的一个人口总体中,只调查其中的 1000—1500
人,显然,与总体相比,这个样本是很小的。那么准确性如
何呢?盖洛普从 1936年起至今,已有近 70年的实践,在每
四年一次的总统大选中,其平均误差在 2%左右,历史上只
有一次做了错误的推断和预测,其他都对了。其他一些大的
新闻机构,如:美国的 CNN、CBS、ABC等,其调查的样本量
都是 1000—1500。这个例子告诉我们,只要方法科学,就
可以做到抽取一个很小的样本,而得到非常精确的结果,这
就是统计方法的科学性所在。目前,在我们的许多调查中经
常出现一个问题:调查的样本量很大,可方法并不科学,有
时调查了几千甚至上万人,但得到的结果却与真实的情况相
差很多。因此,我们不能仅追求调查的数量,而应追求调查
的质量,要掌握这一技术,统计方法非常之重要。
我们谈到了,在统计的方法体系里,主要是描述统计和
推断统计两部分。幻灯片中有一个框图,最左边是我们研究
事务的开始,是反映客观现象数据的开始,换而言之,统计
分析和统计研究必须要有数据,我们本身也应该做到科学地
搜集数据和整理数据。一旦有数据,我们就可以进行分析。
这里有两条路线,如果我们得到的是总体的数据,经过描述
统计,我们就能达到目的,即:认识总体内在数量的规律
性。但 90%以上的情况是,我们很难得到总体的数据,而通
常得到的是样本的数据,因此,我们先要经过描述统计,同
时再经过推断统计,在这个过程中,还要用到概率的一些知
识。
作为统计知识的基础,我们特别强调两对基本概念,一
对概念就是刚才举例中提到的总体和样本。总体就是我们研
究事务的全部,英语叫做 Population,也有人口的意思;
跟它对应的一个概念就叫做样本,是从总体中随机抽出来的
一部分。我们通常只研究样本,然后对总体进行推断。
第二对概念是参数和统计量。参数是描述总体数量特征
的,最关键的 3个数据是总体的平均数、总体的标准差、总
体的百分比,分别用 3个希腊字母表述为:μ、σ、ρ;另
外一个概念是描述样本数量特征的,称为统计量,最重要的
3个数据为样本的平均数、样本的标准差、样本的比率或百
分比。
我们可以把这两对基本概念用幻灯片中的图例表述出
来,左边是总体,描述总体的是参数;右边是总体的一部
分,可能是很小的一部分,我们称之为样本,描述样本的是
统计量,这里有三对主要的量,就是均值、标准差和比率。
实际上,我们在学习统计的时候,在掌握统计方法的时候,
最最核心的就是应该理解均值、标准差和百分比。这是我们
做分析计算用得最多的量。
既然要处理数据,自然离不开统计软件,在这里介绍 5
种:排在前边 SAS、SPSS、MINITAB和 STATISTICA都是专业
的统计分析软件,用于较高或较深层次的统计研究;对于一
般的应用者,我们只需要熟悉 EXCEL软件即可,因为它是一
个非常简单的数据列表和分析软件。
第一部分绪论就到这里。通过绪论,希望大家能够了
解,统计作为一个数据分析的方法和基本工具,对我们的科
学研究,对我们的生产、管理和日常生活有着广泛的应用。
在我们生活和工作的所有方面都离不开数据,有了数据就有
了统计,应用统计来分析数据,就可以帮助我们提高管理,
使我们的生活更加丰富多彩。
第二部分描述统计
下面我们简单的给大家介绍描述统计部分的内容。描述
统计就是指怎样有效地收集数据,并通过图表形式对所收集
数据进行初步的加工整理和显示,进而分析得出结论。我们
有不同地获得数据的方法,这里主要介绍两种:第一是普查,
这是获得数据的一种主要方法,普查就是为某一个调查目的
组织的全面调查,一般只做一次或者是周期性的做一次,需
要动用很大的国情国力,通常只是对国家或地区的最基本
的、涉及到国计民生的、极其重要的数据才实施普查的方
式。就我国而言,通过普查获得数据的调查方法主要有两
类:一是人口普查,目的是了解我国的基本国情,每隔十年
做一次。2000年国家实施了第五次人口普查,2010年将进
行第六次人口普查。搞一次人口普查需要做很长时间的准
备,需要动用和培训大量的普查员,所获得的数据也是相当
大的信息量,普查是一次对整个国情国力的动员,国家要有
很大的投入,所以不是经常进行的。二是经济普查,除人口
普查外,我国还有第三产业普查、工业普查、基本单位调查
等等。04年经国务院批准,把几个普查综合成一个,就是
经济普查。第一次经济普查从 03年开始准备,到 04年底将
普查结果向社会公布。大家可能关注到一个数据,即普查后
的 GDP比普查前增加了 万亿元人民币,总量增长了
%。原因是原来的第三产业统计还有很多不完善的地
方,如一些服务业企业没有纳入统计范围,造成数据缺失。
所以增加的 万亿元中约有 90%以上来自于第三产业。因
此,通过经济普查也进一步完善了调查制度和数据收集方
法。总之,普查是一种重要的收集数据的方法,但由于它要
动用大量的人力、物力、财力,调查的周期也很长,因而只
有关系到国计民生的一些最基本的信息才采取普查的方式。
而在实际工作中,我们用的更多的是另外一种调查方式―抽
样调查。所谓抽样调查,是指按照随机原则从调查总体中抽
取一部分单位作为样本进行调查,只要样本抽取的有代表
性,就可以通过很小的样本对总体,也就是我们所要研究的
全部事物,做出一个科学的推断。那么,什么叫随机原则?
简单地说就是总体中的每个单位都有同样被抽中的机会。只
要能做到这点,调查就有代表性。即使样本很小,都可以做
得相当准确。抽样调查如果做好了,应该是一种高效率的调
查方式,它在科学研究和日常管理中用得最多,具有经济实
效性强、准确程度高的特点。
前面介绍了普查和抽样调查两种主要调查方式,那么每
种调查方式都涉及到一个采用什么方法获取数据的问题。我
们可以有各种各样的收集数据的方法,譬如访问方式,就是
通过调查者和被访问者面对面的交谈获得数据,在早期调查
中用的比较多,现在主要应用于一些深层次问题的调查,不
再作为一种普遍性的调查方式被调查业所实施,取而代之的
是邮寄问卷调查。即设计一个调查问卷,然后通过邮寄的方
式送到被调查者手中,由他们来填写。这种调查方式在一些
发达国家持续了 50年左右,即从上个世纪的 30年代到 80
年代。邮寄问卷调查目前在我国仍是一种主要的调查方式。
之所以在国外不大被采用,主要由于以下原因:第一,回收
率越来越低,通常情况下不超过 20%,甚至低于 10%;第
二,回答的数据和没有回答的数据之间具有显著差异,因此
仅仅根据回答的数据做推断,不具有代表性。例如:1995
年美国 ABC广播公司曾经在一个晚间节目中做调查,问美国
的电视观众:“联合国总部应不应该继续留在纽约?”调查
对象是电视观众,完全是自愿回答,电话反馈,回答结果是
2/3的电视观众认为联合国不应该继续留在美国,即联合国
可以搬到别的地方去。因此可以得到这样的结论:“美国多
数人不欢迎联合国留在美国”。而在同一年,某调查公司就
此问题做随机调查,结果刚好相反,大约 70%的美国人认为
联合国留在美国理所当然,只有不到 30%的人反对。大家注
意,这两个调查结果完全相反,哪一个更准确呢?显然是随
机调查更准,原因在于大多数美国人认为这个问题用不着讨
论,美国在全世界经济最强大、最富有,而且是世界老大,
联合国不设在美国难道还应该在别的地方吗?所以这部分人
在收看电视后根本就不作回答,认为这个问题根本就不值得
回答,而愿意回答的人往往是带有比较强的情绪,即联合国
设在美国,美国要付比较高的联合国会费。这个案例告诉我
们当采取自愿回答的调查方式时,在搜集数据、分析数据的
时候要特别小心,由于邮寄问卷调查采取自愿回答的方式,
故有比较强的局限性,目前在国外已经被电话调查所取代。
第三就是电话调查方式。由于现在已经进入到了高度的信息
社会,电话的普及率相当高,特别是在城市,因而电话调查
已经取代邮寄问卷调查,成为获得数据最主要的方法。电话
调查比较简洁,效率较高,成本较低,但是在我国的实施过
程中碰到了很多困难,主要是我们的调查业立法、规章制度
不健全。很多各种各样的调查公司并没有经过批准,即相当
多的调查是不合法的,因而扰乱了调查市场。我们经常接到
手机、固定电话的调查,超过 90%的人接到电话后还没有听
清楚要调查什么,就立刻拒绝了,所以电话调查在我国的实
施过程中有很大困难,但是专门的调查公司有专门的技术来
解决这些问题。总之,电话调查是目前调查业获得信息的非
常重要的方法。网络调查也是一种获得数据的方式,我们随
便打开一些网页,在首页上经常可以看到各种各样的调查,
但是我们要注意,这种调查有很强的局限性。被调查总体实
际上是经常上网、且愿意在网上回答问题的人群,他们并不
代表大多数,甚至不能代表所有网民,因此在使用调查结果
时一定要特别注意。我们也经常看到很多调查公司用网络调
查来发布调查信息,譬如说青年知识分子中 70-80%的人都
过劳,甚至知识分子的过劳死、平均寿命比普通老百姓要低
等等,实际上我们稍作分析,就会对这样的网络调查结果非
常慎重,因为公布的数据不是全部总体的代表性数值,而仅
仅是愿意回答的数据。例如:最近新浪网做了一个调查:
“你在工作中是不是经常加班加点?”他得出的信息是 80%
的人都加班加点。大家想一想,一般人对这样的问题可能不
屑一顾,只有那些对加班加点有意见或者对这个问题有比较
强烈反映的人才愿意回答。所以回答的结果说现在的劳动者
中间有 80%的人都加班,甚至都极度疲劳,不一定有代表
性,所以我们要特别注意这样的一个问题,即样本对总体有
没有代表性。另外,座谈会也是获得数据的一个重要方式,
特别是一些专业调查公司做某些深度访问的时候应用较多。
这种方法有专门的设计,通常以 6-10人为宜。还有个别的
深度访问,如对那些特殊问题、敏感问题,不宜于以座谈会
形式获取信息的,可以此做为一种特殊的获得数据的方式,
但是这种方式也有一定的局限性,它主要应用于定性分析,
而比较难做定量推断。这里我们还特别要介绍另外一种获得
数据的方法—观察法,这个方法和前面所讲的不同之处在于
调查者和被调查者不直接接触,调查者站在一个客观中立的
立场上对所要进行调查的事物或一些调查对象进行客观的记
录和描述。我个人认为这种方法在获得数据的方式中应该有
更广泛的用途。
那么,什么是观察法的应用呢?以交通流量统计为例,
现在很多大城市,特别是北京,市政府和管理部门正在下大
的力气解决交通拥堵问题,在一些重要的十字路口或道路上
做一些改善,比如增加公共交通、开辟公共专用路线等,其
中路口的管理还有很大的余地,这就可以利用到统计观察
法。例如,长安街的某一个路口,东西向和南北向红绿灯间
隔时间的长短,是不是一旦设定了就不能更改?比如主干道
绿灯一分半钟,非主干道车流量少一点,绿灯的能行时间就
可以控制在 40-45秒钟。是不是在一定的时间段里,东西
向的车流量较大,而另外一个时间段里南北向的车流量又更
多一些?要想做到以人为本的管理设计,就需要掌握一个路
口一天 24小时、一周不同的时间段(比如平时和周末)的
交通流量变化,就需要用观察的方法来搜集路口车流量通过
的数据。掌握了比较科学准确的数据,就可以做非常好的管
理。我举一个国外交通管理的例子,美国纽约是一个岛,在
曼哈顿地区有很多大公司,白天会有几百万的人从长岛、新
泽西涌入曼哈顿,而在晚上又要返回他们在郊区的住所。曼
哈顿岛跟两边的联系主要靠几个铁桥和隧道,它的管理非常
人性化。铁桥是 30年代建的,上下两层,每层有 8个车
道,上层是进城,下层是出城,它根据每天车流量的大小来
控制道路通行的方向,早上可能有 12条车道都是进城,因
为上午进城的人多;下午 4-5点出城的人开始增多,可能
会有 13条车道出城。靠什么来管理?就靠红绿灯,非常人
性化。我们经常看到它的道路按照流量的大小来分配路权。
因此,利用观察法掌握不同时间、不同方向车流量的数据对
于进行科学、高效地管理非常重要。我在日本访问的时候,
就发现日本地铁的效率非常高,它保证所有的乘客在任何一
个车站的等候时间不超过 3-4分钟,怎么能够做到这点
呢?原因在于它对流量的数据掌握得非常细致。经常看到一
些大学生或志愿者拿着记数器,在地铁上、下入口统计人流
量,再按照这个流量的分布来安排地铁车量,人流量最密的
时候每隔 2分钟就有一辆地铁通过,平时的 6节车厢也会加
到 10节,在最短的时间内将乘客送走。这就是观察法的应
用。另外,还有观察实验法,是通过做一些特殊的实验获取
数据,在自然科学中应用较多。刚才谈到的调查方法都是直
接获得数据的方式。在现代社会还有更多地获得数据的渠
道,我们把通过网络、出版物等得到的数据称为间接的数据
来源。现在网络非常方便,在国家统计局、北京市统计局和
各个地方统计部门的网站都可以获得当地政府的公开数据,
也可以通过这些网站链接到世界各国的政府、大的国际组
织、甚至大的公司的网站获得数据。
有了数据,下面就简单给大家介绍一下,怎么样对这些
数据做一些简单的整理和描述。例如:这里有某车间 50名
工人日加工零件的 50个数据(见 PPT例 2∙1),原始数据很
零乱,看不出任何规律。最基本、最简单的整理是对这 50
个数据进行分组,我们看到所有数据的最小值为 105件,最
大值为 140件,把所有加工零件分成 7个组,每 5件作为一
组的组距,形成组距数列(见 PPT表 2-1);中间这一列就
是在每一组里有多少个工人,称为频数,即次数。所有的频
数之和为 50,即指一共有 50个工人;最右的一列,是计算
每组工人的百分比,即 6%,10%等。频数经过分组后对我们
了解数据有什么作用呢?为了观察更直观,我们可以把频数
做成直方图(见 PPT图 2-1)。直方图是分析数据、发现数
据规律非常有效的方式。在横轴上按
105、110、115、120、125、130、135、140等距离的进行
标记,然后把每一个组里的次数或是频数的多少作为纵轴或
者说 Y轴的标记,就得到一个直方图。根据直方图就可以进
一步对数据做出分析或判断:这 50个工人加工零件数类似
于一个对称的分布,即两头小中间大的分布。换句话说,就
是 50个工人中加工零件数在 120-125这个区间的人数是最
多的,这就是加工零件最适中、最中间的数值;而加工最多
的、效率很高的 130-140这一组的人数并不多;加工数量
比较少的 105-110件的人数也比较少,两头小中间大,这
就称作对称分布,统计专业术语称之为类似于正态分布。如
果一个数列是这样分布的,我们就可以做出进一步的判断,
即 50个工人平均加工件数在 120-125这个区间。如果不是
对称分布,我们就很难做出这样的判断,这就是直方图的作
用。如果我们把直方图的每一个柱形的上端中点相连接,就
变成折线图(PPT图 2-2),同时我假定直方图下面的面积之
和为 1,我的问题是:直方图下边的面积和折线图下边的面
积是不是相等?答案是相等。因为我们连接的是两个柱形的
中点,在折线图外边的那个三角形和里边的三角形的面积刚
好是一样。利用这个性质,在以后学习概率论时,就可以用
曲线以下面积的一部分计算每一个区间发生的概率。这里,
还要给大家介绍一种利用计算机画出来的图—箱线图(见
PPT图 2-3),它是由一个盒子和两条线段组成的图。作箱线
图最重要的是找出一组数据的五个代表性的数值,这个图就
画出来了。这五个数值就是一组数据的最大值、最小值、中
间值和两个四分位数。中间值就是统计中的中位数,即把数
据从大到小排列,形成一个数列,如果是单数项就是中间的
那个数;如果是偶数项就是中间两个数值的平均数。两个四
分位数是指中间值和最大值之间的中间值(上四分位数),
以及中间值和最小值之间的中间值(下四分位数)。中间值
和两个四分位值把数据的个数四等分。有了这五个数值,就
很容易将一组数据的分布特征和特点用箱线图表现出来。大
家可以看到,这就是前面举例中的 50个工人加工零件的箱
线图(见 PPT图 2-4),最大 139件,最小 107件,中间值
123件,在 123-139之间的中间值是 128,即上四分位
数。107-123之间的中位数称为下四分位数,是 ,
-123之间所包含的数据是 50个数据中的 1/4,即
12-13个数据,107-之间有 1/4的数据。箱线图的
两条线段和盒子的两半分别表示四个区间,50个数据落在
每一个区间里的个数是相等的。熟练的人一看这个图,就应
该反映出背后的分布是正态分布,还是偏态分布?我们也请
大家来考虑一下不同的箱线图背后的分布态势是什么样?算
是一个思考题。那么,箱线图有什么用呢?我们学习的目的
是为了理解、分析图形背后的含义。举个例子:从某大学经
济管理专业二年级学生中随机抽取 11人,分别记录下每一
名同学 8门主要课程的考试成绩,就形成了演示文稿中的列
联表或者数据表(见 PPT例 2∙2,表 2-2)。我们给 11个同学
每人一个编号,同时列出每个同学 8门课程的考试成绩,然
后利用箱线图对这 11个同学及 8门课程做一个分析。首
先,用 Statistica软件对 8门课程绘出箱线图(见 PPT图
2-5),横轴列出每门课程的名称;纵轴列出考试成绩,从
45分到 100分。大家看到这 8个箱线图的形状是不一样
的,每一个箱线图的最高位置就表示这门课程的最高分,最
下沿就表示这门课程的最低分。箱线图上边、下边的两条线
段和箱线图中间的盒子的两个部分分别代表了四个区域,每
一区域里大概有三个学生的成绩(如果正好是 12个同学的
话,就表示每一个区间里有 3个同学的成绩)。现在请大家
考虑,这 8门课程,哪门课程对同学们来说最容易?即同学
们考试的分数都比较高;哪门课程相对最难?有人说,西方
经济学和英语最容易。好,我们对这两门课程做一个比较。
英语的最高分比西方经济学高,而且是所有 8门课程里最高
的,英语的最低分也是 8门课程最低分里最高的,英语的平
均分数,即盒子中间的中位数的成绩也是 8门课程中最高
的。在盒子的上沿,四分位数也是 8个盒子上沿最高的,唯
一一点是英语盒子的下沿比西方经济学略低一点点。所以,
从总体上看,英语是最容易的。如果计算平均分,英语的平
均分一定是最高的。那么,哪门课程相对比较难呢?一个是
统计学,另一个是经济数学。比较一下,从所有成绩的最低
分来看,经济数学是最低的,但是经济数学的最高分也是所
有成绩里面相当高的(仅次于英语),再看它们盒子中间类
似于平均成绩的中位数,会发现统计学的中位数成绩偏低,
所以,由此得出统计学更难一点。另外,我们在判断一门课
程出题好与不好,按照教育统计或者说考试学的要求,这门
课程的成绩一定要服从正态分布。我们看基础会计就明显不
是正态分布,其中比较接近正态分布的是经济数学和财务。
但是这个例题数据量还是少了一些,只有 11个。大家还可
以进一步分析这 8门课程箱线图的其它特点。我们可以用同
样的软件对 11个同学 8门课程的成绩做出 11个箱线图(见
PPT图 2-6),它们的形状差别就很大了,有的比较短,也有
的很长。按照现在的高考标准,总分最高就能上好一些的学
校,请大家考虑,几号同学最有可能上好学校?答案是 2号
同学。因为他的箱线图位置很高,而且最高分和最低分的距
离很短,说明他不偏科,各科成绩都很好,而且分数比较集
中。再看 3号同学,最高分和最低分都是他,他的箱线图距
离很长,这样的同学可能在某一科目上表现出优势,而其它
学科成绩就比较低。高考按总分录取,3号同学就不大容易
考上很好的学校,但是他很可能在某一学科上有潜质,我们
的教育应该给 3号同学提供更多的发展空间。
关于对数据进行整理,还可以再看一些例子。这里搜集
整理了我国 1995-2005年城镇居民和农村居民人均收入的
数据(见 PPT例 2∙3,表 2-3,摘自国家统计局的统计年鉴)。
如果仅是把数据列在这儿,不太容易看出它们的发展变化规
律。现在,我们用 EXCEL画图功能把这些数据表现出来,就
会看到变化。黄色代表农村居民家庭的人均收入,粉色代表
城镇居民家庭的人均收入。我们看到 1995-2005年 11年
间,城乡居民的收入差距越来越大,它有一点像张开的剪刀
的口子。由此可以更直观地看到我们国家过去十几年间城乡
居民家庭收入差距的变化,尽管农村居民家庭收入也在增
加,但是和城镇居民家庭收入的增长速度比较,还是太慢
了。所以,可据此判断城乡之间的差距不是减少了,而是扩
大了。
再看另外一组数据,1978年-2005年我国城乡居民的
恩格尔系数(见 PPT表 2-4)。什么是恩格尔系数?就是一
个家庭中用于吃的支出占总支出的百分比。我们看到,1978
年改革开放之初,农村居民家庭的恩格尔系数是 %,即
收入的 2/3还多一点都用来吃了,城乡居民家庭的恩格尔系
数是 %,接近 60%。到 2005年,恩格尔系数都下降了
20%以上,农村居民家庭由 %降到了 45%,城镇降到了
%,这反映出随着收入的增加、生活水平的提高,消费
结构发生了变化。经济越发达,恩格尔系数就越低,发达国
家的恩格尔系数在 10%左右,吃已经不是整个支出的主要部
分了。我们国家还处在发展中国家阶段,恩格尔系数还会不
断地、持续地下降。如果我们把上面的两列数据用折线图来
描述,就可以看到从改革开放之初的 1978年到 2005年,前
后大概都相差 20个百分点,但是中间的变化,特别是农村
居民家庭,在 80年代中期的时候,恩格尔系数降低的速度
特别快,有一段时间城市和农村的恩格尔系数已经非常接近
了,但后来差距又扩大了,这描述了我国自 80年代改革开
放以来的一段历史。改革是从农村开始的,在 80年代初期
和中期,农民的受益是比较明显的,但是到了 80年代末特
别是 90年代初期,改革的重点推向了城市,城市受益更
多,而农民得到的改革的益处相对少了。
我们还可以用统计数据画很多很多图,时间的关系,只
列出来了两、三个,让大家理解,统计图如果做得好的话,
是非常有效的。
下面谈谈统计表。
统计表是表现统计资料的最有效的形式,也是政府工
作、管理工作最基本的工具。好的统计表应该是简单、直
观、一目了然,可在短时间内给人以明确的概念。但是我们
生活中经常看到的报纸、杂志上的很多统计表都很不规范,
所以,我们介绍一下统计表最基本的要素,强调政府机关、
工作部门都应该作规范的统计表。一张规范的统计表首先要
有表头,表头一般应包括表号、表的标题和表中数据的单位
等内容。表号如 2-14,表明是第二章或第二部门的第 14
个表;标题内容应表明统计数据的时间(When)、地点
(Where)及数据内容(What),即满足 3W的要求;如果表
中的数据是同一个计量单位,可在表的右上角标明,若不
同,可单列出一列标明。再看这张表,是 1997-1998年城
镇居民家庭抽样调查资料(见 PPT表 2-5,摘自 1999年中国
统计摘要),时间有了,地点是我国城镇居民家庭,内容是
家庭抽样调查资料。第二,表中要有横(行标题)的或竖
(列标题)的标题。上表中的列标题是时间、项目等,行标
题包括调查户数、每户人口数等,后边蓝色的部分是表的主
要数据内容。第三,表的下方要加上注释,称为附加,标明
资料来源,或者是自己调查的,或者是引自年鉴、报刊,方
便读者查阅使用。我们还要特别强调编制统计表时应注意的
几点规则:一是统计表的左右两边不封口,通常只是上下两
条粗横线,中间的其它线要用细线,而且横、竖线越少越
好;二是统计表中左上角的单元格不能有斜线,真正规范的
统计表中从不出现斜线,大家可以从联合国或世界各国的年
鉴、网上看一看统计部门做出的规范的统计表。三是表中的
数据一定要对齐,一般是右对齐;没有数字的表格,一般用
“-”表示,一张填好的统计表不应该出现空白单元格。总
之,统计表的设计应符合科学、实用、简练、美观的要求。
下面我举几个不太规范的、错误的例子,让大家进一步
明确如何正确的使用统计表。首先,请大家看图左边的这部
分(见 PPT第二章 31页)。这是一个柱形图,想反映某高校
大学四个年级考试成绩得 A的人数,大一、大二、大三、大
四的英文缩写分别为 FR、SO、JR、SR。柱形图给我们的感
觉好像是大一得 A的人最多,大二得 A的人最少,如果要相
信这个数据,可能得到这样的结论,即这个学校里大一的同
学素质比较高,大二相对来说弱一点。左边是用绝对数来做
的图,即用人数的多少。但有时用绝对数来表示可能会产生
误导,如果我们把四个年级得 A的人数除以全部学生数,就
得到了右边的图,各年级得 A的百分比,都是 25%,结论是
四个年级学生之间的成绩没有什么差异。如果用绝对数(左
边的图)就有可能得到有差异的信息。所以,比较上述两种
分析,应该选择用相对数做分析。
第二个例子是一个季节销售额的数据(见 PPT第二章
32页)。横轴是一季度、二季度、三季度、四季度;纵轴是
以 100为一个单位,可能是万元,也可能是 10万元。左图
给我们的感觉是四个季度的销售额差别不大;同样的数据用
右图表示,也是四个季度的销售额,给我们的直观感觉是差
别比较大,即一至三季度销售额不断地增长,四季度下降。
左右两图的差别在哪儿?仅仅在于纵轴的单位标准。左图是
用 100作为一个单位,右图是用 25作为一个单位。如果再
用 10作为一个单位,大家设想会是什么样的结果?差距一
定会更明显。因而,我们在做图的时候,应该选择适当的标
准和适当的单位,否则就有可能会掩盖数据的差距,甚至是
夸大数据的差距。显然,以此题为例,如果要夸大数据的差
距,就把单位设的很小;如果要掩示数据的差距,就可以把
单位选得很大。而我们的目的是要把数据之间的差距客观公
正地表述出来,因此单位的选择非常重要。
再看一个例子,是 12个月份的销售额资料(见 PPT第
二章 33页)。图中是 12个月的销售额,分别用英文标识在
下面。左图给我们的感觉是月份的销售额之间变化非常之剧
烈,先增加,然后又降下来,六、七月份时非常低,年底又
非常高。请大家看这个图有一个明显的错误,就是纵轴没有
从 0开始,这是我们画图时最忌讳的,纵轴一定要从 0开
始,因为那是比较的原点,对照的基准点。如果从 0开始把
同样的数据做分析,就可以得到右边的图。尽管 12个月份
之间有一些差距,但是差距也不过是在 6-7个单位之间,
和整体来比,变化并不显著。以上的几个例子告诉我们,用
统计图或统计表直观地反映数据变化的规律非常重要,但是
如果我们操作时不慎重就有可能会得到一些错误的结论。因
而,在此引用美国著名统计学家 Mosteller的话:“要用统
计骗人是很容易的”。以上所举案例中的统计图有的是骗人
的,如果我们没有统计知识,就很容易上当受骗。所以,不
管是作为管理者,还是政策执行者,我们都应该掌握统计知
识,用好统计这个工具。
第三部分统计决策
第二部分讲的是描述统计,我们非常简单地给大家介绍
了一些获得数据的方法,及对数据进行简单整理的方法,并
利用图和表把它们表示出来。第二部分还应包括计算数据的
主要的统计量,如均值和标准差等,由于时间关系没能展开
介绍。描述统计中搜集、整理数据和分析样本数据的目的在
于为决策提供依据,帮助我们进行决策。第三部分我们将讨
论统计决策的问题。
先看一个实例,这是某石油公司的决策。石油勘探是一
个高风险、高回报的行业,统计决策的方法在此类行业中都
有比较宽、比较广的用处。该石油公司掌握了一份石油开采
合同,公司有三种策略可以选择,第一,可以将合同卖掉;
第二,合同先不卖,观察一段时间,比如说一年以后再考虑
把它卖掉;第三,现在就可以进行采掘。
我们看三种策略的结果。
第一,现在把合同卖出去,它的市场价格为 125万元。
第二,把合同留下来,一年以后再出售。这就要看一年
以后的油价是升还是降,如果油价升,估计合同能卖到 440
万;如果油价降,这个合同显然就卖不到现在的 125万,估
计只能卖 110万。同时还可以对一年以后油价升还是降做出
一个判断:油价升和降的概率分别为 10%和 90%,认为油价
升的概率小一点,油价降的可能性大一点。这个例子和现实
情况刚好相反,如果今天做未来一年的判断,相信多数人会
判断一年以后油价升的可能性大,油价降的可能性相对比较
小,因为上一年国际市场原油的价格波动剧烈,一桶原油的
最高价格接近 80美元,最低降到 60美元左右,现在大体维
持在这个水平。
第三,现在采掘。钻井的费用是 200万元,打下去可能
发生的情况在讲稿 PPT3-2中列出:首先,可能没有油,公
司搜集了自己几十年钻井的历史数据,如果历史很短,也可
以搜集别的石油公司的数据,比如说,一个石油公司可能打
了几千口井,大概有一半是没有油的,即打下去无油的可能
性是 50%,这个概率称为先验概率,通常是历史的数据;其
次,开采有油的可能性又是多少呢?是 40%,即打出一口一
般的油井,也就是比较正常情况下开采一口油井的回报率;
另外还有 10%的可能性是打出一口高产油井。注意这里概率
为 50%、40%、10%的前提是这个石油公司有历史数据。如果
没有历史数据,可以搜集其他石油公司或已经公布的一些数
据,这是因为在做决策判断时要把风险加以考虑。显然如果
打的是一口没油的井,报偿值即收益为 0;如果打出一口一
般的油井,按市场价值计算其未来的收益是 400万元;如果
打出一口高产的自喷井是最好的,将有 1500万元的收益。
这就是摆在我们面前的一个实际的统计决策的例子,我
们应该怎么办?现在把合同卖掉?一年以后卖?或现在采
掘?决策时首先应考虑哪个策略对我们来说收益比较大,还
要考虑其他的问题。这是我们一会要进一步讨论的问题,在
此之前,给大家介绍一下决策的三要素。
我们换一个比较简单的例子。来看讲稿 PPT3-3的表
格,某木器厂对是否生产一种新型组合家具做出决策。影响
这个决策的不确定性因素有两个:即本市居民购买这种家具
的户数和全市居民户数。根据过去类似的销售资料,判断购
买这种新型组合家具的百分比有四种可能,这就是自然状
态,是决策的第一个要素。自然状态就是客观的面临决策的
变化情况,即城市中居民购买的百分比,叫做购买力,分别
为 1%,2%,3%和 4%。换句话说,最乐观的情况可能有 4%的
家庭购买这种组合家具;最悲观的、最不好的情况只有
1%;中间还有 2%和 3%。决策的第二个要素是采取的策略,
在这个例子中,我们只有两种选择,对这种新型组合家具投
产或者不投产。第三个要素就是报偿值,当采取不同的策
略,面对着不同的自然状态,会有什么样的结果,这就是损
失或者收益的一个数值,我们把它叫做报偿值,也有的书上
称为损益值。
数据资料如下,如果投产且这个城市只有 1%的家庭购
买,我们就亏 60个单位,假定每个单位是 1万元,就是损
失 60万元;如果只有 2%的家庭购买损失 20万元;如果购
买的家庭比例上升到 3%有 20万元的收入;最好的情况有 4%
的家庭购买,那我们就有了 60万的收益。如果不投产,就
没有损失也没有收益,都是 0,面对这样一个基本的数据、
最简单的例子,我们同样问一个问题:现在应该选择投产还
是不投产?我们做个分析,分别计算两种策略的收益值,给
决策者提供一个咨询或意见。面对四种不同的购买力,是不
是每一种发生的概率都相等呢?根据判断得出一个先验概
率,就是四个购买力发生的概率 Pi,购买力为 1%时,发生
这种情况的可能性或者概率为 20%;购买力为 2%时,发生的
可能性是 40%;购买力为 3%时,发生的可能性是 30%;购买
力为 4%时,发生的可能性是 10%。、、、四
个概率相加刚好为 1。特别注意,在决策、分析中如果谈到
概率,概率之和应该等于 1。
具体分析如下,这个城市比较小,只有 20万户居民家
庭,每一套组合家具的销售净利润为 200元,准备投产的生
产线的费用是 100万,那么这个时候,我们就可以用讲稿
PPT3-4上的公式计算平均收益,每一种报偿值是用 20万乘
上购买力 Pi,再乘上每一套家具赚的 200元钱,减去 100万
元投产生产线的费用。把 1%带进去得到负 60万,把 2%带到
公式里得到负 20万,把 3%带进去是正 20万,把 4%带进去
是正 60万,有了报偿值表和以上分析,就能够算出平均的
收益,用四种情况的报偿值乘上事先给出的概率,即
(-60)()+(-20)()+(20)()+(60)()=-8(万
元)
如果现在投产,平均来看,你是要赔钱的,平均赔 8万
块钱;如果不投产,显然不会有损失,当然也没有收益。一
个是负 8,一个是 0,应该选择 0不投产。这就是决策的三
个要素:自然状态、策略和报偿值。
再给大家介绍另外一种决策工具,叫做决策树。讲稿
PPT3-5是组合家具的决策,完全像一个树杈一样,自然状
态用一个小的圆形表示,分了四杈就是 1%、2%、3%和 4%;
策略要素用一个小的矩形来表示,分出两杈投产和不投产;
最后是报偿值。如果投产用同样的方法计算:
(-60)()+(-20)()+(20)()+(60)()=-8(万
元)
负 8和 0比较起来我们就会选择不投产。
刚才的例子我们换了一种方式,用决策树来分析,目的
是为分析后边复杂的问题做基础,决策树的方法非常简单、
直观、明了。
来看讲稿 PPT3-6,用决策树的方式对石油公司的决策
做出一个判断。前面提到石油公司手里有一份合同,面临三
种选择:
策略一,把合同卖掉立刻得到 125万;
策略二,可以选择一年以后再卖掉,一年以后面临的自
然状况有两种可能性:如果是油价降,只能卖到 110万,而
年利率为 10%,货币的现值与未来值是存在差异的,一年以
后的 110万元只折合现在的 100万
(110÷=100(万元));如果是油价升,得 440万元,但
把利率考虑进去,只相当于今天的 400万元(440÷=400
(万元))。决策时要把货币值统一,或者用未来值,或者用
现值。采取一年以后出售,按照现值计算平均收益为 130万
(100×+400×=130(万元))。
策略三,现在开采,刚才的数据告诉我们,有 50%的概
率是没有油的;有 40%的概率打出一口有油井;有 10%的概
率是打出一口高产的自喷井。如果打出一口无油井,本身一
分钱收益没有,还要付出 200万元的钻井费用,是负 200万
元;如果是一口有油井,净收益为 200万(400-200=200
(万元));如果是一口高产的自喷井,净收益 1300万
(1500-200=1300(万元))。如果现在开采,平均的收益为
110万((-200)×+200×+1300×=110(万
元))。
假定该石油公司决策的原则是货币收益最大,现在应该
怎么做?采取策略二,现在既不卖也不采,因为一年后的平
均收益最大,130万大于 125万也大于 110万,当然这里的
数据差别不太显著。
有人可能会提出,130万是有风险的,你现在把合同买
掉,一点风险都没有就可以赚到 125万。对,这个很重要,
这就把风险和决策者的角色考虑进去了,我们稍后会有讨
论。
通常石油公司合同很多、钻井很多,不太在乎这点风
险,石油公司采取该决策是有效的。但是如果这个事情不是
石油公司而是个人,假定我刚创办一个新的公司,这是拿到
的第一份合同,我想我就不会冒这个险,不如把它卖掉更稳
妥。但大家注意,高风险通常会有高回报,如果一年后出
售,虽然有风险也可能有高的回报,所以我们在决策时要把
期望的报偿和风险综合起来考虑,而不是简单地只考虑收益
或风险,这就是统计应用的目的。
下边,我们给大家介绍一种更实际也更复杂的决策,称
为贝叶斯逆概率决策。贝叶斯是 17世纪中期的英国著名学
者、统计学家。他生前写了一篇非常著名的论文,提出两个
概念:先验的概率和样本的信息。先验概率是根据过去的经
验或主观判断而形成的对各自然状态的风险程度的测算值,
通俗地讲,就是凡是能够得到的有关的知识、信息、概率,
统统作为决策的参考。当然在做判断、决策的时候,除了先
验的概率,还要补充样本的信息,就是实践的调查信息,这
就是著名的贝叶斯逆公式。把这两个信息、两个概率、两个
知识融合到一起,得到一个后验概率,也就是真正做决策时
进行判断的一个概率。
把这个思想用到石油公司的例子里,再利用地震地质测
试搜集另外的数据,如讲稿 PPT3-7表格所示,已知各种井
类型结构的条件概率,这是一个什么样的信息呢?表里边给
出的地震测试和地质结构所预报的井的类型有三种:地震和
地质预报的无油的结构、有油的结构和富油的结构。石油勘
探是一个非常复杂的过程,不是一次就能完成的,通常要经
过几个阶段:第一,勘探地质结构阶段;第二,地震测试阶
段;第三,打探井的阶段;第四,有石油开采合同的阶段。
中国在地质结构方面有一位著名的科学家,他对中国的
石油工业、地质事业做出了非常大的贡献,叫李四光。李四
光做的工作就是从地质的角度对石油做出一个判断,分析这
个地区的地质是有油、无油还是富油的结构。解放前,西方
的学者对中国做了很多的调查,预言中国是个贫油国,和中
东、西伯利亚、美国得克萨斯州、南美都没法比。李四光不
信,他跑遍了祖国的大江南北,从地质学的角度,认为中国
不应该是无油的、贫油的国家。他在西北做了很多的研究,
玉门油田、克拉玛依油田都凝聚了李四光还有我国很多石油
界先辈的研究成果。李四光更大的贡献是大庆油田,1959
年,刚好是三年自然灾害、我国国民经济最困难的时候,李
四光经过勘探研究提出在东北平原上可能有油,国家集中石
油队伍在东北搞了大会战,就有了大庆油田。大庆油田一直
保持着稳产高产,基本上保证每一年有 5000万吨的原油供
给国家,过去大约占国内石油产量的一半,现在也占到三分
之一左右。随着科学技术的不断发展,石油开采率也在不断
提高,一个油田的储油量,理论上只有 40%的原油可以采上
来,现在大庆油田采用了很多新的技术,如注水、化学试剂
等方法,有些油井已经可以将 60%或 70%的原油采出来。
最近我国有个大的喜讯,五一期间,在唐山附近渤海周
边发现了新油田,现在勘探的储量是 10亿吨原油,这是我
国近 30年最大的油田。这个地方曾经让外国著名的石油公
司做过勘探,但他们做了勘探、打了几口井,之后没有任何
发现。当时寄希望于深层的石油储量,没有想到这次勘探的
结果证明:石油所处位置是浅层的,大概只有 1800米左
右。大约三分之二的存油在浅水,三分之一在岸上,很容易
开采。这对现在能源相对短缺的中国是一个非常大的喜讯。
这一重大发现是因为现在我们的勘探技术上了一个新的台
阶。石油勘探的第一个阶段是地质上的判断,有了地质判断
有油的结论,接下来就可以进行地震勘探,好比人体做 X
光,做 B超一样,给地质做切片,其基本原理是用一个大的
发动机,过去是用火药做一个小的地震,一旦有个地震就会
产生地震波,大家设想,地下 500米是土层,500-1000米
是石层,1000米以上是水层或沙层,然后到油层,不同的
地质结构对地震波都有不同的反射波长,计算机接受后做出
分析,过去是二维分析,好比做 CT检查,比较粗,现在是
三维的非常细的勘探,所以就发现了这个油田。
讲稿 PPT3-7是刚才谈到的地质和地震两个测试的数
据,分别得出无油结构、有油结构和富油结构的结论。当地
震地质做出预报后,接下就钻井,打井不外乎三种情况:干
井、有油井和自喷井。在真正打出来的所有的干井里边,大
家注意第一行的数据,其中有 70%的概率是在地震和地质预
报时就说这个地方是无油结构,有 20%的概率是有油结构,
也有 10%的概率预报说是富油结构;打出来有油的井里面,
有 30%的概率预报无油,40%的概率预报有油,30%的概率预
报富油的结构,这就是第二行三个概率的含义;第三行就是
实际打出来的自喷井里面,有 10%的概率预报无油的结构,
30%的概率预报有油的结构,60%的概率预报是富油的结构,
这就是把石油公司进行地震地质勘探的数据,目的是为决策
提供一些参考、咨询和帮助。
大家理解了这些数据,下面我们就用概率树做分析,讲
稿 PPT3-8所示,实际打的井里边 50%是干井,40%是有油
井,10%是自喷井,这是在第一张幻灯片里的先验概率。打
出来的干井里预报无油结构是 70%,预报有油结构是 20%,
预报富油结构是 10%,用概率树最上面一支
×=,×=,×=;中间的一杈
×=,×=,×=;第三个也是一
样。大家看到中间的这一列最右边的无油结构有三个,打出
干井预报的无油结构是 ,打出有油井预报的无油结构
是 ,打出自喷井预报的无油结构是 ,你把
、、加起来是 。我们稍微做一些变化,
就得到了讲稿 PPT3-9上的概率树,地震地质预报无油结构
总的概率是 ,就是讲稿 PPT3-8上的 ++,
大家可以对照做计算。是怎么出来的?就是在预报无
油结构条件下,如果还要钻井的话,钻出干井的概率是
(÷=);÷=;
÷=;其他的依次这样计算出来。为什么叫做
逆概率?就是刚刚这两张幻灯片刚好是相反的,把前一个幻
灯片的尾巴的概率加起来,作为这张幻灯片的前面,这就叫
逆概率。
前面是预报的数据,现在是真正的结果,有了讲稿
PPT3-10上的决策树就可以真正做决策了,这是一个更复杂
的决策。先看最左边,刚开始时如果没有考虑到地震地质的
信息,第一策略把合同卖掉,第二策略合同留下来一年后再
卖,第三策略现在进行开采,比较之后选择一个最优的策略
二。现在又多了一个策略,这个策略是说有合同别着急开
采,请一个地震队帮助我们对合同管辖的区域做一次勘探测
试,这个要花多少钱?做一次地震花 10万元,如果做地震
测试,会预报三种可能,即无油结构、有油结构或富油结
构。那地震预报无油结构的概率是多少?是 ,这是利
用历史数据平均计算出来的,并不意味着你的这个合同一定
是这样。判断有 的可能性是无油结构,有 的可能
性是有油结构,的可能性是富油结构。如果告诉你下
面是无油结构,你立刻就停下来,损失 10万元,这是付给
地震队的费用;如果执意开采可以算出此时你有 的可
能性钻出干窟窿,你就亏 210万,为什么?因为除了 10万
的地震测试还要花 200万的钻井费用;打出有油井是
的概率,这时你的收益是 190万,400万减去 200万的钻井
和 10万的地震,依次地计算,就会发现在已知是无油结构
的前提下,你还要开采,可能面临着 78万的亏损。如果预
报有油结构,你停下来亏 10万;如果开采平均收益 165
万,这与刚才的计算是一样的。如果预报是富油结构,你开
采平均收益 390万。进一步计算,就得出做一次地震测试平
均收益是 133万(-10×+165×+390×=130(万
元))。石油公司将这个策略和一年之后再出售的策略进行比
较,应该选择请地震队测试,这就是一个完整的石油勘探的
例子。
大公司一般不在乎承担很大的风险,冀东油田的勘探打
了几百口井,有一半是干窟窿,但只要另一半的井出油,他
的收益就会不断地提高。大家刚才提到一个问题,这里面有
风险,不同的人对风险有不同的态度,对于个人来讲,小本
买卖又刚刚起步,一般来讲想尽量避免风险,免得刚刚贷款
有个一二百万,就全赔进去了,没有能力再继续。但作为石
油公司,资金雄厚,损失一点点,冒一点风险他们是不在乎
的,这就提出了一个新的决策中要考虑的问题,叫做效用理
论。
所谓效用理论是针对决策中的货币期望值而言的。石油
公司要打许多井,肯定会有出油的井甚至自喷井,他们不太
在乎比较小的风险,期望值的准则对公司比较适合。但如果
是个人或者一个刚刚起步的小公司,这时的风险对他们就可
能更重要,因为在不同的时候、不同的人对同样的货币收入
都有不同的效用。什么是效用?效用就是满足我们的程度,
或者说达到目的我们能够满足的程度,个人或公司在不同的
时刻效用是不一样的。学经济学都知道有一个基本的道理,
叫做边际效用递减。曾经讲过这样一个例子,如果我们非常
饥饿,比如说由于工作或特殊情况,已经一两天没有吃东
西,这时候,有卖馒头或面包的,五块钱一个,我们肚子很
饿,宁愿花五块钱买,买了一个面包吃下去后可能饱了一
半,再买第二个面包,怎么样?五块钱也许我们要考虑考虑
了,第二个面包对于满足你的饥饿,或者说它的效用比第一
个就减少了,如果吃了两个、三个面包,你已经基本饱了,
这时侯面包还卖五块钱一个,你肯定不会买了,因为下面一
个面包对于你的满足程度已经很小了,这说明边际效用递减
在决策中同样重要。货币的收益在不同的决策时刻对不同的
人的效用是不等的。
看讲稿 PPT3-12的案例来理解效用和风险的问题。假定
有一个非常慷慨也非常富有的朋友,愿意资助一笔钱帮助你
创办企业,但你必须做出一个选择:
第一,掷一枚硬币,如果掷的是正面得 150元,反面一分
钱也没有;
第二,不掷硬币,朋友给你 50万元。
两种选择只能选择其中一个,是掷硬币还是不掷硬币得
50万。很多人说得 50万,但如果用货币平均收益最大的原
则来判断,应该选择掷硬币,因为掷硬币出现正面的概率是
50%,出现反面的概率是 50%,50%得 150万,50%是 0,平均
收益是 75万,第一个选择的平均收益大。但为什么我们相
当多的人不选择方案一,因为有风险,这就是在做决策时不
仅是简单的用货币收益最大原则,还要考虑风险的道理。每
个人在面临上面这个例子的时候,都有不同的选择,换句话
说,每个人都可以画出自己的一个效用函数。
讲稿 PPT3-13画出某个人效用函数的曲线,比如说这就
是我,这张图表示什么含义?用刚才的例子,横轴从 0到
150万,1个单位是 10万,纵轴是效用,效用就是我的满足
程度,效用最大就是 1,即 100%,每一个单位是 10%的效
用。看这条曲线,本来有机会得 50万或 150万,结果一分
钱没拿到,我是最失望的,所以效用是 0;如果能够白得 10
万,从没钱到白得 10万,我就满足 30%了;如果有 50万收
益,大家看到,我已经满足 70%多一点点了;如果能得 100
万,就有 95%的满足程度了;如果再多,110万、120万直
到 150万,我就 100%的满足了,这条曲线就好比抛物线一
样,效用是递减的,最开始得 10万和最后得 10万,满足程
度是完全不一样的,即:最开始得 10万我能满足 30%,最
后从 140万再增加到 150万对我来讲只多一点点的满足。
根据讲稿 PPT3-14中效用函数的四种类型,来分析决策
者对风险的不同态度。左上角的这张图是类似于刚刚我的那
种类型,象抛物线一样,把这种决策者称为保守的或者是回
避风险的人,为什么?因为他有一点点收入就满足了。刚才
的例子是选择掷硬币,还是不掷硬币直接得 50万,一般人
肯定选择后者,因为得 50万他就有 70%以上的满足程度,
所以他肯定不愿意冒险,多数的决策者都属于这种类型,比
较稳健、保守、不太愿意冒险。
右上边的这张图,跟左边完全相反,左边是个抛物线,
右上方红色区域是反过来的抛物线,我们称之为愿意冒险的
人,如果让这类人在刚才的第一方案和第二方案中间选择,
他们一定会选择掷硬币,因为他们的目的不在于得四五十
万,甚至也不在于得 100万,而在于 150万。为什么这么
看?大家看右上方,从没钱到有 50万时,注意右上方红色
的这个区域纵轴很低很低,大概也就不到 10%;到 100万为
收益的 2/3时,效用不过 1/3左右,对这样的人,效用最显
著的就是从 130万到 150万,这类人就是喜欢冒险,希望能
够有高回报。
左下方第三种决策者是风险中立、风险适中的类型。他
的效用曲线是一条 45°左右的斜线,这类人对风险是适中
的,对收益也是比较麻木的,或者说,他们对金钱的态度比
较冰冷,为什么这么讲?可以看到,每增加一分钱他就增加
一点点的效用,最开始 1万到 150万对他来讲效用完全一
样。今天没有时间,否则会让大家做一个测试,在介绍这部
分内容之前,让你选择,你就会描述出自己属于哪种类型。
第三种决策者认为有钱就好,不管现在是穷得叮当乱响,还
是富得流油,多一分钱,就多一点好处,他对钱是一种冰冷
的态度。我们估且这样来形容。
右下方的这张图特别有意思。我们把这种叫做混合型,
为什么呢?这个人的决策曲线是这样的,左边一半是一个回
避风险的类型,到了右边一半又变成了冒险的类型。从没钱
到有个二三十万,对于这个决策者的效用增加的非常快,但
一旦有了三五十万,再增加货币的收益,他的效用基本不
动,他的下一目标是 150万,只有到了 130万、150万的时
侯,他的效用才有明显的上升。也许他现在没钱,先有个三
五十万的开办费很重要,可能再得 100万左右到 150万才能
干点大的事业,因此,他关注的是没钱到有那么一些钱然后
到有更多的钱,这就是混合型,不同的决策者在不同的时间
有可能做这样的决策。
请大家考虑,这里我只画了一种混合的类型,还有没有
另一种混合,就是刚开始从没钱到有个三五十万效用增长很
不明显,而哪一段效用增长最显著呢?是中间这一段,就是
有个七八十万,从六七十万到 100万对这个人的效用非常明
显,然后到了 100万以上再增加的话,他的效用又不明显
了,刚好是这样的情况。在特定的情况下,这种混合也有可
能。例如我要创办一个企业需要七八十万,50万对我来讲
效用不够,用处不太大,最关键的有 80万的开办费,有了
80万你再给我,虽然对我有好处,但我不是很关心,就形
成这个情况。
实际的决策还可能有各种各样的变化,我们引入效用概
率、效用理论是想说明决策者在不同的时刻都是不一样的,
会根据特定的时间、特定的需要采取特定的、特殊的一种对
待风险的态度,我们如果能够描述出、勾画出决策者对风险
的态度,就能够找到针对不同风险态度的最好的策略。因
而,我们想说,统计决策的问题实际上是艺术而不是方法,
尽管我们在课堂上也可以给大家介绍若干种方法,但真正
的、高超的管理和政府的决策,要求决策者具有丰富的经
验、及对事物有准确的判断,该冒险的时候冒险,该稳健的
时候稳健。如果我们能够有每一个人的效用函数,如讲稿
PPT3-15中决策树下面的括号所示,就可以用效用函数做决
策。
前面介绍了一些决策的方法,后面给大家介绍几个管理
中的对策或决策方法。这就是非常有名的几种博弈的理论,
博弈实际也是一种决策。
第一个决策叫做囚徒博弈(见讲稿 PPT3-16),叫做
Prisoner’sDilemma,也译作囚徒的困境。一次纵火案后,
警察抓了两个犯罪嫌疑人,一个胖子一个瘦子。警察分别对
他们关押提审,并且交待了坦白从宽的政策,告诉他们:如
果两人都坦白,每个人入狱 3年,判 3年徒刑;如果都不坦
白,每个人只入狱 1年,为什么?如果他们不坦白,警察所
掌握的证据不够充分,不能给他们严厉的判刑;如果一个坦
白,一个抵赖,那么按照政策,坦白者可免予处理立即释
放,而抗拒者、抵赖者关 5年。面对这种囚徒的对策,只要
犯罪嫌疑人理智清楚,一定会选择坦白。
来看讲稿 PPT3-17中的表格,胖子嫌疑人和瘦子嫌疑人
的策略都是坦白或抵赖。对于瘦贼,胖子的坦白或抵赖相当
于他的自然状态,他的策略就是坦白和抵赖,中间的数字就
是报偿值。两个人都坦白,各关三年;瘦子坦白,胖子抵
赖,胖子关五年,瘦子立刻释放;瘦子抵赖,胖子坦白,胖
子立刻释放,瘦子关五年;如果两个人都抵赖,各关一年。
给大家介绍一种决策的方法:向前展望,倒后推理。首先要
想清楚对方可能采取的策略,然后倒着找到对自己最有利的
选择。当胖贼被单独关押的时候,就会想:这瘦子是坦白还
是抵赖?如果瘦子坦白,我坦白关三年,抵赖关五年,我应
该坦白;如果瘦子抵赖,我坦白立刻释放,抵赖关一年。我
该怎么选择?还是坦白有利。瘦子想胖子也是同样的结果,
所以如果犯罪嫌疑人能够做这样的推理,都会选择坦白,这
就是所谓的囚徒困境。在这个例子里坦白对谁最有好处?对
检查机关、对警察有好处,警察破了案,当然对社会也有好
处。
把这个例子引深到商业竞争中间,商业竞争中间的囚徒
两难对策就好比是价格战或广告战,两个企业做广告互相竞
争,或者打价格战互相降价,其实就好比是两个囚徒,刚才
我们说囚徒两难对策的赢家是检察机关、或警察、或社会,
而市场竞争中的价格战打起来,赢家、受惠者是消费者。企
业互相竞争降价,最后对消费者有好处。
看一个实例(见讲稿 PPT3-19),蒙牛和伊利是内蒙的
两个大的乳业企业,两个企业的产量大概占到全国乳制品产
量的一半。2005年 12月 28日,“2005年 CCTV中国经济年
度人物颁奖典礼”第一位获奖者就是伊利集团的新帅、总裁
潘刚,当年伊利销售突破 100亿元,并且成为 2008奥运会
乳制品业唯一赞助商。伊利和蒙牛都在呼和浩特,都想赞助
奥运会从而获得利益和扩大企业的影响。1996年亚特兰大
奥运会伊利雪糕就是奥运特许产品,营销非常成功。当时伊
利的功臣牛根生和孙先红后来都到了蒙牛公司。2004年,
蒙牛为每一位国家队运动员配置了“牛奶套餐”,2005年 9
月 1日蒙牛也宣布从当天起北京市的居民每购买一袋蒙牛牛
奶,他们就为奥运捐一分钱,在这之前蒙牛已捐了 1000
万。伊利也在呼和浩特支持体育。双方都在为获得 2008年
奥运会的赞助做着准备工作。两个企业正在慢慢的进入囚徒
困境。
2005年 10月 9日上午,呼和浩特市政府召开市长办公
会,把两家企业请过来劝他们退出,因为两家竞争压低价
格,最终呼和浩特市政府的税收减少,所以市政府建议两家
一起退出奥运赞助商的申请。在市政府的斡旋下,当天,牛
根生与潘刚在一份《关于退出北京奥运合作伙伴申请活动的
函》上签了字。没想到,奥组委在收到两家的退出申请函之
后,伊利又悄悄地送上去一份申请。在竞争中间,囚徒对策
谁能够坚持到最后谁就获利。类似的例子非常多,两个企业
互相降价,谁盯不住了,谁就失败;谁能挺过去、谁的资金
比较雄厚,谁就最终获利。蒙牛没有坚持住,在这个竞争中
间伊利获胜。当然伊利也不都是获胜的,大家知道,蒙牛推
出的一些新产品非常好,比如“特伦苏”就把一个特殊的品
位引进来,把欧洲的工艺引进来非常成功。
第二种决策方法叫做智猪博弈(见讲稿 PPT3-21)。一
个猪圈有两只猪,大猪和小猪。猪圈细长,在一头有个猪食
槽,下猪食的按钮在另一头。按一下按钮会有 10两猪食掉
进槽里。由于按钮和食槽两头距离较远,按按钮要消耗体力
约 2两猪食。如果两只猪一起按,再回来一起吃,大猪可以
吃到 7两,小猪可以吃到 3两,减去各自的 2两消耗,大猪
净收益 5两,小猪净收益 1两;如果小猪去按,大猪等着吃
可以吃 9两,因为它没动,净收益也是 9两,小猪只能赶回
来吃到 1两,减去 2两消耗,净亏损 1两;如果大猪去按,
小猪等着先吃可以吃到 3两,大猪吃到 7两,减去消耗,净
收益 5两;如果两只猪都不去按,猪食掉不下来,双方净收
益都是 0。两只猪都想多吃猪食,怎么进行决策?
用列联表分析双方有没有占优策略。刚才的例子,不管
胖子还是瘦子,都有一个占优策略——坦白。什么叫占优策
略?就是不管对方选择什么,你选择的这个最好,你就采取
这个策略。好,我们来看讲稿 PPT3-22,左边就是小猪按与
不按,上面是大猪按与不按,双方都按大猪吃 7两减 2两得
5两,小猪吃 3两减 2两得 1两,双方净收益一个是 5两,
一个是 1两,总的净收益是 6两;如果大猪不按,小猪按,
大猪吃 9两,小猪亏 1两,总的净收益是 8两;如果大猪
按,小猪不按,大猪净收益 5两,小猪净收益 3两,总的净
收益是 8两;双方都不按,净收益为 0。大猪想,如果小猪
按,它就一定不按;如果小猪不按,它不按双方都没有猪
食,它要按,尽管不是他最好的策略,但他能够有净收益 5
两,因此,大猪的策略是看小猪的选择。对于小猪,如果大
猪按,它一定不按;如果大猪不按,它还是不按,否则它不
但消耗体力而且收益还是负的,所以小猪最好的策略是等
待。前面的案例双方都有占优策略,而在这个例子中大猪没
有占优策略,小猪有占优策略,是耐心等待。
企业竞争中大猪相当于大企业,小猪相当于小企业,按
按钮相当于研发新产品或开辟新市场需要的付出,得到的好
处是带来销售的收入和利润。大企业资金雄厚生产销售能力
强,推出新产品后可以大量生产、进行广告宣传获得利润,
相当于大猪吃食能力强。在博弈双方力量不等的条件下,力
量强的大猪正确的策略是根据小猪或对手的策略做选择。而
力量弱的小猪正确的策略就是在企业竞争中间等待做好准
备,看准机会占领市场或者从大猪已经开发出的新产品、新
市场中间获得利益,小猪的占优策略就是跟随策略。我们都
知道在马拉松中有个最好的策略就是跟跑,有经验的运动员
紧跟住最前面的队员,别掉出第一方阵以保存体力,到了最
后几圈去冲刺。
引用哈耶克的一句话叫做“所有通往地狱的路,原先都
是准备上天堂的”。谁不想上天堂啊,但若有不慎没准就进
了地狱。
来看商业竞争中的实例,2004年 5月 18日,广州,
TCL举行“启动中国大屏幕液晶电视新时代发布会”,国
美、苏宁、永乐等电器零售商全面下调大屏幕液晶电视的价
格,降幅 30%左右。TCL多媒体事业部总裁史万文对记者们
说“今天标志着中国大屏幕高品质液晶电视进入百姓家庭的
序幕已经徐徐拉开。”二、三线液晶企业坐卧不安。而当时
液晶电视市场的情况是:既有机会,也有很大风险。第一,
当时市场总容量偏低,单款产品难以形成可靠的利润空间;
第二,成本结构不稳定,存在着迅速降价的风险;第三,消
费者对液晶电视的认可度不高,需要厂商投入大量资源进行
市场普及、广告、宣传和开发。这个时候急于分得一杯羹的
二、三线品牌,即那些中小企业快速作出反应——液晶生产
线尚不成熟,行不行先建上;液晶面板等关键元器件价格不
稳定,用不用先囤上……,一切为了抢占市场先机。而 TCL
在开启了“液晶彩电新时代”的宣传之后一年里,并没有立
刻行动,只进行着研发和布局。市场上活跃的全是二三线品
牌的身影,投入了大量的广告。他们扮演了先按按钮的小猪
的角色。
在 2004年,国内的液晶电视市场销量不足 20万台,却
有 20多个品牌和上百款产品。销量过 5000台的品牌很少,
投入越大,亏损越大。2005年初液晶电视市场已经被那些
“小猪”们的广告烧热,“大猪”们开始行动。TCL以“银
狐”和“薄典”两大系列产品进攻市场,几个月市场占有率
上升到 13%,跃居当时的第一位;同时,长虹的“感官革
命”、康佳的“大平板、大娱乐”、创维的“六基色”等纷纷
登场。
到了 2005年 9月,SVA、厦华等二线品牌市场份额比原
来减少了 20%,甚至更多,三线品牌彻底退出了市场。长
虹、海信、TCL、康佳、创维等大品牌瓜分了国内市场。这
就叫做“创新是创新者的墓志铭,跟随是跟随者的通行
证。”
智猪博弈并不意味着小企业不能依靠创新而发展,而是
告诫小企业,应该尽量避免在进入门槛低、无法积累或者没
有核心竞争力的领域孤军奋战。1994年的力帆、宗申尽管
也是小企业,但他们进军摩托车市场时就有了自己的发动
机,有了自己的知识产权;华为进军交换机时有了自己的知
识产权;皇明看中太阳能产业时,拥有大量业内领先的核心
技术,产品也稳居高端,因而利润率很高。
第三种决策方法叫做情侣博弈。博弈就是对策,市场竞
争、企业竞争中存在博弈,情侣之间有没有博弈呢?应该
有。张林和刘丽一对热恋的青年朋友,都很珍惜周六晚上的
约会。张林是球迷,周六晚上有一场球,如果两人都看球,
对张林收益是 2,对刘丽是 1,虽然刘丽不喜欢看球,但能
和张林在一起,对她还是有利的;刘丽更愿意去看她喜欢的
歌星演唱会,如果两人都去看演唱会,对刘丽收益是 2,对
张林是 1,虽然不是张林喜欢的球赛,但能跟刘丽在一起也
是挺满足的;分开去看的话,虽然满足了自己但不能跟朋友
在一起,对两人都是 0。
来看讲稿 PPT3-30,我们重新梳理一下:张林和刘丽都
去看球,对张林是 2对刘丽是 1;如果张林听歌刘丽去看
球,对两个人都不好是 0;如果张林去看球刘丽去听歌,同
样是 0;如果两人都去听歌,刘丽是 2张林是 1。张林和刘
丽有没有最优的策略,如果张林去看球,刘丽也应该看球;
如果刘丽听歌,张林也应该去听歌。看球、听歌显然对自己
来讲有 1有 2,双方都没有占优策略,决策的关键取决于两
个人谁能够说服谁。
商业竞争比这个要残酷的多,可能要用威胁和承诺等手
段。来看一个案例——默多克的威胁,默多克是出版大
亨。1994年一个夏天,默多克在纽约办公室下了一道命
令,说“在 Staten岛,把我们《纽约邮报》的零售价格从
50美分降到 25美分,明天就执行!”。这时,他的助手,
一位高级主管提醒他:“如果把价格下降一半,对手肯定也
要跟着降价,大家都没有好下场。我们在伦敦的《泰晤士
报》正跟《每日电讯》打价格战,那边打价格这边再打,四
处树敌很危险啊!”默多克说“别问为什么,照我说的做
吧”。几天后,就在众人纷纷猜测《每日新闻》将跟着降价
时,《每日新闻》却宣布:把价格从 40美分提高到 50美
分。
这个案例类似于情侣博弈。原来两份报纸的价格都是
40美分,默多克认为要减少运营负担,报纸的零售价应该
有所提高,但如果自己涨,对手不涨,显然就会失去你的广
告,影响发行量。因而,最好的策略就是迫使对手一起涨
价,相当于张林说服刘丽一起看球。于是,《纽约邮报》率
先采取行动,把价格涨到 50美分。这个时候,《每日新闻》
并没有理解,还是无动于衷,相当于刘丽不愿意看球,《纽
约邮报》开始流失一些订户和广告收入。价格战难免两败俱
伤,所以默多克采取了一个更激烈的行动,在局部地区采取
降价行动,给《每日新闻》一个信号,再不采取行动,我可
要对你不客气了,对方理解了默多克背后的意图,只好跟着
涨价。双方采取了行动,默多克的威胁生效了。
最后看看军事指挥博弈。来看讲稿 PPT3-33,你有两个
师,守备的敌方有三个师,双方作战时只能整师的调动。守备
城市有两条路防守,进攻时,只有当兵力超过对方才能取
胜,对方比你多一个师,而且处于守备有利地形,如果兵力
相等你要失败。推理告诉我们,双方胜负的概率是各一半。
尽管对方的兵力强,地势有利,但并不一定占优势,关键看
我们怎么决策、怎么布局。
敌人有四种部署:第一,把三个师都放在甲;第二,把两
个师放到甲的方向,一个师放在乙的方向;第三,把一个师放
在甲的方向,把两个师放在乙的方向;最后把三个师都在乙的
方向。我方有三种考虑:第一,把两个师都放在甲的方向上;
第二,把一个师在甲,一个师在乙;第三,把两个师都放在乙
的方向。
讲稿 PPT3-34表格中列出决策的三个要素,ABCD是敌
人的四个策略,abc是我的三个策略。敌人的 ABCD是我的
自然状态,中间的“+”“-”符号是报偿值。策略 A,敌人
把三个师都放在甲的方向。策略 a,我把两个师放在甲上,
肯定输,“+”表示敌方赢,“-”表示我输;策略 b,敌人把
三个师都放在甲,我一个师在甲一个师在乙,甲这儿肯定
输,而乙那儿敌人没兵力我肯定赢;策略 c,把两个师都放
在乙,我一定赢,因为敌人把兵力都部署到甲,留下乙这条
空的道路,便可以长驱直入占领这个城市。
同样,策略 B,敌人把两个师放甲一个师放乙。策略
a,两师对两师我输;策略 b,一个师在甲一个师在乙我也
输;策略 c,我把两个师放在乙,而敌人在乙上放一个师,
我赢。在这种情况下,我有二个是输的。策略 C是敌人一个
师在甲两个师在乙,我们也是一个“+”两个“-”。策略
D,敌人把三个师都放到乙,我们只要在甲这放一个师或两
个师都赢。
两边的红色区域表明如果敌人把三个师都放在甲或乙
(即策略 A和 D),他是一个“+”两个“-”,所以敌人只会
采取策略 B和 C。在我的三个行动里,策略 b对敌人的策略
B和 C都会输,我只能采取策略 a或 c。中间四个兰的区域
表明,尽管我比敌人少一个师并处于不利的位置,但获胜的
概率仍有 50%,这就是军事。
再来看这个案例——二战时期诺曼底战役的一个决策。
1944年 6月初,以艾森豪威尔将军为总司令的盟国军队,
准备横渡英吉利海峡,在欧洲开辟第二战场。如讲稿 PPT3-
36所示,可供盟军登陆的地点有两个:一处是塞纳河东岸的
布隆涅-加来-敦刻尔克一带,这里最窄;另一处是塞纳河西岸
的诺曼底半岛,这里海面比较开阔,渡海时间较长,容易被发
现。德军西线总兵力有 58个师,主要部署在这两个地方。打
仗的问题是“参谋作计划,司令下决心”。经过一年的准备,
盟军计划在 6月 5日早晨登陆,为什么选这个时间?因为这
两天是海的大潮,如果潮小,登陆艇进攻要多走很长的时
间。如果大潮,登陆艇就可以尽量地深入。一天内选择什么
时间?陆军建议早晨天蒙蒙亮时,因为这时敌人守防的火力
点容易暴露。
6月 5日,整个英吉利海峡狂风暴雨,飞机、轰炸机、
运输机、船都没办法登陆。6月 5日晚上,天气预报告诉艾
森豪威尔 6月 6日早晨大概有几个小时的好天气,狂风暴雨
会稍微地停息几个小时,艾森豪威尔决定把登陆的时间放在
6月 6日的凌晨。如果 6月 6日不实施,就要等到下一次大
潮,因此,他冒着很大风险,留下一份东西说他为登陆失败
负全责,做好了最惨的准备。6月 6日凌晨 2、3点钟,两
千多架飞机先对整个沿海一通狂轰滥炸,与此同时三个伞兵
的空降师降落在这,就是敦刻尔克,地图右下方是法国,左
上方是英国。箭头处是敦刻尔克,德军把比较主要的兵力布
置在最近的防御线一带,而实际的登陆点是在黑色的五个
点,犹他、奥马哈、金滩、朱诺和剑滩。
6月 5日,德军总司令隆美尔得到的信息是暴风雨还会
持续,他认为 6月 6日盟军不可能实施登陆计划,就开车回
家给太太过生日。前线的指挥离开,同时,盟军干扰他们的
信号。盟军凌晨开始猛攻,而希特勒得到消息时已是中午,
再调动军队为时已晚。从而开辟了二战的第二战场,从这里
开始向巴黎、柏林进攻,最终希特勒失败,这是一个非常重
要的战役。
最后请大家思考一个问题——博弈推理能力的测试。
年终老板论功行赏,给每个员工发一个信封,信封中放
一张扑克牌,扑克牌的数字是几,年终奖金就是几千元,比
如说 5就是 5000元,K就是 13000元,小王是 15000元,
大王是 20000元。每人的扑克牌数字不能告诉别人。如果你
对自己的奖金数额不满,可以拿出来进行交换,但交换前还
是不能让别人知道自己的扑克牌。看看咱们的推理能力,会
有多少人愿意交换?交换的结果是什么?
答案是没有。尽管可能有 3或 4个人愿意交换,但实际
上是交换不成的。原因是,拿“大王”的人心里乐滋滋的,
他一定不会换;拿“小王”的人一想,“大王”不换,我跟
谁换,我要拿出来一定换的比我小,“小王”不会换;K不
会换;Q不会换……拿大牌的人都不会换,而最愿意换的拿
1的人,相互换没有意义,根据推理证明无法实现交换。
这一部分给大家介绍了决策的三要素和几种决策方法。
决策的关键在于我们怎么分析,所谓知己知彼。在决策里知
己是自己的策略,知彼是自然状态,在自然状态和策略之间
分析我们获得的利与弊,取利最大和弊最小,另外还要考虑
占优策略的问题。决策需要知识、经验和判断,与其说决策
是一种科学的方法,不如说是一门艺术。希望大家在实践中
不断积累经验,灵活运用决策方法,对事物做出准确的判断
与决策。