统计在线学习课件讲义
《统计与决策》
主讲人:袁卫
制作单位:北京市统计局
2007 年 5 月
第一部分 绪论
同志们,同学们,大家好!下面我们一起学习统计与决
策。这一部分共分 3 个单元,第一单元介绍统计的应用,我
把它称为绪论;第二单元介绍描述统计,就是搜集数据、整
理数据的一些基本知识;第三单元介绍如何应用统计方法来
帮助我们进行管理,进行决策。
首先,我们看一下什么是统计。我们每一个人在做每一
项工作时都会有自己对统计的认识,比如,我们经常在报刊
上看到类似这样的消息:“思科公司(Cisco)在纳期达克周
一收盘时的市值为 5550 亿美元”,这条信息就是一个统计分
析的结果,就是经济管理统计的一项工作。再比如,“50 家最
大公司 CEO 的年均收入是 930 万美元”,这是 2000 年福布斯
报道的一个消息,这又是一个统计,里边含有一个概念,即:
什么是“平均收入”,它反映了什么样的问题,能够带给读者
什么样的信息?再看第三个,“股票平均能够使 75%的投资
者盈利”,这样的一条信息又意味着什么?我们在国内的报刊
上也经常看到这样一些信息,比如:股票的一个百分比。对
于每一位投资者,当你进行投资选择的时候,这个百分比会
有什么样的作用呢?
统计,简单地说就是搜集数据、整理数据、分析数据的
一些简单方法。如果用更简单的方法给它下个定义,统计就
是处理数据的一门科学。更简单地说,统计学就是数据的科
学。由于现在任何一项工作在信息时代都有很多数据,我们
在日常的工作和生活中都离不开数据,因而,统计离我们的
生活很近很近。
下面我就分别介绍统计在经济管理中的一些主要应用,
这里叫做统计在商务中的应用。
首先我举一个财务会计方面的例子。会计师事务所在对
某公司进行审计的时候,并不是要对它的每一笔流水都进行
核实,因为通常一个规模较大的公司,一年的经济往来会有
几万、甚至几十万笔,如果对每一笔业务都做逐项核对,会
花费大量的时间、精力、人力、物力。他们所做的工作是选
择一个抽样的方式,从有效的应收帐款账目中抽取一小部分
进行核实。但是,根据对这一小部分账目核实的结果,他们
就能对这个公司整体的经济运行状况做出一个结论,即:这
个公司在财务方面是否合法,是否遵守规章制度,是否有财
经方面的问题。因此,从大量的数据中抽出一部分作为样本,
并且通过对样本的分析和计算,就能够推断出总体,正是统
计的科学性所在。
其次,看一下统计在营销方面的应用。举一个在零售付
款柜台上的例子。现在,中国无论是大型超市、百货商场,
还是小型零售商店,在收款时都用扫描仪对条型码进行扫描。
在扫描的同时,商品的所有信息就进入到计算机。在很多大
公司,特别是在国外,人们通常使用信用卡或银行借记卡支
付,在刷卡的同时,一些个人信息也就进入了数据库。这些
消费者的个人信息和购买商品的信息,无论是对生产商、制
造商还是对零售商,都非常有用。例如,作为国际知名的数
据供应商,. Nielson 和 Information Resources, Inc.的主要
工作就是花钱从零售商店或超市购买刚才提到的顾客购买
商品时扫描的基础信息,进行加工后,再卖给制造商或者零
售商。一份关于啤酒这种商品的数据,大概可以卖到 30 多
万美元。由此可见,数据经过整理,就可以变成一种产品,
一种商品,制造商和零售商购买后,就可以为他们的生产和
服务做决策。例如,大型超市在掌握了这个信息后,就能合
理地安排超市的进货,甚至货架的摆放。众所周知,沃尔玛
作为世界知名的大型零售商,对自己客户的信息做了大量分
析,由专门的分析人员运用数据挖掘技术,对所有客户信息
进行分析,如:客户中有多少客户购买什么样的商品,在什
么时间购买,在购买某一种商品的同时是否还购买其他商品
等。所有这些信息,对像沃尔玛这样的零售商非常有用。通
过对大量数据进行分析,我们会发现经常买啤酒的顾客会买
一些熟食作为下酒食品,假定通过分析发现这两种商品具有
非常紧密的联系,零售商沃尔玛就会考虑两种设计:一种设
计是将啤酒专柜与熟食专柜放得非常近,好处是当顾客往购
物车上装入一箱啤酒后,可以到不远的地方很方便地购买一
些熟食;另一种设计是将这两种商品放得远一点,中间摆放
一些商品货架,顾客在买完啤酒再去购买熟食时,会路过这
些货架,在四处观看的过程中,也许会发现他原本没有准备
购买的东西,这样就增加了顾客购买商品的机会。所以,现
在很多大公司都对这样一些信息非常重视,会考虑什么样的
客户会在什么时间购买什么样的商品,购买某种商品的客户
群是什么等,并利用这样一些信息来做最好的安排,满足客
户的需要。这样的研究,对提高管理水平非常有效。最近,
我也在网上看到中国的一些商品信息。目前,中国的数据分
析公司已经对彩电、洗衣机、冰箱等家用电器的数据做了整
理和分析,包括各个品牌的市场需求情况等,制造商和零售
商可付费购买。上述这些对统计的应用,在营销管理方面有
着非常好的前景。
第三,在金融领域,金融部门也通过利用统计信息来指
导他们的客户,包括他们自己进行投资。例如,如果把个股
信息和股票市场的均值进行比较,可以分析个股的价格是否
被高估。如果在 Barron 报告中,道琼斯 30 种股票的平均市
盈率是 ,而其中一支股票 Philip Morris 的市盈率是 9,
假定这个信息的数据是准确的,投资者就会通过把这 2 个数
据进行比较来做投资决策,因为按照一般的常识,购买市盈
率低的股票,投资回报的周期就会比较短。所以,如果有适
当的统计知识,会应用这些统计知识。所有公布的信息对于
消费者、投资者和我们的客户都会有价值,它可以帮助我们
选择,帮助我们做更好的投资。
在现在的保险领域里,就更离不开统计。在保险业里有
一种特殊的职业——精算师。这一职业就是专门利用概率和
统计知识分析风险、计算风险、尽量回避或减少在投资和保
险业中的风险。这里是 2006 年我国保费的一些情况。首先,
我们来看寿险和健康险。保险可以分成寿险和非寿险两类。
在寿险里,精算师所做的统计分析有什么用呢?在寿险中,
所有健康险、医疗险和意外险,最重要的工作是怎样设计保
单、怎样设计保费。计算保费的根据是什么?在寿险中,最
基本的根据是生命表。生命表,简单地说就是不同性别的人,
在 0 岁到 100 岁之间每一个年龄的死亡率。通过这个死亡率,
就可以计算每个年龄不同性别人群的风险,进而计算合理的
保费。假如一个 30 岁的男性和一个 60 岁的男性都想购买一
年 30 万保额的保险,大家想一想,两个人支付的保费是不
是应该一样?一定是不一样的。那么谁应该多付一些保费
呢?是 30 岁的人还是 60 岁的人?显然应该是 60 岁的人。
为什么呢?就是因为 60 岁的死亡率比 30 岁的死亡率要高
一些,换而言之,就是 60 岁比 30 岁的风险要大一些。既然
风险大,他就应该多支付保险,因为他想得到同样的保险补
偿。因此,要想科学地制定人寿保险的保单和保费,最基本
的就是要有一个好的生命表。简单地回顾一下我们国家的人
寿保险。众所周知,我国在解放以后的 50 年代有保险业务,
但到了大跃进时期,似乎一切事务都要由国家承担风险,所
以,中国人民保险公司在大跃进后就停滞下来。直到文革结
束以后,我国实施了改革开放政策,随着社会主义市场经济
的建立,人们逐渐认识到,我们的国家、社会、企业、家庭,
包括我们个人,实际上无时无刻不面临着风险。国家有国家
的风险,个人有个人的风险,家庭有家庭的风险,国家不可
能把所有的风险全部承担下来。因此,到了 1982 年,我国
的保险业开始恢复。恢复人寿保险的第一件事情就是制定保
费,但由于保险业已经停滞了 20 年,我国实际上已没有自
己的生命表。为了计算保费,我们借用了台湾地区和其他国
家的生命表。我国是一个拥有十几亿人口的大国,国土面积
达 960 万平方公里,南北东西城乡差异很大,而台湾作为我
国的一个地区,用他的生命表来计算大陆寿险的保费,显然
是不尽合理的。随着保险事业的开展,我们不断积累了很多
数据,到 90 年代初,就开始着手进行生命表的编制。大概
在 1993—1994 年,我国第一张生命表编制完成,并且在 90
年代开始使用。又经过大概 10 年的时间,我国对这张生命
表进行了完善,而且编制了第二张生命表。在第二张生命表
即将编制完成、准备使用时,社会上有一些人制造舆论,说
“新的生命表已经编出来了,如果使用新的生命表,保险产品
要涨价”,因而在那里煽动,“如果要购买保险,现在买是合适
的,因为一旦要实行新的生命表,保费要涨了”。这里,用我
们的知识判断一下,如果其他条件不变,购买同样保额的保
险,用 10 年后的生命表取代 10 年前的生命表进行计算,我
们的保费应该是升还是降?显然,应该降。因为,随着社会
经济的发展,随着医疗条件的改善,每个年龄组的死亡率都
在不断下降,人均的预期寿命在不断上升,在这样的条件下,
我们的保费不是应该升,而是应该降。这也说明,如果有一
些概率、统计、保险方面的知识,我们就不会被那些蛊惑人
心的言论所左右。事后,也有一些专家出来澄清这一事实,
希望大家不要抢购,而应该根据自己的计划来购买保险。
在财产保险中,我们重点看一下航空意外保险。大家在
坐飞机前通常要做一件事就是购买一份航空意外保险。过去
曾经是 20 元钱保 20 万,现在是 20 元钱保 40 万。利用我们
的知识可以做一点基本分析:如果暂时不考虑保险公司的利
润和管理费用,保险的保费价格应该和什么有关系?应该与
航空的风险有关,风险越高,你所支付的保费就应该越多。
请大家计算一下,现在用 20 元钱购买 40 万的保额,这就意
味着航空意外的风险应该是多少?二万分之一。中国民航的
实际风险是多少?这个数据大家可能不太在意。我国在计算
民航实际风险时,是以 10 年间所有的航班作为一个统计周
期,即:10 年间我国共有多少万次航班,航空意外事故有几
次。目前,我国民航的平均风险是二百万分之一。刚才已经
计算过,我国航空意外保险保费设计的风险是二万分之一,
而实际风险是二百万分之一,如果不考虑保险公司的利润和
管理费用,那么保险公司在航空意外险上的利润就是 100 倍。
正是因为航空意外险有如此大的利润空间,在过去的几年里,
我国航空意外险的保险市场非常混乱,出现了一些不规范、
不合法的保险公司和中介公司,甚至卖出一些假保单。因为
我国民航的风险非常低,所以,他们一旦把保单卖出去,就
可以净赚 20 元钱。为此,我国保监会、保监局等部门整顿
了航空保险市场。从技术层面讲,一般国外的保险公司,其
利润仅占所有保险产品的 10%-20%,据此分析,我国的航空
意外险应该降价,如果保额仍为 40 万元,保费不应该超过 1
元钱,这个比例比较合理,也能够保证保险公司正常的利润
空间。这就是我们利用概率统计进行分析的结果。
生产管理是概率统计方法应用得最为经典,也最为成功
的领域。在生产过程中被广泛应用的 SPC 管理(Statistical
Process Control),简称为统计过程控制,是在上个世纪 30 年
代,由美国的贝尔电话实验室首先创建的。它是利用统计方
法制作控制图,运用统计分析技术对生产过程进行实时监控,
它的贡献是对整个工业企业的生产效率和产品质量的提高
起了极大作用,是一个非常伟大的应用。此外,还有大家同
样熟悉的 6 西格玛管理,从上个世纪 80 年代后期到今天,
一直在国际上的一些大公司,包括 GC、摩托罗拉等世界级
大公司广泛使用,并且取得了成功。6 西格玛管理运用了概
率统计中关于正态分布标准差的理论,这是一种非常成功的
管理模式,已成为现在国际化大公司进行管理的一种重要工
具。第三个重要应用是实验设计,它的作用是在生产之前,
用统计方法进行实验设计,从而保障企业在生产过程中可以
尽量少生产、甚至不生产不合格产品。以上三个例子,都是
利用统计进行生产管理的典型案例。作为经济的宏观管理部
门,包括政府管理部门,我们会应用到对经济的预测和分析,
也会应用到经济计量模型,这里会涉及到一些统计的指标和
概念,如:通货膨胀率、物价指数和失业率等。作为一个好
的管理者,我们应该熟悉一些在生活和管理中用得最多的一
些统计指标,了解其内涵、应用范围等。如果想更深入地做
一些研究,我们还会利用到回归分析和统计模型进行预测。
这种建立在比较准确的数据分析基础上的分析和预测,能使
管理者的工作效率更高,工作做得更好。
统计不仅在生产和管理中被广泛应用,而且在生活中也
有许多应用,比如:体育。首先,我们来看篮球比赛。由于
姚明加入了美国 NBA,所以在 NBA 中我们的影响很大,
NBA 还 专 门 建 立 了 一 个 中 文 网 站 , 网 址 为
。该网站中有两个关于统计数据的网页,
分别是“数据”和“排名”。2007 年 NBA 的常规赛刚刚结束,
目前正在进行季后赛。在“数据”页面中,我们可以看到季后
赛的得分情况,这就是 NBA 球员的技术统计,它是按照球
员平均每场的投篮命中率和得分情况进行排序的。目前排在
第一位的是洛杉矶湖人队的科比布莱恩特,他平均每场得分
为 分。排在第二位的球员平均每场得分为 32 分。中国
非常优秀的球员姚明,在 NBA 季后赛中排在第 8 位,平均
每场得分为 分。在球员的技术统计数据中,还包括平均
每场出场时间,投球数,命中数。姚明平均每场投篮 个,
平均命中 个,命中率是 44%,罚球的命中率是 88%。这
些观众和球迷都能看到的数据,对球队管理者更为有用。
NBA 每一支球队的教练员和教练组,都会利用这些数据安排
技战术,球队的老板和管理人员用更为具体的数据安排球员
的奖金,甚至是出场费。在国外,体育比赛的数据搜集得非
常详细。众所周知,美国哥伦比亚大学经济系非常知名,去
年诺贝尔奖金获得者就是哥大经济系的教授,另外,该系的
蒙黛尔教授、斯第格里西教授等也都曾获得过诺贝尔经济学
奖。有一位马丁教授,除了在哥大经济系做教授外,还兼任
西班牙巴塞罗那足球队体育技术委员会的主席,其工作就是
进行统计数据的收集和分析。该委员会把巴塞罗那队的每一
场比赛进行录像,把每一名队员的每一个动作作为数据输入
到计算机里,用来做分析、做管理。严格地说,他所做的工
作是记录队员在球场比赛的每一个动作,包括成功、失误、
助攻、射门的次数等,这些情况全部与队员的奖金挂钩,这
就是一位经济学教授在巴塞罗那足球队所做的管理性的工
作。通过上述案例可以看出,对数据的搜集、整理和分析,
不仅在管理和工作中非常有效,而且在生活中、在体育比赛
中,甚至在娱乐中都被经常用到。著名科学家爱因斯坦曾经
说过,“数学定律不能百分之百确实地用在现实生活中间;能
够百分之百确实地用数学定律描述的,就不是现实生活。”意
思是说,我们的现实生活是纷纭复杂的,不能简单地用数学
公式进行描述,如果需要做补充,统计的方法、概率的方法
恰恰是能够从比较纷纭复杂的现实生活中发现规律的一种
方法和一种有效工具。它能够从杂乱无章、无规律可循的数
据中间发现事务的内部规律,换而言之,统计方法就是要发
现事务内部的、规律性的数量关系和数量变化。
请看下面一组统计数据。第一,在正常情况下新生婴儿
的男女性别比率是 106:100,其含义是,在大量的新生儿中,
男孩和女孩的比例是 106:100。现实生活中,新生婴儿并非
是男孩和女孩一样多,而是平均每 100 个女孩就会有 106 个
男孩,即:新生婴儿中男孩比女孩要多,平均每 206 个新生
婴儿中,男孩就比女孩多 6 个。那么,人类是如何保持男女
性别的平衡、保证人类的遗传、社会的和谐发展呢?是什么
原因使人类具有这样一个基本规律呢?为什么在新生婴儿
中是男孩比女孩多一些呢?因为男性比女性的死亡率高,不
仅在新生婴儿时期,在所有的年龄组中,男性的死亡率都比
女性要高。因而,在新生婴儿中男孩比女孩多一点,恰恰可
以保证人类社会能够和谐地、可持续地发展。虽然新生婴儿
男孩略多一些,但是由于男性在每一个年龄组的死亡率都比
女性要高一点,在中青年结婚生育的时候,男性与女性的人
数就基本相等了,从而保证了在生育时期人口性别的平衡。
随着人们进入中年、进入老年,由于男性的死亡率仍然比女
性高,就导致了真正长寿的女性要比男性多一些。由于处在
婴幼儿时期的男性比女性多一点,中青年时男女大体持平,
年老时期的男性比女性要少,从人口的总规模来看,男女的
人口总量又保持了另外的一个平衡,这就是人类社会几十万
年、几百万年甚至更长时间遗传变异的结果,就形成了一个
规律。在我国尚未实行计划生育政策时,多数家庭都有 4—5
个孩子,也许有些家庭都是女孩,而有些家庭都是男孩。如
果到一些居委会去做统计,也许某一个居委会的女孩多、而
另一个居委会的男孩多,可一旦我们进行大量数据的搜集整
理,新生婴儿的男女性别比一定符合这个规律:106:100。
这个规律在古今中外、每一个国家、每一个大洲都基本相同。
这是我们对大量数据进行分析发现的规律。早在 17 世纪,
英国伦敦的统计学者就发现了这个规律,这也应该作为统计
学发展的源头之一。
第二个数据来自于生活中常做的一种游戏:当随机地投
掷一枚硬币时,出现正、反面的规律都应该是 50%。这也是
经过大量实验得出的规律。同样,如果我们随机地投掷一个
骰子,其六面中每一面出现的可能性都是六分之一。这些规
律,对于现代人来说毋庸质疑,但在 200—300 年前,一些
数学家和学者为研究这一规律进行了大量的投掷,最多可达
2 万多次。在这个过程中,他们发现,投掷的次数越多,硬
币正、反两面出现的比率就越接近 50%。
第三,美国越战时期通过“抓阄”征兵时出现的两个数据:
73/183 和 110/183。越南战争在 60 年代初期刚爆发时,美国
的年轻人非常踊跃地报名参军,但几年后,随着越南战争被
拖入一个没有尽头的泥潭,美国社会出现了反战情绪。虽然
战争还没有结束,但美国的年轻人已不再愿意去当兵。美国
政府迫于无奈,由国会通过了一个征兵法案。因为美国的立
国之本就是平等,该法案为了保证每一个年轻人拥有平等的
当兵机会,采取了类似“抓阄”的方式,其做法与我国现在的
体育彩票、福利彩票相似,即:把一年中的每一天和闰年的
2 月 29 日分别写在纸条上,把这 366 个纸条分别装在蓝色小
球中,再放到一个大的透明的玻璃罐中,像体育彩票和福利
彩票摇奖一样进行摇号。这项法案获得美国国会通过后,
1969 年在美国现场直播。当把 366 个生日小球放入一个透明
的大玻璃罐中搅拌均匀后,小球一个接一个地掉下来,并被
按照掉下来的顺序排队。如果某一个生日第一个掉下来,在
征兵时,这一天出生的人就要第一批去当兵。显然,生日摇
得越靠前,被征兵的机会就越大,如果某一个生日被排在一
年的一半以后,那么这一天出生的人去当兵的机会就比较小,
因为美国不会把他所有的年轻人都派去当兵。实际上,如果
某一个生日被排到了 183 以后,即一年的一半以后,这一天
出生的人就基本上不会去当兵。当时征兵的范围是 18 至 29
岁的男性青年,只要身体健康,都要按照摇号的顺序去当兵。
为什么?因为这是公平的、这是随机的、这是合理的。电视
直播后,统计学家立即对这个数据进行了分析,正如幻灯片
上所讲,摇出的结果是,在前 183 个生日中,有 73 个是上
半年、有 110 个是下半年,而并非为各 50%左右。因为国会
在通过该法案的时候,就是要保证公平,保证每一个生日被
抽中的机会是相等的,但实际上,上半年出生的人征兵的机
会是 73/183,而下半年出生的人去当兵的机会是 110/183。
显然,下半年出生的人去当兵的机会要大一些。统计学家对
这个数据进行了假设检验,结果是这两个数据之间有显著的
差异。因此,统计学家立刻对国会提出质疑:这一次征兵过
程中的摇号不随机,对下半年出生的人不公平,他们去当兵
的机会远远大于上半年出生的人,似乎对下半年出生的人存
在着歧视。国会为检验这个数据也请了学者,证明统计学家
是正确的。国会于是承认,“这一次的设计还不够科学,366
个小球放到一个大玻璃罐中应该完全摇匀,但实际上还不够
均匀,导致了在掉下来的前 183 个小球中,下半年的生日多
一些。明年我们会做得再好一些,今年就这样了。”从这个例
子中可以看出,统计在我们的日常生活和工作中,都可以被
广泛地应用。
第四个是上个世纪 50 年代初期小儿麻痹症疫苗试验的
数据。一般情况下,新药和新疫苗在研究过程中,都要经过
三个严格的试验阶段。例子中的这组数据是在试验的最后一
个阶段,服用疫苗和没有服用疫苗的孩子各有 20 万,服用
疫苗的孩子中有 56 人得了小儿麻痹症,而没有服用疫苗的
孩子中有 138 个孩子患病。根据对这一数据进行统计计算和
分析后,研究人员就可以得出这种疫苗是否有效的结论。目
前,所有新药都要经过这样严格的数据检验,包括中国正在
着力开发的非典疫苗、艾滋病疫苗等,都在做这样的检验。
最后是一个关于广告费用、企业知名度和销售额的一组
数据。如果能够搜集到充分的数据,我们就可以描述出某一
个公司、某一个企业通过做广告,为提高企业知名度和销售
额所带来的变化。通过发现他们之间的数量关系,就可以制
定科学的广告策略。
从上述例子中可以看出,统计的方法,或者说是数据分
析的方法,是在各个领域里进行科学研究的一个基本工具,
既包括经济、管理、医疗、物理、天文等领域,也包括人文
社会科学的一些领域,如法律、历史等。在现在的法庭审判
中,越来越多地依赖于数据分析,数据分析作为法庭审判中
的证据,有非常好的应用。因而,作为一种数据分析的方法,
统计不仅渗透在几乎所有的学科领域里,而且在日常生活的
每一个角落,都可以找到很好的数据分析、统计分析的应用。
统计的方法可以分成两大类,一类是描述统计,一类是
推断统计。在推断统计中,又可以分为参数估计和假设检验。
实际上,幻灯片中的框图已非常简单地勾画出完整的统计体
系。
首先看描述统计。在幻灯片的右边是一个柱形图,我们
可以直观地看到数据变化的过程。每个柱形下面分别标有 Q1、
Q2、Q3、Q4,这是英文和数字的缩写,大家很容易就可以
猜到这可能是反映一个公司、一个企业甚至一个行业季度销
售额或利润的变化,这里的 Q 代表季度。假定这反映的是销
售额的变化,我们从直观的柱形图中可以看到,这种商品或
服务具有在前三个季度逐渐上升、在第四季度下降的规律或
趋势。我们会很快联想到饮料、游泳衣或某地区旅游业等情
况,因为这些商品或服务都具有这样的规律。因此,凡是看
到这样的柱形图,如果我们有统计的知识,就可以很容易地
联想到这背后反映的是一类什么样的事务,这就是描述统计。
简单地说,描述统计就是怎样有效地搜集数据、整理数据、
显示数据,并且发现数据基本的、数量的特征。在此图下边
有两个数据,一个是平均数,用 表示;一个是方差,用
表示。这两个数据是统计的核心数据,分别表明数据的平均
_
x
2s
水平和数据之间的一个平均的差异水平,有了这两个数据
——平均值和方差(也叫标准差),我们就可以比较清楚地
把握数据的规律。
其次是推断统计。推断统计的思路和原理就是幻灯片中
右边的这张图,其目的是了解一个总体的数量特征,并对总
体的数量特征做出科学的估计或推断。通常情况下,这个总
体非常大,有时是没有数量界限的一个无穷的总体,要对它
的特点做出估计或了解,就很难对总体里每一个单位都进行
调查。我们能够做的是从总体中抽出一个样本,通常是一个
很小的样本,通过对样本的分析或数据描述,就可以推断出
总体的特征。例如,美国在总统大选期间都要做民意测验。
美国总统大选的总体就是美国的全体选民,是 18 岁以上的
美国成年人。目前,美国的总人口已经超过 3 亿,选民在 2
亿左右。如果通过对每一个选民都进行调查的方式进行总统
大选预测,显然是不可能的,因为即使到了美国大选投票的
那一天,一般也只会有 60%—70%的选民去投票,而几千万
甚至更多的选民不会去投票。因此,美国一些大的新闻机构
和调查公司就采取随机抽样的方式,从 2 亿的选民总体中抽
取一个样本进行调查。如果想研究全部 2 亿人,并做出一个
科学的推断,估计的误差不超过 2—3 个百分点,即:误差
不超过 2%或 3%,那么,样本量应该是多少呢?盖洛普——
美国一个非常有名的调查机构,只调查 1000—1500 人,即:
从 2 亿的一个人口总体中,只调查其中的 1000—1500 人,
显然,与总体相比,这个样本是很小的。那么准确性如何呢?
盖洛普从 1936 年起至今,已有近 70 年的实践,在每四年一
次的总统大选中,其平均误差在 2%左右,历史上只有一次
做了错误的推断和预测,其他都对了。其他一些大的新闻机
构,如:美国的 CNN、CBS、ABC 等,其调查的样本量都
是 1000—1500。这个例子告诉我们,只要方法科学,就可以
做到抽取一个很小的样本,而得到非常精确的结果,这就是
统计方法的科学性所在。目前,在我们的许多调查中经常出
现一个问题:调查的样本量很大,可方法并不科学,有时调
查了几千甚至上万人,但得到的结果却与真实的情况相差很
多。因此,我们不能仅追求调查的数量,而应追求调查的质
量,要掌握这一技术,统计方法非常之重要。
我们谈到了,在统计的方法体系里,主要是描述统计和
推断统计两部分。幻灯片中有一个框图,最左边是我们研究
事务的开始,是反映客观现象数据的开始,换而言之,统计
分析和统计研究必须要有数据,我们本身也应该做到科学地
搜集数据和整理数据。一旦有数据,我们就可以进行分析。
这里有两条路线,如果我们得到的是总体的数据,经过描述
统计,我们就能达到目的,即:认识总体内在数量的规律性。
但 90%以上的情况是,我们很难得到总体的数据,而通常得
到的是样本的数据,因此,我们先要经过描述统计,同时再
经过推断统计,在这个过程中,还要用到概率的一些知识。
作为统计知识的基础,我们特别强调两对基本概念,一
对概念就是刚才举例中提到的总体和样本。总体就是我们研
究事务的全部,英语叫做 Population,也有人口的意思;跟
它对应的一个概念就叫做样本,是从总体中随机抽出来的一
部分。我们通常只研究样本,然后对总体进行推断。
第二对概念是参数和统计量。参数是描述总体数量特征
的,最关键的 3 个数据是总体的平均数、总体的标准差、总
体的百分比,分别用 3 个希腊字母表述为:μ、σ、ρ;另外
一个概念是描述样本数量特征的,称为统计量,最重要的 3
个数据为样本的平均数、样本的标准差、样本的比率或百分
比。
我们可以把这两对基本概念用幻灯片中的图例表述出
来,左边是总体,描述总体的是参数;右边是总体的一部分,
可能是很小的一部分,我们称之为样本,描述样本的是统计
量,这里有三对主要的量,就是均值、标准差和比率。实际
上,我们在学习统计的时候,在掌握统计方法的时候,最最
核心的就是应该理解均值、标准差和百分比。这是我们做分
析计算用得最多的量。
既然要处理数据,自然离不开统计软件,在这里介绍 5
种:排在前边 SAS、SPSS、MINITAB 和 STATISTICA 都是
专业的统计分析软件,用于较高或较深层次的统计研究;对
于一般的应用者,我们只需要熟悉 EXCEL 软件即可,因为
它是一个非常简单的数据列表和分析软件。
第一部分绪论就到这里。通过绪论,希望大家能够了解,
统计作为一个数据分析的方法和基本工具,对我们的科学研
究,对我们的生产、管理和日常生活有着广泛的应用。在我
们生活和工作的所有方面都离不开数据,有了数据就有了统
计,应用统计来分析数据,就可以帮助我们提高管理,使我
们的生活更加丰富多彩。
第二部分 描述统计
下面我们简单的给大家介绍描述统计部分的内容。描述
统计就是指怎样有效地收集数据,并通过图表形式对所收集
数据进行初步的加工整理和显示,进而分析得出结论。我们
有不同地获得数据的方法,这里主要介绍两种:第一是普查,
这是获得数据的一种主要方法,普查就是为某一个调查目的
组织的全面调查,一般只做一次或者是周期性的做一次,需要
动用很大的国情国力,通常只是对国家或地区的最基本的、涉
及到国计民生的、极其重要的数据才实施普查的方式。就我
国而言,通过普查获得数据的调查方法主要有两类:一是人
口普查,目的是了解我国的基本国情,每隔十年做一次。2000
年国家实施了第五次人口普查,2010 年将进行第六次人口普
查。搞一次人口普查需要做很长时间的准备,需要动用和培
训大量的普查员,所获得的数据也是相当大的信息量,普查
是一次对整个国情国力的动员,国家要有很大的投入,所以
不是经常进行的。二是经济普查,除人口普查外,我国还有
第三产业普查、工业普查、基本单位调查等等。04 年经国务
院批准,把几个普查综合成一个,就是经济普查。第一次经
济普查从 03 年开始准备,到 04 年底将普查结果向社会公布。
大家可能关注到一个数据,即普查后的 GDP 比普查前增加
了 万亿元人民币,总量增长了 %。原因是原来的第
三产业统计还有很多不完善的地方,如一些服务业企业没有
纳入统计范围,造成数据缺失。所以增加的 万亿元中约
有 90%以上来自于第三产业。因此,通过经济普查也进一步
完善了调查制度和数据收集方法。总之,普查是一种重要的
收集数据的方法,但由于它要动用大量的人力、物力、财力,
调查的周期也很长,因而只有关系到国计民生的一些最基本
的信息才采取普查的方式。而在实际工作中,我们用的更多
的是另外一种调查方式―抽样调查。所谓抽样调查,是指按
照随机原则从调查总体中抽取一部分单位作为样本进行调
查,只要样本抽取的有代表性,就可以通过很小的样本对总
体,也就是我们所要研究的全部事物,做出一个科学的推断。
那么,什么叫随机原则?简单地说就是总体中的每个单位都
有同样被抽中的机会。只要能做到这点,调查就有代表性。
即使样本很小,都可以做得相当准确。抽样调查如果做好了,
应该是一种高效率的调查方式,它在科学研究和日常管理中
用得最多,具有经济实效性强、准确程度高的特点。
前面介绍了普查和抽样调查两种主要调查方式,那么每
种调查方式都涉及到一个采用什么方法获取数据的问题。我
们可以有各种各样的收集数据的方法,譬如访问方式,就是
通过调查者和被访问者面对面的交谈获得数据,在早期调查
中用的比较多,现在主要应用于一些深层次问题的调查,不
再作为一种普遍性的调查方式被调查业所实施,取而代之的
是邮寄问卷调查。即设计一个调查问卷,然后通过邮寄的方
式送到被调查者手中,由他们来填写。这种调查方式在一些
发达国家持续了 50 年左右,即从上个世纪的 30 年代到 80
年代。邮寄问卷调查目前在我国仍是一种主要的调查方式。
之所以在国外不大被采用,主要由于以下原因:第一,回收
率越来越低,通常情况下不超过 20%,甚至低于 10%;第二,
回答的数据和没有回答的数据之间具有显著差异,因此仅仅
根据回答的数据做推断,不具有代表性。例如:1995 年美
国 ABC 广播公司曾经在一个晚间节目中做调查,问美国的
电视观众:“联合国总部应不应该继续留在纽约?”调查对象
是电视观众,完全是自愿回答,电话反馈,回答结果是 2/3
的电视观众认为联合国不应该继续留在美国,即联合国可以
搬到别的地方去。因此可以得到这样的结论:“美国多数人不
欢迎联合国留在美国”。而在同一年,某调查公司就此问题做
随机调查,结果刚好相反,大约 70%的美国人认为联合国留
在美国理所当然,只有不到 30%的人反对。大家注意,这两
个调查结果完全相反,哪一个更准确呢?显然是随机调查更
准,原因在于大多数美国人认为这个问题用不着讨论,美国
在全世界经济最强大、最富有,而且是世界老大,联合国不
设在美国难道还应该在别的地方吗?所以这部分人在收看
电视后根本就不作回答,认为这个问题根本就不值得回答,
而愿意回答的人往往是带有比较强的情绪,即联合国设在美
国,美国要付比较高的联合国会费。这个案例告诉我们当采
取自愿回答的调查方式时,在搜集数据、分析数据的时候要
特别小心,由于邮寄问卷调查采取自愿回答的方式,故有比
较强的局限性,目前在国外已经被电话调查所取代。第三就
是电话调查方式。由于现在已经进入到了高度的信息社会,
电话的普及率相当高,特别是在城市,因而电话调查已经取
代邮寄问卷调查,成为获得数据最主要的方法。电话调查比
较简洁,效率较高,成本较低,但是在我国的实施过程中碰
到了很多困难,主要是我们的调查业立法、规章制度不健全。
很多各种各样的调查公司并没有经过批准,即相当多的调查
是不合法的,因而扰乱了调查市场。我们经常接到手机、固
定电话的调查,超过 90%的人接到电话后还没有听清楚要调
查什么,就立刻拒绝了,所以电话调查在我国的实施过程中
有很大困难,但是专门的调查公司有专门的技术来解决这些
问题。总之,电话调查是目前调查业获得信息的非常重要的
方法。网络调查也是一种获得数据的方式,我们随便打开一
些网页,在首页上经常可以看到各种各样的调查,但是我们
要注意,这种调查有很强的局限性。被调查总体实际上是经
常上网、且愿意在网上回答问题的人群,他们并不代表大多
数,甚至不能代表所有网民,因此在使用调查结果时一定要
特别注意。我们也经常看到很多调查公司用网络调查来发布
调查信息,譬如说青年知识分子中 70-80%的人都过劳,甚
至知识分子的过劳死、平均寿命比普通老百姓要低等等,实
际上我们稍作分析,就会对这样的网络调查结果非常慎重,
因为公布的数据不是全部总体的代表性数值,而仅仅是愿意
回答的数据。例如:最近新浪网做了一个调查:“你在工作中
是不是经常加班加点?”他得出的信息是 80%的人都加班加
点。大家想一想,一般人对这样的问题可能不屑一顾,只有
那些对加班加点有意见或者对这个问题有比较强烈反映的
人才愿意回答。所以回答的结果说现在的劳动者中间有 80%
的人都加班,甚至都极度疲劳,不一定有代表性,所以我们
要特别注意这样的一个问题,即样本对总体有没有代表性。
另外,座谈会也是获得数据的一个重要方式,特别是一些专
业调查公司做某些深度访问的时候应用较多。这种方法有专
门的设计,通常以 6-10 人为宜。还有个别的深度访问,如
对那些特殊问题、敏感问题,不宜于以座谈会形式获取信息
的,可以此做为一种特殊的获得数据的方式,但是这种方式
也有一定的局限性,它主要应用于定性分析,而比较难做定
量推断。这里我们还特别要介绍另外一种获得数据的方法—
观察法,这个方法和前面所讲的不同之处在于调查者和被调
查者不直接接触,调查者站在一个客观中立的立场上对所要
进行调查的事物或一些调查对象进行客观的记录和描述。我
个人认为这种方法在获得数据的方式中应该有更广泛的用
途。
那么,什么是观察法的应用呢?以交通流量统计为例,
现在很多大城市,特别是北京,市政府和管理部门正在下大
的力气解决交通拥堵问题,在一些重要的十字路口或道路上
做一些改善,比如增加公共交通、开辟公共专用路线等,其
中路口的管理还有很大的余地,这就可以利用到统计观察法。
例如,长安街的某一个路口,东西向和南北向红绿灯间隔时
间的长短,是不是一旦设定了就不能更改?比如主干道绿灯
一分半钟,非主干道车流量少一点,绿灯的能行时间就可以
控制在 40-45 秒钟。是不是在一定的时间段里,东西向的
车流量较大,而另外一个时间段里南北向的车流量又更多一
些?要想做到以人为本的管理设计,就需要掌握一个路口一
天 24 小时、一周不同的时间段(比如平时和周末)的交通
流量变化,就需要用观察的方法来搜集路口车流量通过的数
据。掌握了比较科学准确的数据,就可以做非常好的管理。
我举一个国外交通管理的例子,美国纽约是一个岛,在曼哈
顿地区有很多大公司,白天会有几百万的人从长岛、新泽西
涌入曼哈顿,而在晚上又要返回他们在郊区的住所。曼哈顿
岛跟两边的联系主要靠几个铁桥和隧道,它的管理非常人性
化。铁桥是 30 年代建的,上下两层,每层有 8 个车道,上
层是进城,下层是出城,它根据每天车流量的大小来控制道
路通行的方向,早上可能有 12 条车道都是进城,因为上午
进城的人多;下午 4-5 点出城的人开始增多,可能会有 13
条车道出城。靠什么来管理?就靠红绿灯,非常人性化。我
们经常看到它的道路按照流量的大小来分配路权。因此,利
用观察法掌握不同时间、不同方向车流量的数据对于进行科
学、高效地管理非常重要。我在日本访问的时候,就发现日
本地铁的效率非常高,它保证所有的乘客在任何一个车站的
等候时间不超过 3-4 分钟,怎么能够做到这点呢?原因在
于它对流量的数据掌握得非常细致。经常看到一些大学生或
志愿者拿着记数器,在地铁上、下入口统计人流量,再按照
这个流量的分布来安排地铁车量,人流量最密的时候每隔 2
分钟就有一辆地铁通过,平时的 6 节车厢也会加到 10 节,
在最短的时间内将乘客送走。这就是观察法的应用。另外,
还有观察实验法,是通过做一些特殊的实验获取数据,在自
然科学中应用较多。刚才谈到的调查方法都是直接获得数据
的方式。在现代社会还有更多地获得数据的渠道,我们把通
过网络、出版物等得到的数据称为间接的数据来源。现在网
络非常方便,在国家统计局、北京市统计局和各个地方统计
部门的网站都可以获得当地政府的公开数据,也可以通过这
些网站链接到世界各国的政府、大的国际组织、甚至大的公
司的网站获得数据。
有了数据,下面就简单给大家介绍一下,怎么样对这些
数据做一些简单的整理和描述。例如:这里有某车间 50 名
工人日加工零件的 50 个数据(见 PPT 例 2∙1),原始数据很
零乱,看不出任何规律。最基本、最简单的整理是对这 50
个数据进行分组,我们看到所有数据的最小值为 105 件,最
大值为 140 件,把所有加工零件分成 7 个组,每 5 件作为一
组的组距,形成组距数列(见 PPT 表 2-1);中间这一列就是
在每一组里有多少个工人,称为频数,即次数。所有的频数
之和为 50,即指一共有 50 个工人;最右的一列,是计算每
组工人的百分比,即 6%,10%等。频数经过分组后对我们了
解数据有什么作用呢?为了观察更直观,我们可以把频数做
成直方图(见 PPT 图 2-1)。直方图是分析数据、发现数据规
律非常有效的方式。在横轴上按 105、110、115、120、125、
130、135、140 等距离的进行标记,然后把每一个组里的次
数或是频数的多少作为纵轴或者说 Y 轴的标记,就得到一个
直方图。根据直方图就可以进一步对数据做出分析或判断:
这 50 个工人加工零件数类似于一个对称的分布,即两头小
中间大的分布。换句话说,就是 50 个工人中加工零件数在
120-125 这个区间的人数是最多的,这就是加工零件最适中、
最中间的数值;而加工最多的、效率很高的 130-140 这一
组的人数并不多;加工数量比较少的 105-110 件的人数也
比较少,两头小中间大,这就称作对称分布,统计专业术语
称之为类似于正态分布。如果一个数列是这样分布的,我们
就可以做出进一步的判断,即 50 个工人平均加工件数在 120
-125 这个区间。如果不是对称分布,我们就很难做出这样
的判断,这就是直方图的作用。如果我们把直方图的每一个
柱形的上端中点相连接,就变成折线图(PPT 图 2-2),同时
我假定直方图下面的面积之和为 1,我的问题是:直方图下
边的面积和折线图下边的面积是不是相等?答案是相等。因
为我们连接的是两个柱形的中点,在折线图外边的那个三角
形和里边的三角形的面积刚好是一样。利用这个性质,在以
后学习概率论时,就可以用曲线以下面积的一部分计算每一
个区间发生的概率。这里,还要给大家介绍一种利用计算机
画出来的图—箱线图(见 PPT 图 2-3),它是由一个盒子和两条
线段组成的图。作箱线图最重要的是找出一组数据的五个代
表性的数值,这个图就画出来了。这五个数值就是一组数据
的最大值、最小值、中间值和两个四分位数。中间值就是统
计中的中位数,即把数据从大到小排列,形成一个数列,如
果是单数项就是中间的那个数;如果是偶数项就是中间两个
数值的平均数。两个四分位数是指中间值和最大值之间的中
间值(上四分位数),以及中间值和最小值之间的中间值(下
四分位数)。中间值和两个四分位值把数据的个数四等分。
有了这五个数值,就很容易将一组数据的分布特征和特点用
箱线图表现出来。大家可以看到,这就是前面举例中的 50
个工人加工零件的箱线图(见 PPT 图 2-4),最大 139 件,最
小 107 件,中间值 123 件,在 123-139 之间的中间值是
128,即上四分位数。107-123 之间的中位数称为下四分位
数,是 ,-123 之间所包含的数据是 50 个数据
中的 1/4,即 12-13 个数据,107- 之间有 1/4 的数据。
箱线图的两条线段和盒子的两半分别表示四个区间, 50 个
数据落在每一个区间里的个数是相等的。熟练的人一看这个
图,就应该反映出背后的分布是正态分布,还是偏态分布?
我们也请大家来考虑一下不同的箱线图背后的分布态势是
什么样?算是一个思考题。那么,箱线图有什么用呢?我们
学习的目的是为了理解、分析图形背后的含义。举个例子:
从某大学经济管理专业二年级学生中随机抽取 11 人,分别
记录下每一名同学 8 门主要课程的考试成绩,就形成了演示
文稿中的列联表或者数据表(见 PPT 例 2∙2,表 2-2)。我们给
11 个同学每人一个编号,同时列出每个同学 8 门课程的考试
成绩,然后利用箱线图对这 11 个同学及 8 门课程做一个分
析。首先,用 Statistica 软件对 8 门课程绘出箱线图(见 PPT
图 2-5),横轴列出每门课程的名称;纵轴列出考试成绩,从
45 分到 100 分。大家看到这 8 个箱线图的形状是不一样的,
每一个箱线图的最高位置就表示这门课程的最高分,最下沿
就表示这门课程的最低分。箱线图上边、下边的两条线段和
箱线图中间的盒子的两个部分分别代表了四个区域,每一区
域里大概有三个学生的成绩(如果正好是 12 个同学的话,
就表示每一个区间里有 3 个同学的成绩)。现在请大家考虑,
这 8 门课程,哪门课程对同学们来说最容易?即同学们考试
的分数都比较高;哪门课程相对最难?有人说,西方经济学
和英语最容易。好,我们对这两门课程做一个比较。英语的
最高分比西方经济学高,而且是所有 8 门课程里最高的,英
语的最低分也是 8 门课程最低分里最高的,英语的平均分数,
即盒子中间的中位数的成绩也是 8 门课程中最高的。在盒子
的上沿,四分位数也是 8 个盒子上沿最高的,唯一一点是英
语盒子的下沿比西方经济学略低一点点。所以,从总体上看,
英语是最容易的。如果计算平均分,英语的平均分一定是最
高的。那么,哪门课程相对比较难呢?一个是统计学,另一
个是经济数学。比较一下,从所有成绩的最低分来看,经济
数学是最低的,但是经济数学的最高分也是所有成绩里面相
当高的(仅次于英语),再看它们盒子中间类似于平均成绩
的中位数,会发现统计学的中位数成绩偏低,所以,由此得
出统计学更难一点。另外,我们在判断一门课程出题好与不
好,按照教育统计或者说考试学的要求,这门课程的成绩一
定要服从正态分布。我们看基础会计就明显不是正态分布,
其中比较接近正态分布的是经济数学和财务。但是这个例题
数据量还是少了一些,只有 11 个。大家还可以进一步分析
这 8 门课程箱线图的其它特点。我们可以用同样的软件对 11
个同学 8 门课程的成绩做出 11 个箱线图(见 PPT 图 2-6),它
们的形状差别就很大了,有的比较短,也有的很长。按照现
在的高考标准,总分最高就能上好一些的学校,请大家考虑,
几号同学最有可能上好学校?答案是 2 号同学。因为他的箱
线图位置很高,而且最高分和最低分的距离很短,说明他不
偏科,各科成绩都很好,而且分数比较集中。再看 3 号同学,
最高分和最低分都是他,他的箱线图距离很长,这样的同学
可能在某一科目上表现出优势,而其它学科成绩就比较低。
高考按总分录取,3 号同学就不大容易考上很好的学校,但
是他很可能在某一学科上有潜质,我们的教育应该给 3 号同
学提供更多的发展空间。
关于对数据进行整理,还可以再看一些例子。这里搜集
整理了我国 1995-2005 年城镇居民和农村居民人均收入的
数据(见 PPT 例 2∙3,表 2-3,摘自国家统计局的统计年鉴)。如
果仅是把数据列在这儿,不太容易看出它们的发展变化规律。
现在,我们用 EXCEL 画图功能把这些数据表现出来,就会
看到变化。黄色代表农村居民家庭的人均收入,粉色代表城
镇居民家庭的人均收入。我们看到 1995-2005 年 11 年间,
城乡居民的收入差距越来越大,它有一点像张开的剪刀的口
子。由此可以更直观地看到我们国家过去十几年间城乡居民
家庭收入差距的变化,尽管农村居民家庭收入也在增加,但
是和城镇居民家庭收入的增长速度比较,还是太慢了。所以,
可据此判断城乡之间的差距不是减少了,而是扩大了。
再看另外一组数据,1978 年-2005 年我国城乡居民的恩
格尔系数(见 PPT 表 2-4)。什么是恩格尔系数?就是一个家
庭中用于吃的支出占总支出的百分比。我们看到,1978 年改
革开放之初,农村居民家庭的恩格尔系数是 %,即收入
的 2/3 还多一点都用来吃了,城乡居民家庭的恩格尔系数是
%,接近 60%。到 2005 年,恩格尔系数都下降了 20%以
上,农村居民家庭由 %降到了 45%,城镇降到了 %,
这反映出随着收入的增加、生活水平的提高,消费结构发生
了变化。经济越发达,恩格尔系数就越低,发达国家的恩格
尔系数在 10%左右,吃已经不是整个支出的主要部分了。我
们国家还处在发展中国家阶段,恩格尔系数还会不断地、持
续地下降。如果我们把上面的两列数据用折线图来描述,就
可以看到从改革开放之初的 1978 年到 2005 年,前后大概都
相差 20 个百分点,但是中间的变化,特别是农村居民家庭,
在 80 年代中期的时候,恩格尔系数降低的速度特别快,有
一段时间城市和农村的恩格尔系数已经非常接近了,但后来
差距又扩大了,这描述了我国自 80 年代改革开放以来的一
段历史。改革是从农村开始的,在 80 年代初期和中期,农
民的受益是比较明显的,但是到了 80 年代末特别是 90 年代
初期,改革的重点推向了城市,城市受益更多,而农民得到
的改革的益处相对少了。
我们还可以用统计数据画很多很多图,时间的关系,只
列出来了两、三个,让大家理解,统计图如果做得好的话,
是非常有效的。
下面谈谈统计表。
统计表是表现统计资料的最有效的形式,也是政府工作、
管理工作最基本的工具。好的统计表应该是简单、直观、一
目了然,可在短时间内给人以明确的概念。但是我们生活中
经常看到的报纸、杂志上的很多统计表都很不规范,所以,
我们介绍一下统计表最基本的要素,强调政府机关、工作部
门都应该作规范的统计表。一张规范的统计表首先要有表头,
表头一般应包括表号、表的标题和表中数据的单位等内容。
表号如 2-14,表明是第二章或第二部门的第 14 个表;标题
内容应表明统计数据的时间(When)、地点(Where)及数
据内容(What),即满足 3W 的要求;如果表中的数据是同
一个计量单位,可在表的右上角标明,若不同,可单列出一
列标明。再看这张表,是 1997-1998 年城镇居民家庭抽样
调查资料(见 PPT 表 2-5, 摘自 1999 年中国统计摘要),时
间有了,地点是我国城镇居民家庭,内容是家庭抽样调查资
料。第二,表中要有横(行标题)的或竖(列标题)的标题。
上表中的列标题是时间、项目等,行标题包括调查户数、每
户人口数等,后边蓝色的部分是表的主要数据内容。第三,
表的下方要加上注释,称为附加,标明资料来源,或者是自
己调查的,或者是引自年鉴、报刊,方便读者查阅使用。我
们还要特别强调编制统计表时应注意的几点规则:一是统计
表的左右两边不封口,通常只是上下两条粗横线,中间的其
它线要用细线,而且横、竖线越少越好;二是统计表中左上
角的单元格不能有斜线,真正规范的统计表中从不出现斜线,
大家可以从联合国或世界各国的年鉴、网上看一看统计部门
做出的规范的统计表。三是表中的数据一定要对齐,一般是
右对齐;没有数字的表格,一般用“-”表示,一张填好的统
计表不应该出现空白单元格。总之,统计表的设计应符合科
学、实用、简练、美观的要求。
下面我举几个不太规范的、错误的例子,让大家进一步
明确如何正确的使用统计表。首先,请大家看图左边的这部
分(见 PPT 第二章 31 页)。这是一个柱形图,想反映某高校
大学四个年级考试成绩得 A 的人数,大一、大二、大三、大
四的英文缩写分别为 FR、SO、JR、SR。柱形图给我们的感
觉好像是大一得 A 的人最多,大二得 A 的人最少,如果要相
信这个数据,可能得到这样的结论,即这个学校里大一的同
学素质比较高,大二相对来说弱一点。左边是用绝对数来做
的图,即用人数的多少。但有时用绝对数来表示可能会产生
误导,如果我们把四个年级得 A 的人数除以全部学生数,就
得到了右边的图,各年级得 A 的百分比,都是 25%,结论是
四个年级学生之间的成绩没有什么差异。如果用绝对数(左
边的图)就有可能得到有差异的信息。所以,比较上述两种
分析,应该选择用相对数做分析。
第二个例子是一个季节销售额的数据(见 PPT 第二章 32
页)。横轴是一季度、二季度、三季度、四季度;纵轴是以 100
为一个单位,可能是万元,也可能是 10 万元。左图给我们
的感觉是四个季度的销售额差别不大;同样的数据用右图表
示,也是四个季度的销售额,给我们的直观感觉是差别比较
大,即一至三季度销售额不断地增长,四季度下降。左右两
图的差别在哪儿?仅仅在于纵轴的单位标准。左图是用 100
作为一个单位,右图是用 25 作为一个单位。如果再用 10 作
为一个单位,大家设想会是什么样的结果?差距一定会更明
显。因而,我们在做图的时候,应该选择适当的标准和适当
的单位,否则就有可能会掩盖数据的差距,甚至是夸大数据
的差距。显然,以此题为例,如果要夸大数据的差距,就把
单位设的很小;如果要掩示数据的差距,就可以把单位选得
很大。而我们的目的是要把数据之间的差距客观公正地表述
出来,因此单位的选择非常重要。
再看一个例子,是 12 个月份的销售额资料(见 PPT 第
二章 33 页)。图中是 12 个月的销售额,分别用英文标识在
下面。左图给我们的感觉是月份的销售额之间变化非常之剧
烈,先增加,然后又降下来,六、七月份时非常低,年底又
非常高。请大家看这个图有一个明显的错误,就是纵轴没有
从 0 开始,这是我们画图时最忌讳的,纵轴一定要从 0 开始,
因为那是比较的原点,对照的基准点。如果从 0 开始把同样
的数据做分析,就可以得到右边的图。尽管 12 个月份之间
有一些差距,但是差距也不过是在 6-7 个单位之间,和整
体来比,变化并不显著。以上的几个例子告诉我们,用统计
图或统计表直观地反映数据变化的规律非常重要,但是如果
我们操作时不慎重就有可能会得到一些错误的结论。因而,
在此引用美国著名统计学家 Mosteller 的话:“要用统计骗人
是很容易的”。以上所举案例中的统计图有的是骗人的,如果
我们没有统计知识,就很容易上当受骗。所以,不管是作为
管理者,还是政策执行者,我们都应该掌握统计知识,用好
统计这个工具。
第三部分 统计决策
第二部分讲的是描述统计,我们非常简单地给大家介绍
了一些获得数据的方法,及对数据进行简单整理的方法,并
利用图和表把它们表示出来。第二部分还应包括计算数据的
主要的统计量,如均值和标准差等,由于时间关系没能展开
介绍。描述统计中搜集、整理数据和分析样本数据的目的在
于为决策提供依据,帮助我们进行决策。第三部分我们将讨
论统计决策的问题。
先看一个实例,这是某石油公司的决策。石油勘探是一
个高风险、高回报的行业,统计决策的方法在此类行业中都
有比较宽、比较广的用处。该石油公司掌握了一份石油开采
合同,公司有三种策略可以选择,第一,可以将合同卖掉;第
二,合同先不卖,观察一段时间,比如说一年以后再考虑把
它卖掉;第三,现在就可以进行采掘。
我们看三种策略的结果。
第一,现在把合同卖出去,它的市场价格为 125 万元。
第二,把合同留下来,一年以后再出售。这就要看一年
以后的油价是升还是降,如果油价升,估计合同能卖到 440
万;如果油价降,这个合同显然就卖不到现在的 125 万,估
计只能卖 110 万。同时还可以对一年以后油价升还是降做出
一个判断:油价升和降的概率分别为 10%和 90%,认为油价
升的概率小一点,油价降的可能性大一点。这个例子和现实
情况刚好相反,如果今天做未来一年的判断,相信多数人会
判断一年以后油价升的可能性大,油价降的可能性相对比较
小,因为上一年国际市场原油的价格波动剧烈,一桶原油的
最高价格接近 80 美元,最低降到 60 美元左右,现在大体维
持在这个水平。
第三,现在采掘。钻井的费用是 200 万元,打下去可能
发生的情况在讲稿 PPT3-2 中列出:首先,可能没有油,公
司搜集了自己几十年钻井的历史数据,如果历史很短,也可
以搜集别的石油公司的数据,比如说,一个石油公司可能打
了几千口井,大概有一半是没有油的,即打下去无油的可能
性是 50%,这个概率称为先验概率,通常是历史的数据;其次,
开采有油的可能性又是多少呢?是 40%,即打出一口一般的
油井,也就是比较正常情况下开采一口油井的回报率;另外还
有 10%的可能性是打出一口高产油井。注意这里概率为 50%、
40%、10%的前提是这个石油公司有历史数据。如果没有历
史数据,可以搜集其他石油公司或已经公布的一些数据,这
是因为在做决策判断时要把风险加以考虑。显然如果打的是
一口没油的井,报偿值即收益为 0;如果打出一口一般的油
井,按市场价值计算其未来的收益是 400 万元;如果打出一
口高产的自喷井是最好的,将有 1500 万元的收益。
这就是摆在我们面前的一个实际的统计决策的例子,我
们应该怎么办?现在把合同卖掉?一年以后卖?或现在采
掘?决策时首先应考虑哪个策略对我们来说收益比较大,还
要考虑其他的问题。这是我们一会要进一步讨论的问题,在
此之前,给大家介绍一下决策的三要素。
我们换一个比较简单的例子。来看讲稿 PPT3-3 的表格,
某木器厂对是否生产一种新型组合家具做出决策。影响这个
决策的不确定性因素有两个:即本市居民购买这种家具的户
数和全市居民户数。根据过去类似的销售资料,判断购买这
种新型组合家具的百分比有四种可能,这就是自然状态,是
决策的第一个要素。自然状态就是客观的面临决策的变化情
况,即城市中居民购买的百分比,叫做购买力,分别为 1%,
2%,3%和 4%。换句话说,最乐观的情况可能有 4%的家庭
购买这种组合家具;最悲观的、最不好的情况只有 1%;中
间还有 2%和 3%。决策的第二个要素是采取的策略,在这个
例子中,我们只有两种选择,对这种新型组合家具投产或者
不投产。第三个要素就是报偿值,当采取不同的策略,面对
着不同的自然状态,会有什么样的结果,这就是损失或者收
益的一个数值,我们把它叫做报偿值,也有的书上称为损益
值。
数据资料如下,如果投产且这个城市只有 1%的家庭购
买,我们就亏 60 个单位,假定每个单位是 1 万元,就是损
失 60 万元;如果只有 2%的家庭购买损失 20 万元;如果购
买的家庭比例上升到 3%有 20 万元的收入;最好的情况有
4%的家庭购买,那我们就有了 60 万的收益。如果不投产,
就没有损失也没有收益,都是 0,面对这样一个基本的数据、
最简单的例子,我们同样问一个问题:现在应该选择投产还
是不投产?我们做个分析,分别计算两种策略的收益值,给
决策者提供一个咨询或意见。面对四种不同的购买力,是不
是每一种发生的概率都相等呢?根据判断得出一个先验概
率,就是四个购买力发生的概率 Pi,购买力为 1%时,发生
这种情况的可能性或者概率为 20%;购买力为 2%时,发生
的可能性是 40%;购买力为 3%时,发生的可能性是 30%;
购买力为 4%时,发生的可能性是 10%。、、、
四个概率相加刚好为 1。特别注意,在决策、分析中如果谈
到概率,概率之和应该等于 1。
具体分析如下,这个城市比较小,只有 20 万户居民家
庭,每一套组合家具的销售净利润为 200 元,准备投产的生
产线的费用是 100 万,那么这个时候,我们就可以用讲稿
PPT3-4 上的公式计算平均收益,每一种报偿值是用 20 万乘
上购买力 Pi,再乘上每一套家具赚的 200 元钱,减去 100 万
元投产生产线的费用。把 1%带进去得到负 60 万,把 2%带
到公式里得到负 20 万,把 3%带进去是正 20 万,把 4%带进
去是正 60 万,有了报偿值表和以上分析,就能够算出平均
的收益,用四种情况的报偿值乘上事先给出的概率,即
(-60)()+(-20)()+(20)()+(60)() = - 8 (万元)
如果现在投产,平均来看,你是要赔钱的,平均赔 8 万
块钱;如果不投产,显然不会有损失,当然也没有收益。一
个是负 8,一个是 0,应该选择 0 不投产。这就是决策的三
个要素:自然状态、策略和报偿值。
再给大家介绍另外一种决策工具,叫做决策树。讲稿
PPT3-5 是组合家具的决策,完全像一个树杈一样,自然状态
用一个小的圆形表示,分了四杈就是 1%、2%、3%和 4%;
策略要素用一个小的矩形来表示,分出两杈投产和不投产;
最后是报偿值。如果投产用同样的方法计算:
(-60)()+(-20)()+(20)()+(60)() = - 8 (万元)
负 8 和 0 比较起来我们就会选择不投产。
刚才的例子我们换了一种方式,用决策树来分析,目的
是为分析后边复杂的问题做基础,决策树的方法非常简单、
直观、明了。
来看讲稿 PPT3-6,用决策树的方式对石油公司的决策做
出一个判断。前面提到石油公司手里有一份合同,面临三种
选择:
策略一,把合同卖掉立刻得到 125 万;
策略二,可以选择一年以后再卖掉,一年以后面临的自
然状况有两种可能性:如果是油价降,只能卖到 110 万,而
年利率为 10%,货币的现值与未来值是存在差异的,一年以
后的 110 万元只折合现在的 100 万
(110÷=100(万元));如果是油价升,得 440 万元,但把
利率考虑进去,只相当于今天的 400 万元(440÷=400(万
元))。决策时要把货币值统一,或者用未来值,或者用现值。
采取一年以后出售,按照现值计算平均收益为 130 万(100×
+400×=130(万元))。
策略三,现在开采,刚才的数据告诉我们,有 50%的概
率是没有油的;有 40%的概率打出一口有油井;有 10%的概
率是打出一口高产的自喷井。如果打出一口无油井,本身一
分钱收益没有,还要付出 200 万元的钻井费用,是负 200 万
元;如果是一口有油井,净收益为 200 万(400-200=200(万
元 )); 如 果 是 一 口 高 产 的 自 喷 井 , 净 收 益 1300 万
(1500-200=1300(万元))。如果现在开采,平均的收益为
110 万((-200)×+200×+1300×=110(万元))。
假定该石油公司决策的原则是货币收益最大,现在应该
怎么做?采取策略二,现在既不卖也不采,因为一年后的平
均收益最大,130 万大于 125 万也大于 110 万,当然这里的
数据差别不太显著。
有人可能会提出,130 万是有风险的,你现在把合同买
掉,一点风险都没有就可以赚到 125 万。对,这个很重要,
这就把风险和决策者的角色考虑进去了,我们稍后会有讨论。
通常石油公司合同很多、钻井很多,不太在乎这点风险,
石油公司采取该决策是有效的。但是如果这个事情不是石油
公司而是个人,假定我刚创办一个新的公司,这是拿到的第
一份合同,我想我就不会冒这个险,不如把它卖掉更稳妥。
但大家注意,高风险通常会有高回报,如果一年后出售,虽
然有风险也可能有高的回报,所以我们在决策时要把期望的
报偿和风险综合起来考虑,而不是简单地只考虑收益或风险,
这就是统计应用的目的。
下边,我们给大家介绍一种更实际也更复杂的决策,称
为贝叶斯逆概率决策。贝叶斯是 17 世纪中期的英国著名学
者、统计学家。他生前写了一篇非常著名的论文,提出两个
概念:先验的概率和样本的信息。先验概率是根据过去的经
验或主观判断而形成的对各自然状态的风险程度的测算值,
通俗地讲,就是凡是能够得到的有关的知识、信息、概率,
统统作为决策的参考。当然在做判断、决策的时候,除了先
验的概率,还要补充样本的信息,就是实践的调查信息,这
就是著名的贝叶斯逆公式。把这两个信息、两个概率、两个
知识融合到一起,得到一个后验概率,也就是真正做决策时
进行判断的一个概率。
把这个思想用到石油公司的例子里,再利用地震地质测
试搜集另外的数据,如讲稿 PPT3-7 表格所示,已知各种井
类型结构的条件概率,这是一个什么样的信息呢?表里边给
出的地震测试和地质结构所预报的井的类型有三种:地震和
地质预报的无油的结构、有油的结构和富油的结构。石油勘
探是一个非常复杂的过程,不是一次就能完成的,通常要经
过几个阶段:第一,勘探地质结构阶段;第二,地震测试阶
段;第三,打探井的阶段;第四,有石油开采合同的阶段。
中国在地质结构方面有一位著名的科学家,他对中国的
石油工业、地质事业做出了非常大的贡献,叫李四光。李四
光做的工作就是从地质的角度对石油做出一个判断,分析这
个地区的地质是有油、无油还是富油的结构。解放前,西方
的学者对中国做了很多的调查,预言中国是个贫油国,和中
东、西伯利亚、美国得克萨斯州、南美都没法比。李四光不
信,他跑遍了祖国的大江南北,从地质学的角度,认为中国
不应该是无油的、贫油的国家。他在西北做了很多的研究,
玉门油田、克拉玛依油田都凝聚了李四光还有我国很多石油
界先辈的研究成果。李四光更大的贡献是大庆油田,1959 年,
刚好是三年自然灾害、我国国民经济最困难的时候,李四光
经过勘探研究提出在东北平原上可能有油,国家集中石油队
伍在东北搞了大会战,就有了大庆油田。大庆油田一直保持
着稳产高产,基本上保证每一年有 5000 万吨的原油供给国
家,过去大约占国内石油产量的一半,现在也占到三分之一
左右。随着科学技术的不断发展,石油开采率也在不断提高,
一个油田的储油量,理论上只有 40%的原油可以采上来,现
在大庆油田采用了很多新的技术,如注水、化学试剂等方法,
有些油井已经可以将 60%或 70%的原油采出来。
最近我国有个大的喜讯,五一期间,在唐山附近渤海周
边发现了新油田,现在勘探的储量是 10 亿吨原油,这是我
国近 30 年最大的油田。这个地方曾经让外国著名的石油公
司做过勘探,但他们做了勘探、打了几口井,之后没有任何
发现。当时寄希望于深层的石油储量,没有想到这次勘探的
结果证明:石油所处位置是浅层的,大概只有 1800 米左右。
大约三分之二的存油在浅水,三分之一在岸上,很容易开采。
这对现在能源相对短缺的中国是一个非常大的喜讯。这一重
大发现是因为现在我们的勘探技术上了一个新的台阶。石油
勘探的第一个阶段是地质上的判断,有了地质判断有油的结
论,接下来就可以进行地震勘探,好比人体做 X 光,做 B 超
一样,给地质做切片,其基本原理是用一个大的发动机,过
去是用火药做一个小的地震,一旦有个地震就会产生地震波,
大家设想,地下 500 米是土层,500-1000 米是石层,1000 米
以上是水层或沙层,然后到油层,不同的地质结构对地震波
都有不同的反射波长,计算机接受后做出分析,过去是二维
分析,好比做 CT 检查,比较粗,现在是三维的非常细的勘
探,所以就发现了这个油田。
讲稿 PPT3-7 是刚才谈到的地质和地震两个测试的数据,
分别得出无油结构、有油结构和富油结构的结论。当地震地
质做出预报后,接下就钻井,打井不外乎三种情况:干井、
有油井和自喷井。在真正打出来的所有的干井里边,大家注
意第一行的数据,其中有 70%的概率是在地震和地质预报时
就说这个地方是无油结构,有 20%的概率是有油结构,也有
10%的概率预报说是富油结构;打出来有油的井里面,有 30%
的概率预报无油,40%的概率预报有油,30%的概率预报富
油的结构,这就是第二行三个概率的含义;第三行就是实际
打出来的自喷井里面,有 10%的概率预报无油的结构,30%
的概率预报有油的结构,60%的概率预报是富油的结构,这
就是把石油公司进行地震地质勘探的数据,目的是为决策提
供一些参考、咨询和帮助。
大家理解了这些数据,下面我们就用概率树做分析,讲
稿 PPT3-8 所示,实际打的井里边 50%是干井,40%是有油井,
10%是自喷井,这是在第一张幻灯片里的先验概率。打出来
的干井里预报无油结构是 70%,预报有油结构是 20%,预报
富油结构是 10%,用概率树最上面一支 ×=,×
=, × = ; 中 间 的 一 杈 × =, ×
=, ×=;第三个也是一样。大家看到中间的这
一列最右边的无油结构有三个,打出干井预报的无油结构是
,打出有油井预报的无油结构是 ,打出自喷井预报
的无油结构是 ,你把 、、 加起来是 。我
们稍微做一些变化,就得到了讲稿 PPT3-9 上的概率树,地
震地质预报无油结构总的概率是 ,就是讲稿 PPT3-8 上
的 ++,大家可以对照做计算。 是怎么出来
的?就是在预报无油结构条件下,如果还要钻井的话,钻出
干井的概率是 (÷=);÷=;
÷=;其他的依次这样计算出来。为什么叫做逆
概率?就是刚刚这两张幻灯片刚好是相反的,把前一个幻灯
片的尾巴的概率加起来,作为这张幻灯片的前面,这就叫逆
概率。
前面是预报的数据,现在是真正的结果,有了讲稿
PPT3-10 上的决策树就可以真正做决策了,这是一个更复杂
的决策。先看最左边,刚开始时如果没有考虑到地震地质的
信息,第一策略把合同卖掉,第二策略合同留下来一年后再
卖,第三策略现在进行开采,比较之后选择一个最优的策略
二。现在又多了一个策略,这个策略是说有合同别着急开采,
请一个地震队帮助我们对合同管辖的区域做一次勘探测试,
这个要花多少钱?做一次地震花 10 万元,如果做地震测试,
会预报三种可能,即无油结构、有油结构或富油结构。那地
震预报无油结构的概率是多少?是 ,这是利用历史数据
平均计算出来的,并不意味着你的这个合同一定是这样。判
断有 的可能性是无油结构,有 的可能性是有油结
构, 的可能性是富油结构。如果告诉你下面是无油结构,
你立刻就停下来,损失 10 万元,这是付给地震队的费用;
如果执意开采可以算出此时你有 的可能性钻出干窟窿,
你就亏 210 万,为什么?因为除了 10 万的地震测试还要花
200 万的钻井费用;打出有油井是 的概率,这时你的收
益是 190 万,400 万减去 200 万的钻井和 10 万的地震,依次
地计算,就会发现在已知是无油结构的前提下,你还要开采,
可能面临着 78 万的亏损。如果预报有油结构,你停下来亏 10
万;如果开采平均收益 165 万,这与刚才的计算是一样的。
如果预报是富油结构,你开采平均收益 390 万。进一步计算,
就得出做一次地震测试平均收益是 133 万(-10×+165×
+390×=130(万元))。石油公司将这个策略和一年之
后再出售的策略进行比较,应该选择请地震队测试,这就是
一个完整的石油勘探的例子。
大公司一般不在乎承担很大的风险,冀东油田的勘探打
了几百口井,有一半是干窟窿,但只要另一半的井出油,他
的收益就会不断地提高。大家刚才提到一个问题,这里面有
风险,不同的人对风险有不同的态度,对于个人来讲,小本
买卖又刚刚起步,一般来讲想尽量避免风险,免得刚刚贷款
有个一二百万,就全赔进去了,没有能力再继续。但作为石
油公司,资金雄厚,损失一点点,冒一点风险他们是不在乎
的,这就提出了一个新的决策中要考虑的问题,叫做效用理
论。
所谓效用理论是针对决策中的货币期望值而言的。石油
公司要打许多井,肯定会有出油的井甚至自喷井,他们不太
在乎比较小的风险,期望值的准则对公司比较适合。但如果
是个人或者一个刚刚起步的小公司,这时的风险对他们就可
能更重要,因为在不同的时候、不同的人对同样的货币收入
都有不同的效用。什么是效用?效用就是满足我们的程度,
或者说达到目的我们能够满足的程度,个人或公司在不同的
时刻效用是不一样的。学经济学都知道有一个基本的道理,
叫做边际效用递减。曾经讲过这样一个例子,如果我们非常
饥饿,比如说由于工作或特殊情况,已经一两天没有吃东西,
这时候,有卖馒头或面包的,五块钱一个,我们肚子很饿,
宁愿花五块钱买,买了一个面包吃下去后可能饱了一半,再
买第二个面包,怎么样?五块钱也许我们要考虑考虑了,第
二个面包对于满足你的饥饿,或者说它的效用比第一个就减
少了,如果吃了两个、三个面包,你已经基本饱了,这时侯
面包还卖五块钱一个,你肯定不会买了,因为下面一个面包
对于你的满足程度已经很小了,这说明边际效用递减在决策
中同样重要。货币的收益在不同的决策时刻对不同的人的效
用是不等的。
看讲稿 PPT3-12 的案例来理解效用和风险的问题。假定
有一个非常慷慨也非常富有的朋友,愿意资助一笔钱帮助你
创办企业,但你必须做出一个选择:
第一,掷一枚硬币,如果掷的是正面得 150 元,反面一分
钱也没有;
第二,不掷硬币,朋友给你 50 万元。
两种选择只能选择其中一个,是掷硬币还是不掷硬币得
50 万。很多人说得 50 万,但如果用货币平均收益最大的原
则来判断,应该选择掷硬币,因为掷硬币出现正面的概率是
50%,出现反面的概率是 50%,50%得 150 万,50%是 0,平
均收益是 75 万,第一个选择的平均收益大。但为什么我们
相当多的人不选择方案一,因为有风险,这就是在做决策时
不仅是简单的用货币收益最大原则,还要考虑风险的道理。
每个人在面临上面这个例子的时候,都有不同的选择,换句
话说,每个人都可以画出自己的一个效用函数。
讲稿 PPT3-13 画出某个人效用函数的曲线,比如说这就
是我,这张图表示什么含义?用刚才的例子,横轴从 0 到 150
万,1 个单位是 10 万,纵轴是效用,效用就是我的满足程度,
效用最大就是 1,即 100%,每一个单位是 10%的效用。看这
条曲线,本来有机会得 50 万或 150 万,结果一分钱没拿到,
我是最失望的,所以效用是 0;如果能够白得 10 万,从没钱
到白得 10 万,我就满足 30%了;如果有 50 万收益,大家看
到,我已经满足 70%多一点点了;如果能得 100 万,就有 95%
的满足程度了;如果再多,110 万、120 万直到 150 万,我
就 100%的满足了,这条曲线就好比抛物线一样,效用是递
减的,最开始得 10 万和最后得 10 万,满足程度是完全不一
样的,即:最开始得 10 万我能满足 30%,最后从 140 万再
增加到 150 万对我来讲只多一点点的满足。
根据讲稿 PPT3-14 中效用函数的四种类型,来分析决策
者对风险的不同态度。左上角的这张图是类似于刚刚我的那
种类型,象抛物线一样,把这种决策者称为保守的或者是回
避风险的人,为什么?因为他有一点点收入就满足了。刚才
的例子是选择掷硬币,还是不掷硬币直接得 50 万,一般人
肯定选择后者,因为得 50 万他就有 70%以上的满足程度,
所以他肯定不愿意冒险,多数的决策者都属于这种类型,比
较稳健、保守、不太愿意冒险。
右上边的这张图,跟左边完全相反,左边是个抛物线,
右上方红色区域是反过来的抛物线,我们称之为愿意冒险的
人,如果让这类人在刚才的第一方案和第二方案中间选择,
他们一定会选择掷硬币,因为他们的目的不在于得四五十万,
甚至也不在于得 100 万,而在于 150 万。为什么这么看?大
家看右上方,从没钱到有 50 万时,注意右上方红色的这个
区域纵轴很低很低,大概也就不到 10%;到 100 万为收益的
2/3 时,效用不过 1/3 左右,对这样的人,效用最显著的就是
从 130 万到 150 万,这类人就是喜欢冒险,希望能够有高回
报。
左下方第三种决策者是风险中立、风险适中的类型。他
的效用曲线是一条 45°左右的斜线,这类人对风险是适中的,
对收益也是比较麻木的,或者说,他们对金钱的态度比较冰
冷,为什么这么讲?可以看到,每增加一分钱他就增加一点
点的效用,最开始 1 万到 150 万对他来讲效用完全一样。今
天没有时间,否则会让大家做一个测试,在介绍这部分内容
之前,让你选择,你就会描述出自己属于哪种类型。第三种
决策者认为有钱就好,不管现在是穷得叮当乱响,还是富得
流油,多一分钱,就多一点好处,他对钱是一种冰冷的态度。
我们估且这样来形容。
右下方的这张图特别有意思。我们把这种叫做混合型,
为什么呢?这个人的决策曲线是这样的,左边一半是一个回
避风险的类型,到了右边一半又变成了冒险的类型。从没钱
到有个二三十万,对于这个决策者的效用增加的非常快,但
一旦有了三五十万,再增加货币的收益,他的效用基本不动,
他的下一目标是 150 万,只有到了 130 万、150 万的时侯,
他的效用才有明显的上升。也许他现在没钱,先有个三五十
万的开办费很重要,可能再得 100 万左右到 150 万才能干点
大的事业,因此,他关注的是没钱到有那么一些钱然后到有
更多的钱,这就是混合型,不同的决策者在不同的时间有可
能做这样的决策。
请大家考虑,这里我只画了一种混合的类型,还有没有
另一种混合,就是刚开始从没钱到有个三五十万效用增长很
不明显,而哪一段效用增长最显著呢?是中间这一段,就是
有个七八十万,从六七十万到 100 万对这个人的效用非常明
显,然后到了 100 万以上再增加的话,他的效用又不明显了,
刚好是这样的情况。在特定的情况下,这种混合也有可能。
例如我要创办一个企业需要七八十万,50 万对我来讲效用不
够,用处不太大,最关键的有 80 万的开办费,有了 80 万你
再给我,虽然对我有好处,但我不是很关心,就形成这个情
况。
实际的决策还可能有各种各样的变化,我们引入效用概
率、效用理论是想说明决策者在不同的时刻都是不一样的,
会根据特定的时间、特定的需要采取特定的、特殊的一种对
待风险的态度,我们如果能够描述出、勾画出决策者对风险
的态度,就能够找到针对不同风险态度的最好的策略。因而,
我们想说,统计决策的问题实际上是艺术而不是方法,尽管
我们在课堂上也可以给大家介绍若干种方法,但真正的、高
超的管理和政府的决策,要求决策者具有丰富的经验、及对
事物有准确的判断,该冒险的时候冒险,该稳健的时候稳健。
如果我们能够有每一个人的效用函数,如讲稿 PPT3-15 中决
策树下面的括号所示,就可以用效用函数做决策。
前面介绍了一些决策的方法,后面给大家介绍几个管理
中的对策或决策方法。这就是非常有名的几种博弈的理论,
博弈实际也是一种决策。
第一个决策叫做囚徒博弈(见讲稿 PPT3-16),叫做
Prisoner’s Dilemma,也译作囚徒的困境。一次纵火案后,警
察抓了两个犯罪嫌疑人,一个胖子一个瘦子。警察分别对他
们关押提审,并且交待了坦白从宽的政策,告诉他们:如果
两人都坦白,每个人入狱 3 年,判 3 年徒刑;如果都不坦白,
每个人只入狱 1 年,为什么?如果他们不坦白,警察所掌握
的证据不够充分,不能给他们严厉的判刑;如果一个坦白,
一个抵赖,那么按照政策,坦白者可免予处理立即释放,而
抗拒者、抵赖者关 5 年。面对这种囚徒的对策,只要犯罪嫌
疑人理智清楚,一定会选择坦白。
来看讲稿 PPT3-17 中的表格,胖子嫌疑人和瘦子嫌疑人
的策略都是坦白或抵赖。对于瘦贼,胖子的坦白或抵赖相当
于他的自然状态,他的策略就是坦白和抵赖,中间的数字就
是报偿值。两个人都坦白,各关三年;瘦子坦白,胖子抵赖,
胖子关五年,瘦子立刻释放;瘦子抵赖,胖子坦白,胖子立
刻释放,瘦子关五年;如果两个人都抵赖,各关一年。给大
家介绍一种决策的方法:向前展望,倒后推理。首先要想清
楚对方可能采取的策略,然后倒着找到对自己最有利的选择。
当胖贼被单独关押的时候,就会想:这瘦子是坦白还是抵赖?
如果瘦子坦白,我坦白关三年,抵赖关五年,我应该坦白;
如果瘦子抵赖,我坦白立刻释放,抵赖关一年。我该怎么选
择?还是坦白有利。瘦子想胖子也是同样的结果,所以如果
犯罪嫌疑人能够做这样的推理,都会选择坦白,这就是所谓
的囚徒困境。在这个例子里坦白对谁最有好处?对检查机关、
对警察有好处,警察破了案,当然对社会也有好处。
把这个例子引深到商业竞争中间,商业竞争中间的囚徒
两难对策就好比是价格战或广告战,两个企业做广告互相竞
争,或者打价格战互相降价,其实就好比是两个囚徒,刚才
我们说囚徒两难对策的赢家是检察机关、或警察、或社会,
而市场竞争中的价格战打起来,赢家、受惠者是消费者。企
业互相竞争降价,最后对消费者有好处。
看一个实例(见讲稿 PPT3-19),蒙牛和伊利是内蒙的两
个大的乳业企业,两个企业的产量大概占到全国乳制品产量
的一半。2005 年 12 月 28 日,“2005 年 CCTV 中国经济年度
人物颁奖典礼”第一位获奖者就是伊利集团的新帅、总裁潘刚,
当年伊利销售突破 100 亿元,并且成为 2008 奥运会乳制品
业唯一赞助商。伊利和蒙牛都在呼和浩特,都想赞助奥运会
从而获得利益和扩大企业的影响。1996 年亚特兰大奥运会伊
利雪糕就是奥运特许产品,营销非常成功。当时伊利的功臣
牛根生和孙先红后来都到了蒙牛公司。2004 年,蒙牛为每一
位国家队运动员配置了“牛奶套餐”,2005 年 9 月 1 日蒙牛也
宣布从当天起北京市的居民每购买一袋蒙牛牛奶,他们就为
奥运捐一分钱,在这之前蒙牛已捐了 1000 万。伊利也在呼
和浩特支持体育。双方都在为获得 2008 年奥运会的赞助做
着准备工作。两个企业正在慢慢的进入囚徒困境。
2005 年 10 月 9 日上午,呼和浩特市政府召开市长办公
会,把两家企业请过来劝他们退出,因为两家竞争压低价格,
最终呼和浩特市政府的税收减少,所以市政府建议两家一起
退出奥运赞助商的申请。在市政府的斡旋下,当天,牛根生
与潘刚在一份《关于退出北京奥运合作伙伴申请活动的函》
上签了字。没想到,奥组委在收到两家的退出申请函之后,
伊利又悄悄地送上去一份申请。在竞争中间,囚徒对策谁能
够坚持到最后谁就获利。类似的例子非常多,两个企业互相
降价,谁盯不住了,谁就失败;谁能挺过去、谁的资金比较
雄厚,谁就最终获利。蒙牛没有坚持住,在这个竞争中间伊
利获胜。当然伊利也不都是获胜的,大家知道,蒙牛推出的
一些新产品非常好,比如“特伦苏”就把一个特殊的品位引进
来,把欧洲的工艺引进来非常成功。
第二种决策方法叫做智猪博弈(见讲稿 PPT3-21)。一个
猪圈有两只猪,大猪和小猪。猪圈细长,在一头有个猪食槽,
下猪食的按钮在另一头。按一下按钮会有 10 两猪食掉进槽
里。由于按钮和食槽两头距离较远,按按钮要消耗体力约 2
两猪食。如果两只猪一起按,再回来一起吃,大猪可以吃到
7 两,小猪可以吃到 3 两,减去各自的 2 两消耗,大猪净收
益 5 两,小猪净收益 1 两;如果小猪去按,大猪等着吃可以
吃 9 两,因为它没动,净收益也是 9 两,小猪只能赶回来吃
到 1 两,减去 2 两消耗,净亏损 1 两;如果大猪去按,小猪
等着先吃可以吃到 3 两,大猪吃到 7 两,减去消耗,净收益
5 两;如果两只猪都不去按,猪食掉不下来,双方净收益都
是 0。两只猪都想多吃猪食,怎么进行决策?
用列联表分析双方有没有占优策略。刚才的例子,不管
胖子还是瘦子,都有一个占优策略——坦白。什么叫占优策
略?就是不管对方选择什么,你选择的这个最好,你就采取
这个策略。好,我们来看讲稿 PPT3-22,左边就是小猪按与
不按,上面是大猪按与不按,双方都按大猪吃 7 两减 2 两得
5 两,小猪吃 3 两减 2 两得 1 两,双方净收益一个是 5 两,
一个是 1 两,总的净收益是 6 两;如果大猪不按,小猪按,
大猪吃 9 两,小猪亏 1 两,总的净收益是 8 两;如果大猪按,
小猪不按,大猪净收益 5 两,小猪净收益 3 两,总的净收益
是 8 两;双方都不按,净收益为 0。大猪想,如果小猪按,
它就一定不按;如果小猪不按,它不按双方都没有猪食,它
要按,尽管不是他最好的策略,但他能够有净收益 5 两,因
此,大猪的策略是看小猪的选择。对于小猪,如果大猪按,
它一定不按;如果大猪不按,它还是不按,否则它不但消耗
体力而且收益还是负的,所以小猪最好的策略是等待。前面
的案例双方都有占优策略,而在这个例子中大猪没有占优策
略,小猪有占优策略,是耐心等待。
企业竞争中大猪相当于大企业,小猪相当于小企业,按
按钮相当于研发新产品或开辟新市场需要的付出,得到的好
处是带来销售的收入和利润。大企业资金雄厚生产销售能力
强,推出新产品后可以大量生产、进行广告宣传获得利润,
相当于大猪吃食能力强。在博弈双方力量不等的条件下,力
量强的大猪正确的策略是根据小猪或对手的策略做选择。而
力量弱的小猪正确的策略就是在企业竞争中间等待做好准
备,看准机会占领市场或者从大猪已经开发出的新产品、新
市场中间获得利益,小猪的占优策略就是跟随策略。我们都
知道在马拉松中有个最好的策略就是跟跑,有经验的运动员
紧跟住最前面的队员,别掉出第一方阵以保存体力,到了最
后几圈去冲刺。
引用哈耶克的一句话叫做“所有通往地狱的路,原先都是
准备上天堂的”。谁不想上天堂啊,但若有不慎没准就进了地
狱。
来看商业竞争中的实例,2004 年 5 月 18 日,广州,TCL
举行“启动中国大屏幕液晶电视新时代发布会”,国美、苏宁、
永乐等电器零售商全面下调大屏幕液晶电视的价格,降幅
30%左右。TCL 多媒体事业部总裁史万文对记者们说“今天标
志着中国大屏幕高品质液晶电视进入百姓家庭的序幕已经
徐徐拉开。”二、三线液晶企业坐卧不安。而当时液晶电视市
场的情况是:既有机会,也有很大风险。第一,当时市场总
容量偏低,单款产品难以形成可靠的利润空间;第二,成本
结构不稳定,存在着迅速降价的风险;第三,消费者对液晶
电视的认可度不高,需要厂商投入大量资源进行市场普及、
广告、宣传和开发。这个时候急于分得一杯羹的二、三线品
牌,即那些中小企业快速作出反应——液晶生产线尚不成熟,
行不行先建上;液晶面板等关键元器件价格不稳定,用不用
先囤上……,一切为了抢占市场先机。而 TCL 在开启了“液晶
彩电新时代”的宣传之后一年里,并没有立刻行动,只进行着
研发和布局。市场上活跃的全是二三线品牌的身影,投入了
大量的广告。他们扮演了先按按钮的小猪的角色。
在 2004 年,国内的液晶电视市场销量不足 20 万台,却
有 20 多个品牌和上百款产品。销量过 5000 台的品牌很少,
投入越大,亏损越大。2005 年初液晶电视市场已经被那些“小
猪”们的广告烧热,“大猪”们开始行动。TCL 以“银狐”和“薄
典”两大系列产品进攻市场,几个月市场占有率上升到 13%,
跃居当时的第一位;同时,长虹的“感官革命”、康佳的“大平
板、大娱乐”、创维的“六基色”等纷纷登场。
到了 2005 年 9 月,SVA、厦华等二线品牌市场份额比
原来减少了 20%,甚至更多,三线品牌彻底退出了市场。长
虹、海信、TCL、康佳、创维等大品牌瓜分了国内市场。这
就叫做“创新是创新者的墓志铭,跟随是跟随者的通行证。”
智猪博弈并不意味着小企业不能依靠创新而发展,而是
告诫小企业,应该尽量避免在进入门槛低、无法积累或者没
有核心竞争力的领域孤军奋战。1994 年的力帆、宗申尽管也
是小企业,但他们进军摩托车市场时就有了自己的发动机,
有了自己的知识产权;华为进军交换机时有了自己的知识产
权;皇明看中太阳能产业时,拥有大量业内领先的核心技术,
产品也稳居高端,因而利润率很高。
第三种决策方法叫做情侣博弈。博弈就是对策,市场竞
争、企业竞争中存在博弈,情侣之间有没有博弈呢?应该有。
张林和刘丽一对热恋的青年朋友,都很珍惜周六晚上的约会。
张林是球迷,周六晚上有一场球,如果两人都看球,对张林
收益是 2,对刘丽是 1,虽然刘丽不喜欢看球,但能和张林
在一起,对她还是有利的;刘丽更愿意去看她喜欢的歌星演
唱会,如果两人都去看演唱会,对刘丽收益是 2,对张林是
1,虽然不是张林喜欢的球赛,但能跟刘丽在一起也是挺满
足的;分开去看的话,虽然满足了自己但不能跟朋友在一起,
对两人都是 0。
来看讲稿 PPT3-30,我们重新梳理一下:张林和刘丽都
去看球,对张林是 2 对刘丽是 1;如果张林听歌刘丽去看球,
对两个人都不好是 0;如果张林去看球刘丽去听歌,同样是
0;如果两人都去听歌,刘丽是 2 张林是 1。张林和刘丽有没
有最优的策略,如果张林去看球,刘丽也应该看球;如果刘
丽听歌,张林也应该去听歌。看球、听歌显然对自己来讲有
1 有 2,双方都没有占优策略,决策的关键取决于两个人谁
能够说服谁。
商业竞争比这个要残酷的多,可能要用威胁和承诺等手
段。来看一个案例——默多克的威胁,默多克是出版大亨。
1994 年一个夏天,默多克在纽约办公室下了一道命令,说“在
Staten 岛,把我们《纽约邮报》的零售价格从 50 美分降到 25
美分,明天就执行!”。这时,他的助手,一位高级主管提醒
他:“如果把价格下降一半,对手肯定也要跟着降价,大家都
没有好下场。我们在伦敦的《泰晤士报》正跟《每日电讯》
打价格战,那边打价格这边再打,四处树敌很危险啊!”默多
克说“别问为什么,照我说的做吧”。几天后,就在众人纷纷
猜测《每日新闻》将跟着降价时,《每日新闻》却宣布:把
价格从 40 美分提高到 50 美分。
这个案例类似于情侣博弈。原来两份报纸的价格都是 40
美分,默多克认为要减少运营负担,报纸的零售价应该有所
提高,但如果自己涨,对手不涨,显然就会失去你的广告,
影响发行量。因而,最好的策略就是迫使对手一起涨价,相
当于张林说服刘丽一起看球。于是,《纽约邮报》率先采取
行动,把价格涨到 50 美分。这个时候,《每日新闻》并没有
理解,还是无动于衷,相当于刘丽不愿意看球,《纽约邮报》
开始流失一些订户和广告收入。价格战难免两败俱伤,所以
默多克采取了一个更激烈的行动,在局部地区采取降价行动,
给《每日新闻》一个信号,再不采取行动,我可要对你不客
气了,对方理解了默多克背后的意图,只好跟着涨价。双方
采取了行动,默多克的威胁生效了。
最后看看军事指挥博弈。来看讲稿 PPT3-33,你有两个
师,守备的敌方有三个师,双方作战时只能整师的调动。守备
城市有两条路防守,进攻时,只有当兵力超过对方才能取胜,
对方比你多一个师,而且处于守备有利地形,如果兵力相等
你要失败。推理告诉我们,双方胜负的概率是各一半。尽管
对方的兵力强,地势有利,但并不一定占优势,关键看我们
怎么决策、怎么布局。
敌人有四种部署:第一,把三个师都放在甲;第二,把两
个师放到甲的方向,一个师放在乙的方向;第三,把一个师放
在甲的方向,把两个师放在乙的方向;最后把三个师都在乙的
方向。我方有三种考虑:第一,把两个师都放在甲的方向上;
第二,把一个师在甲,一个师在乙;第三,把两个师都放在乙
的方向。
讲稿 PPT3-34 表格中列出决策的三个要素,ABCD 是敌
人的四个策略,abc 是我的三个策略。敌人的 ABCD 是我的
自然状态,中间的“+”“-”符号是报偿值。策略 A,敌人把三
个师都放在甲的方向。策略 a,我把两个师放在甲上,肯定
输,“+”表示敌方赢,“-”表示我输;策略 b,敌人把三个师都放
在甲,我一个师在甲一个师在乙,甲这儿肯定输,而乙那儿
敌人没兵力我肯定赢;策略 c,把两个师都放在乙,我一定
赢,因为敌人把兵力都部署到甲,留下乙这条空的道路,便
可以长驱直入占领这个城市。
同样,策略 B,敌人把两个师放甲一个师放乙。策略 a,
两师对两师我输;策略 b,一个师在甲一个师在乙我也输;
策略 c,我把两个师放在乙,而敌人在乙上放一个师,我赢。
在这种情况下,我有二个是输的。策略 C 是敌人一个师在甲
两个师在乙,我们也是一个“+”两个“-”。策略 D,敌人把三
个师都放到乙,我们只要在甲这放一个师或两个师都赢。
两边的红色区域表明如果敌人把三个师都放在甲或乙
(即策略 A 和 D),他是一个“+”两个“-”,所以敌人只会采取
策略 B 和 C。在我的三个行动里,策略 b 对敌人的策略 B
和 C 都会输,我只能采取策略 a 或 c。中间四个兰的区域表
明,尽管我比敌人少一个师并处于不利的位置,但获胜的概
率仍有 50%,这就是军事。
再来看这个案例——二战时期诺曼底战役的一个决策。
1944 年 6 月初,以艾森豪威尔将军为总司令的盟国军队,
准备横渡英吉利海峡, 在欧洲开辟第二战场。如讲稿 PPT3-36
所示,可供盟军登陆的地点有两个:一处是塞纳河东岸的布隆
涅-加来-敦刻尔克一带,这里最窄;另一处是塞纳河西岸的诺
曼底半岛,这里海面比较开阔,渡海时间较长,容易被发现。德
军西线总兵力有 58 个师, 主要部署在这两个地方。打仗的问
题是“参谋作计划, 司令下决心”。经过一年的准备,盟军计划
在 6 月 5 日早晨登陆,为什么选这个时间?因为这两天是海
的大潮,如果潮小,登陆艇进攻要多走很长的时间。如果大
潮,登陆艇就可以尽量地深入。一天内选择什么时间?陆军
建议早晨天蒙蒙亮时,因为这时敌人守防的火力点容易暴露。
6 月 5 日,整个英吉利海峡狂风暴雨,飞机、轰炸机、
运输机、船都没办法登陆。6 月 5 日晚上,天气预报告诉艾
森豪威尔 6 月 6 日早晨大概有几个小时的好天气,狂风暴雨
会稍微地停息几个小时,艾森豪威尔决定把登陆的时间放在
6 月 6 日的凌晨。如果 6 月 6 日不实施,就要等到下一次大
潮,因此,他冒着很大风险,留下一份东西说他为登陆失败
负全责,做好了最惨的准备。6 月 6 日凌晨 2、3 点钟,两千
多架飞机先对整个沿海一通狂轰滥炸,与此同时三个伞兵的
空降师降落在这,就是敦刻尔克,地图右下方是法国,左上
方是英国。箭头处是敦刻尔克,德军把比较主要的兵力布置
在最近的防御线一带,而实际的登陆点是在黑色的五个点,
犹他、奥马哈、金滩、朱诺和剑滩。
6 月 5 日,德军总司令隆美尔得到的信息是暴风雨还会
持续,他认为 6 月 6 日盟军不可能实施登陆计划,就开车回
家给太太过生日。前线的指挥离开,同时,盟军干扰他们的
信号。盟军凌晨开始猛攻,而希特勒得到消息时已是中午,
再调动军队为时已晚。从而开辟了二战的第二战场,从这里
开始向巴黎、柏林进攻,最终希特勒失败,这是一个非常重
要的战役。
最后请大家思考一个问题——博弈推理能力的测试。
年终老板论功行赏,给每个员工发一个信封,信封中放
一张扑克牌,扑克牌的数字是几,年终奖金就是几千元,比
如说 5 就是 5000 元,K 就是 13000 元,小王是 15000 元,大
王是 20000 元。每人的扑克牌数字不能告诉别人。如果你对
自己的奖金数额不满,可以拿出来进行交换,但交换前还是
不能让别人知道自己的扑克牌。看看咱们的推理能力,会有
多少人愿意交换?交换的结果是什么?
答案是没有。尽管可能有 3 或 4 个人愿意交换,但实际
上是交换不成的。原因是,拿“大王”的人心里乐滋滋的,他
一定不会换;拿“小王”的人一想,“大王”不换,我跟谁换,我
要拿出来一定换的比我小,“小王”不会换;K 不会换;Q 不会
换……拿大牌的人都不会换,而最愿意换的拿 1 的人,相互
换没有意义,根据推理证明无法实现交换。
这一部分给大家介绍了决策的三要素和几种决策方法。
决策的关键在于我们怎么分析,所谓知己知彼。在决策里知
己是自己的策略,知彼是自然状态,在自然状态和策略之间
分析我们获得的利与弊,取利最大和弊最小,另外还要考虑
占优策略的问题。决策需要知识、经验和判断,与其说决策
是一种科学的方法,不如说是一门艺术。希望大家在实践中
不断积累经验,灵活运用决策方法,对事物做出准确的判断
与决策。