管理定量分析方法
本科生课程
胡隆基
华中科技大学公共管理学院
hulongji@
华中科技大学公管学院胡隆基
第一讲:管理定量分析的性质与运用
华中科技大学公管学院胡隆基
友情提示
上课不要迟到。
上课不能使用手机。
上课不要睡觉。
上课不要在下面私聊,如有疑问或者有什么有意思的话题,请举手,大家一起来讨论、一起来分享。
华中科技大学公管学院胡隆基
本课程的参考书籍和软件
指定教材:
许晓东,《定量分析与方法》,华中科技大学出版社,2008年。
马庆国,《应用统计学:数理统计方法、数据获取与SPSS应用》(精要版),科学出版社,2005年版 。
参考书籍
盛骤、谢式千、潘承毅,概率论与数理统计(第二版),高等教育出版社,1994年。
吴冬友、杨玉坤,统计学,中国税务出版社,2005年
贾俊平,统计学,清华大学出版社,Springer出版社,2004
华中科技大学公管学院胡隆基
本课程所使用的软件是:
统计学SPSS ,(自己到华科在线用FTP搜索下载安装,或到电子市场购买)。
华中科技大学公管学院胡隆基
本讲主要内容
1课程性质与内容
2课程学习方法
3管理学研究和定量分析
4定量分析在管理实务中的应用
5本课程的日程安排
6本课程的考试方法
7课外作业
华中科技大学公管学院胡隆基
1 课程性质与内容
管理定量分析是一门工具性课程,主要讲授广泛应用于管理研究与管理实务中的各种定量分析工具,是一门应用性很强的课程。
管理定量分析主要包括两个领域:优化方法(或系统工程)与应用统计学。
由于学时和大家数学基础所限,本课程主要讲授应用统计学中的基础统计学,以及优化方法中的线性规划初步。
华中科技大学公管学院胡隆基
2 课程学习方法
1)不要试图去证明相关的定理,而是要懂得这些定理后面的逻辑或原理。
2)不要死记相关的计算公式和方法,而要懂得这些方法和公式后面的逻辑和适用条件。
3)也不要去手工计算,要学会用计算机去完成相关的计算工作。你的精力要集中在计算结果的解释,以及就结果对你研究的问题的意义进行判断。(注:为了熟悉原理而进行的简单计算例外)
“把证明留给数学家,把计算留给计算机,把原理与逻辑留给自己”
华中科技大学公管学院胡隆基
3 管理学研究与定量分析
3-1 梅奥的霍桑实验
3-2 定量分析在管理学研究中的地位
华中科技大学公管学院胡隆基
3-1 梅奥的霍桑实验
梅奥的霍桑实验(Hawthorne Experiments)中有关非正式组织的研究。
George Elton Mayo,1880-1949
华中科技大学公管学院胡隆基
目的是要证实在工人当中存在着一种非正式的组织,而且这种非正式的组织对工人的态度有着极其重要的影响
实验条件:(1)人员:14名男职工,其中9名绕线工,3名是焊接工,2名检验工;(2)计件工作制度。
实验结果:工人每天只完成了6000~6600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。为什么?
华中科技大学公管学院胡隆基
解释1:可能是这些工人的智力或者动作协调性有问题。研究测试结果否定了这一解释。
合理的解释:
工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。也就是工人会受到非正式组织的影响。
华中科技大学公管学院胡隆基
让我们总结一下该研究的研究过程
不支持
支持
提出假设
数据分析
假设成为一种假说,进而为理论
数据支持假设么?
理论研究(产生方式)2
通过实验或其他方式收集数据
华中科技大学公管学院胡隆基
3-2 定量分析在管理学研究中的地位
管理学研究的一般程序
(1)提出和形成问题
(2)文献综述
(3)假设的提出
(4)概念定义及其变量操作化
(5)数据收集
(6)数据分析
(7)结论及其分析
(8)研究报告写作
从上面可以看到,在(6)中定量分析具有重要的地位,它是数据分析的主要方法
华中科技大学公管学院胡隆基
4定量分析在管理实务中的应用
估计出租车数量(第二讲 数据收集、描述性统计与SPSS简单应用 )
华中科技大学公管学院胡隆基
估计某中濒危动物的数量(第三讲中的概率知识)
假设你是劳动人事局的项目评估人员,要对一项针对下岗职工的就业培训项目进行评估,你发现参加了这个培训项目的下岗职工中有60%找到了工作,而没参加这个项目的下岗职工中只有45%找到了工作.你如何对这项目的有效性加以评估?(第三讲,假设检验)
华中科技大学公管学院胡隆基
如何判断几个政府部门的绩效是否确实存在差异(第四讲方差分析)
华中科技大学公管学院胡隆基
如何估计盗窃数量?(第五讲 回归分析)
华中科技大学公管学院胡隆基
其他:
聚类:社会阶层的划分,经济区域的划分.红学中的作者研究
主成分分析:地区生产率的排序.制衣业中规格的确定
判别分析:信用等级判定,是否偷税漏税?企业是否会破产?
-----
华中科技大学公管学院胡隆基
5 本课程的日程安排
华中科技大学公管学院胡隆基
6 本课程的考试方法
考试方式:平时成绩10%+期终考试笔试70%+上机考试成绩20%。
华中科技大学公管学院胡隆基
7 课外作业
课外作业
1)随机找100个同学,让他们在O/V两个子母中任选一个(不要思考),并用纸笔记录下每个人的选择。
2)随机找100个同学,让他们从1-10十个数字任意选择一个数字(不要思考),并用纸笔记录下每个人的选择。
3) 结合教材预习第一章和第二章
华中科技大学公管学院胡隆基
第二讲 数据获取、描述性统计与SPSS简单应用
华中科技大学公管学院胡隆基
本讲内容
1 统计学的主要思想
2 数据获取
3 SPSS简单应用
4 单变量描述性统计
5 双变量数据整理
华中科技大学公管学院胡隆基
1 统计学的主要思想
1-1 随机性中的规律性
1-2 规律性中的随机性
1-3 概率(probability)
1-4 变量(Random Variable)
1-5 总体与样本(Population and Sample)
华中科技大学公管学院胡隆基
1-1 随机性中的规律性
1)随机性是指不能预测某一特定事件的结果。
2)规律性是指我们从许多随机事件中收集数据时发现的模式。
统计可以看着是对随机中的规律进行研究的学科。
华中科技大学公管学院胡隆基
1-2 规律性中的随机性
1)在进行统计观察的时候,大部分时候我们都得不到完全一模一样的观察结果。所以规律也表现出某中随机性,这是统计的一个重要的本质特征。
2)所以任何两次数据收集过程中,得到的结果一般都有差异。关键是这种差异是可以用数据本身的随机性进行解释,还是差异达到了无法用随机性进行解释?当两种规律的差异超出了随机性本身的范围的受,变化趋势就发生了。
所以统计也是对数据中的偏差问题进行研究的学科。统计把单独的、随机事件置于规律中,并揭示出其变化的趋势。
华中科技大学公管学院胡隆基
研究随机性和规律性的两个例子
1)20世纪50年代,小儿麻痹症育苗的研究。
138
20万
对照组(安慰剂)
56
20万
实验组(疫苗)
问题是:56和138之间的差别是否超过了随机性所能解释的范围。
华中科技大学公管学院胡隆基
2)1970,美国越战的征兵。
1
183
366
305
93
1/7
1/1
14/9
8/6
31/12
100
110
73
问题是:73和110之间的差别是否超过了随机性所能解释的范围。
华中科技大学公管学院胡隆基
思考题
拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?
华中科技大学公管学院胡隆基
1-3 概率(Probability)
在讨论随机性的时候,统计学的大部分内容根基于一个很重要的概念——概率。
概率是一个取值介于0到1之间的数,告诉我们某一特定的事件以多大的机会发生。
对于两个数字的差别是否超出了随机性本身所能解释的范围,我们可能永远无法肯定。但是我们可以确定,这种差别超出随机性能解释的范围发生的概率是大还是小。
华中科技大学公管学院胡隆基
1-4 变量(variable)
统计的又一块较大的基石是变量。变量简单的说就是事物的特征或者属性。
研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。
变量的值(value)通常是对某一个特定单位的度量,这种单位常常被视为一个个体(element)。什么是个体取决于你的研究问题。
华中科技大学公管学院胡隆基
思考题:指出下面研究中的变量、变量的值、个体是什么?
1)研究华中科技大学男生的身高和体重之间的关系。
2)研究武汉市居民对打的加收燃油税这项政策的满意程度。
3)统计湖北省个县市的工业生产总值。
华中科技大学公管学院胡隆基
1-5 总体与样本
参数:
统计量
华中科技大学公管学院胡隆基
思考题:请判别下面研究问题中的总体与个体是什么?
(1)如果你对华中科技大学女生的身高感兴趣,想研究下其分布。
(2)如果你想研究武汉市的高新技术企业的盈利情况。
华中科技大学公管学院胡隆基
总结一下
1)随机性和规律性是统计学的两个重要概念。规律性本身包含着随机性。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。
2)概率为我们从数据中得出结论提供了基础,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响。
3)变量可定义为一个特征或属性,我们的数据收集都是针对一个个变量进行的。
4)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信息进行推断。
华中科技大学公管学院胡隆基
2 数据收集
2-1 定义变量
2-2 变量的测量层次
2-3 观察数据—抽样调查:问题和可能性
2-4 问卷设计中常出现的问题
2-5 数据文件的格式
华中科技大学公管学院胡隆基
2-1 定义变量
数据收集的第一个工作,就是要清楚测量和收集什么。你要将你的研究问题转化为用变量的语言来描述,并且要对变量进行清楚的定义。
例如:思考一下,假设你想了解一个家庭孩子的数量,你设计的问题为:“在你家庭中有多少个孩子?”,该问题存在什么问题?
(C)
华中科技大学公管学院胡隆基
至少存在以下问题:
(1)孩子是否应该小于18周岁?
(2)孩子是仅仅指亲生子女,还是包括养子养女?过继的算不算?对于不和亲生父母生活在一起的孩子算不算?父母离了婚而共同抚养的孩子怎么算?
-----
所以要对“孩子”这个变量做清楚的界定。
思考:这个调查问题存在什么问题:
“请问贵企业的销售收入是多少?_______”
华中科技大学公管学院胡隆基
2-2 变量的测量层次
1)思考题:请回答以下收集到的数据,可以进行“<、>”,“+、—” ,“*,/”中的哪些运算?
(1)五个人的性别:1,0,0,1,1(1:男性;0:女性)
(2)五个人的身高:170,173,165,180,161(单位:厘米)
(3)七天的气温(摄氏温度℃):15,24,27,18,34,30,19。
(4)五个人对一项政策满意程度的评分:
5,3,3,4,2
(1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意)
华中科技大学公管学院胡隆基
2)按照数据适合的运算规则,统计学将数据(或变量)划分为四个层次:
(1)定类数据(nominal sale)(变量)。
它仅仅是一种标志,取数值仅仅是用以区分变量中的类型名称。不适合任何四则运算和大小运算。
(2)定序数据(ordinal scale)。
定序数据值能够比较大小,不能够做加减乘除运算,它表示一种次序。
华中科技大学公管学院胡隆基
(3)定距数据(interval scale)。
这类数据可以做大小比较以及加减运算,不能做乘除运算。数据之间的距离是相等的。其根本特征是,数据中的0不是物理客观存在的,而是人为设定的。例如:温度测量值就是定距。
(4)定比数据(ratio scale)。
定比数据是数据中最高层次的测度等级。这类数据可以做大小比较和加减运算外,还可以做乘除运算。这时的0值不是人为确定的,而是物理客观存在的。例如:人的身高数据、体重数据。
华中科技大学公管学院胡隆基
思考题:
1)我们用一个量表测量人们对一项法律的态度,如果1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_____数据。
2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为________数据。
3)测得5个人的第一次结婚年龄(单位:周岁)为:20、22、24、30和26,这些数据为_____数据。
华中科技大学公管学院胡隆基
注意三点:
1)SPSS中将定距数据和定比数据合并为一类,叫刻度级数据。所以SPSS的数据测量层次只有三种。
2)一项统计方法适合低级别的数据,也适用于高级别的数据。但反过来不成立。例如我们可以计算身高数据的均值,但不能计算五个人性别的均值。
3)在社会科学研究对定序数据的处理有两种方式:一是将其作为定类数据看待;另一是将其作为刻度级数据看待。
华中科技大学公管学院胡隆基
2-3 观察数据——抽样调查
定义:凡是在获得数据的过程中,不对被调查对象数据产生的条件施加任何控制所得到的数据,称为观察数据。
两种方式:普查与抽样调查。
普查(Census) :就是收集总体中的所有个体的数据。
抽样调查(Sampling):是在总体中选择出一个样本,然后对样本中的个体进行调查,从所了解的样本数据来推断总体情况。
华中科技大学公管学院胡隆基
抽样调查的优点:
(1)经济性。
(2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。
(3)准确性高。
抽样调查的一个原则: “确信锅里的汤被搅拌均匀”。
华中科技大学公管学院胡隆基
抽样调查的方法:概率抽样(Probability sampling)/非概率抽样(Nonprobability sampling)
概率抽样(Probability sampling)
(1)简单随机抽样(simple random sampling):
就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。
(2)分层抽样(Stratified sampling):
在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。
分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。
华中科技大学公管学院胡隆基
(3)等距离抽样(systematic sampling,系统抽样):
首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。
(4)整群抽样(Cluster sampling):
就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。
思考题:假如你要调查武汉市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?
华中科技大学公管学院胡隆基
非概率抽样(Nonprobability sampling)
(1)便利抽样(Convenience sampling):研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数据。
这种样本数据收集过程都加入了某中人为的干扰和选择,所以从方便样本中得出的结果对于总体信息的推论程度是有限的。
思考题:
有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。 请问这个样本能不能代表读者群总体?为什么?
华中科技大学公管学院胡隆基
(2)判断抽样(Judgment sampling):是指经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。
华中科技大学公管学院胡隆基
2-4收集观察数据过程中常出现的误差
两大类:
(1)未响应误差(nonresponse error)。没办法,现在的响应率确实太低了。据估计:一次好的电话调查,响应率85%—90%;一次邮寄调查的响应率很少有达到50%的;即使是名声比较好的调查组织的响应率也经常不超过60%。
华中科技大学公管学院胡隆基
(2)响应误差(response error)。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是它们实际上做的、感觉的或所想的。影响响应误差的因素很多,常常有:
(A)问卷的长度。
(B)问题的措词。要通俗易懂;要准确而不笼统;
避免双重否定形式的提问。
1992 Roper协会做的调查: “在你看来,’纳粹对犹太人的灭绝从未发生过’是可能的还是不可能的” (22%怀疑)
1994 “在你看来,’纳粹对犹太人的灭绝从未发生过’可能吗?还是你确信它发生过?” (1%)
华中科技大学公管学院胡隆基
避免诱导性提问
%
%
政府有责任
政府无责任
有些人认为每个人应该自己解决住房问题,而另一些人认为联邦政府应该确保所有的人民都有足够的住房。你认为哪一种意见与你的看法最接近?
两种观点,政府负责观点在后
%
%
政府有责任
政府无责任
有些人认为联邦政府应该确保所有的人民都有足够的住房,而另一些人认为每个人应该自己解决住房问题。你认为哪一种意见与你的看法最接近?
两种观点,政府负责观点在前
55%
45%
同意:政府有责任
不同意:政府无责任
你是否同意下述观点:联邦政府应该确保所有的人民都有足够的住房。
一方面的观点
华中科技大学公管学院胡隆基
(C)问题所在的位置。不要将敏感性问题放在问卷的前面,要结束调查时的问题要短且简单。
(D)调查员的影响。调查设计者要尽量让调查员和被调查者在人口统计特征上相近,如:年龄、性别、种族等。特别是在调查一些敏感问题时尤其如此。例如你要调查女性对化妆品的看法,找男性去就不合适。
华中科技大学公管学院胡隆基
最后要提醒大家的是:
(1)任何一种抽样程序的一个普遍困难是,很少有一份完全包括属于总体的所有个体的名单。即使存在这份名单,这份名单也往往是不完全的。
(2)要总是对你的数据采取一种怀疑态度,这样收集到的数据才可能尽量可靠
(3)仅仅使用观察数据来进行因果关系的判断是十分困难的。
华中科技大学公管学院胡隆基
2-5 数据文件的格式
3
5
1
38
3
2
6
1
27
2
3
3
0
20
1
态度
年收入(万元)
性别
年龄
个体编号
华中科技大学公管学院胡隆基
4 描述性统计
4-1样本数据的基本特征:频次和频率
4-2刻度级数据的数据结构:茎叶图和直方图
4-3 数据中心描述
4-4离散趋势描述:点描述和区间描述。
4-5 综合表述:箱形图
华中科技大学公管学院胡隆基
4-1样本数据的基本特征:
频次(Frequency)和频率(Percentage)
所谓频次就是一个特定数据值在整个数据集合中出现的次数。
频率就是某个特定数据值出现的频次与数据集合的数据总数之比。
一个延伸的概念是累积频率,当数据的测量层次在定序级以上时,设x1< x2 < …< xm ,是样本数据集合中的不重复的样本值(m≤n样本个数)。 若把样本值小于等于某个样本数据xi 的频率值,都累加起来,就得到“小于等于xi”的累积频率
思考题:累积频率适合于何种测量层次的数据???
华中科技大学公管学院胡隆基
条形图(Bar Chart)
华中科技大学公管学院胡隆基
女性结婚年龄
30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30, 33,30,31,26,29,25,24,31,46,23,26,24, 25,60,23,19, 34,25,27,25
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
饼状图 Pie Chart
1. 表示出总量的分类
2. 是表示相对差异的有效办法
3. 角度大小
360(百分数)
经济
10%
管理
25%
会计
65%
专业
(360°) (10%) = 36°
36
华中科技大学公管学院胡隆基
4-2茎叶图和直方图
1)茎叶图( Stem-and-Leaf displays)
把每一项观察分解为茎值和叶值
茎值确定组别
叶值确定频数
(计数)
Xi
华中科技大学公管学院胡隆基
结婚年龄 Stem-and-Leaf Plot
Frequency Stem & Leaf
1 . 9
2 . 223333444
2 . 5555667779999
3 . 00011334
3 . 7
4 . 0
Extremes (>=44)
Stem width:
Each leaf: 1 case(s)
1*10+9=19
华中科技大学公管学院胡隆基
2)直 方 图
Histogram
0
1
2
3
4
5
频数
频率
百分数
0 15 25 35 45 55
下界
柱条接触
计数
类别
频数
15 ~ 25
3
25 ~ 35
5
35 ~ 45
2
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
直方图的注意点
对于直方图的形状我们关心:(1)是否为单峰(unimodal)?如果是单峰的,则说明观测中只有一组是主要的;否则呢??(2)是否对称(symmetric)?
值得注意的是,有时候由于人为的构造,对同一个数据集的直方图会让人产生错觉。(1)区间的划分数目选择可能产生;(2)纵轴的刻度选择。
一般来说,区间划分数为5-10个比较好
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
直方图与茎叶图的区别:
直方图和茎叶图都用来展示刻度级的数据,茎叶图类似于横放的直方图。
但是直方图主要用于对原始数据进行分组后的展示,而茎叶图主要对于原始数据的展示。
同时,茎叶图既能给出数据的分布,又能给出每一个原始数据值,即保留了原始数据的信息。而直方图不能给出原始的数值。
注意:当变量的观测数很多的时候,茎叶图的效果就不太好了。
华中科技大学公管学院胡隆基
4-3 数据中心描述
常用的有三个:“样本中位数(Median)”、“样本众数(Mode)”和“样本均值(Mean)”。
中位数:就是将资料排序(从大到小,从小到大都可)后,居于中间位置的那个数称为中位数。用 表示。
当n为奇数的时候:
当n为偶数的时候:
华中科技大学公管学院胡隆基
众数、中位数与均值之间的区别:
1)一般来说,众数适合于定类数据;中位数适合于定序数据及其以上的数据;均值适合于样本均值;
2)中位数只与位置有关,它只利用了数据集中的少数几个数据(最多两个数据)的信息,对极端值不敏感。而均值则利用了数据集中所有数据的信息,极容易受到极端值的影响。
3)对于刻度级数据,很少用众数来代表其集中趋势的;如果存在极端值的时候,要用中位数来代表数据集的集中趋势。
华中科技大学公管学院胡隆基
思考题1:一般来说,最适合代表定类数据的集中趋势的是:______.
(A)中位数;( B)众数; (C)平均数; (D)方差。
2)6个人的身高数据为:173cm、173cm、178cm、176cm、171cm和226cm,请你选择代表这个数据集集中趋势,最适合的是:______.
A、中位数; B、众数; C、平均数; D、方差。
华中科技大学公管学院胡隆基
案例:估计一个城市的出租车数量
某城市的出租车数量少,某位统计学家等了几辆车,发现都是满载的。这位统计学家就怀疑这城市到底有多少出租车,以至于不够用。如何进行估计?
他开始记下满载的出租车号,依次为:405, 280, 73, 440, 179 。你如何根据这些资料推断这个城市的出租车数量?
上车一问该城市一共 550辆出租车。
华中科技大学公管学院胡隆基
图1:平均差距法
相对误差为(550 - 527) /550 =
华中科技大学公管学院胡隆基
图2:中位数法
(M+1)/2=280
也就是说 M=559,相对误差为:
( 559 - 550) /500 =
思考题:1)你还能想出其它方法吗?
2)我们这样做的时候有什么假设
华中科技大学公管学院胡隆基
其他方法:
利用均值。
华中科技大学公管学院胡隆基
4-4(1)离散趋势点描述
(1)极值
两个极值:最大值(Maximum)和最小值(Minimum)
适合于定序级以上的数据
(2)下四分点(lower quartile)与上四分点(upper quartile)
下四分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了25%的样本总个数,使其右边部分包含了75%的样本总个数。上四分点则刚好相反。
(3)上下十分位点(percentile)
下十分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了10%的样本总个数,使其右边部分包含了90%的样本总个数。上十分点则相反。
华中科技大学公管学院胡隆基
4-4(2)离散趋势区间描述
思考题:“区间描述”,适用于什么等级的数据?
1)极差(Range,也称为全距)
极差=极大值-极小值,用Rn表示
它反映了样本数据在数轴上的分布范围。
2.)四分位距(Interquartile range)
四分位距(Iqr)=Q3-Q1
它反映了样本数据集合中样本值处于中间大小的1/2的数据的分布范围。
华中科技大学公管学院胡隆基
全距和四份位距的适用范围。
思考题:请问下列两个数据集用全距来代表该数据集的离散趋势,适不适合?为什么?
A)72,70,68,74,75,65,69,71,73,74
Rn=75-65
B)96, 70,68,74,75,65,69,71,73,74
Rn=96-65=31
华中科技大学公管学院胡隆基
3) 样本离差(Deviations)与离差平方和(Sum of squared deviations)
样本离差被定义为每个样本与样本均值之差:xi - , i=1, 2, …, n
样本离差又称为样本中心化数据。
反映数据集对均值的总偏差指标:离差平方和。离差平方和被定义为:
华中科技大学公管学院胡隆基
4 )离散状况的统计值描述:样本方差(Sample variance)
s2=
为什么用离差平方和除以 ,而不是除以样本个数。
样本标准差(Standard Deviation)的定义是
S=
华中科技大学公管学院胡隆基
注意:
1)对于单峰对称分布的变量,有经验法则:
A)大约有68%的数据在均值的正负1个标准差的范围之内;
B)大约有95%的数据在均值的正负2个标准差的范围之内。(至少75%)
C) 大约有99%的数据在均值的正负3个标准差的范围之内。(至少89%)
(正负4,至少94%)
所以观察值的极差大致上等于4个标准差。
华中科技大学公管学院胡隆基
5) 变异系数
(CV, Coefficient of variation)
方差的缺点:受度量单位的影响。
所以定义样本变异系数定义为:样本标准差与样本均值之比:
CV经常作为金融研究中的投资风险度量指标。另外,CV还可以用于比较不同事物之间的离散程度比较。
华中科技大学公管学院胡隆基
例:两种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?
2
8
2
3
16
1
3
15
6
乙(%)
8
13
4
10
19
6
2
17
9
甲(%)
注意,两者的标准差相同:。但是
CV甲=%
CV乙=%
所以乙的风险较大。
华中科技大学公管学院胡隆基
6)标准得分
(Standardized Score)
37,29,68,30,26,28,25,65,28,33,32,45,42,17,42,32,36,21,24,28,32,24,24,45,24,49,28,22,32,28,36,21,30,23,37,24,30
30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30, 33,30,31,26,29,25,24,31,46,23,26,24, 25,60,23,19, 34,25,27,25
华中科技大学公管学院胡隆基
定义:一个原始值的标准得分,表示原始得分与均值的距离的新得分,这个得分用标准差为单位来衡量。
21
39
19
0
1
-1
华中科技大学公管学院胡隆基
假设男性结婚年龄的均值为,标准差为;同样可以求得,17岁的新郎的标准分为-。
所以,新郎的结婚年龄更反常。
思考题:如果变量的观测值是单峰对称分布,那么标准得分的值大部分(95%)在那个区间范围内??
华中科技大学公管学院胡隆基
4-5 综合表述:箱形图(Box Plots)
箱形图法是综合表达数据的中心特征和离散特征的图形方法。
极大值
极小值
下四份位点
上四份位点
中位数
刻度尺
华中科技大学公管学院胡隆基
5 双变量数据整理
列联表(Contingency table)/散点图(Scatter plot)
华中科技大学公管学院胡隆基
5-1 定性双变量
(Qualitative bivariate data)
常用列联表
例如抽烟习惯与心脏状况。
华中科技大学公管学院胡隆基
5-2 定量双变量
(Quantitative bivariate data)
常用散点图。
华中科技大学公管学院胡隆基
课外作业
1)找一张中文报纸和英文报纸,并从中随机挑选出150个句子(中文以“,”为标志),记录每个句子包含的字数(或叫长度)。
2)记录下这150个句子中每个汉字和英文字母出现的频次。
所有数据都要输入SPSS中
华中科技大学公管学院胡隆基
第三讲 概率论基础知识回顾
华中科技大学公管学院胡隆基
本讲内容
1 概率论发展简史
2 概率论专有名词
3 概率的含义
4 获得概率的基本方法
5 概率的加法法则
6 联合概率、条件概率和独立事件
7 贝叶斯公式
8 相关的概念——优势
9 离散变量的概率分布
10 连续变量的随机分布
华中科技大学公管学院胡隆基
1 概率论发展简史
1-1 概率论的起源
Pascal(1623~1662)
Fermat, (1601-1665)
1654年,赌金分配问题
华中科技大学公管学院胡隆基
赌金分配问题
梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,如何公平分配赌金??
华中科技大学公管学院胡隆基
起点
费马:
A、A
A、梅雷
梅雷、A
梅雷、梅雷
胜者
4
3
2
1
情况
帕斯卡尔:
华中科技大学公管学院胡隆基
1655年,荷兰数学家惠更斯 (Christopher Huygens) 访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写《骰子游戏》(Dice Game, 1657) 来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。提出了期望的概念。
1713年,瑞士数学家伯努利(Jacob Bernoulli,1654— 1705)出版了《猜度术》一书,提出了大数定理 。
华中科技大学公管学院胡隆基
1765年,法国数学家棣莫弗(,1667—1754)的《机会的学说》一书出版,1733年就发现了正态曲线,以及论述了不存在运气。
蒲丰(, 1707—1788)于1777年提出了投针问题的几何概率:h/n=(2r/∏).
-------------
1933年,俄罗斯数学家科尔莫戈罗夫(1903—1987)以德文出版的经典性著作《概率论基础》,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。
华中科技大学公管学院胡隆基
2 概率论专有名词
随机实验:满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币
基本事件:一次随机实验的可能结果,称为基本事件或者基本随机事件。
若随机实验E是“抛两次硬币”,其基本事件就是“+、—”,“+、+”,“—,—”,“—,+”。
样本空间:所有基本事件所组成的集合,称为样本空间或基本空间。
接上例,其样本空间就是集合{“+、—”,“+、+”,“—,—”,“—,+”}。
华中科技大学公管学院胡隆基
随机事件:
简称事件,指一些由基本事件所组成的集合。
例如,接上例,事件“两次出现相同面”,就有两个基本事件组成:+、+”,“—,—”。
不相容事件:
在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容事件
接上例,事件“两次同时出现正面”和“两次同时出现反面” 就是不相容事件。“至少出现一次正面”和“至少出现反面”就是两个相容事件
华中科技大学公管学院胡隆基
3概率的含义
概率是一个0到1之间的数,描述了一个事件发生的经常程度。小概率(接近于0)的事件很少发生,而大概率(接近于1)的事件则经常发生。
概率对统计的意义。对于统计,概率告诉我们,在样本数据的基础上,如果试验重复多次,各种结果发生的经常程度是多大。
.5
0
1
不可能
必然
华中科技大学公管学院胡隆基
4 获得概率的基本方法
4-1 利用等可能性事件
4-2 使用相对频率的方法
4-3 利用主观概率
华中科技大学公管学院胡隆基
4-1 利用等可能性事件
如果试验有n种可能的结果,使某特定事件出现的结果数量为k,那么(k/n)就是出现该事件的概率。
k
n
华中科技大学公管学院胡隆基
思考题:(1)一副扑克52张(大、小王去掉),洗均匀,随机取一张牌,那么该张牌是梅花的概率是多少?
华中科技大学公管学院胡隆基
要注意两点:
(1)分清楚你求解问题中什么是你的n,什么是你的k。
1992年11月8日:堕胎的女子是天主教徒的概率≠天主教徒女子堕胎的概率
(2) 其实我们在这样做的时候,就已经接受了两个前提假设:a)实验的可能结果是已知的;b)由于对称性,每一个结果的可能性都是相同的。往往这两个前提假设不一定满足.
华中科技大学公管学院胡隆基
思考题:再求以下问题的概率中,以上的哪个前提假设不满足:
1)一场赛马比赛,有6匹马,求某一匹马胜出的概率。
2)求解生男孩和女孩的概率
华中科技大学公管学院胡隆基
4-2 使用相对频率的方法
基于大量重复实验中某个特定事件出现的次数的比例接近于该事件的概率真值。
此时,概率是一个长期的比率,是长期观察某一事件的结果,这种概率的准确数值我们是永远得不到的,但是大量观察值使估计概率的数值(即相对频率)无限接近于真值。
华中科技大学公管学院胡隆基
14994
30000
Wiener
12012
24000
6019
12000
2048
4040
1061
2048
正面出现的频率
正面向上的次数
抛掷次数
试验者
华中科技大学公管学院胡隆基
4-3 利用主观概率
一次性事件的概率叫主观概率(subjective probability)
主观概率是贝叶斯(Bayes)统计推断的基础。
华中科技大学公管学院胡隆基
5 概率的加法法则
5-1概率的加法公式
5-2 概率计算的工具—联列表
5-3 加法法则示例
华中科技大学公管学院胡隆基
5-1 概率的加法公式( Addition Rule )
复合事件( Compound Event )的概率
2)P(A 或 B)= P(A B) = P(A) + P(B) - P(A B)
3)对于互斥事件: P(A 或 B)= P(A B) = P(A) + P(B)
A
B
A B
A
B
华中科技大学公管学院胡隆基
5-2 概率计算的工具—联列表
事件
事件
B
1
B
2
总计
A
1
P(A
1
B
1
)
P(A
1
B
2
)
P(A
1
)
A
2
P(A
2
B
1
)
P(A
2
B
2
)
P(A
2
)
总计
P(B
1
)
P(B
2
)
1
联合事件
Joint Probability
边际 (简单) 概率
Marginal (Simple) Probability
华中科技大学公管学院胡隆基
5-3 加法法则示例
复合事件: 抽一张牌. 注意种类, 颜色
颜色
类型
红
黑
总计
A牌
2
2
4
非A牌
24
24
48
总计
26
26
52
P(A牌 或者
黑色)
=
P(A牌)
+
P(黑色)
-
P(A牌
黑色)
∩
华中科技大学公管学院胡隆基
6 联合概率、条件概率和独立事件
6-1 联合概率、条件概率的定义
6-2 用联列表表示条件概率
6-3 用树形图表示条件概率
6-4 乘法公式和事件的独立性
6-5 事件独立性的应用
华中科技大学公管学院胡隆基
6-1 联合概率、条件概率的定义
联合概率就是两个事件A与B同时发生的概率,记为P(A∩B)。
条件概率:在B发生的条件下A发生的概率,就是B发生的条件下A发生的条件概率,记为P(A∣B)。
P(A∣B) =P(AB)/P(B)
B
A
假定出现B,排除所有其他结果
事件 (A 且 B)
B
华中科技大学公管学院胡隆基
6-2 用列联表表示条件概率
颜色
类型
红色
黑色
总计
A牌
2
2
4
非A牌
24
24
48
总计
26
26
52
条件事件: 抽一张牌. 注意种类, 颜色
修正后的样本空间
A牌
黑色
P(A牌 且 黑色)
黑色
华中科技大学公管学院胡隆基
6-3 树形图表示条件概率
P(FA)
P(FB┃A)
P(FB┃FA)
P(B┃FA)
P(B┃A)
P(A)
FA
A
B
FB
FB
B
(A∩B)
(A∩FB)
(FA∩B)
(FA∩FB)
华中科技大学公管学院胡隆基
例1:条件事件: 有14支蓝笔和6支红笔,从这20支选出两支钢笔,不可替换.
不独立!
蓝
红
蓝
红
蓝
红
P(红) = 6/20
P(红|红) = 5/19
P(蓝|红) = 14/19
P(蓝) = 14/20
P(红|蓝) = 6/19
P(蓝|蓝) = 13/19
华中科技大学公管学院胡隆基
6-4 乘法公式和事件的独立性
乘法公式:设 P(B)>0,有 P(AB)= P(A∣B) P(B)
一个事件的发生不会影响另一个事件的发生,就称这两个时间相互独立。两个事件A与B,如果P(A∣B)=P(A),则A与B为两个独立事件。此时P(AB)=P(A)P(B)。
两个事件独立的测试条件:
P(A | B) = P(A)
P(A 且 B) = P(A)*P(B)
华中科技大学公管学院胡隆基
6-5 事件独立性的应用
问:1)抽烟与肺癌是否为独立事件?
2)计算肺癌的概率,以及在抽烟的前提下肺癌的条件概率
1400
650
750
总数
600
450
150
不抽烟(FS)
800
200
600
抽烟(S)
是否抽烟
非肺癌患者(FC)
肺癌患者(C)
总数
是否患肺癌
例1:胸腔科医生根据1400名病患者资料,整理出了肺癌与抽烟的联列表资料:
华中科技大学公管学院胡隆基
P(S∩C)=600/1400≠
P(S)P(C)=800/1400*750/1400,所以,不是独立事件。
P(C)=75/140≈;
P(C|S)=P(S∩C)/P(S)=
(60/1400)/(80/140) ≈。
所以抽烟行为让你的肺癌概率大幅度提高。
华中科技大学公管学院胡隆基
例2(估计野生动物数量)。我们经常听到有关野生动物数量的报道,比如海洋中的鲸鱼的数量,问题是:我们是如何得到这些数字的??
华中科技大学公管学院胡隆基
方法1(标记法):
我们首先捕捉一批鲸鱼,假设100头,做上记号后放回去,过一段时间后我们再捕捉一批鲸鱼,假如有1000头,其中这次的1000头中有10头是有记号的,也就说有10头是前一次抓到的。
N
1000
总数
990
未捕捉到(FA)
100
90
10
捕捉到(A)
第一次捕捉
未捕捉到(FB)
捕捉到(B)
总数
第二次捕捉
由于两次的捕捉是独立的,所以有:
华中科技大学公管学院胡隆基
方法2(捕捉—捕捉法):
我们假设这一期捕捉了1000头鲸鱼,发现比上一次捕捉到的数目少了10%,假定鲸鱼被捕捉到的概率是固定的,同时两次捕捉期间没有鲸鱼出生和死亡。
我们仍然可以对鲸鱼的数目进行估计。
设前一期有 x条鲸,且鲸被捕的概率为 p,则这一期应有 (x—x*p)条鲸(不考虑自然死亡与新生的鲸),再由已知条件,得下列联立方程式
这一期原有的鲸鱼数就为:
那么,可求得
华中科技大学公管学院胡隆基
如果要你估计武汉市流浪儿童的数目、武汉市吸毒人数的数目、犯罪人数。以上两种解法对你有何启示??
华中科技大学公管学院胡隆基
7 贝叶斯定理( Bayes’ Theorem )
7-1 全概率公式
7-2 全概率公式的应用—敏感问题的答案
7-3 贝叶斯公式
7-4 贝叶斯公式的应用—艾滋病普查
华中科技大学公管学院胡隆基
7-1 全概率公式
假设样本空间为S,B1,B2,B3,---Bn为两两不相容的事件,且有:
B1∪B2 ∪B3∪ --- ∪ Bn =S
则对于任意事件A,下列公式成立,这就是全概率公式:
B1
B2
B3
B5
B4
A
华中科技大学公管学院胡隆基
7-2 全概率公式的应用—敏感问题的答案
1965年,Stanley L. Warner发现了一种应用全概率公式来得到敏感问题答案的方法。
实验:请大家抛一次硬币,如果硬币国徽面朝上则回答问题 a),如果是字面朝上则回答问题 b)。
问题a):
你学生证(或者学号)的最后一位数是奇数吗? 是/不是
问题b):
成为华科学生后,你是否曾非法买或卖过自行车?是/不是
华中科技大学公管学院胡隆基
定义下列事件:
A =回答“是”的学生;E1 =回答问题 a) 的学生;E2 =回答问题 b) 的学生
我们还可以得出: P(E1)=, P(E2)=, 和 P(A|E1)= (想一想为什么?)
我们想要知道P(A|E2),即回答第二个问题的学生中答“是”的概率。
因为事件E1和E2为互斥完备事件组,所以
P(A) = P(E1∩A) + P(E2∩A)
= P(A|E1)P(E1) + P(A|E2) P(E2)
=* + P(A|E2) *
我们如果知道了P(A) ,当然就知道了P(A|E2)
华中科技大学公管学院胡隆基
7-3 贝叶斯公式
新的信息
修正后概率
应用
贝叶斯定理
先前的概率
特别的,当将样本空间划分为两个事件 和
华中科技大学公管学院胡隆基
7-4贝叶斯公式的应用—艾滋病普查
确切的艾滋病病毒携带者的数目是不知道的,但是据估计为10-6。
假设艾滋病的检验方法—血液试验(ELISA,酶连接免疫吸附测定)。其检验精度为:一个艾滋病者,检验结果为阳性的概率为95%,也就是说假阴性的概率为5%;一个非艾滋病者,检验结果为阴性的概率为99%,即假阳性的概率为1%。
假若你做了血液实验且结果为阳性,你真正得了艾滋病的可能性有多大?
华中科技大学公管学院胡隆基
假设事件HIV代表一个随机选择的中国人患有艾滋病 ,事件FHIV代表一个随机选择的中国人未患有艾滋病 ;RP代表测试的反应为阳性。
(HIV∩RP)
(HIV∩FRP)
(FHIV∩FRP)
(FHIV∩RP)
HIV
FHIV
RP
FRP
RP
FRP
P(FHIV) = 1-10-6
P(HIV) = 10-6
P(RP|HIV) =
假阴性P(FRP|HIV) =
假阳性P(RP|FHIV) =
P(RP|FHIV) =
华中科技大学公管学院胡隆基
如何改进?
方法1:提高敏感度,
也就是降低假阴性的比率,希望真的有病的人实验结果呈阳性
华中科技大学公管学院胡隆基
(HIV∩RP)
(HIV∩FRP)
(FHIV∩FRP)
(FHIV∩RP)
HIV
FHIV
RP
FRP
RP
FRP
P(FHIV) = 1-10-6
P(HIV) = 10-6
P(RP|HIV) =
假阴性P(FRP|HIV) =
假阳性P(RP|FHIV) =
P(RP|FHIV) =
就假设提高到1,效果不大!
华中科技大学公管学院胡隆基
方法2:提高特异性。降低假阳性
华中科技大学公管学院胡隆基
(HIV∩RP)
(HIV∩FRP)
(FHIV∩FRP)
(FHIV∩RP)
HIV
FHIV
RP
FRP
RP
FRP
P(FHIV) = 1-10-6
P(HIV) = 10-6
P(RP|HIV) =
假阴性P(FRP|HIV) =
假阳性P(RP|FHIV) =
P(RP|FHIV) =
假设将假阳性降低为,结果也会不理想!!
华中科技大学公管学院胡隆基
方法3:提高发生率
华中科技大学公管学院胡隆基
(HIV∩RP)
(HIV∩FRP)
(FHIV∩FRP)
(FHIV∩RP)
HIV
FHIV
RP
FRP
RP
FRP
P(FHIV) = 1-10-6
P(HIV) = 10-6
P(RP|HIV) =
假阴性P(FRP|HIV) =
假阳性P(RP|FHIV) =
P(RP|FHIV) =
假设发生率提高为1/100,则为%!!
华中科技大学公管学院胡隆基
这就是为什么美国卫生官员在1986年3月,建议对处于感染艾滋病“高度危险”的美国人做重复的血液试验以决定他们是否感染上了这种病毒
华中科技大学公管学院胡隆基
8 相关的概念—优势/赔率
反对一个事件的优势是指,一个事件没发生的可能性与其发生的可能性的比较,它一般表示为整数之比。
悉尼成功的概率
=9/(4+9)=
200:1
巴西尼亚
66:1
伊斯坦布尔
16:1
柏林
10:3
曼彻斯特
5:2
北京
4:9
悉尼
优势
城市
华中科技大学公管学院胡隆基
赔率其实把优势反过来写。
1赔250
沙特
1赔200
中国
1赔7
英格兰
1赔7
巴西
2赔9
法国
2赔7
阿根廷
赔率
参赛队
华中科技大学公管学院胡隆基
9 离散变量的概率分布
9-1 二项分布
9-2 Poisson分布
华中科技大学公管学院胡隆基
9-1 二项分布(Binomial distribution)
---
1
0
0
0
0
1
1
0
0
1
1
1
0
0
抛100次硬币,观察正面朝上的结果,
1=国徽;0=数字
华中科技大学公管学院胡隆基
二项试验(Binomial experiment):
(1)一次试验的结果只有两种可能结果:成功(1)和失败(0);
(2)反复重复该试验n次;
(3)并且每次实验之间相互独立;
(4)每一次试验中的“成功”的概率皆相同,假设为p。
符合以上四个条件的随机试验就是二项试验。
如果用K表示n次试验中成功的次数,则我们称K为二项随机变量,记为:
华中科技大学公管学院胡隆基
二项分布公式
华中科技大学公管学院胡隆基
二项分布的运用举例
根据一项调查显示,我国大学生的近视的比例高达7成,如果这个比例是正确的话,则随机抽取10位大学生,问:
近视人数少于5人的概率是多少?
华中科技大学公管学院胡隆基
首先检查是不是二项试验。是的!
假设用X表示10人中近视的人数,则X~B(10,)
华中科技大学公管学院胡隆基
注意:当np>5,且n(1-p)>5时,二项分布近似服从正态分布。
华中科技大学公管学院胡隆基
9-2 Poisson分布
如果我们要求解,在特定的时间或者特定的空间内,某一特定事件发生特定次数的概率,我们就要借助于Poisson分布
华中科技大学公管学院胡隆基
Poisson分布举例
早上8点—9点,通过武汉长江大桥的车辆台数
晚上7:30-8:00,超市顾客到柜台结帐的人数
一个月内,武宜高速公路上发生车祸的人数
晚上10:00-11:00,华中科技大学校园内上网的人数。
楚天都市报一个版面中,错别字的个数
纺织厂生产的一捆布中,线头打结的个数
一桶哈根达斯冰淇淋,挖取一球,其中所含葡萄干的个数。
华中科技大学公管学院胡隆基
我们用 表示事件在特定的时间或者特定的空间内发生次数的均值,那么事件发生x次的概率可以用下面公式计算:
华中科技大学公管学院胡隆基
Poisson分布应用举例
依据过去一年的统计资料,资料显示武汉市电信局市内电话交换机在星期天晚间8:00-8:05时间段内,转接电话的平均数为10线。今天又是星期天。
(1)若用X表示今天晚上8:00-8:05时间段内交换机的转接电话线数,则X的概率函数形式是什么?
(2)上述时间内,电话少于4线的概率
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
例2 物流管理问题
某物流仓储管理中心,目前的设备只能处理4个货柜的到货量。如果一天的到货量超过4个,就必须转至其他的仓储中心。根据统计资料显示,平均每天到达的货柜数为3。
(1)每个营业日,它必须将货柜转送到其它仓储中心的概率是多少?
(2)为了使这个仓储中心每天处理货柜的服务率达到98%,需不需要增加设备?
华中科技大学公管学院胡隆基
假设用X表示每天到达的货柜数量
(1)
P(必须转送他处)=P(X>4)=1-P(X=<4)
=
100天中大概有18天会面对转送的情况
(2)目前的服务率=P(X=<4)=1-=,所以达不到98%。
查表可以知道,必须扩充设备直到能处理7个货柜。
华中科技大学公管学院胡隆基
问题3:求仓储中心每天处理的平均货柜数
Y=4
----
Y=4
X=4
Y=3
X=3
Y=2
X=2
Y=1
X=1
Y=0
X=0
处理量(Y)
到达的货柜数(X)
P(Y)
4
3
2
1
0
Y
E(Y)=
设备的平均利用率为E(Y)/4=%
华中科技大学公管学院胡隆基
10 连续变量概率分布
10-1 标准正态分布
10-2 t-分布
10-3 X2分布
10-4 F分布
华中科技大学公管学院胡隆基
10-1正态分布概率密度函数
Probability Density Function
f(X) = 随机变量 X 的密度函数
= ; e =
= 总体的标准差
X = 随机变量的值(- < X < )
= 总体的均值
当=0, =1时,就是标准正态分布
华中科技大学公管学院胡隆基
参数变化 ( 和 )
对分布图形的影响
X
f(X)
C
A
B
华中科技大学公管学院胡隆基
正态分布概率
Normal Distribution Probability
概率为分布曲线以下区域的面积!
c
d
X
f(X)
P
c
X
d
f
X
dx
c
d
(
)
(
)
?
华中科技大学公管学院胡隆基
正态分布的标准化
Standardized Normal Distribution
Z
= 0
z
= 1
Z
一 张 表 !
正态分布
标准正态分布
X
华中科技大学公管学院胡隆基
标准化示例
Standardizing Example
Z
Z
= 0
Z
= 1
.12
正态分布
标准正态分布
X
= 5
= 10
华中科技大学公管学院胡隆基
标准正态分布图像
0
-1
-2
-3
3
1
2
标准正态z
华中科技大学公管学院胡隆基
形象的理解标准正态分布
1
0
-1
-2
-3
3
1
2
华中科技大学公管学院胡隆基
计 算 概 率
Obtaining the Probability
附表1标准正态分布表(部分)
阴影部分经过
放大处理
Z
Z
= 0
Z
= 1
Z
0
1
.5000
.5040
.5080
.5398
.5438
.5793
.5832
.5871
.6179
.6217
.6255
2
.5478
概率
华中科技大学公管学院胡隆基
示 例
P( X 8)
z
= 0
Z
= 1
.30
Z
.21
正态分布
.5832
.6179
.0347
标准正态分布
阴影部分经过放大处理
Z
X
Z
X
7
1
5
10
21
8
5
10
30
.
.
.
= 5
= 10
8
X
华中科技大学公管学院胡隆基
正态分布思考题
试想您在通用电器公司的质量控制部门工作。灯泡寿命服从正态分布 = 2000 小时 = 200 小时。 灯泡寿命为以下值的概率为多少?
A. 2000 ~ 2400小时? B. 1470 小时以下?
华中科技大学公管学院胡隆基
题 解
P(2000 X 2400)
Z
Z
= 0
Z
= 1
正态分布
.9772
标准正态分布
Z
X
2400
2000
200
2
0
.
X
= 2000
= 200
2400
思考题:按此思路计算出该概率
华中科技大学公管学院胡隆基
题 解
P(X 1470)
Z
Z
= 0
Z
= 1
正态分布
.9960
.0040
标准正态分布
Z
X
1470
2000
200
2
65
.
X
= 2000
= 200
1470
华中科技大学公管学院胡隆基
根据左尾概率求Z值
Z
.00
.0000
.5040
.5080
.5398
.5438
.5478
.5793
.5832
.5871
.6179
.6255
Z
Z
= 0
Z
= 1
.31
.6217
.01
.6217
标准正态概率(部分)
给定P(Z) =
求Z=?
阴影部分经过放大处理
华中科技大学公管学院胡隆基
已知概率求X值
Z
Z
= 0
Z
= 1
.31
X
= 5
= 10
?
正态分布
标准正态分布
.6217
.6217
阴影部分经过放大处理
华中科技大学公管学院胡隆基
标准正态分布的一个主要作用是,找到某一个特别的值以及比它更极端的z值的概率。
例如:假设我们要问一个z=,它是否属于一个不常见的集合?
0
-1
-2
-3
3
1
2
华中科技大学公管学院胡隆基
10-2 t分布(学生) t 分布
Student’s t Distribution
钟形
对称
尾部较大
Z
t
0
t (df = 5)
标准正态
t (df = 13)
华中科技大学公管学院胡隆基
t分布不是一个单独分布,而是一族分布
1号桶
2号桶
3号桶
50号桶
标签编号等价于自由度
华中科技大学公管学院胡隆基
附表3 学生的 t 表
Student’s t Table
右端尾部区域
df
.75
.90
.95
1
2
3
t
0
假设: df= 2 =
P=1- =
t 值
p=1-
.05
华中科技大学公管学院胡隆基
10-3 X2分布
自由度为3的卡方分布
X2分布也是一族分布,桶的标签为自由度
2
4
6
8
10
华中科技大学公管学院胡隆基
10-4 F-分布
1
2
3
4
(1,9)
(4,40)
3,5号桶
2,50号桶
自由度为4和40的F分布
华中科技大学公管学院胡隆基
第四讲 置信区间估计
Confidence Interval Estimation
华中科技大学公管学院胡隆基
思考题
Thinking Challenge
假定你对本班学生 (总体) 手头现金的平均数量感兴趣, 你会怎样求出它呢?
如何估计人们打移动长途电话的平均通话时间?
如何估计武汉市每个月的公费医疗支出平均额?
如何估计华中科技大学拥有轿车的老师的比例?
华中科技大学公管学院胡隆基
统计方法
统计方法
统计描述
统计推断
估计
假设检验
华中科技大学公管学院胡隆基
本讲主要内容
均值
未知
置信区间
比例
已知
方差
华中科技大学公管学院胡隆基
1 区间估计的基本概念
1-1 估计过程
1-2 样本统计量
1-3 抽样分布
1-4 区间估计的概念
华中科技大学公管学院胡隆基
1-1 估计过程
均值是未知的
总体
随机样本
我有 95% 的把握认为 在40和60之间.
均值 = 50
华中科技大学公管学院胡隆基
1-2样本统计量
1-2-1 样本统计量的定义:简单的说,就是不含任何未知参数的样本的函数。
假设 是来自总体的一个样本,如果函数 中不含任何未知参数,则称 就是一个统计量。另外,
假设 是样本 相应的观察值,则称 为统计量
的观察值。
注意:样本统计量是个变量!是一个随机变量
华中科技大学公管学院胡隆基
最常用的两个样本统计量
(1)样本均值
(2)样本标准差
将作为估计用的样本统计量称为估计量(estimator)。将作为假设检验用的样本统计量称为检验量(tester)
华中科技大学公管学院胡隆基
样本统计量的示意表
S100=
-------
S2=
S1=
-------
43
(x5) 45
-------
(x5) 41
(x5) 43
X5
(x4) 38
-------
(x4) 42
(x4) 40
X4
(x3) 43
-------
(x3) 45
(x3) 47
X3
(x2) 47
------
(x2) 38
(x2) 46
X2
(x1) 46
-------
(x1) 49
(x1) 32
X1
第100次抽样
-------
第2次抽样
第1次抽样
样本
华中科技大学公管学院胡隆基
常见的总体参数和样本统计量
估计总体参数
均值
比例
p
p
s
方差
s
2
差异
1
2
1
2
相应样本统计量
华中科技大学公管学院胡隆基
1-3 抽样分布
1-3-1 抽样分布的定义:
样本统计量的概率分布就是我们所说的抽样分布。
例如:样本均值 的概率分布,样本方差S2(或标准差S)的概率分布。
华中科技大学公管学院胡隆基
思考题:
假设一个瓶中装有5个小球,分别编号为:3,6,9,12,15。 计算:
(1)球号的均值和方差
假设从瓶中先后随机的抽取出3个球,每次取球后不放回,计算:
(2)3个球号平均值的抽样分布,及其期望值与方差
华中科技大学公管学院胡隆基
1/5
1/5
1/5
1/5
1/5
15
12
9
6
3
华中科技大学公管学院胡隆基
(3,6,9)
(3,6,12)
(3,6,15)
(3,9,12)
(3,9,15)
(6,9,12)
(6,9,15)
(3,12,15)
(6,12,15)
(9,12,15)
6
7
8
9
10
11
12
样本空间
随机变量
1/10
1/10
2/10
2/10
2/10
1/10
1/10
12
11
10
9
8
7
6
华中科技大学公管学院胡隆基
可见:
华中科技大学公管学院胡隆基
的统计性质1
定理1:假设总体
,
为n个来自这个总体的随机样本,
为这n个样本的样本平均数,则:
(1)
(2)
定理1的适用条件有2个:
(1)总体为无限总体;
(2)总体如果是有限总体,但抽样的方式要采用放回方式进行。
华中科技大学公管学院胡隆基
定理2:有限总体,不放回抽样方式下定理1的修订:
假设总体 ,共有N个元素, 为
n个采取不放回方式抽取到的样本值(n<N),
为这n个样本的样本平均数,则:
(1) ;
(2)
华中科技大学公管学院胡隆基
定理3:中心极限定理
假设总体 , 为来自这
个总体的n个随机样本,
为这n个样本的样本平均数,当抽样数n足够大(30个就可以了)的时候,则:
为近似正态分布,且分布为 :
华中科技大学公管学院胡隆基
1-4 区间估计的概念
1-4-1 置信区间的定义
若总体分布含一个未知参数β(例如总体期望),找出了2个依赖于样本X1,X2,…, Xn的估计量(例如样本均值):
β1 (X1,X2,…, Xn) ≤β2 (X1,X2,…, Xn)
使
P(β1 <β <β2) = 1 - α
其中,(1-α)称为置信水平;随机区间(β1,β2)为β的(1-α)的置信区间。
华中科技大学公管学院胡隆基
置信区间
总体参数
β
置信边界 (下界)
β1 (X1,X2,…, Xn)
置信边界 (上界)
β2 (X1,X2,…, Xn)
随机区间覆盖总体参数的概率
华中科技大学公管学院胡隆基
注意:
(1)α 是我们事先给定的,0<α<1,α一般取或。
(2)置信区间是一个随机区间,因为样本统计量是个随机变量,但是一旦样本确定,它就是一个确定的区间。
(3)当我们确定了α(例如为),如果要求取置信区间,我们一定要找到一个样本统计量的抽样分布。
华中科技大学公管学院胡隆基
2 已知情况下的均值估计
均值
未知
置信区间
比例
已知
方差
华中科技大学公管学院胡隆基
2 -1 引例
假设我们想研究武汉市武昌区2006年下岗职工家庭的月平均收入为多少,
通过相关部门了解到,2006年该区有下岗职工家庭户12000户,其中月平均收入的方差为30。
用简单随机不重复抽样的方法,抽取120户做调查,得知月平均收入为600元,方差为40元。
问题:在95%的置信水平下,估计全区下岗职工家庭户的月平均收入的置信区间。
华中科技大学公管学院胡隆基
如何做???
按照置信区间的定义P(β1 <β <β2) = 1 - α
我们可以知道,要求得置信区间,必须知道:
(1)置信水平(1-α) ;
(2)样本统计量(一般来说,总体均值的估计量样本均值,总体方差的估计量就是样本方差);
(3)抽样分布。
华中科技大学公管学院胡隆基
题解:
假设武昌区下岗职工家庭月平均收入为u,抽取的120个下岗职工家庭的月平均收入为 。
的抽样分布,按照中心极限定理有:
华中科技大学公管学院胡隆基
要求:
等价于求:
只要能求出Z1和Z2,当然就能求出 和
由于Z属于标准正态分布,给定1-α,当然就可以利用标准正态分布表求出Z1和Z2
华中科技大学公管学院胡隆基
-Zα/2
Zα/2
α/2
α/2
Z
α/2=, Z1=/2=-, Z2= /2=
华中科技大学公管学院胡隆基
注意:
95%的置信区间为:
(1)该区间也常常写为:
估计量
估计量的
标准差
倍数Zα/2 ,置信区间决定
华中科技大学公管学院胡隆基
(2)它是一个随机区间,但是一旦样本确定下来,该区间就确定下来。
1000,10000个区间
(1 - ) 的区间包含 ;
不包含。
华中科技大学公管学院胡隆基
(3)区间长度:
可见,对一个总体来说,置信区间是由两个因素决定的:
L
Zα/2
Z
华中科技大学公管学院胡隆基
2-2 区间估计的几个步骤
任何区间估计的流程都是相同的,都遵循四个步骤
第一步:抽样。
从总体中抽出样本。
第二步:构建估计量(estimator)。
一般来说,总体均值的估计量样本均值,总体方差的估计量就是样本方差
第三步:找到估计量的抽样分布。
均值一般是Z分布和T分布,方差一般是卡方分布
第四步:依据抽样分布和置信水平
(1-α)计算出置信区间。
原理与找出完全相同
华中科技大学公管学院胡隆基
3 未知情况下的均值估计
均值
未知
置信区间
比例
方差
未知
华中科技大学公管学院胡隆基
3-1 引例
例:某电脑组装厂想估计一下组装一部电脑所需要的平均时间;
随机抽样记录了41台电脑的组装时间,计算出这41笔数据的平均数为 分钟,标准差S=分钟。
求:平均组装时间μ的98%的置信区间。
华中科技大学公管学院胡隆基
第一步:抽样。
第二步:构建估计量。
第三步:找到估计量的抽样分布。
第四步:依据抽样分布和置信水平(1-α)计算出置信区间。
X
x1,x2,---,xn
n=41
ũ=( x1+x2+---+xn)/n
ũ~N(μ,σ2/n)
以及标准化
第四步:计算出置信区间。
X~(μ,σ2)
华中科技大学公管学院胡隆基
未知!!
用s代替
t
.01
.95
(40)=
.01
华中科技大学公管学院胡隆基
另一种解法
将
代入上式可得:
由于样本容量n>30,所以依据t分布的正态近似,我们仍然可以认为:
华中科技大学公管学院胡隆基
思考题
移动电话公司为了制定国内长途分阶段定价的策略,当然要对人们的平均通话时间长度进行估计。
假设随机抽取并记录了10个电话的通话时间(单位:秒),为:210,620,860,1120,1810,940,730,1190,1070,320。可以计算得到:样本均值 ,s=。
(2)估计每个电话的平均通话时间的95%置信区间。
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
4 总体比例 估计
均值
未知
置信区间
比例
方差
未知
华中科技大学公管学院胡隆基
1
0
抽样
寻找估计量
估计量的抽样分布
依据抽样分布和置信水平(1-α)计算出置信区间
X ~ Bernoulli (p)
x1, x2, ---, xn
n>=30
∑xi=x1+ x2+---+xn
E(X)=P
D(X)=P(1-P)
=pq
华中科技大学公管学院胡隆基
例题
某地区卫生局想估计该地区死于恶性肿瘤的人口比率,随机抽样了1500个死因病历,发现其中有670位死于恶性肿瘤。
估计病人因恶性肿瘤死亡的比例的99%置信区间。
解:假设总体的比例为P,抽样步骤已经完成,下面的工作是找到统计量及其抽样分布。
估计量为样本比例
样本比例的抽样分布为
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
思考题
请你说出如何估计华中科技大学老师中拥有轿车的老师比例。
华中科技大学公管学院胡隆基
假设随机抽取了200个老师,其中有90个老师说自己拥有轿车。请估计:
拥有轿车的老师所占的比例的95%的置信区间。
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
5 区间估计注意
(1) 选取样本的时候一定要是随机抽样,不能是自选样本
(2 )如果我们的样本是整个总体(当然非常少见),就不需要求置信区间
(3)样本容量的问题
华中科技大学公管学院胡隆基
求样本容量(Sample Sizes)
华中科技大学公管学院胡隆基
思考题
Thinking Challenge
你在某公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。 你希望有 95% 置信度使得样本均值的误差在 RMB50 以内。
初期研究表明X 约为 RMB400。你将确定多大的样本容量?
华中科技大学公管学院胡隆基
样本容量题解
Sample Size Solution
n
Z
误差
2
2
2
2
2
2
(1
96)
(400)
(50)
245
86
246
.
.
华中科技大学公管学院胡隆基
课外习题
试着收集数据以估计华中科技大学东校区本科生以下的95%的置信区间:
(1)每晚7点—10点间上网的比例
(2)月生活费
(3)拥有自行车学生的比例
---
华中科技大学公管学院胡隆基
第五讲 假设检验
Hypothesis Testing
华中科技大学公管学院胡隆基
本讲主要内容
1. 引例
2.假设检验的基本步骤
3.假设检验的基本概念
4.单总体均值(含比例)的假设检验
5.两个正态总体检验
6.案例—圣经里真有密码吗?
华中科技大学公管学院胡隆基
1. 引例
华中科技大学公管学院胡隆基
引例1
假设有一个魔术师抛了10次硬币,每一次都是正面。我们要问这枚硬币是均匀的吗??
华中科技大学公管学院胡隆基
判断步骤
Y
N
1.作出假设。
硬币是均匀的
2.在前面的假设基础上,收集数据计算概率p。计算该事件出现的概率
p=(1/2)10=1/1024≈
3.判断:p<吗?
假设正确。
硬币是均匀的
假设错误。
硬币不均匀
华中科技大学公管学院胡隆基
美国越战征兵再回顾
1
183
366
305
93
1/7
1/1
14/9
8/6
31/12
100
110
73
华中科技大学公管学院胡隆基
求解步骤
Y
N
1、作出假设。
假设抽签是随机的
2、在前面的假设基础上,收集数据计算概率p。
计算该事件出现的概率:P=
3、判断:p<吗?
假设正确
抽签是随机的
假设错误
抽签不随机
华中科技大学公管学院胡隆基
思考题
假设一个办公室有10个员工,5男5女。
现在公司高层想从中选4个人出来组成一个委员会,调查办公室中与性别有关的问题。当然员工希望委员会的人员是随机选取的。选取结果出来了:
4人中全部是女性。
问:公司高层的这种选择是随机的吗?
华中科技大学公管学院胡隆基
Y
N
1、作出假设。
假设选取是随机的
2、在前面的假设基础上,收集数据计算概率p。计算该事件出现的概率:P=
3、判断:p<吗?
假设正确。
选取是随机的
假设错误。
选取非随机的
华中科技大学公管学院胡隆基
稍显不同的例题
X为产品质量的某种衡量指标,假设生产线的产出分布为X~N(μ,),公司产品的质量规格为40。
质管人员想检验生产线的稳定性如何,从生产线上随机抽取了4个样品: , , , 。
问:生产线稳定吗??
华中科技大学公管学院胡隆基
Y
N
1、做出假设。
假设是稳定的:μ=40
3、在前面的假设基础上,依据(样本)数据,计算出一个概率p。
3、判断:p<吗?
假设正确。
假设错误。
2、收集(样本)数据:
, , ,
N
如何求出一个概率P呢?
华中科技大学公管学院胡隆基
求概率P
华中科技大学公管学院胡隆基
2.假设检验的基本步骤
华中科技大学公管学院胡隆基
Y
N
1、做出假设。
3、在前面的假设基础上,依据(样本)数据,计算出一个概率p。
3判断:p<吗?
假设正确。
假设错误。
2、收集
(样本)数据
N
华中科技大学公管学院胡隆基
3.假设检验的基本概念
华中科技大学公管学院胡隆基
假设
假设就是我们有关事物状态或性质的一种判断陈述。
假设检验就是利用样本数据对我们的判断进行验证的过程。
统计学中有两类假设:零假设(H0)和备择假设(H1)。二者是对立的。
华中科技大学公管学院胡隆基
如何设置零假设
(1)将你想要拒绝的假设拟定为零假设,而将你想要证明的假设拟定为备择假设。
(2)在原有状况下的参数可能值拟定为零假设,而将某种情况下对参数所产生的改变拟定为对应假设。
(3)等号放在零假设。
华中科技大学公管学院胡隆基
在假设检验中,从逻辑上看,零假设是处于受保护的状态,我们不会轻易否定零假设
思考题:
1)如果法律采取无罪推定,法官在判案的时候,是将一个人有罪设为零假设还是无罪?
华中科技大学公管学院胡隆基
H0:此人无罪
H1:此人有罪
“罪疑惟轻,功疑惟重,与其杀不辜,宁失不经。”
—(宋)苏东坡在其《刑赏忠厚之至论》
华中科技大学公管学院胡隆基
思考题2):老师判定成绩时,是将一个学生不及格设置为零假设,还是将及格设置为零假设?
华中科技大学公管学院胡隆基
假设检验的类型
按照H1的形式不同
H1: μ>30
H1: p<
H0: p=
H0: μ≤30
H0: μ=60
H1: μ≠60
华中科技大学公管学院胡隆基
检验统计量
当一个统计量用到假设检验的时候,我们就叫它检验统计量。
均值检验、总体比例的检验一般是Z统计量和T统计量;方差检验是卡方统计量,两个方差是否相同是F统计量。
检验统计量其实是对样本数据的一种总结与综合
华中科技大学公管学院胡隆基
决策失误
第二类型错误(β错误)
决策正确
接受H0
决策正确
第一类型错误(α错误)
拒绝H0
H0为假
H0为真
总体参数的真实情况
检验的结果
思考题:结合法官判案和老师判卷的例子,说明第一类型错误和第二类型错误的含义。并说明哪一种错误更严重?
华中科技大学公管学院胡隆基
显著性水平α
α=P(拒绝H0|H0为真)
当我们将犯第一类型错误的概率控制在某一个特定值α一下的时候,我们称α为这个假设检验的显著性水平
华中科技大学公管学院胡隆基
决策规则
P>α:接受零假设
P<α:拒绝零假设
华中科技大学公管学院胡隆基
4、单总体均值(含比例)的假设检验
华中科技大学公管学院胡隆基
4-1 检验统计量的确定
总体标准差
是否已知?
样本容量n
否
是
z 检验
t 检验
小
z 检验
大
用样本标准差S代替σ
华中科技大学公管学院胡隆基
[解] 根据题意,可作如下的假设,并做双侧检验
H0:μ=2330元 H1:μ≠2330元
因α=,查正态分布表得Zα/2=,故否定域|Z|≥
计算检验统计量
Z= ≈
= =<1.96
所以,不能认为该单位人均月收入不是2330元,即不能
认为该统计报表有误。
[例] 某单位统计报表显示,人均月收入为2330元,为了验证该统计报表的正确性,作了共81人的抽样调查,样本人均月收入为2350元,标准差为150元,问能否说明该统计报表显示的人均收入的数字有误(取显著性水平α=)。
华中科技大学公管学院胡隆基
4-2 总体比例的检验
1. 假定条件:有两类结果;总体服从二项分布;可用正态分布来近似(要求大样本,np>5,n(1-p)>5)
2. 使用Z统计量
π0为假设的总体比例。分母为样本比例的抽样标准差,一般采用π0计算,也有人认为可以用样本比例p计算。
华中科技大学公管学院胡隆基
【例】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200个家庭,其中68个家庭拥有电脑。试问研究者的估计是否可信? (=)
华中科技大学公管学院胡隆基
解:已知:π0=,n=200,
提出假设:假定估计可信
H0: π=
H1: π
=双侧检验/2=
得临界值:=±
计算检验统计量值:
∵Z值落入接受域,∴在=的水平上接受H0
有证据表明研究者的估计可信
决策:
结论:
Z
0
拒绝 H0
拒绝 H0
得两个拒绝域:
(-∞,)和(,∞)
华中科技大学公管学院胡隆基
5两个正态总体检验
独立样本均值差异检验。可以进一步分为:
方差未知但方差相等(方差齐)
方差未知且方差不等(非齐次方差)
配对样本均值差异检验
华中科技大学公管学院胡隆基
注意:
所以,独立样本均值检验的时候首先要对两个总体的方差是否相同做检验。
SPSS把这个检验称之为Levene检验(Levene test for equality of variance)
华中科技大学公管学院胡隆基
5-1 独立样本均值差异检验
1988年7月28日的纽约时报上刊登了一篇有关人们地理知识的文章. 这篇文章中描述了一个研究结果. 研究者们从四个国家抽取许多成年人并请他们鉴别在一张地图上的16个地方(包括13个国家、中非、波斯湾和太平洋);然后把每个人答对的个数加起来.
四个国家的样本中答对的个数的均值如下:
美国 墨西哥
大不列颠 法国
华中科技大学公管学院胡隆基
平均来看,法国的回答者有可能在地图上找到的地方比其他三个国家的人要多.
美国 墨西哥
大不列颠 法国
几国答对个数的均值
这篇文章称“从统计显著性方面考虑,得分相差至少应在以上才算有差异.”
也就是说,样本均值的不同可能仅仅归于随机性. 仅当两样本均值相差在以上才认为两国均值是有差异的.
华中科技大学公管学院胡隆基
美国 墨西哥
大不列颠 法国
几国答对个
数的均值
我们来探讨墨西哥的总体均值是否等于美国的总体均值.
要检验的假设是:
我们用 表示墨西哥的总体均值,
用 表示美国的总体均值
华中科技大学公管学院胡隆基
取检验统计量
已知n1=1200, n2=1600,
计算得t 的实测值等于.
已知墨西哥的样本中有1200个观测,美国的样本中有1600个观测.
华中科技大学公管学院胡隆基
计算检验的p值.
用计算机上软件可求得
p值=P(|t |>)≈
于是我们认为墨西哥和美国两个总体均值差异不是0.
华中科技大学公管学院胡隆基
5-2 配对样本(Paired Sample)
与简单t检验类似
华中科技大学公管学院胡隆基
6. 案例—圣经里真有密码吗?
华中科技大学公管学院胡隆基
引言
华中科技大学公管学院胡隆基
《推背图》
华中科技大学公管学院胡隆基
《推背图》
华中科技大学公管学院胡隆基
论战起源
华中科技大学公管学院胡隆基
1994年8月,魏茨滕 、芮普斯及罗森博格在期刊《Statistical Science》中发表了一篇名为《圣经创世记里的等距字母序列》的论文(以下简称魏文)。
“Equidistant Letter Sequences in the Book of Genesis”, Statistical Science, 429-438
华中科技大学公管学院胡隆基
等距字母序列(ELS)
早期的ELS
STSFGLOHAKEROLTOEIOPNOUAHEIVLSDOTNKEHALOMPHKEROFHARTRNYPMNALEONDDJGALF
华中科技大学公管学院胡隆基
等距字母序列(ELS) (续)
“创世纪”第三十一章第二十八节为例子
And hast not suffered me to kiss my sons and my daughters?
Thou hast now done foolishly in so doing.
(又不容我与外孙和女儿告别,你所行的真是愚昧!)
我们先把空格和标点符号去掉,合并成字符串:
AndhastnotsufferedmetokissmysonsandmydaughtersThouhastnowdonefoolishlyinsodoing
物理学家托马斯(David Thomas)以英王钦定版(King James Version)
华中科技大学公管学院胡隆基
等距字母序列(ELS) (續)
AndhastnotsufferedmetokissmysonsandmydaughtersThouhastnowdonefoolishlyinsodoing
ROSWELL
从 ”daughters” 的r 开始,跳过三个字母
AndhastnotsufferedmetokissmysonsandmydaughtersThouhastnowdonefoolishlyinsodoing
UFO
华中科技大学公管学院胡隆基
提出假设
思考题:魏文是想要证明创世纪中的三十二位拉比的名字与他们出生死亡日期的ELS 的排列不是偶然的。那么魏茨滕 、芮普斯及罗森博格应该如何设置他们的假设???
华中科技大学公管学院胡隆基
HO:三十二位教士的名字与他们出生死亡日期的 排列是偶然的
H1:三十二位教士的名字与他们出生死亡日期的排列并不是偶然的
华中科技大学公管学院胡隆基
魏文的拉比(Rabbi)实验
(A)选取样本
将希伯来文的创世纪排成无空隙的一长串
L=78,064 字 G=g1……gL
从 Encyclopaedia of Great Men in Israel (9世纪至18世纪末)选出32位 Rabbi
定义:xi=名字;yi=出生、死亡日期
华中科技大学公管学院胡隆基
魏文的拉比(Rabbi)实验
(B)定义距离—设置检验统计量
对一个二维度的字符串(xi , yi)定义一个距离c (xi , yi),目的在于将资料定量化
魏文找到了一个距离,但是公式复杂、抽象,用一个类似的例子来说明
假设现在有8对夫妇共16个人,我们姑且用数学上的数对符号(X1,Y1),(X2,Y2),(X3,Y3),---,(X8,Y8)来称呼他们,亦即,X1 和Y1 是夫妇,X2 和Y2 是夫妇,以此类推,排成两排吃饭。其中第一排坐先生,第二排坐太太,且假定先生的位置依次坐下,而太太们的作为可以改变。假设他们的排列次序(P1)如下
华中科技大学公管学院胡隆基
我们就可以定义这个特定排列P1的距离为:
D(P1)= | 1-7| + | 2-4| + |3-2| + |4-8| + |5-6| + |6 -3| + |7-5| + |8-1| = 26
Y1
Y5
Y3
Y6
Y8
Y2
Y4
Y7
X8
X7
X6
X5
X4
X3
X2
X1
8
7
6
5
4
3
2
1
固定
华中科技大学公管学院胡隆基
共有 8! = 40320 种方法,距离的可能值为:{ 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32}共有17种,
这些距离值在 8! 中出现的次数分别为{1, 7, 33, 115, 327, 765, 1523, 2553, 3696, 4852, 5708, 5892, 5452, 4212, 2844, 764, 576} 。
所以可以算出得到某一距离值的频率,例如距离值为 2 的频率是 7/40320 = ,距离值为 32 的频率是 576/40320 = 。也可以画出其分布图。
华中科技大学公管学院胡隆基
分布图
华中科技大学公管学院胡隆基
魏文中拉比实验的距离试验(1)
魏文一共选择了32位拉比,那么其排列方式就有 32! 种,32!》1030。如果用世界上最快的计算机(每秒万亿次)来计算,需要---年
不可能完成,如何办???
华中科技大学公管学院胡隆基
拉比实验的距离试验(2)
利用统计学的抽样。利用电脑通过“简单随机抽样”方式进行,分别抽取2万,10万,100万个样本。将样本中的距离值用条形图的方式表示出来。就得到后面的三个图
华中科技大学公管学院胡隆基
【图1】样本数为2万个的条形图,图中1%的位置为距离值252,5%的位置为距离值278,50%的位置为距离值342,95%的位置为距离值404,99%的位置为距离值428,%的位置为距离值452
1%
5%
%
华中科技大学公管学院胡隆基
【图2】样本数为10万个的长条图,图中1%的位置为距离值252,5%的位置为距离值278,50%的位置为距离值342,95%的位置为距离值402,99%的位置为距离值426,%的位置为距离值454。
华中科技大学公管学院胡隆基
【图3】样本数为100万个的长条图,图中1%的位置为距离值252,5%的位置为距离值278,50%的位置为距离值342,95%的位置为距离值402,99%的位置为距离值426,%的位置为距离值454。
华中科技大学公管学院胡隆基
从【图1】至【图3】可以看出95%以上的距离小于 402,99%以上的距离小于 426,而距离超过 454的机率不会大于。
魏茨滕等人的文章中说明,若以他们所定义的距离去计算那三十二位犹太教士,有关名字和生日的相关排列位置,其结果是应该拒绝 H0,而且其 P 值均远低于(实际上为),
也就是说,那三十二位犹太教士的名字及生日的排列,「铁定」是不寻常的。
华中科技大学公管学院胡隆基
战争与和平(War and Peace)
对照实验
实验结果不显著
Leo Tolstoy
华中科技大学公管学院胡隆基
密码盛行
华中科技大学公管学院胡隆基
1997年5月28日,The New York Times 全页广告
The Bible Code (圣经密码)
作者:Michael Drosnin (卓思宁)
(前华盛顿邮报,华尔街日报记者)
“根据密码显示,拉宾的名字和暗杀连在一起” (1994年9月给拉宾信,1995年11月拉宾死于刺客之下)
期刊、数学家证明了密码的存在。(同行审核的)
摩西五经(创世记、出埃及记、利未记、民数记、申命记)都发现藏有圣经密码
华中科技大学公管学院胡隆基
论战初起
华中科技大学公管学院胡隆基
是有东西在,可是是密码吗?对立假设是什么呢?( H1:三十二位教士的名字与他们出生死亡日期的排列并不是偶然的)
批评:
(1)Rips 认为数学家的反应: . Ramsey定理--宴会问题,完全的无秩序是不可能的
战争与和平、白鲸记用相同的方法也藏有密码
华中科技大学公管学院胡隆基
批评(1)——同门相残
不能预测,有些“翻译”的密码统计意义不显著
华中科技大学公管学院胡隆基
数学家的反应—Ramsey定理
Frank Plumpton Ramsey
(1903-1930)
Paul Erdös
(1913-1996)
华中科技大学公管学院胡隆基
Ramsey定理说 ,“世界上的事物不可能完全无序”。
意思就是说,只要点数够多,我们就可以在里面“看出”你要的任何图像,所以你可以在夜空中看到各种星座;同理,叫一只猩猩在打字机上乱打,只要字母够长,你可以找到你要的任意有意义的句子,Drosnin用计算机做所谓等距密码,其实道理是一样的.
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
对照实验—《战争与和平》、《白鲸》中的密码
Michael Drosnin反驳道:“你只要在《白鲸(Moby Dick) 》 中找到密码,I就服了U”
华中科技大学公管学院胡隆基
澳大利亚国立大学的一位计算机教授--Brendan McKay,找到了印度总理甘地被刺的“信息”:
O R W I T H A W H I T E P
N A H A B Y O U N G M A N
K L E S H I S G R A N D D
D S Y E T I N G E N E R A
T H E B L O O D Y D E E D
E R M W H A L E S H E A D
T T O I M P O S S I B L E
Indian Prime Minister Indira Gandhi was killed on Oct 31, 1984
O R W I T H A W H I T E P
N A H A B Y O U N G M A N
K L E S H I S G R A N D D
D S Y E T I N G E N E R A
T H E B L O O D Y D E E D
E R M W H A L E S H E A D
T T O I M P O S S I B L E
O R W I T H A W H I T E P
N A H A B Y O U N G M A N
K L E S H I S G R A N D D
D S Y E T I N G E N E R A
T H E B L O O D Y D E E D
E R M W H A L E S H E A D
T T O I M P O S S I B L E
华中科技大学公管学院胡隆基
美国林肯总统遇刺“信息”
华中科技大学公管学院胡隆基
美国总统肯尼迪遇刺的“信息”
华中科技大学公管学院胡隆基
以色列总理拉宾遇刺的“信息”
华中科技大学公管学院胡隆基
正式反驳
华中科技大学公管学院胡隆基
1999年 B. Mckay (数学,计算机) Australia National U.,
D. Bar-Natan (数学) Hebrew U.,
M. Bar-Hillel (理性研究中心) Hebrew U.,
G. Kalai (数学) Hebrew U.
“Solving the Bible Code Puzzle”解决圣经密码的迷惑,Stat. Science,150--173。认为1994年的文章有严重的缺陷,特别是实验的设计与数据的收集都有问题
华中科技大学公管学院胡隆基
试验设计与协议(protocol)
Main Features (Clinical Trials by . Pocock)
1. 背景与一般目的 (Background and general aims) 2. 特殊目的 (Specific objectives) 3. 患者的选取标准 (Patient selection criteria) 4. 疗程 (Treatment schedules) 5. 评估患者的方法 (Methods of patient evaluation) 6. 试验设计 (Trial design) 7. 病患的注册与随机分配 (Registration and randomization of patients)
华中科技大学公管学院胡隆基
8. 病患的同意 (Patient Consent) 9. 研究所须患者的人数 (Required size of study) 10. 试验进展的监控 (Monitoring of trial progress) 11. 表格与数据的处理 (Forms and data handling) 12. 协议的偏离 (Protocol deviations) 13. 统计分析的规划 (Plans for Statistical analysis) 14. 行政责任 (Administrative responsibilities)
议定书要严格执行的,否则结果不一定有效!!!
华中科技大学公管学院胡隆基
︽双盲试验︾
华中科技大学公管学院胡隆基
方法:对一小部份的数据敏感
数据:最严重的是Rabbi的称呼选择、拼法、缩写
刘邦、刘季、阿季、无赖刘、汉高祖、汉王…
Prof. Havlin 替他们准备的;M. Cohen:“没有科学根据,完全是不一致、随意选择的结果”
数据并非由实验规则严格定义,有很大伸缩的空间
但是否因此就有足够的“自由”可以发挥?是,稍微自由一下,得到另一组数据,对“战争与和平”就有显著的结果
有没有证据说原先方法“发挥过度”?有,测试了许多小变动,发现大部分的结果都变弱了,数据的选择偏向正面的结果,调动(tuning)存在
直觉的统计期望:结果太好了,以致不认为是真的(Fisher对Mendel实验结果起疑)不允许抽样误差带来的"噪音"
华中科技大学公管学院胡隆基
孟德尔的豌豆试验
特征 显性 隐性 比率
A Seed Shape Round 5474 Wrinkled 1850
B Cotyledon Color Yellow 6022 Green 2001
C Seed Coat Color Grey-Brown 705 White 224
D Pod Shape Simply Inflated 882 Constricted 299
E Unripe Pod Color Green 428 Yellow 152
F Flower Position Axial 651 Terminal 207
G Stem Length Long 787 Short 277
分離率:顯性比隱性為3:1=…
不允許合理的誤差存在
华中科技大学公管学院胡隆基
最后一击
华中科技大学公管学院胡隆基
经过悠久历史的递传,各种修正都有可能,(“死海书卷”里的“创世纪”都不是完本)
经文不可能有密码,从原先版本流传至今,跳跃(d)愈大,经文愈不易保存,容易受到删增的影响。(Rabbin 的d=4772)
Dead Sea Scrolls
华中科技大学公管学院胡隆基
结束语
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
第六讲 方差分析
Analysis of Variance (ANOVA)
——研究定类变量和刻度级变量之间的关系
华中科技大学公管学院胡隆基
本讲内容
引例
方差分析的基本概念
方差分析的基本思想和原理
方差分析中的基本假定
单因素方差分析
无重复试验的双因素方差分析
重复的双因素方差分析
华中科技大学公管学院胡隆基
1 引例(1)
行业
44
51
65
77
58
家电制造业
31
49
21
34
40
航空公司
68
39
29
45
56
51
57
66
49
40
34
53
44
1
2
3
4
5
6
7
旅游业
零售业
观测值
消费者对四个行业的投诉次数
【 例 】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表
一个分类变量
华中科技大学公管学院胡隆基
(2)如何进行假设检验呢 ?
第一步:设置假设
H0:u1=u2=u3=u4
H1:H0不成立(4个ui不完全相等) (4-0-1)
第二步:选用检验统计量
要检验各组的均值是否相等,我们自然会想到用前一章所讲的“两个独立样本的均值假设检验”这一方法,也就是多次(其实就是C42,6次)运用t检验。
这样检验的法则就为,当6次t检验的结果皆为不拒绝H0时,(4-0-1)的检验结果才为“不拒绝H0”,否则便拒绝H0。
华中科技大学公管学院胡隆基
问题在这一步就出现了。
初看起来这种替代方案不错。
但是这种思路可行么?
华中科技大学公管学院胡隆基
很不幸,答案是否定的,从下面的计算就可以知道
(4-0-1)检验的显著性水平
=P((4-0-1)式检验发生第一类型错误)
=P(6个两两检验中任意一个(或以上)发生第一类型错误)
=1-P(6个检验皆不发生第一类型错误)
=1-(1- )6
如果 =,则上面式子的结果为1-()6 =。这样的显著性水平显然无法让人接受。
华中科技大学公管学院胡隆基
(4)方差分析的引入
所以,用多次两两均值检验来代替u1=u2=----=ui的检验,显然不是一个可行的方案。
必须从多个总体的整体角度来思考它的检验程序,以确保这个检验的第一类型错误被控制在某个事先给定的值以下。方差分析就是在这种需求下应运而生的。
华中科技大学公管学院胡隆基
2 方差分析的基本概念
[定义4-1]检验多个总体均值是否相等的统计方法,称为方差分析(Analysis of variance,简写为ANOVA)。
[定义4-2]在方差分析中,所要检验的对象称为因素或因子(factor)。就是关注的定类变量。
[定义4-3]因素的不同表现称为水平或处理(treatment)。
因素的每一个水平可以看作是一个总体。
[定义4-4]每个因子水平下得到的样本数据称为观察值
华中科技大学公管学院胡隆基
[定义4-5]当我们只考察一个因素的方差分析时,此时就是单因素方差分析( one-way ANOVA );
[定义4-6]双因素方差分析,是要检验两个因素的变异对实验结果有无影响。
[定义4-7]只考察两个因素各自变异对实验结果的影响,就是无重复试验的双因素方差分析,同时还要考察两个因素变异的交互作用对实验结果的影响,就是有重复试验的双因素方差分析。
思考题:结合引例,说明这些概念的所指。
华中科技大学公管学院胡隆基
3 方差分析的基本思想
方差分析的实质是研究定类变量和刻度级变量之间的关系;无非是通过比较均值是否有显著差异来实现的;比较均值的时候,我们又要借助于方差。
看引例。
华中科技大学公管学院胡隆基
2.方差分析的基本思想和原理
零售业 旅游业 航空公司 家电制造
华中科技大学公管学院胡隆基
但是仅仅从散点图上观察还不能提供充分的证据证明不同职能部门的得分之间有显著差异,因为这种差异完全可能是由于抽样的随机性所造成的。
因此我们需要有更准确的方法来检验这种差异是否显著,也就是这种差异是由于抽样误差造成的还是系统误差造成的,这就需要进行方差分析。
方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有影响。因此,进行方差分析时,需要考察数据误差来源。
华中科技大学公管学院胡隆基
两类误差来源
随机误差
注意到:在同一个行业(也就是同一个总体)下,样本的各个观察值是不同的。由于评分表的选择是随机抽取的,因此它们之间的差异可以看成随机误差.
系统误差
在不同行业之间,各个观察值也是不同的。这种差异可能由于抽样的随机性造成的,也可能由于职能部门本身的不同所造成的,后者所形成的误差是由系统因素造成的,我们称之为系统误差
华中科技大学公管学院胡隆基
组内误差和组间误差
通过前面的分析有
组内误差=随机误差
组间误差=随机误差+系统误差
我们想如果只有随机误差没有系统误差,那么(组间误差/组内误差)=1,否则就会大于1。
如果显著的大于1,那么我们就说因素就有显著作用了,否则,就没有显著作用
华中科技大学公管学院胡隆基
4 方差分析的基本假定
(1)每个总体都服从正态分布。
常用检验方法P-P图,Q-Q图
(2)每个总体的方差必须相同。所以在进行方差分析的时候,要检查数据的方差齐性。
Levene检验
(3)观察值是独立的。
一般都能做到
华中科技大学公管学院胡隆基
方差分析中基本假定
如果原假设成立,即H0 : m1 = m2 = m3 = m4
四个职能部门被投诉次数的均值都相等
意味着每个样本都来自均值为、方差为 2的同一正态总体
X
f(X)
1 2 3 4
华中科技大学公管学院胡隆基
方差分析中基本假定
若备择假设成立,即H1 :m j (j=1,2,3,4)不全相等
至少有一个总体的均值是不同的
四个样本分别来自均值不同的四个正态总体
X
f(X)
3 1 2 4
华中科技大学公管学院胡隆基
假设的一般提法
设因素有k个水平,每个水平的均值分别用1 , 2, , k 表示
要检验k个水平(总体)的均值是否相等,需要提出如下假设:
H0 : 1 2 … k
H1 : 1 , 2 , ,k 不全相等
职能部门例子,提出的假设为
H0 : 1 2 3 4
H1 : 1 , 2 , 3 , 4 不全相等
华中科技大学公管学院胡隆基
5 单因素方差分析与SPSS应用
数据结构
分析步骤
关系强度的测量
用SPSS进行方差分析
华中科技大学公管学院胡隆基
单因素方差分析的数据结构
水平A1 水平A2 … 水平Ak
x11 x12 … x1k
x21 x22 … x2k
: : : :
: : : :
xn1 xn2 … xnk
1
2
:
n
因素(A) j
观察值 ( i )
华中科技大学公管学院胡隆基
一、提出假设:
一般提法
H0 : m1 = m2 =…= mk
自变量对因变量没有显著影响
H1 : m1 ,m2 ,… ,mk不全相等
自变量对因变量有显著影响
注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等
方差分布的基本步骤
华中科技大学公管学院胡隆基
二、构造检验的统计量
构造统计量需要计算
水平的均值
全部观察值的总均值
误差平方和(SS)
均方(MS)
华中科技大学公管学院胡隆基
(计算水平的均值)
假定从第j个总体中抽取一个容量为ni的简单随机样本,第j个总体的样本均值为该样本的全部观察值总和除以观察值的个数
计算公式为
式中: ni为第 i 个总体的样本观察值个数
xij 为第 i 个总体的第 j 个观察值
华中科技大学公管学院胡隆基
(计算全部观察值的总均值)
全部观察值的总和除以观察值的总个数
计算公式为
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
(计算总误差平方和 SST : sum of squares for total)
全部观察值 与总平均值 的离差平方和
反映全部观察值的离散状况
其计算公式为
前例的计算结果:
SST = ()2+…+()2
=
华中科技大学公管学院胡隆基
(计算水平项平方和 SSA)
SSA :Sum of squares for factor A
各组平均值 与总平均值 的离差平方和
反映各总体的样本均值之间的差异程度,又称组间平方和
该平方和既包括随机误差,也包括系统误差
计算公式为
前例的计算结果:SSA =
华中科技大学公管学院胡隆基
(计算误差项平方和 SSE)
SSE :Sum of squares for error
每个水平或组的各样本数据与其组平均值的离差平方和
反映每个样本各观察值的离散状况,又称组内平方和
该平方和反映的是随机误差的大小
计算公式为
前例的计算结果:SSE = 2708
华中科技大学公管学院胡隆基
(三个平方和的关系)
总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系
SST = SSA + SSE
总离差平方和=组间离差平方和+组内离差平方和
前例的计算结果:
=+2708
华中科技大学公管学院胡隆基
三个平方和的作用
SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小
如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差
判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小
华中科技大学公管学院胡隆基
!!!(计算均方MS)
各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差
计算方法是用误差平方和除以相应的自由度
三个平方和对应的自由度分别是
SST 的自由度为n-1,其中n为全部观察值的个数
SSA的自由度为k-1,其中k为因素水平(总体)的个数
SSE 的自由度为n-k
华中科技大学公管学院胡隆基
组间方差:SSA的均方,记为MSA,计算公式为
组内方差:SSE的均方,记为MSE,计算公式为
华中科技大学公管学院胡隆基
(计算检验统计量 F )
将MSA和MSE进行对比,即得到所需要的检验统计量F
当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即
记住
华中科技大学公管学院胡隆基
F分布与拒绝域p255
如果均值相等,F=MSA/MSE1
a
F 分布
F(k-1,n-k)
0
拒绝H0
不能拒绝H0
F
华中科技大学公管学院胡隆基
三、根据P做决策
决策图
F?
华中科技大学公管学院胡隆基
单因素方差分析表
华中科技大学公管学院胡隆基
SPSS 例题分析
华中科技大学公管学院胡隆基
关系强度的测量
拒绝原假设表明因素(自变量)与观测值之间有关系
组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应
只要组间平方和SSA不等于0,就表明两个变量之间有关系(只是是否显著的问题)
当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱
华中科技大学公管学院胡隆基
关系强度的测量
变量间关系的强度用自组间平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映
自变量平方和占总平方和的比例记为R2 ,即
其平方根R就可以用来测量两个变量之间的关系强度
华中科技大学公管学院胡隆基
第七讲 回归分析Ⅰ:简单线性回归
华中科技大学公管学院胡隆基
简单回归分析的基本内容
基本假设
资料收集与参数估计
回归式的统计性质
回归式的解释能力
回归式的估计与检验
预测
华中科技大学公管学院胡隆基
1 简单回归分析的基本假设
1)自变量X不被看着是随机变量。X是可控的。
2)因变量Y的统计特性:当X取某一特定值x时,X=x,相对应的因变量Y服从一个正态分布。且这些正态分布的方差相同
3)假设 为线性关系。也就是:
所以有:4) =平均项( )+误差项( )
5)
华中科技大学公管学院胡隆基
[ , ]
X
Y
[ , ]
[ , ]
自变量和因变量之间的关系
[
华中科技大学公管学院胡隆基
2 参数估计
一元线性回归的参数估计工作主要有两项:
1)一是估计平均项中的两个未知参数 , ;
2)其次是估计误差项分布中的未知方差 。
Y
X
华中科技大学公管学院胡隆基
2-1 参数 , 的估计—最小二乘法
1)假设我们最后估计出的样本回归线为:
让残差平方和SSE最小
用最小二乘法找到的样本回归线称之为最小平方回归线
华中科技大学公管学院胡隆基
利用微积分的极值条件—一阶导数为0,就可以解出:
华中科技大学公管学院胡隆基
几何解释
假设:
很容易证明:残差向量 e =Y- ,等价于e=y- 。
这表明向量e、y、 ,构成一个三角形。
由于估计方程系数时,是求 ,使Q = 最小,即让向量e的长度最小,也就是找到这样的 (=找到这样的 ),使 e垂直于x,即这个三角形是直角三角形:
x
e
y
华中科技大学公管学院胡隆基
例题1
∑e2=48
∑e=0
∑xy=6140
∑x2=3820
∑y=240
∑x=150
4
2
50
1560
900
52
30
16
4
38
1008
576
42
24
16
-4
42
988
676
38
26
4
2
34
792
484
36
22
4
-2
46
1232
784
44
28
4
-2
30
560
400
28
20
e2
e
XY
X2
Y
X
华中科技大学公管学院胡隆基
华中科技大学公管学院胡隆基
2-2误差项分布中的未知方差 估计
1)最小平方回归线所产生的残差平方和∑e2是所有回归线中最小的,称之为最小残差平方和。其自由度为样本数减去回归线的参数数目,对于简单回归线,就为(n-2)。
2)未知方差 的估计量为最小残差平方和除以其自由度,也就是最小残差均方和。
例题:计算前面例题的最小残差平方和及MSE
华中科技大学公管学院胡隆基
3 统计性质
最小平方回归线的统计性质,包括三个方面(1)回归线的性质;(2)回归系数的统计性质;(3)回归分析平方和恒等式以及方差分析表
3-1 回归线的统计性质。 具有如下性质:(注意用几何来理解这些性质)
(1)最小平方回归线通过数据的中心点
(2)残差和等于0,即
?(3)残差与自变量乘积的和等于0,即
(4)残差与拟合值乘积的和等于0,即
。
华中科技大学公管学院胡隆基
3-2 回归系数的统计性质
华中科技大学公管学院胡隆基
3-3回归分析平方和恒等式以及ANOVA表
先看下面有关观察值
的分解图
华中科技大学公管学院胡隆基
观察值的分解
华中科技大学公管学院胡隆基
所以有:
平方和恒等式:
自由度恒等式
课外习题:请大家用前面的例题来验证平方和恒等式
华中科技大学公管学院胡隆基
构成一元线性回归的ANOVA表
n–1
总和
MSE
n–2
误差
MSR
1
回归
F值
均方和
自由度
平方和
方差来源
华中科技大学公管学院胡隆基
4 回归线的解释能力
判定系数:
修正后的判定系数:
误差项的方差MSE
因变量Y的方差
华中科技大学公管学院胡隆基
计算前面例题回归线的判定系数和修正判定系数
华中科技大学公管学院胡隆基
5 回归系数的假设检验与区间估计
5-1假设检验:H0: 两种检验方法:t检验和F检验。
1)t检验:
华中科技大学公管学院胡隆基
2)F检验其实就是方差分析的思想,我们欲通过检验回归缩减的误差是否与残差具有显著的差异,来判别我们确立的回归线是否有意义。
华中科技大学公管学院胡隆基
5-2 总体回归系数 的区间估计
思考题:如何做??
结果如下:
华中科技大学公管学院胡隆基
6 预测
预测分为两种情况:
一种是预测 时的平均反应(mean response);
另一种是预测 时的个别反应(individual response)
华中科技大学公管学院胡隆基
6-1 预测
时
的平均反应
(1)点估计
直接将
代入样本回归式
就可以了
(2)区间估计:
要借助
的抽样分布
华中科技大学公管学院胡隆基
6-2预测
时
的个别反应
个别反应 就是平均反应 加上个别差异,即 :
需要利用到 的抽样分布, 也属于正态分布,其中期望和方差如下所示:
华中科技大学公管学院胡隆基
习题:假设:
x: 1 2 3 4 ; y:3 2 5 6
(1)计算y的总平方和;
(2)估计样本回归线:
(3)计算回归平方和;
(4)计算出4个残差;并求出残差平方和;
(5)计算出判定系数,并求出x与y的相关系数。
华中科技大学公管学院胡隆基
答案:
1 )10;
2)y=1+
3)
4)残差平方和:
5)判定系数:;r=
华中科技大学公管学院胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
Try other examples using this table.
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
Try other examples using this table.
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
Allow students about 10-15 minutes to solve this.
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
Confidence intervals use /2, so divide !
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基
管理定量分析
胡隆基