管理统计学学生用讲义
【第一章】绪论
本章学习要求:
1、理解统计学的含义
2、了解统计学的应用领域
3、掌握统计学中的几组基本概念
4、掌握统计应用过程中的注意事项
第一节 统计学概述
一、什么是统计
1.统计活动:指各国政府或其他机构为满足政治、经济、社会等方面的需要以及科学研究的需要而进行的收集、整理、分析、编制有关数据的一系列活动。
2.统计资料:指由统计活动产生的原始的或已经加工、整理过的客观现象的数据资料。
3.统计学: 指研究客观现象数量关系及其变化规律的方法论科学,是一门关于统计资料的收集、显示、描述和分析方法的学科。
统计研究的过程:
二、统计学的分类
1.描述统计学与推断统计学
描述统计学:准确、真实地反映某种客观现象的数量方面的特征的理论及方法。包括数据的收集、整理、数据的分析和显示等内容。目的是描述数据特征, 找出数据的基本规律
推断统计学:通过部分数据特征推断全体数据特征的理论和方法。目的是对总体特征作出推断
2. 理论统计学与应用统计学
理论统计学:指对统计学的一般理论和统计方法的数学理论的研究,由一系列的公理、定理以及严格的证明来组成。着重阐明统计学的数学原理,为统计方法提供理论基础。
应用统计学:把统计方法应用于解决自然科学和社会科学领域中的实际问题时所产生的统计学,基本统计方法和各专业知识的结合就产生了社会统计学、人口统计学、生物统计学、卫生统计学等。
三、统计学的应用:详见教材第3页
第二节 基本概念
一、总体、样本及个体
总体(population):数据来源的范围
分类1:自然总体与测量总体
自然总体:由客观存在的具有相同性质的许多个别事物构成的整体,即所研究事物的全体。
个体(element):组成总体的那些个别事物。
测量总体:个体所具有的某种共同属性的数值的整体
总结:测量总体是依附于自然总体而存在的,一个自然总体至少有一个甚至许多个测量总体
描述统计:总体通常指自然总体
推断统计:总体一般指测量总体
分类2:有限总体与无限总体
有限总体:组成总体的个体数量是有限的
无限总体:组成总体的个体数量是无限的
例:要收集某汽车制造厂生产的汽车质量数据
截止到某一时刻,有限总体
对时间不加以限制,无限总体
样本(sample):总体中的一部分个体所构成的整体
分类:自然样本和测量样本
三者的关系:
总体——集合
个体——集合中的元素
样本——集合的子集
所以,总体是确定的,样本是不确定的,它们都由个体组成。
二、标志、变量及指标
标志(attribute):反映个体所具有的某种属性或特征的概念或名称。
分类:品质标志与数量标志
品质标志:反映个体性质特征
数量标志:反映个体数量特征
对标志的回答通常叫标志表现
变量(variable):具有不同标志表现的标志,如工龄、性别
品质变量(qualitative or attribute variable)
数量变量(quantitative or numerical variable)
指标(indicator):反映总体或样本特征的概念,与标志只是在反映层面上有区别
三、数据分类
1. 数据的四种测度水平(measurement level)
定类水平(nominal level),列名水准:只能归于某一类别的非数字型数据;对事物进行分类的结果,数据表现为类别,用文字来表述
定序水平(ordinal level),顺序水准、等级:只能归于某一有序类别的非数字型数据;对事物类别顺序的测度,数据表现为类别,用文字来表述
定距水平(interval level),间隔水准;与定比水平(ratio level),比率水准:共性:按数字尺度测量的观察值:结果表现为具体的数值,对事物的精确测度;区别:定距水平的零并不表示没有,定比水平的零表示没有。
测度水平
特征
运算功能
定类水平
分类
计数
定序水平
分类;排序
计数;排序
定距水平
分类;排序;有基本测量单位
计数;排序;加减
定比水平
分类;排序;有基本测量单位;有绝对零点
计数;排序;加减;乘除
课堂练习:
A.列名水准 B.顺序水准
C.间隔水准 D.比率水准
1.对某地区的全部产业依据产业构成分为第一产业、第二产业和第三产业,这里所使用的计量水准是( )
2.对某地区某一天的平均温度进行测量,所得测度值为12℃,这里所使用的计量水准是( )
2. 数据的分类
(1)根据变量值是否连续分:
离散型数据(discrete data):变量只能取整数值
连续型数据(continuous data):变量值可以在实数轴上连续变动
(2)根据数据的来源不同分:
横贯数据(cross-sectional data):对同一时间、不同个体(或总体、样本)的观察数据,也叫静态数据,截面数据
纵贯数据(longitudinal data):对同样的个体(或总体、样本)在不同时间上的多次观察所得到的数据,也叫动态数据,时序数据
【第二章】统计资料的收集与整理
本章学习要求:
掌握数据的来源
了解数据的收集组织方式
掌握数据的整理和表现方法
第一节 统计资料的收集与审核
从资料使用者的角度,分为原始资料的收集和次级资料的收集。
原始资料(raw data):指为了研究某一问题,调查者自己或委托他人专门收集的资料。
次级资料(secondary data) :指在以前就已被收集、整理过的统计资料。
一、原始资料的收集
原始资料收集的方法:试验和调查
1、试验方法(experimental method):通过控制一种或多种因素保持不变,只记录某种所研究因素的变化情况。
广泛应用于自然科学和工程技术
也用于社会科学和经济管理研究中
会刻意对某些个体加上某项处理,以期能够观察其反应:该特定处理是否会使反应改变。
2、统计调查(survey):根据研究的目的,采用一定的方法,对客观存在的事实进行记录,以取得实际统计资料的一种工作过程。
应用:对社会经济和管理现象的研究
目的:描述一个团体或一种状况
原则:观测,但别干扰
二、次级资料的收集
1、公开的出版物
2、来源于内部调查的数据
统计部门和政府部门公布的有关资料,如各类统计年鉴;
经济信息中心、信息咨询机构、专业调查机构提供的数据;
各类专业期刊、报纸、书籍所提供的资料;
各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料;
从互联网或图书馆查阅到的相关资料;
在研究中应优先考虑收集次级资料
注意:统计数据的含义、计算口径和方法,并注明数据的来源
三、统计资料的审核
1. 原始资料的审核
完整性审核
检查应调查的单位或个体是否有遗漏
所有的调查项目或指标是否填写齐全
准确性审核
检查数据是否真实反映客观实际情况,内容是否符合实际
检查数据是否有错误,计算是否正确等
2. 次级资料的审核
适用性审核
弄清楚数据的来源、数据的口径以及有关的背景材料
确定数据是否符合自己分析研究的需要
时效性审核
尽可能使用最新的数据
确认是否有必要做进一步的加工整理
第二节 统计调查
一、统计调查的组织形式
(一)定期报告制度——我国实行的是全面统计报表(statistical report forms) 制度
1、统计调查方式之一
2、过去曾经是我国主要的数据收集方式
3、按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据
4、有各种各样的类型
(二)普查:
1、为特定目的专门组织的非经常性全面调查
2、通常是一次性或周期性的
3、一般需要规定统一的标准调查时间
4、数据的规范化程度较高
5、应用范围比较狭窄
注意:教材18页第五段错误。
(三)重点调查
1、为特定目的专门组织的非经常性非全面性调查
2、只对选择出来的重点单位进行调查
重点单位:单位数量很少,但在所调查变量的数值方面占有较大的比重的个体单位
3、节省人力、物力,可在相对较短的时间内对所要研究的总体有一个基本的了解
4、不能对总体进行推断,有些总体不存在重点单位,因而不能进行重点调查。
(四)抽样调查
1. 从总体中抽取一部分单位作为样本进行调查。
2. 具有经济性、时效性强、适应面广、准确性高等特点
3、根据获取样本的方法不同可以分为非概率抽样和概率抽样两大类
二、抽样形式
(一)非概率抽样(nonprobability sampling)
依据研究任务的要求和对调查对象的分析,主观地、有意识地在总体中选取样本
优点:成本较低而且容易利用
(二)概率抽样(probability sampling)
依据概率理论、按照随机原则选取样本
优点:能够说明估计的精度
(一)非概率抽样
1. 方便抽样(convenience sampling)
调查过程中由调查员依据方便的原则,自行确定入样单位
优点:容易实施,调查的成本低
缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体
在许多试探性调研时,缺乏经验而又急需真实数据的近似值时,这种方法很实用。
2. 主观抽样(judgment sampling) 也叫判断抽样
根据个人的主观意识来选择总体中有代表性个体的方法,在我国也称为典型调查。
抽样结果是否具有代表性主要取决于调查者本人对总体的了解程度。
3. 配额抽样(quota sampling)
首先将总体按一定标志分层或分类,然后在各层或各类中主观地确定抽样比例,根据比例主观地选取个体单位组成样本。
操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似。
4. 滚雪球抽样(snowball sampling)
通过初始被调查者的推荐来挑选下一个被调查者的抽样程序。
常用于低发生率或少见的总体中进行抽样。
优点是调查费用大大降低,缺点是调查质量可能被降低
5. 自愿样本 (补充内容)
被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息
自愿样本与抽样的随机性无关
样本是有偏的
不能依据样本的信息推断总体
(二)概率抽样
特点
按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会被抽中
每个单位被抽中的概率是已知的,或是可以计算出来的
当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
抽样方法:
重复抽样:每抽出一个单位,登记其特征值后,仍放回原总体之中
非重复抽样:抽出单位登记其特征值以后不再放回原总体之中。
对有限总体抽样时,两种方法会产生不同的结果,在实践中多以非重复抽样为主。
1. 简单随机抽样(simple random sampling)
按照随机原则从总体中随机抽取个体组成一个样本,每一个个体被抽中的机会都是相等的。
特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
局限性
当总体单位数很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
2. 等距抽样(systematic sampling)
将个体按某一标志排队,然后随机确定某一开始位置,再按一定的相等距离抽取调查单位。
优点:操作简便,可提高估计的精度
缺点:对估计量方差的估计比较困难
常用于:工业企业流水线上的产品抽样,化工厂传输管理中化工产品的抽样,农作物产量预测的抽样,公路车流量的抽样等方面。
3. 分层抽样(stratified sampling)
先将总体依照某一种或某几种特性分为若干个层,然后从每一层中随机地抽取个体单位组成样本。
优点
保证样本的结构与总体的结构比较相近,从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计
注意与配额抽样的区别
4. 整群抽样(cluster sampling)
1)将总体按照某种标志划分成为不同的群,每个群大小可以相同,也可以不同
2)然后随机抽取几个群,对抽中的群中所有个体单位都进行调查
特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施
缺点是估计的精度较差
5. 多阶段抽样(multi-stage sampling)
先抽取群,再从选中的群中抽取出若干个单位进行调查,使抽样的段数增多,就称为多阶段抽样
具有整群抽样的优点,保证样本相对集中,节约调查费用
需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开
在大规模的抽样调查中,经常被采用的方法
课堂练习
重点调查中重点单位指的是( )
A、具有典型意义或代表性的单位
B、那些具有反映事物属性差异的品质标志的单位
C、能用以推算总体指标的单位
D、在总体中具有举足轻重地位的单位
要了解北京市居民家庭的收支情况,最适合的调查方式是( )
A. 普查
B. 重点调查
C. 抽样调查
D. 全面统计报表
在下列调查中,最适合采用重点调查的是( )
A、了解全国钢铁生产的基本情况
B、了解全国人口总数
C、了解北京市居民家庭收支情况
D、了解某校学生的学习情况
A.普查
B.随机抽样调查
C.判断抽样调查
D.方便抽样调查
某出口企业对其产品质量进行检验,采用的调查方式是( )
街头拦截式获得样本数据的方式属于( )
在抽样前,先将总体各单位按照某个标志区分为性质不同的若干组,然后在各组内随机抽选出各组的样本单位共同组成样本,这种抽样方式是( )
A.等距抽样
B.分层抽样
C.整群抽样
D.简单随机抽样
连续生产的灯管厂,每天每隔3小时抽10分钟生产的产品进行质量检查,这种抽样的组织形式称为( )
A.系统抽样
B.简单随机抽样
C.分层抽样
D.整群抽样
了解居民消费水平的变化状况,一般采用入户调查。确定样本户的方式是( )
A 系统抽样
B 分层抽样
C 整群抽样
D 多阶段抽样
下列适宜采用抽样调查的是( )(多选题)
A 湖水养殖鱼苗数量调查
B 全国耕地面积调查
C 居民生活消费基本情况调查
D 农产品产量调查
三、统计调查方法
1. 观察法
就调查对象的行动和意识,调查人员边观察边记录以收集所需信息
调查人员不是强行介入
能够在被调查者不察觉的情况下获得资料
2. 自填法
调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷
通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷交回
问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发、网络等
3. 访问法
由调查人员直接对被调查者进行询问并记录调查结果的方法。
包括面对面的访谈、电话访谈、网络访谈等。
第三节 调查方案的设计
一、调查方案的主要内容
1. 确定统计调查目的
调查要达到的具体目标
回答“为什么调查?”
调查之前必须明确
2. 确定调查对象和调查单位
调查对象:调查研究的总体或调查范围
调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)
回答“向谁调查?”
3. 确定调查项目
调查的具体内容
通常表现为表格或问卷
回答“调查什么?”
4. 其他
明确调查所采用的方法
确定调查时间和调查期限
调查时间:资料本身所属的时间
调查期限:调查工作的起止的时间
调查的组织与实施细则
课堂练习
某县有35万人口,其中农村居民占90%,现欲作农村居民AIDS感染情况及其影响因素的调查研究,其调查对象为( )
A.该县所有常住人口
B.该县所有农村居民
C.该县已婚的所有常住人口
D.该县已婚的所有农村居民
E.该县已婚的所有农村育龄妇女
对于上述研究,所确定的调查单位应该是( )
A.该县的农村居民个体
B.该县的自然村
C.该县的每个农村家庭
D.该县的行政村 E.该县的每个乡镇
对于上述研究,较适宜的调查组织形式是( )
A.简单随机抽样调查 B.普查
C.系统抽样调查 D.整群抽样调查
二、调查问卷的设计
(一)什么是问卷
用来搜集调查数据的一种工具
调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式
结构上一般都由开头部分、甄别部分、主体部分和背景部分组成
(二)问卷的结构
问卷的结构—开头部分
包括:问候语、填写说明、问卷编号
问卷的结构—甄别部分
1. 甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查
2. 通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的
3. 可以确定哪些人是合格的被调查者,哪些人不是
4. 甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要
问卷的结构—主体部分
是调查问卷的核心内容
包括所要调查的全部问题,主要由问题和答案所组成
问卷的结构—背景部分
通常放在问卷的最后,主要是有关被调查者的一些背景资料
该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析
(三)提问项目的设计
提问的内容尽可能短。
用词要确切、通俗。可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)
一项提问只包含一项内容。
避免诱导性提问。
避免否定形式的提问。
避免敏感性问题
(四)回答项目的设计
开放性问题:
对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答
属于自由回答型
优点:比较灵活,适合于搜集更深层次的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造
缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难
封闭性问题:
对问题事先设计出了各种可能的答案,由被调查者从中选择
问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理
对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全
问题的答案是选择回答型,所以设计出的答案一定要穷尽和互斥
回答方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种
两项选择法:
答案只有两项,要求被调查者选择其中之一来回答
优点:被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便
缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答
多项选择法:
在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答
根据要求选择的答案多少不同,有以下类型
单项选择型:要求被调查者对所给出的问题答案选择其中的一项
多项选择型:要求被调查者对所给出的问题答案中,选出自己认为合适的答案,数量不受限制
限制选择型:要求被调查者在所给出的问题答案中,选出自己认为合适的答案,但数量要受一定限制
顺序选择法:
问题答案有多个,要求被调查者在回答时,对所选的答案按要求的顺序或重要程度加以排列。其中,对所选的的答案数量可以进行一定的限制,也可以不进行限制
问题答案不仅可以反映所要调查的内容,而且可以反映出被调查者对问题的看法,从而增加了信息量
评定尺度法(量表式):
问题答案,由表示不同等级的形容词组成,并按照一定的程度排序,由被调查者依次选择
双向列联法(矩阵式/表格式):
将两类不同问题综合到一起,通常用表格来表现
表的横向是一类问题,纵向是另一类问题
这种问题结构可以反映两方面因素的综合作用,提供单一类型问题无法提供的信息
可以节省问卷的篇幅
(五)问题顺序的设计
问题的安排应具有逻辑性
问题的顺序应先易后难
能引起被调查者兴趣的问题放在前面
开放性问题放在后面
版面格式的设计:
问卷的结构安排要合理,问卷的主体部分要突出、醒目
不要编排过密,各问题之间要留出一定的空间
外表及内容的印刷要美观
第四节 资料整理的方法
一、统计分组的概念及作用
统计分组(statistics classification)
根据统计研究的需要,将总体按照一定的标志划分为若干个组成部分的方法。
步骤:
按照研究目的,选择一个或一个以上的分组标志,对调查资料进行分组
编制适当表格以便汇总资料
将资料逐一进行计数和加总。
作用(见教材33-34页):
可以区别事物的不同性质。
可以反映和研究总体内部结构。
反映和研究现象之间的依存关系。
二、按品质标志分组
频数(frequency) :落在各类别中的数据个数
频率:某一类别频数占总频数的比值
百分比(percentage) :将对比的基数作为100而计算的比值
三、按数量标志分组
1、单项式分组
(1)将一个变量值作为一组
(2)适合于离散变量
(3)适合于变量值较少的情况
2、组距式分组
(1)将变量值的一个区间作为一组
(2)适合于连续变量
(3)适合于变量值较多的情况
(4)需要遵循“互斥”和“穷尽”的原则
(5)可采用等距分组
(6)也可采用不等距分组
几个概念:
1. 下限(lower limit) :一个组的最小值
2. 上限(upper limit) :一个组的最大值
3. 组距(class interval) :上限与下限之差
4. 组中值(class midpoint) :下限与上限之间的中点值
等距分组步骤:
1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K
注意:K只是参考数值,不是必分的组数。
2)确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值(maximum)和最小值(minimum)及所分的组数来确定,即
组距=(最大值 - 最小值)÷组数
3)统计出各组的频数并整理成频数分布表
等距分组与不等距分组在表现频数分布上的差异
等距分组
各组频数的分布不受组距大小的影响
可直接根据绝对频数来观察频数分布的特征
不等距分组
各组频数的分布受组距大小不同的影响
各组绝对频数的多少不能反映频数分布的实际状况
需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况
课堂练习
1.指出下列分组哪个是按品质标志分组( )
A.人口按年龄分组
B.产品按等级分组
C.家庭按收入水平分组
D.企业按职工人数多少分组
2.某地区农民人均收入最高为426元,最低为270元,据此分为六组形成闭口式等距数列,各组的组距为( )
A.71 B.26 C.156 D.348
3.在分组时,凡遇到某单位的变量值刚好等于相邻两组上下限数值时,一般是( )
A.将此值归入上限所在值
B.将此值归入下限所在组
C.另立一组
D.将此值归入上限所在组或下限所在组均可
4.采用组距分组时,用组中值作为该组数据的代表值,其假定条件是( )
A.各组的频数相等
B.各组的组距均相等
C.各组的变量值均相等
D.各组数据在本组内呈均匀分布或在组中值两侧呈对称分布
四、累计频数分布
向上累计频数分布:
将各组的频数由下至上(从最低值组向最高值组)依次累计,由此形成的标志值与频数累计值的分布表格
向下累计频数分布:
将各组的频数由上至下(从最高值组向最低值组)依次累计,由此形成的标志值与频数累计值的分布表格
用于说明截止到某一变量值以上或以下所对应的频数(频率)是多少。
五、统计表
(一)统计表的结构
(二)统计表编制的一般要求
课堂练习
A 性别 B 男、女
C “30岁以下”,“30-40岁”,“40-50岁”,“50-60岁”,“60岁以上”
D 年龄组 E 以上都不是
1.要分析中医药机构不同性别的技术人员在年龄结构上有无差别,设计统计表时,列标题应当是( )
2.以上统计表中,行标题的名称应当是( )
课后作业
注:数据单位为万元
要求根据表中数据资料对该商场第二季度库存商品的适销情况进行分析。
【第三章】统计资料的描述
本章学习要求:
灵活运用不同种类指标分析问题
掌握集中趋势的应用条件
掌握离散趋势的应用条件
灵活运用统计图描述统计资料
第一节 总量描述与相对比较
一、总量描述
总量指标:用来说明客观现象在一定时间、地点、条件下所达到的总规模或总水平的指标,也叫绝对数。
如:一个国家的人口数、土地面积、一个企业的销售额、年产量等数据
用途:
认识客观事物的起点
编制计划、实行管理的主要依据
计算相对指标和平均指标的基础
分类:按反映总体的时间状况不同来分
时期指标:反映总体(样本)一段时间内发展变化累计的成果
一个企业的销售额、年产量
时点指标:反映总体(样本)在某一时刻达到的总规模或总水平
一个国家的人口数、土地面积
资产、负债、所有者权益、收入、费用、利润?
时期指标与时点指标的区别:
1. 时期指标在不同时间上的数值可以相加,时点指标数值相加没有意义。
2. 时期指标数值大小与包括的时间的长短成正比关系,时点指标与时间的间隔没有直接关系。
3. 时期指标值是连续登记得到的,时点指标数值不需要进行连续登记。
二、相对比较
相对指标:两个有联系的指标对比所形成的新的指标,也叫相对数。
如:我国人均粮食产量(粮食产量/我国平均人口)、恩格尔系数(食品消费支出/总支出)
表现形式:百分数(%)、千分数(‰)、成数、系数、倍数、复名数等
采用哪种形式取决于相对数的数值大小或实践惯例。
应用前提:形成相对指标的两个指标要具有可比性
两个对比的指标有内在的必然联系
两个指标的数值要具有可比性,统计范围、计算时间、方法、价格及计量单位等方面应可比。
用途:
可以用来补充说明总量指标
使人们能够更深入地了解总体(样本)内部数量之间的相互联系和相互制约的关系。
相对指标的类型及用途
1、计划完成相对数
计划期内某一指标的实际完成数与其计划数对比计算的结果,反映该指标计划完成程度,常以百分数表示
例1:某企业2001年计划实现利润总额为200万元,而实际完成利润208万元,则该企业利润计划完成程度是多少?是否超额完成计划?
例2:某企业计划产量比上期要增长10%,而实际增长8%,则产量计划完成程度是多少?是否超额完成计划?
例3:某企业某产品单位成本计划比上期要降低6%,实际降低9%,则单位成本计划完成程度是多少?是否超额完成计划?
对计划完成程度的评价:
1. 如果计划任务是按最低限额规定的,如产量、利润等,计划完成程度大于100%才算超额完成计划。
2.如果计划任务是按最高限额规定的,如产品单位成本、废品损失等,计划完成程度要小于或等于100%才算完成计划,其中不足100%的部分为超额完成计划的程度。
3. 计划规定的既是最高限额,又是最低限额,如职工人数、工资总额等指标,计划完成程度最好为100%,或略低于100%。
课堂练习
下列计划完成情况,超额完成计划的是( )
A.工业总产值计划完成百分数120%
B.成本计划完成百分数105%
C.单位产品所耗费的劳动时间的计划完成百分数102%
D.单位时间的产品产量的计划完成百分数90%
2、结构相对数
在一定范围内的部分数值和全部数值之比,反映该范围内的内部构成状况,一般以百分数表示 一般在统计分组的基础上产生,各组的频率——结构相对数反映各组数据在全部数据中所占的比重,其相加总和为100%。
课堂练习
某地调查结果表明, 近年来医院中基本建设费用在医院总费用中的比重呈逐年下降趋势,不可能造成此结果的原因是( )
A 基本建设费用下降,其他费用基本不变
B 基本建设费用基本不变,其他费用上升
C 基本建设费用基本不变,总费用下降
D 基本建设费用下降快,其他费用下降慢
3、比例相对数
在同一总体(或样本)中各部分同类数值之间对比所得的比例,反映各部分数值之间的对比关系,一般以倍数或系数表示 在统计分组基础上产生的,说明内部构成的状况,还可以将多个部分排列在一起进行比较,以说明各部分之间的配比状况。
4、比较相对数
某一总体的数值与另一总体同类数值对比的比例,反映某种现象在不同总体间差异程度,一般用倍数或系数表示与比例相对数一样, 也是两个同类数值的对比,不同的是比例相对数是指总体内部不同部分数值之比,而比较相对数是不同总体数值之比。
5、强度相对数
两种不同类别数值对比的比例,用以说明现象的强度、密度和普及程度等
大多数用复名数表示,如人均国内生产总值(元/人),也有些用无名数表示,如资金利税率(%)
分类:
正指标:比值的大小与其反映的强度、密度和普及程度成正比
逆指标:比值的大小与其反映的强度、密度和普及程度成反比
某病患者100人,其中男性95人,女性5人,分别占95%和5%,则结论为( )
A.该病男性易得
B.该病女性易得
C.该病男、女性易患程度相等
D.尚不能得出结论
E.根据该资料可计算出男女性的患病率
6、动态相对数
某类不同时间数值对比的比值,也称为发展速度,反映某类现象在不同时期的发展变化程度
三、常用经济指标
总产值(gross output value):用货币表现的一定时期内全部产品的价值。
增加值(value added):指在报告期内常住单位新创新的价值。
国内生产总值(gross domestic product,GDP):指一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。
国民总收入(gross national income, GNI):指一个国家(或地区)的国民一定时期内在国内外生产的最终产品及劳务的价值总和。
人口自然增长率(natural growth rate of population)
失业率(unemployment rate)
第二节 集中趋势的描述
集中趋势:一组数据向其中心值靠拢的倾向和程度,用来代表现象的一般水平和发展状态
测度集中趋势就是寻找数据的代表值或中心值
不同测度水平数据用不同的集中趋势测度;
低测度水平数据的测度值适用于高水平的测量数据,但高水平数据的测度值不适用于低水平的测量数据。
一、算术平均数(arithmetic mean)
也叫均值,是一组数据的和除以数据的个数,通常用μ(总体均值)或(样本均值)表示。
1. 未分组资料——简单算术平均数
2. 单项式分组资料
3. 组距式分组资料
4. 均值的应用问题
1)当数据中有极大值或极小值存在时,均值会受到很大影响,其结果会掩盖数据的真实特征,使均值失去代表性。
2)使用分组资料数据计算总平均数时,由于各组频率对平均数的影响,在对总平均数进行对比时,要注意结合组平均数补充说明。
3)要以分布数列和典型事例作为补充
5、算术均数的用途
(1)适用于正态分布的资料,用于反映其集中趋势。
(2)用于计算标准差。
(3)用于构造检验统计量,进行统计推断。
二、调和平均数(harmonic mean) 调和平均数就是数据倒数平均数的倒数
调和均数的特点及其与算术均数的关系
(1)调和均数实际上就是算术均数的变形。当分母已知时就直接用算术均数;当分母未知时,就要使用调和均数。
(2)当有x为0时,不能计算调和均数。
三、几何平均数(geometric mean) 几何平均数是指n个数据连乘积的n次方根。
应用及特点:
1. 主要用于各种比率的平均,尤其在计算动态比率的平均时,如平均发展速度。
2. 用于表现呈倍数关系(等比)资料的集中趋势或平均水平。在医学中常用于求抗体滴度的平均水平;某些疾病(中毒、传染病)的平均潜伏时间。(对数正态资料)
3. 对同一组资料,调和均数≤几何均数≤算术平均数
四、众数(mode)
是指全部数据中出现次数最多的数值,一般用Mo表示。
1、未分组资料
如果在一组数据中:
只有一个变量值出现次数最多,一个众数;
有两个(或多个)变量值出现次数相同并最多,则有两个(或多个)众数;若出现次数最多但不相同,则出现次数最多的数值为主要众数,其他为次要众数;
变量值出现的次数都相同,没有众数。
2. 分组资料
3、众数的应用问题
众数的特点是不受极端值的影响,如农贸市场上某种商品的价格水平;市场上各种尺码鞋子的需求量;房地产商关心哪种“格局”房屋销售最多;饮料厂商关心哪一种“颜色”的饮料销售最多;
当样本数据出现两个众数时,它提醒我们应怀疑这样的数据是否来自两个不同的总体;
只有在数据足够多,且有明显的集中趋势时,众数才有代表意义,否则不宜用众数代表集中趋势。
五、中位数(median)
将一组数据按大小顺序排列以后,处于中间位置的数值,一般用Me 表示
1、未分组资料
总结:有n 个数据的有序数列,用Xi 代表第i 项的数值,中位数的位置是
当n 为奇数时,;当n 为偶数时,
2、分组资料
3、中位数的应用问题
不受个别极端值的影响,表现出稳定的特性,在偏态分布中使用。因此在反映人口、产品质量、价格、居民收入时常用。
方便,在某些场合,不能计算均值时,中位数就是一个较好的测度值。
六、均值、众数、中位数的比较
1. 众数(定类):不受极端值影响;具有不惟一性;数据分布偏斜程度较大时应用
2. 中位数(定序):不受极端值影响;数据分布偏斜程度较大时应用
3. 均值(定量):易受极端值影响;数学性质优良;数据对称分布或接近对称分布时应用
第三节 离散程度的描述
离散程度是数据分布的另一个重要特征;
反映各变量值远离其中心值的程度(即数据分散或离散的程度);离散指标数值越小,数据的变异越小
可说明集中趋势测度值的代表性;
不同类型的数据有不同的离散程度测度值。
一、全距(range)
又称极差,是指数据中最大值与最小值之差,用R表示,公式为:R=Xmax-Xmin
优点:易理解,计算简便。可用于:说明一个地区的温度情况;描述一种股票的波动情况;产品质量控制中的R图。
缺点:不能反映组内其它数据的变异度;样本含量相差悬殊时不宜比较其极差;不够稳定。
最粗略的离散指标,一般仅适用于初步判断、观察值很少时,或与其他指标共同使用。
二、平均差(mean absolute deviation)
各项数值与其均值之差(离差,deviation)绝对值之和的平均数,公式为:
分组资料公式:
代表了所有数据离均值的平均距离。但因使用了绝对值,不便于进一步计算,在实际中较少应用,预测时可用于说明误差。
三、方差(variance)、标准差(standard deviation)
数据离散程度的最常用测度值;
反映了各变量值与均值的平均差异;
方差(variance)是全部数据离差平方的平均数
标准差(standard deviation)是方差的算术平方根
根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
标准差的应用
表示变量分布的离散程度。
结合均数描述正态分布规律。
结合均数计算变异系数。
结合样本含量计算标准误。
四、离散系数(coefficient of variation)
标准差与其相应的均值之比,也叫变异系数
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
1.( )可用于比较身高与体重的变异度
A.方差 B.标准差
C.变异系数 D.全距
2.最小组段无下限或最大组段无上限的频数分布表资料,最好用( )描述其集中趋势。
A.均数 B.标准差
C.中位数 E.几何均数
某单位有两个部门,上月一部门、二部门平均工资分别为2000元,2200元。本月一部门职工在全单位职工中所占比重上升,二部门所占比重下降,如两部门职工的工资水平不变。该单位平均工资本月比上月( )
A.提高 B.下降
C.持平 D.不一定
A 中位数 B 算术均数 C 调和均数 D 几何均数 E 众数
1.玻璃瓶制造商关心的是制造出来的瓶子的正确尺寸,应选用_____
2.高级家具制造商在某地开拓销售业务,对该制造商来说,反映当地居民家庭平均收入情况更有用的指标是_____
3.一组观察值为2,4,16,32,64,128……要描述其平均水平,应选用_____
4.某种设备生产厂家为确定其生产的设备的规格,需要了解有关的信息。试问对该设备生产厂家来说,反映各药厂产量规模的更有用的指标是_____
已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,>20,其潜伏期的平均水平约为( )
A.9天
B.天
C.10天
D.天
E.11天
第四节 统计资料的图形描述
一、统计图及其作用
统计图:用点的位置、线段的升降(或直条的长短)面的形式表达统计资料,把事物之间的数量关系表示出来,直观地反映数量关系。
作用:统计图与统计表配合使用,可以更直观,更鲜明地表现统计资料的特征和规律。
二、统计图的分类与选用
1. 条形图(bar chart)
用宽度相同的条形的高度或长短来表示各类别数据的图形
有单式条形图、复式条形图等形式
主要用于反映分类数据的频数分布
绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
2. 饼图(pie chart)
也称圆形图,是用圆形及圆内扇形的面积来表示数值大小的图形
主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用
绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的
3. 直方图(histogram)
用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图
直方图下的总面积等于1
直方图与条形图的区别
条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的
直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
直方图的各矩形通常是连续排列,条形图则是分开排列
条形图主要用于展示分类数据,直方图则主要用于展示数值型数据
4. 频数分布图(frequency polygon)
在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉
折线图的两个终点要与横轴相交,具体的做法:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
几种常见的频数分布:
偏态(skewness):数据分布的不对称性,用偏态系数SK来测量。
SK=0,对称
SK>0,正偏(右偏)
SK<0,负偏(左偏)
SK的绝对数值越大,表示偏斜的程度就越大。
峰态(kurtosis):数据分布的平峰或尖峰程度,用峰态系数K来测量。
K=0, 正态分布
K>0,尖顶峰
K<0,平顶峰
5. 累计频数分布图
6. 线图(line plot)
普通线图:用线条的变化,表现事物某现象随另一现象(多指时间)变动的趋势。横纵坐标均为算术尺度。
半对数线图:通过线条的对比,比较两种或多种事物的相对变化的速度。横坐标为算术尺度,纵坐标为对数尺度。
7. 散点图(scatter chart)
用点的密集程度和变动趋势表示两现象之间的相互关系的图形。
三、统计图绘制的一般要求
1. 选择图形:按资料的性质及分析的目的选择合适的图形。
2. 标题:一般在图的下方,与统计表的标题要求相同。
3. 纵横坐标轴与标目:条图、直方图、线图、散点图都有纵横轴。纵横轴应有标目,标目如有单位应予注明。
4. 尺度:尺度有算术与对数两种。条图与直方图的纵轴尺度必须从零开始,并要标明零点。横轴尺度不必一定从零开始。纵横轴比例一般以5:7为宜。
5. 图例:比较不同事物时,要用不同的线条或颜色区分,并应配以图例和说明。
A.直条图 B.直方图 C.构成图 D.普通线图 E.半对数线图
1.表示各相对独立指标的数值大小宜用_____
2.表示某现象随时间而变动的趋势宜用_____
3.表示全体中各部分的比重宜用_____
4.表示连续性变量资料的频数分布宜用_____
A.散点图 B.半对数线图 C.直条图
D.直方图 E.普通线图
1.要比较两个地区从1980年~1995年结核病发病率变动速度,应绘制____
2.描述某地1983至1993年肝炎发病率的变动情况,应绘制_____
3.描述正常人血铅值含量的分布情况,应绘制_____
4.分析新生儿体重与围产期死亡率的关系,应绘制_____
5.某地区两年的三种死因别死亡率,可选用_____
四、看图注意事项
1. 留意象形图
2. 注意刻度
【第四章】推断理论基础
本章学习要求:
掌握标准正态分布表的使用
理解参数、统计量
理解抽样分布及抽样误差的概念
掌握样本均值的抽样分布
第一节 概率(请自已课下复习)
第二节 随机变量与概率分布
一、随机变量(请自己课下复习)
二、离散型随机变量的概率分布(请自己课下复习)
三、连续型随机变量的概率分布
连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0
不能列出每一个值及其相应的概率
用概率密度函数的形式来描述
通常研究它取某一区间值的概率
包括均匀分布、正态分布、指数分布、t分、F分布和分布。
概率密度函数(probability density function)
设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),其性质为:
正态分布(normal distribution)
描述连续型随机变量的最重要的分布;
许多现象都可以由正态分布来描述;
可用于近似离散型随机变量的分布;
经典统计推断的基础。
连续变量x服从正态分布,当变动,而不变时,正态分布的曲线会( )
A.改变中心,也改变曲线的形状
B.不改变中心,改变曲线的形状
C.改变中心,不改变曲线的形状
D.不改变中心,也不改变曲线的形状
标准正态分布(standardize normal distribution)
均值为0,标准差为1的正态分布
简记作:Z~N(0,1)
2.概率密度函数
查332页表求标准正态分布的概率
(1)P(0≤Z≤)
(2)P(≤Z≤)
(3)P(≤Z≤0)
(4)P(≤Z≤)
(5)P(Z>)
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布
例:已知研究生完成一篇硕士论文的时间服从正态分布,平均花费2500小时,标准差为400小时,现随机找到一个已完成论文的学生,求:
(1)他完成论文的时间超过2700小时的概率;
(2)他完成论文的时间低于2000小时的概率;
(3)他完成论文的时间在2400~2600小时之间的概率;
(4)完成论文最快的前5%的学生花费时间的界限是多少小时?
观察某地100名12岁男孩身高,均数为138厘米,标准差为厘米,,已知,结论是( )
A.理论上身高低于138厘米的12岁男孩占%
B.理论上身高高于138厘米的12岁男孩占%
C.理论上身高在128厘米至138厘米的12岁男孩占%
D.理论上身高低于128厘米的12岁男孩占%
E.理论上身高高于128厘米的12岁男孩占%
第三节 抽样分布
一、参数(parameter)
描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值;
所关心的参数主要有总体均值()、总体标准差()、总体比例/成数()等;
总体参数通常用希腊字母表示。
二、统计量(statistic)
描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数;
所关心的样本统计量有样本均值() 、样本标准差(s)、样本比例(p)等;
样本统计量通常用小写英文字母来表示。
统计量是( )
A.是统计总体数据得到的量
B.反映总体统计特征的量
C.是根据总体中的全部数据计算出的统计指标
D.是用参数估计出来的
E.是由样本数据计算出的统计指标
三、抽样分布(sampling distribution)
样本统计量的数值是根据被抽取的样本数据计算的,在没有抽出具体样本之前,样本统计量的数值是不确定的,它是个随机变量。
抽样分布样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布
随机变量是 样本统计量
样本均值, 样本比例,样本方差等
结果来自容量相同的所有可能样本
提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
抽样分布指的是( )
A.抽取样本的总体的分布
B.样本自身的分布
C.样本统计量的分布
D.抽样观测变量的分布
四、样本均值的抽样分布
在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布
一种理论概率分布
推断总体均值的理论基础
(1)样本均值所有可能取值的标准差,测度所有样本均值的离散程度;
(2)也称为平均数的抽样误差或叫标准误(差) (standard error of mean);
(3)从无限总体或从有限总体重复抽样时
(4)从有限总体非重复抽样时
均数的标准误是衡量( )
A.变量值之间的差异
B.总体均数间的变异度
C.样本均数间的变异度
D.均数与某一标准指标之间的差值 E.样本比例间的差变异
正态总体抽样:
当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布。
例:长途电话时间服从μ= 8 分钟,σ= 2 分钟的正态分布. 现抽取一个包含25 次长途电话的随机样本, 试问样本均值在 到 分钟的概率是多大?
中心极限定理(central limit theorem):
设从均值为,方差为的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
例:已知某省乡卫生院平均病床为20张,标准差为张,现从该省抽取36个乡卫生院,问这36个乡卫生院平均病床数大于24张的概率是多少?
样本均值的抽样分布与总体分布的关系:
总结:
1. 样本均值抽样分布的特征值与总体参数存在确切关系
2.样本均值是个随机变量,当n 30,不论总体为何种分布,它总服从正态分布。所以n 30的样本被称为大样本,反之则为小样本。
3. 重复抽样的抽样误差大于非重复抽样,因此,实践中大多数抽样均使用非重复抽样。
【第五章】参数估计
本章学习要求:
理解区间估计的原理
大样本与小样本在参数估计时的区别
均值、成数的抽样分布
最小样本容量的计算
第一节 参数估计的原理
一、估计量与估计值
估计量(estimator):用于估计总体参数的随机变量,如样本均值、样本比例、样本方差等
参数用表示,估计量用表示
估计值(estimated value):估计参数时计算出来的统计量的具体值
二、点估计(point estimate)
用样本统计量的某一具体数值直接作为总体参数的估计值
例如:用样本均值直接作为总体均值的估计
例如:用样本比例直接作为总体比例的估计
没有给出估计值接近总体参数程度的信息,即不能提供估计参数时估计误差的大小
为许多定性研究提供一定的参考数据,或在对参数要求不精确时使用,而需要用精确总体参数的数据进行决策时则很少使用
常用总体参数的点估计量
三、区间估计(interval estimate)
1、在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的
2、根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
设是待估的总体参数,为小于1大于0的数值,如果由样本确定的两个统计量和满足,就称随机区间 (,) 是的置信度为1-的置信区间。1-称为置信度(水平),,分别称为置信度为1-的置信下限和置信上限。
,(,)为双侧置信区间
,(, +∞)为单侧置信区间,称为单侧置信下限
,(+∞, )为单侧置信区间,称为单侧置信上限
置信度
将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信度
表示为 (1 -)
是总体参数未在区间内的比例
常用的置信水平值有 99%, 95%, 90%
相应的为,,
置信度与置信区间的关系
样本容量一定时,置信度越高,置信区间的范围就越大,即估计参数的相对精度就会越低。
解决这一矛盾的方法就是增加样本容量。
但样本容量的增加意味着抽样费用的增加,所以在实践中需要权衡利弊。
置信度表达了区间估计的( )
A.精确性 B.规范性
C.显著性 D.可靠性
置信度定的愈大,则置信区间相应( )
A.不变 B.越大
C.越小 D.有效
四、优良估计量的评价标准
无偏性(unbiasedness)
指一个估计量的所有可能估计值的平均结果等于待估参数的真值。
有效性(efficiency)
对同一总体参数的两个无偏点估计量,有更小标准差(变异)的估计量更有效
一致性(consistency)
就是要使统计量随着样本容量n的增加,不断趋近于总体指标。在n→∞时(有限总体时n→N),估计值与总体参数完全一致。
已知是总体的未知参数,是该总体参数的一个估计量,则该估计量是一个( )
A.近似等于的数
B.随机变量
C.数学期望等于的统计量
D.方差固定的统计量
( )小,表示用该样本均数估计总体均数的可靠性大。
A.变异系数 B.标准差
C.标准误 D.极差
从同一总体中随机抽出的两个样本,要用样本均数估计总体均数,可靠性较大的是( )
A 样本均数小的样本 B 标准差小的样本
C 样本含量小的样本 D 标准误小的样本
第二节 总体参数的区间估计
一、一个总体均值的区间估计
(一)大样本(n≥30)条件下的区间估计
例:某大学从某一学院中随机抽取学生100人,他们平均每天用于体育锻炼的时间为26分钟。据以往数据可知该院大学生每天体育锻炼时间的标准差为12分钟,试求该学院大学生平均每天体育锻炼时间的置信区间,置信度为95%。
例:前例中,如果已知该学院全部学生为1800人,其他条件不变,求置信区间。
随机抽取某市120名新生女婴,其均出生体重为,标准差为,则用算式得到的区间可以解释为( )
A.该市95%的女婴出生体重在此范围内
B.该市95%的女婴平均出生体重在此范围内
C.该市女婴出生体重在此范围内的可能性为95%
D.95%的可能性认为此范围包含了该市女婴的出生体重
E.此范围包含该市女婴平均出生体重,但可信的程度为95%
(二)小样本(n<30)条件下的区间估计
2、未知
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。随着自由度的增大,逐渐趋于正态分布(见教材117页)
关于t分布的图形,下述哪项是错误的( )
A.当自由度逐渐增大,t分布逐渐逼近标准正态分布
B.自由度越小,t分布的尾部越高
C.t分布是一条以自由度为中心左右对称的曲线
D.t分布是一簇曲线,故临界值因自由度的不同而不同
例:从某公司生产的一批罐装产品中,随机抽取10罐产品,测得每罐的重量(g)分别为318, 320,322,321,321,323,319,320,320,324。要求以95%的置信度估计这批产品平均重量的置信区间。已知罐装产品重量服从正态分布。
例:前例中,如果我们只关心产品重量的下限是否达到标准,其他同上。
二、一个总体成数的区间估计
例:某商场从顾客中随机抽取200人,其中持信用卡消费的顾客有6人,求在90%的置信度下,顾客持信用卡消费比例的置信区间。
第三节 样本容量的确定
抽样之前,必须确定适当的样本容量。
样本容量直接影响到抽样的误差大小及抽样费用的多少。
样本容量较大,可减少抽样误差,提高估计总体参数的精度,但抽样费用会相应增加
样本容量较少,抽样费用可降低,但抽样误差就会增大。
适当的样本容量:指能够满足研究者对抽样误差要求的应抽取的最少样本单位。
抽样误差:指由于被抽取样本的代表性所产生的误差,是样本统计量的实际数值与总体参数之间的差值,常用表示
其值可正可负,实际是指围绕总体参数左右波动的范围。
样本含量的估计是( )
A.经济条件允许的条件下,越多越好 B.时间允许的情况下,越多越好
C.根据实际情况,能选多少是多少 D.不必估计,调查整个总体最好
E.保证研究结论具有一定可靠性的前提条件下确定的最少例数
抽样误差是指( )
A.样本统计量和总体参数值之差 B.样本统计量和样本统计量之差
C.个体值与样本统计量之差
D.个体值与总体参数之差
E.总体参数和总体参数之差
A 总体变异 B 抽样误差 C 总体均数不同
D 抽样误差或总体均数不同 E 以上都不是
1.甲矿全体职工的医疗费统计结果:均数为185元,标准差为43元。后者反映的是___
2.甲矿随机抽取若干名职工,其医疗费统计结果为214元,标准差为58元。214元与上题中185元不等的原因是____
A.样本例数太小 B.抽样误差
C.总体均数不同 D.个体差异太大
1.某地25岁正常成年男性的平均收缩压为113mmHg,从该地随机抽取20名25岁正常成年男性,其平均收缩压为119 mmHg,113与119不同,原因是( )
2.从上题的同一个地区中再随机抽取20名8岁正常男孩,测得其平均收缩压为90 mmHg,标准差为 mmHg,90与113不同,原因是( )
确定样本容量时需考虑的因素:
1、总体中变量值的离散程度大小
正比,用总体标准差表示
2、置信度的大小
正比,用1-表示
3、允许的抽样误差大小
反比,用表示
4、抽样的组织形式及抽样方法
只讨论简单随机抽样
5、有限总体和无限总体
一、估计时的样本容量
如果未知,可按如下方法确定:
用以前类似研究的数值最大的样本标准差代替
做一次试点调查,用调查所得的样本标准差代替
如已知变量的最大值和最小值,则:
例:要估计一家化工厂某种产品的平均日产量,已知日产量变动的标准差为2吨,如果要求估计平均日产量的置信度为95%,估计允许的误差为 吨,求应抽取多少工作日进行调查?
二、估计时的样本容量
的取值一般小于
的确定方法:
用以前类似研究的最接近的样本成数代替
通过试点调查,用样本成数代替
直接用代替
例:某市电视台欲通过抽样调查估计该电视台的家庭收视率,要求估计的抽样误差不超过3%,置信度为95%,应抽取多少家庭进行调查?
【第六章】假设检验
本章学习重点:
1、假设检验的基本思想和原理
2、假设检验的步骤
3、一个总体参数的检验
4、两个总体参数的检验
第一节 假设检验原理
假设检验(hypothesis test):
先对总体的参数提出某种假设,然后利用样本信息判断假设是否成立的过程
逻辑上运用反证法,统计上依据小概率原理
一、原假设与备择假设
1. 假设(hypothesis)
对总体参数的具体数值所作的陈述
总体参数包括总体均值、总体比例、总体方差等
分析之前必需陈述
2. 原假设(null hypothesis)
研究者想收集证据予以反对的假设
又称“零假设”、“无效假设”
总是有符号=
表示为 H0
3. 备择假设(alternative hypothesis)
研究者想收集证据予以支持的假设
也称“研究假设”
总是有符号(,((或(
表示为 H1
原假设与备择假设都是关于总体的叙述,所以一定要用总体参数来表示。
4. 结论与建议:
原假设和备择假设是一个完备事件组,而且相互对立
先确定备择假设,再确定原假设
等号“=”总是放在原假设上
因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)
5. 双侧检验与单侧检验
1) 备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailed test)
备择假设的方向为“<”,称为左侧检验
备择假设的方向为“>”,称为右侧检验
2) 备择假设没有特定的方向性,并含有符号“(”的假设检验,称为双侧检验或双尾检验(two-tailed test)
二、拒绝域
在假设设定以后,还需要设定一个判别标准,用以判断样本数据为多少时才能拒绝原假设。
这个判别标准就是给定一个小概率,并根据“小概率事件原理”作出判断。
1. 小概率事件原理
(1)小概率是指在一次试验中,一个几乎不可能发生的事件发生的概率;
(2)在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设;
(3)小概率由研究者事先确定。
2. 显著性水平(significant level)
是一个概率值
原假设为真时,拒绝原假设的概率
被称为抽样分布的拒绝域
表示为(alpha)
常用的值有, ,
由研究者事先确定的小概率
拒绝域(rejection region):能够拒绝原假设的检验统计量的所有可能取值的集合。
临界值(critical value):根据给定的显著性水平确定的拒绝域的边界值。
判断原则:样本数值落入拒绝域,则拒绝原假设,同时接受备择假设
双侧检验:|统计量| > 临界值,拒绝H0
左侧检验:统计量 < -临界值,拒绝H0
右侧检验:统计量 > 临界值,拒绝H0
三、两类错误
第Ⅰ类错误(弃真错误、错误)
原假设为真时拒绝原假设
第Ⅰ类错误的概率记为
称为显著性水平
是已知的,即研究者事先确定的小概率
第Ⅱ类错误(取伪错误、错误)
原假设为假时接受原假设
第Ⅱ类错误的概率记为(Beta)
一般是未知的(“接受”原假设实质是不能拒绝,即在没有足够证据证明下只能接受)
进行假设检验时,分别取以下显著性水平,以( )时犯第二类错误最小。
A.=
B.=
C.=
D.=
E.=
四、假设检验的步骤
1. 根据问题建立原假设和备择假设
2. 选择适当的样本统计量,并确定以H0为真时的抽样分布
3. 选定显著性水平,确定临界值
4. 进行判别,得出结论
第二节 一个总体均值的假设检验
一、大样本条件下的假设检验
例:有人说某院学生平均每天锻炼时间超过30分钟。在该学院中随机抽取100名学生,他们每天平均的锻炼时间为31分钟,已知学生锻炼时间的标准差为12分钟,试在=的显著性水平下,检验该人说法是否可信。
二、小样本的正态总体,已知
例:已知某种袋装食品的标准质量为250克。现从一批产品中随机抽取10袋,经测量平均质量为克。已知质量服从,问在=的显著性水平下,该产品是否符合标准.
三、小样本的正态总体,未知
例:某停车场管理人员认为,该停车场每辆车平均停车时间小于30min。现从停车场随机抽取16辆车观察,其平均停车时间为28min,标准差为。设停车时间服从正态分布,试在=的显著性水平下,检验管理人员的说法是否可信。
1、大样本情况下,当总体方差未知时,检验总体均值所使用的统计量是( )
2、小样本正态总体情况下,当总体方差未知时,检验总体均值所使用的统计量是( )
3、小样本正态总体情况下,当总体方差已知时,检验总体均值所使用的统计量是( )
第三节 两个总体均值之差的假设检验
对两个总体进行推断必须考虑样本数据的来源
如果是从两个相互之间没有影响的样本中得到的数据,称之为来自独立样本;
如果一个样本的数据与另一个样本的数据是成对出现(或相互影响),则称之为来自配对样本或匹配样本。
一、已知的正态总体,独立样本
例:甲乙两条生产线同时灌装产品,已知它们的产品重量都服从正态分布。甲,乙。现分别从甲乙两条生产线上随机抽10件和8件产品,测得它们的平均重量分别为和。问甲、乙两条生产线灌装产品的重量是否有明显差异。(=)
二、未知的正态总体,独立小样本
例:某灯饰厂声称该厂生产的新型节能灯的平均寿命比老型节能灯的寿命更长。现随机从新老两种节能灯各抽取15只进行检测。新型检测结果为 EMBED 老型为 EMBED 已知服从正态分布且方差相同,问=时,上述样本数据能否证明灯饰厂的说法。
三、独立大样本,任何总体分布
四、配对样本
1. 由同一个体在前后进行两种不同试验得到的数据
为检验某种降压药的效果,观察同一批人服药前后血压的数据
对同一生产线,研究作业程序改变前后生产效率的数据
2. 由一对个体分别进行两种试验得到的数据
一对很胖的双胞胎分别使用两种减肥药,以观察两种减肥药效
在一个人的两只眼睛中分别使用两种药水,观察两种药水的效果
同等条件下,配对样本检验比独立样本精确。
第四节 总体成数与方差的假设检验
一、总体成数的假设检验
例:某公司欲出台一项政策,有人估计支持率大于80%。随机抽取230人询问,有190人表示支持,设=,问该支持率的估计是否可信?
例:随机调查339名50岁以上男性,其中205名吸烟者中有43人患慢性气管炎;在134名不吸烟者中有13人患慢性气管炎,设=, 检验吸烟者患此病的比率是否明显高于不吸烟者?
二、总体方差的假设检验
例:某公司有A、B两条生产线,两条生产线的方差相等。对A改造后,从两条生产线各抽取了25件产品进行测量。结果A生产产品的方差为,B生产产品的方差为。设 =, 检验改造后A生产线是否与B的方差明显不同。假设A、B两条生产线产品的总体服从正态分布。
P值是在原假设为真的条件下,出现象检验统计量的观察值这样极端以及更极端的值的概率
双侧检验为分布中两侧面积的总和
反映实际观测到的数据与原假设H0之间不一致的程度
被称为观察到的(或实测的)显著性水平
判断规则:P值<,拒绝H0,接受H1
两个样本均数不一致,t检验时P>,说明这种误差是由( )所致
A.抽样误差
B.总体均数不同
C.样本均数不同
D.样本数不同
A.P< B.>P>
C.P> D.P< E.P>
1.单侧检验,当时,( )
2.单侧检验,当时,( )
3.单侧检验,当时,( )
4.单侧检验,当时,( )
检验公式总结
【第七章】2检验和方差分析
本章学习要求:
掌握的拟合优度检验
掌握的独立性检验与一致性检验
掌握方差分析原理
掌握单因素方差分析
掌握无交复作用的双因素方差分析
第一节拟合优度的检验
拟合优度:指实际观察的频数与期望(理论)频数相似的程度。
拟合优度的检验:通过统计量来检验变量的实际分布是否与理论分布相同。
一、多项分布的检验
多项分布:实验结果多于两个的概率分布。
特点:试验结果有多个,但每次有且仅有一个结果发生,试验是独立的,每种可能出现结果的概率保持不变。
例:某大型超市在去年全年饮料销售中,A、B、C三种饮料的销售比例分别是58%,33%和9%。今年C品牌的厂家在进行了一系列的促销活动后,要求超市提供更多的货架位置以摆放更多的C品牌饮料。为此超市对C品牌促销活动后销售的270瓶饮料进行了统计分类,结果如下:A种150瓶,B种85瓶,C种35瓶。根据这样的数据,超市能否判断销售比例发生了变化?
检验主要用来检验频数,即检验各类实际观察的频数是否显著不同于假设的期望频数
使用条件:
每次的试验是独立进行的
如果试验有个类别,那么每次试验的结果是个类别中的某一个
每次试验时每个类别发生的概率都保持不变
为了满足上述条件,在进行检验时,应使试验次数n较大,且每一类别的期望频数都要大于等于5。
期望频数小于5的解决方法:
去掉期望值小于5的类别
增加试验次数n
将期望频数小于5的合并到相邻类别中(常用,但要注意使合并后的类别要有意义
二、泊松分布的检验
检验除了可以对假设的频数检验外
还可对各种假设的分布进行检验
对各种分布进行检验时,应将各变量值适当分类,并使每一类别的期望频数大于等于。
分类方法:
变量值是有限个,每一取值作为一类
变量值是无限个,则变为有限个区间,每一区间视为一类
例:第二次世界大战快结束时,德军用了用火箭推进的炸弹轰炸伦敦。盟军司令不知道这些炸弹是随机发射服从泊松分布还是使用了某种瞄准装置。
为了弄清这一点,他把伦敦分成了个区域,每个区域遭到轰炸的次数如下所示。
轰炸次数:
区域数:
三、正态分布的检验
正态分布的变量是连续型变量,因此要用区间来定义类别,即将连续变量值根据已给定的区间或等概率区间确定为不同的类别。变量值划分几个区间,类别数就等于区间的数量。
例:有人认为某种不规则商品的重量服从正态分布,下表是他随机抽取的40个该种商品的质量数据。问这些数据是否支持他的说法。
第二节独立性和一致性的检验
一、列联表分析方法
拟合优度检验:一个变量的拟合程度
两个变量间的关系:
是否相互独立独立性检验
是否来自同一总体一致性检验
使用列联表进行分析。
列联表:行列交叉的表格。
研究的两个变量,一个按类分行排列,另一个按类分列排列,行列交叉处是同属于两个变量不同类的数据。
二、独立性检验
独立性:两个变量之间互不相关
例:某研究机构欲对个人收入与学历关系进行研究,获得的样本如下,试在下,检验收入与学历是否有关系。
三、一致性检验
一致性:指多个总体在某一变量的各个类别上是否具有相同的分布特征。
例:某保健品厂家想了解老年和儿童对三种口味的滋养品的喜欢程度是否一致,在老年人和儿童中各抽取人调查,数据如下问下老年人与儿童喜欢的口味是否一致
一致性检验与独立性检验的区别
、检验目的不同
独立性检验:检验两个变量是否相关
一致性检验:检验不同总体在某一变量分类中是否具有相同的分布
、抽样程序不同
独立性检验:从一个总体中抽一个样本,然后按两个变量的类别进行分类
一致性检验:从多个总体中抽样,抽出多个样本,然后按不同样本进行分类
、推断期望频数的理论不同
独立性检验:基于独立事件的假设
一致性检验:基于不同总体具有相同概率的假设
当列联表的周边合计不变时,如果某格实际频数有变化,则其理论频数( )
A.增大
B.减小
C.不变
D.不确定
E.随该格实际频数的增减而增减
对抽样得到的四个样本比例作一致性检验,有,可认为( )
A.各总体比例不同或不全相同
B.各总体比例均不相同
C.各样本比例均不相同
D.各样本比例不同或不全相同
E.两个总体比例相同
第三节单因素方差分析
一、方差分析原理
方差分析(analysis of variance,ANOVA):
检验多个总体均值是否相等的统计方法。
包括单因素方差分析和双因素方差分析。
优点:
、检验的效率高
、检验的可靠性高
基本概念:
因变量(dependent variable):将要研究的特征指标,必须是定量变量。
因素或因子(factor):影响因变量的条件。
水平(level)或处理(treatment):因素的不同状态。
观察值:在每个因素水平下得到的样本数据
方差分析的假定条件:
对于检验的每一个总体,因变量都要服从正态分布
在每一个总体中,因变量的方差都相等,即各总体具备方差齐性
从各个总体抽取的是独立样本
组内变异(within groups)
因素的同一水平(同一个总体)下样本数据的误差
组内误差只包含随机误差
组间变异(between groups)
因素的不同水平(不同总体)下各样本之间的误差
组间误差既包括随机误差,也包括系统误差
数据之间的变异用平方和(sum of squares)表示
二、单因素方差分析的步骤
例:随机选择三种配方的食品各8件让专家品尝后打分(满足为10分),结果见表,问三种配方的平均分数是否相同?
方差分析中,当P<时,结果( )
A.可认为各样本均数都不相等 B.可认为各总体均数不等或不全相等
C.可认为各总体均数都不相等
D.证明各总体均数不等或不全相等
第四节双因素方差分析
分析两个因素(行因素Row和列因素Column)对试验结果的影响
如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factor without replication)
如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication )
一、无交互作用的两因素方差分析
有4个品牌的彩电在5个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,取得了每种品牌在各地区的销售量数据。试分析品牌和销售地区对彩电的销售量是否有显著影响? ((=)
对于同一批数据,在单因素方差分析和双因素方差分析中,各自的总离差平方和SST( )
A.是相同的
B.可能相同,可能不同
C.单因素的SST大
D.单因素的SST小
1.单因素方差分析中,总的离均差平方和为( )
×b双因素方差分析中,行因素的离均差平方和为( )
×b双因素方差分析中,总的离均差平方和为( )
×b双因素方差分析中,列因素的离均差平方和为( )
二、有交互作用的两因素方差分析
【第八章】相关与回归分析
本章学习重点:
变量间关系的度量
一元回归模型、回归方程与估计的回归方程
一元回归直线的拟合优度
一元回归分析中的显著性检验
一元回归分析的估计和预测
多元回归模型、回归方程、估计方程
多元回归方程的拟合优度
多元回归中的显著性检验
非线性回归
用Excel 进行回归分析
相关关系简介
一、函数关系与相关关系
1、函数关系:
变量之间依一定的函数形式形成的一一对应关系
是一种确定关系
设有两个变量 x和y,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量
2、相关关系(correlation)
变量的数值之间存在着非严格的依存关系。
一个变量的取值不能由另一个变量唯一确定
当变量 x 取某个值时,变量 y 的取值可能有几个
变量间关系不能用函数关系精确表达
因果关系( )
A.就是变量间数量上的联系
B.可以用统计方法证明
C.必定表现为数量间的联系
D.可以通过变量间数量上的联系来证明
二、相关关系的分类
1、按相关程度分:
完全相关:一个现象的数量变化由另一个现象的数量变化所唯一确定;
不相关:两个现象之间彼此互不影响,其数量变化各自独立;
不完全相关:两个现象之间的关系介乎完全相关和不相关之间;
2、按相关现象变化的方向分:
正相关:两个相关现象的数量按相同方向变化;
负相关:两个相关现象的数量按不同方向变化;
3、按相关关系的表现形态分:
线性相关:相关现象观测点的分布近似表现为一条直线,也叫直线相关;
非线性相关:相关现象观测点的分布近似表现为一条曲线,也叫曲线相关;
4、按相关关系涉及的影响因素分:
单相关:两个变量之间的相关关系,也叫一元相关;
复相关:三个或三个以上变量之间的相关关系,也叫多元相关;
第二节 一元线性相关分析
相关分析:研究变量间的联系及联系的紧密程度。
一、图示法
散点图(scatter diagram)
两个变量的数据成对出现, (x1,y1),(x2,y2),… (xn,yn)对应平面中n个点,将这n个点描绘在平面坐标轴中即得散点图。
可用于呈现两个变量之间相关关系的方向、形态和强度。
二、指标法-简单相关系数
简单相关系数:描述两个数量变量之间直线相关的方向和强度,用r表示样本相关系数,用( 表示总体相关系数。
散点图:呈现两个变量之间相关关系的方向、形态和强度。
1、计算
2、取值及意义
(1)r的取值范围是 [-1,1]
(2)r=1:完全正线性相关;r=-1:完全负线性相关
(3)r=0:不存在线性相关关系
(4)0<r<1:一般正线性相关;-1<r<0:一般负线性相关
(5)|r|越趋于1表示线性关系越密切;|r|越趋于0表示线性关系越不密切
|r|≥:高度线性相关; ≤|r|<:中度线性相关
≤|r| <:低度线性相关; |r|<:可看作不线性相关
3、假设检验:两个变量之间是否存在线性相关关系
检验步骤:
提出假设:
计算检验统计量:
确定显著性水平( ,
若(t(>t(/(( (n-2),拒绝H0
以下结论中正确的是___
A 相关系数|r|在以下,相关无显著意义。
B 相关系数|r|在以上,相关有极显著意义。
C 相关系数满足0< |r| <1,相关无显著意义。
D 相关系数检验,相关无显著意义。
E 以上结论均不正确。
第三节 一元线性回归分析
一、回归分析简介
1、什么是回归分析(regression analysis)
(1)从一组样本数据出发,确定变量之间的数学关系式;
(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;
(3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度;
2、回归分析与相关分析的区别
相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化
相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量
相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
3、回归模型的类型
二、一元线性回归分析
1、一元线性回归
(1)涉及一个自变量的回归。
(2)因变量y与自变量x之间为线性关系:
被预测或被解释的变量称为因变量(dependent variable),用y表示;
用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示;
(3)因变量与自变量之间的关系用一个线性方程来表示。
2、回归模型(regression model):描述因变量 y 如何依赖于自变量 x 和误差项( 的方程
一元线性回归模型可表示为
三、回归直线的拟合优度
(1)总平方和(SST)
反映因变量的n个观察值与其均值的总离差。
(2)回归平方和(SSR)
反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。
(3)残差平方和(SSE)
反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。
2、决定系数(coefficient of determination)
回归平方和占总离差平方和的比例;反映回归直线的拟合程度;取值范围在 [ 0 , 1 ] 之间;
R2 (1,说明回归方程拟合的越好; R2(0,说明回归方程拟合的越差
四、显著性检验
1、回归方程的检验
(1)检验自变量与因变量之间的线性关系是否显著。
(2)将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。
回归均方:回归平方和SSR除以相应的自由度(自变量的个数k,一元线性回归k=1) ;
残差均方:残差平方和SSE除以相应的自由度(n-k-1,在一元回归里为n-2);
2、回归系数的检验
(1)检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著。
(2)理论基础是回归系数b1的抽样分布
(3)在一元线性回归中,等价于线性关系的显著性检验。
五、利用回归方程进行估计和预测
在确定自变量的某一个x0值时求相应的因变量y0的估计值
1、点估计
2、区间估计
E(y0)的区间估计——置信区间
y0的区间估计——预测区间
E(y0)的区间估计:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间
E(y0) 在1-(置信水平下的置信区间为:
y0 的区间估计:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间
y0在1-(置信水平下的预测区间为
3、影响区间宽度的因素:
置信水平 (1 - ()
数据的离散程度
样本容量
用于预测的 x0与(x的差异程度
从X与Y的几对变量值中发现,X与Y的线性相关系数为,说明( )
A.X每增加1个单位,Y减小个单位 B.X每增加1个单位,Y增加个单位
C.X与Y的相关程度不高
D.X与Y的线性相关程度不高
说明回归直线拟合程度的统计量主要是( )
A.相关系数
B.回归系数
C.决定系数
D.估计标准误差
在回归分析中,F检验主要是用来检验( )
A.相关系数的显著性
B.回归系数的显著性
C.回归方程的显著性
D.估计标准误差的显著性
已知某一回归方程的判定系数是,且其回归系数b的符号是负的,则相关系数是( )
A.
B.
C.
D.
Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位公斤,则此方程( )
A.截距改变
B.回归系数改变
C.两者都改变
D.两者都不改变
某研究人员要建立以产量推测总成本的回归方程,如果他抽查的成本数据有误差,每个数据均比实际数值多K(K>1),则回归方程的___
A 截距不变,回归系数增加K
B 回归系数不变,截距增加K
C 回归系数与截距均增加K
D 回归系数与截距均增加K倍
E 回归系数不变,截距增加K倍
求出Y对X的线性回归方程后,发现将原始数据中的某一点的横坐标代入方程所得的,则可认为( )
A.此现象无法解释
B.此现象正常
C.计算有错误
D.X与Y之间呈非线性关系
E.X与Y之间呈线性关系
A.20 B. C.40 D.45 E.
根据11对(X,Y)的样本数据计算获得自变量X的方差为,因变量Y的方差为,X与Y的相关系数平方值为
1.X的离均差平方和为( )
2.Y的离均差平方和为( )
3.若建立起回归方程,其拟合程度为( )
4.X与Y的相关系数为( )
A.两变量相关性越好 B.结论可信度越大
C.认为总体具有线性相关的理由越充分
D.抽样误差越小 E.抽样误差越大
1.对相关系数进行显著性检验时,检验统计量值越大,即P值越小,则( )
2.在同一问题的相关性研究中,样本例数越大,则( )
第四节 多元线性回归分析
一、多元线性回归模型
二、回归参数的估计
三、回归方程的相关检验
1、方程(线性关系)的显著性检验
检验因变量与所有自变量之间的线性关系是否显著
检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用 F 检验来分析二者之间的差别是否显著
2、偏回归系数的检验
线性关系检验通过后,对各个回归系数进行的检验
对回归系数的个数进行限制,以避免犯过多的第一类错误(弃真错误)
对每一个自变量都要单独进行检验
应用 t 检验统计量
3、回归方程的拟合优度——多元决定系数(multiple coefficient of determination)
其正方根R被称为复相关系数:说明一个因变量与所有自变量之间的相关程度大小。
复相关系数与简单相关系数的差别?
修正多元决定系数(adjusted multiple coefficient of determination) :
用样本容量n和自变量的个数p去修正R2得到
计算公式为
四、利用回归方程进行估计和预测
五、多元线性回归例题
多元线性回归分析中,若对某一自变量的值乘以一个不为0的常数K,则有( )
A、该偏回归系数值不变
B、该偏回归系数值为原有偏回归系数值的1/K倍
C、该偏回归系数值会改变,但无规律
D、所有偏回归系数值均会改变
E、所有偏回归系数值均不会改变
多元线性回归分析中,若对某一自变量的值加上一个不为0的常数K,则有( )
A、截距和该偏回归系数值均不变
B、该偏回归系数值为原有偏回归系数值的K倍
C、该偏回归系数值会改变,但无规律
D、截距改变,但所有偏回归系数值均不改变
E、所有偏回归系数值均不会改变
多元线性回归分析中,能直接反映自变量解释因变量变异数量的指标是( )
A、复相关系数
B、简单相关系数
C、判定系数
D、偏回归系数
多元线性回归方程中( )(多选题)
A、自变量只有一个,因变量则有多个
B、因变量只有一个,自变量则有多个
C、回归系数βj表示,假定其他自变量不变,变量xj变动一个单位,因变量y的平均变动量
D、回归系数βj=0表示自变量xj的变动对因变量没有任何影响
E、对回归方程线性关系的检验是采用F检验
第五节 非线性回归
一、可转化为一元线性回归的方程
双曲线
幂函数曲线
指数曲线
对数曲线
S 型曲线
二、多项式回归方程
三、非线性回归例题
第九章时间序列分析
本章学习要求:
理解时间序列的概念
掌握时间序列的描述分析方法
掌握长期趋势的测定方法
第一节 时间数列分析的一般问题
一、概念及分析意义
1、时间序列(动态数列):
(1)某种现象在不同时间上的各个变量值按照时间先后顺序排列而成的数列;
(2)包括:时间要素和数据要素
(3)排列的时间可以是年份、季度、月份或其他任何时间形式;
(4)t表示时间,yt (at) 表示在时间t的观察值。
2、意义
反映现象发展变化的状态
深入揭示现象变化的数量特征
反映现象发展变化的趋势和规律
揭示现象变化的内在原因
为预测和决策提供可靠的数量信息
二、主要分类
1、按所研究对象的多少
一元时间数列
多元时间数列
2、按时间的连续性
离散型时间数列
连续型时间数列
3、按时间数列的统计特性
平稳时间数列(stationary series):基本上不存在趋势的序列
非平稳时间数列(non-stationary series):有趋势、季节性或周期性的序列;可能只含有其中的一种成分,也可能是几种成分的组合
4、按变量值的表现形式
绝对数时间数列
时期数列
时点数列
相对数时间数列
计划完成相对数时间数列
结构相对数时间数列……
平均数时间数列
静态平均数时间数列
动态平均数时间数列
三、编制原则
目的:通过对比分析,反映现象的发展变化过程及其发展变化的规律性。
基本原则:各项指标数值具有可比性
时间上的可比性
总体范围上的可比性
指标内容上的可比性
计算方法、计算单位以及计算价格等的可比性
第二节 时间数列的描述性分析
图形描述
1、用普通线图来描述时间序列的变动趋势。
2、看图
(1)找出整体形态:是否有长期以来随着时间上升,或者长期以来随着时间下降的趋势。
(2)找找看有没有显著偏离整体形态的现象。
(3)是否年复一年出现有规则的季节变动现象。
指标分析
一、水平分析指标
(一)发展水平:时间序列中每一个具体的指标数值。
它反映某种现象在一定时期内或一定时点上所达到的规模或水平
它是计算其他动态分析指标的基础
基期:作为对比的基础时期
报告期:需要进行分析对比的那个时期
(二)平均发展水平:把不同时间的发展水平加以平均所得到的平均数,也叫动态平均数或序时平均数
它抽象了现象在不同时间上的数量差异,从动态上反映现象发展变化的一般水平。
一般平均数:抽象了某一总体在同一时间内各单位标志值之间的数量差异,从静态上反映总体在各单位标志值的一般水平。
1、由绝对数时间数列计算序时平均数
(1)由时期数列计算序时平均数
(2)由时点数列计算序列平均数
间断(不连续)时点数列:时间间隔不是研究中认定的最小时间单位
如果在一个时间数列中每相邻两点时间间隔都相同,就是间隔相等的时点数列,否则就是间隔不等的时点数列。
不同时间上的相对数数值不能简单相加,故不能直接对各时间上的相对数值计算序时平均。
按前面介绍的绝对数时间数列求序时平均数的方法,分别计算分子和分母的序时平均数,最后将两个序时平均数进行对比求得。
(三)增长量:又称增长水平,是报告期发展水平与基期发展水平之差,说明现象在一定时期内增减变化的绝对量。
累计增长量:以某一固定时期作基期,反映现象在一段时期内总的增加或减少的数量
逐期增长量:以其前一期发展水平作基期,说明整个数列中各期的增长量。
累计增长量=逐期增长量之和
逐期增长量=两个累计增长量之差
(四)平均增长量:逐期增长量的平均数,说明现象在一定时期内平均每期增加或减少的程度
二、速度分析指标
(一)发展速度与增长速度
1.发展速度:报告期发展水平/基期发展水平
描述现象在分析期内相对的发展变化程度
一般用百分数表示,也可用倍数或系数
环比发展速度=报告期发展水平/前一期发展水平
表明现象逐期发展速度
定基发展速度=报告期发展水平/固定基期发展水平
说明现象在某一较长时间内总的发展速度
定基发展速度=环比发展速度的连乘积
2. 增长速度(growth rate):增长量/基期发展水平
说明现象增长变化程度的动态相对数
环比增长速度:环比发展速度-1
表明现象在一定时期内每期的增长变动程度
定基增长速度:定基发展速度-1
说明所研究现象在一个较长时间内总的增长变动程度
注:定基增长速度与环比增长速度之间没有直接的数量换算关系
A 增长的总趋势
B 增长的波动情况
C 各期发展总水平的变动
D 各期发展速度
E 上期发展水平与本期的差距
1.在动态数列分析中,定基比增长速度用来说明( )
2.在动态数列分析中,环比增长速度用来说明( )
已知一个数列的各环比增长速度分别为4%、6%、9%,该数列的定基增长速度为( )
A.4%×6%×9%
B.104%×106%×109%
C.(4%×6%×9%)+1
D.(104%×106%×109%)-1
(二)平均发展速度与平均增长速度
平均速度指标的作用:
1.将不同时期的平均速度指标进行对比,可反映现象在不同发展阶段的发展变化情况
2.为企业预测、决策、编制长远计划等提供依据
3.可进行广泛的对比,以反映同一现象在不同企业、不同行业、不同国家、不同地区之间的差别
1.平均发展速度:环比发展速度的平均数
描述现象在整个观察期内平均发展变化的程度
2.平均增长速度=平均发展速度-1
说明现象在整个观察期内平均增长变化的程度
注:不能直接根据各个环比增长速度直接计算
年增长率:本年与上年相比计算的增长率
月增长率:本月与上月相比计算的增长率
季增长率:本季与上季相比计算的增长率
时间跨度多于或少于1年时,用年增长率比较更有意义
3.年度化增长率(annualized rate):增长率以年来表示,也叫年率
(三)使用速度分析指标时应注意的问题
1.当时间序列中的观察值出现0或负数时,不宜计算速度
例如:假定某企业连续五年的利润额分别为5,2,0,-3,2万元
2.在有些情况下,不能单纯就速度论速度,要注意速度与绝对水平的结合分析
第三节 长期趋势分析
一、时间数列的构成和分解
1、长期趋势 (secular trend)/趋势性(trend)
在长时期内呈现出来的某种持续向上或持续下降的状态或规律。T
2、季节变动(seasonal fluctuation)/季节性(seasonality)
时间序列在一年内重复出现的周期性波动。 S
3、循环变动(cyclical movement)/周期性(cyclity)
围绕长期趋势的一种波浪形或振荡式变动。 C
4、不规则变动(irregular fluctuations)/随机性(random)
除去趋势、周期性和季节性之后的偶然性波动。 I
1、加法模型:Yt=Tt+St+Ct+It
Yt表示时间序列在t时刻的数值,Tt、St、Ct、It分别表示同一时刻序列的趋势值、季节变动、循环变动和不规则变动
假设:各构成部分影响的数量值可加且是独立的
2、乘法模型: Yt=TtStCtIt
St、Ct、It是在T上下波动的数值,通常称为指数,分别表示由于季节、循环、不规则变动的影响,在t时刻的趋势值增加或减少的百分比
假设: 时间序列的发展变化由四种因素的作用交乘而成
二、长期趋势分析
(一)移动平均法
通过对时间序列逐期递移求得一系列平均数产生新的时间序列
采用扩大时距的方式,对时间数列中的各项数值依次作k项滚动平均。
实质:通过对变量值进行平均的方法,对原来的时间序列进行修匀,消除季节变动、不规则变动等其他因素对序列产生的影响。
1、简单移动平均法(simple moving average)
确定移动的项数k(每次平均时所包含的变量值的个数);
从时间序列的第一个变量值开始,每次向后移动一项,分别计算出k个数值的序时平均数;
将计算出来的每个移动平均数的数值与它所对应的时间对应排列,编制成一个新的时间序列
关键:选择好移动的项数(移动步长)k
k为奇数时,移动平均数就是平均期中间一期的“修匀”值
k为偶数时,要进行两次平均
若序列有围绕趋势的周期性变动,则移动步长应与周期相同。
采用5年或4年移动平均修匀时间数列,其所得修匀数列比原数列首尾各少( )
A.二项数值
B.三项数值
C.四项数值
D.五项数值
2、加权移动平均法(weighted moving average)
对近期的观察值和远期的观察值赋予不同的权数后再进行预测
当时间序列的波动较大时,最近期的观察值应赋予最大的权数,较远的时期的观察值赋予的权数依次递减
当时间序列的波动不是很大时,对各期的观察值应赋予近似相等的权数
所选择的各期的权数之和必须等于1。
3、指数平滑法(exponential smoothing)
是加权平均的一种特殊形式
对过去的观察值加权平均进行预测的一种方法
有一次指数平滑、二次指数平滑、三次指数平滑等
一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势
一次指数平滑(single exponential smoothing)
只有一个平滑系数
预测模型:以一段时期的预测值与观察值的线性组合作为第t+1期的预测值
(的确定
一般而言,当时间序列有较大的随机波动时,宜选较大的( ,以便能很快跟上近期的变化
当时间序列比较平稳时,宜选较小的(
选择(时,还应考虑预测误差
误差均方来衡量预测误差的大小
确定(时,可选择几个进行预测,然后找出预测误差最小的作为最后的值
(二)最小二乘法
对不同年份的产品单位成本(元)配合的直线趋势方程为,表示( )
A.时间每增加1年单位成本平均增加元
B.时间每增加1 年单位成本增加总额为元
C.时间每增加1年单位成本平均下降元
D.单位成本每下降1元平均需要年时间
2、非线性趋势分析
二次曲线(second degree curve) :现象的发展趋势为抛物线形态
趋势线的选择
观察散点图
根据观察数据本身,按以下标准选择趋势线
一次差大体相同,配合直线
二次差大体相同,配合二次曲线
对数的一次差大体相同,配合指数曲线
比较估计标准误差
第四节 季节指数
一、季节指数(seasonal index)
季节变动对时间序列值的影响是通过计算一年中每个月(或季度)的季节指数(seasonal index)来识别的。
季节指数是一种相对数,刻画序列在一个年度内各月或季的典型季节特征,所有12个月(或4个季度)的季节指数的算术均值等于100%。
如果某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于100%
如果某一现象的发展没有季节变动,则所计算的各期季节指数应( )。
A.等于0 B.等于100%
C.小于100% D.大于100%
根据各年的月份数据计算的季节指数( )
A.其平均数为100%,总和为400% B.其平均数为1200%
C.其总和为100%
D.其总和为1200%
根据各年的季度资料计算的季节指数为:一季度100%、二季度110%、三季度70%、四季度120%,则( )受季节因素影响较大。
A.一季度 B.二季度
C.三季度 D.四季度
季节指数的一个最常见应用是通过消除时间序列数据中的季节成分来调整观测值。
如果我们希望比较不同月份间的数据来判断是否发生了预期的季节性增长(或降低),那么就要用到季节调整。
例:如果某种药品销售量的5月的季节指数比4月的季节指数高20%,某年5月比4月的销量增长10%,相对而言5月的需求是上升还是下降?
二、同期平均法
适用于:没有明显趋势变动只有季节变动的时间序列,一般至少有三年分月(季)的数据资料。
步骤:
计算整个数列的总算术平均数
计算各年同期(月或季)的算术平均数
确定季节指数s=同期平均数/总平均数
三、长期趋势剔除法
对给定的数列先进行四项或十二项的移动平均,消除不规则变动和季节变动,得到趋势分量和循环分量(TC)
从原数列中扣除趋势和循环分量影响,分离出季节分量和不规则分量(SI)
应用平均法消除由于偶然因素引起的不规则变动,分离出季节指数
季节比率的平均值不等于1时,应调整为1。
同期平均法适用于有( )的序列。
A 不规则变动
B 长期趋势
C 周期趋势
D 季节趋势
E 以上均不适用
用趋势剔除法分析季节变动时,剔除长期趋势的办法是( )
A.将实际数值加上趋势值
B.将实际数值减去趋势值
C.将实际数值乘以趋势值
D.将实际数值除以趋势值
第六节 时间序列因素分析应用
确定季节指数(用长期趋势剔除法)
确定趋势方程(用从实际观察值中扣除了季节变动影响的数值建立趋势方程)
用趋势方程对未来进行预测
在预测的趋势值中加上季节因素,得到所需的预测值
PAGE
PAGE 3