统计学原理
PRINCIPLE OF STATISTICS
教师:刘友权
目 录
第一章 总论
第二章 统计调查
第三章 统计整理
第四章 静态分析指标
第五章 动态数列
第六章 统计指数
第七章 相关分析与回归分析
第八章 抽样调查
《统计学原理》复习
第一章 总论
本章主要内容:
1、统计的含义和特点(了解)
2、统计学的研究对象(了解)
3、统计的基本方法(了解)
4、统计学中的基本概念(重点掌握)
5、我国的统计法规体系(了解)
1、统计的含义
统计工作是指 对社会经济现象的数量方面进行搜集、整理和分析工作的总称。
统计资料是统计工作的成果,是经过搜集、整理和计算分析以后所得的反映社会经济现象总体数量方面的各种统计数据,它们常以统计表、统计图、统计年鉴等形式表现。
统计科学是研究大量社会经济现象总体数量方面的方法论科学。
统计工作
统计科学
统计
资料
统计整理
统计调查
统计分析
成果
统计
抽象概括
指导
统计的内涵
三者关系:
统计的特点
数量性
总体性
具体性
社会性
变异性
广泛性
统计的基本职能
信息职能
咨询职能
监督职能
统计的基本任务
我国《统计法》规定:
统计的基本任务是对国民经济和社会发展情况进行统计调查、统计分析,提供统计资料和统计咨询意见,实行统计监督。
2、统计学的研究对象
统计学的研究对象是客观事物总体现象的数量方面。
统计学属于方法论科学,这是由它的客观性所决定的,它的研究方法有科学的理论依据和客观实践基础。
客观事物现象可以是社会经济现象,也可以是自然现象,可以是确定性现象,也可以是随机现象。
3、统计学的研究方法
大量观察法
统计分组法
综合指标法
统计推断法
数学模型分析法
图表法
统计
设计
统计
调查
统计整理
统计
分析
4、统计学中的基本概念(重点)
统计总体与总体单位
标志与指标
变量与变量值
统计总体与总体单位
统计总体,是一个集合的概念,是由客观存在的在同一性质基础上结合起来的许多个体单位组成的整体,简称总体。
总体单位是组成总体的每一个元素,是统计活动中的基本调查单位或观察单位,是调查项目(标志)的承担者。
总体与总体单位的相对性特点
总体和总体单位的关系随着研究目的和需要而确定。如果统计研究的目的范围发生变化,相应的总体与总体单位也会随之变化。
统计总体的特征
同质性:指构成统计总体的每一个单位(个体)必须在至少一个方面具有共同的属性,是构成总体的基础。
大量性:指构成统计总体的单位(个体)必须是大量的,或者是足够多的。
差异性:指统计总体内的各种个体在具有相同性质的基础上,还必须具有质或量上的差异,这是研究统计总体的条件。
统计总体的类别
统计总体按其所包括的范围大小,可分为无限总体和有限总体。
无限总体:指包括的个体是无限的,不能一一列举出来,不能全部计量的总体;
有限总体:指所包括的个体是有限的,能够一一列举出来,能全部计量的总体。
样本
样本是指从总体中抽出一部分个体构成的集合;
构成样本的个体数目称为样本量。
目的:可根据样本提供的有关信息去推断总体的特征和规律性。
特点:与总体同质性;随机性。
标志是总体单位所具有的属性和特征。
一个完整的标志应包括标志名称和标志表现两个部分。
标志表现是标志在各个单位上的具体表现。
如:性别 男、女
标志按性质分:
品质标志:说明总体单位品质属性的标志。
数量标志:说明总体单位数量特征的标志。
标志按可变性分:
不变标志:在总体各单位的表现均相同的标志。
可变标志:在总体各单位的表现各不相同的标志。
统计指标是综合反映总体数量特征的概念和数值。
一个完整的指标包括指标名称和指标数值两个基本要素。指标名称是对现象质的规定性,反映该现象内容所属的范围;指标数值是统计所研究现象的具体数量综合的结果,是对现象总体特征从数量上加以说明,反映现象的量的规定性。
统计指标的特点是:
可计量性
具体性
综合性
统计指标的种类
按所反映现象总体的数量特征不同分为数量指标和质量指标:
数量指标是指反映现象在一定时间、地点、条件下的总规模和总水平的条件指标,包括总体或其中各个部分的单位总数或标志值总和。也称为总量指标;
质量指标是指反映现象总体内部与总体单位数相对应等标志的平均水平(平均指标)或其他数量对比关系的指标(相对指标)。
统计指标的种类
按其计量单位不同分为实物指标、价值指标和劳动指标
实物指标是按现象的自然属性和特点的计量尺度度量的指标;
价值指标是以货币为计量单位的指标,综合性强,使不能直接相加的经济现象的数量得以相加。
劳动量指标是以劳动时间为计量单位,如工时、工日、机械小时等指标。
统计指标的种类
按其反映的时间状况不同分为动态指标和静态指标
动态指标是指反映现象总体在不同时期发展变动情况的指标
静态指标是指反映现象总体在一定时期内或某一时点上数量特征的统计指标。
统计指标的种类
按其表现形式不同分为总量指标、相对指标、平均指标和变异指标。
区别:①标志是说明总体单位的属性和特征的;
指标是说明总体的数量特征的。
②标志可以用数字和文字两种形式来表示;
指标只能用数量来表示。
联系:①汇总关系:指标由标志值汇总而来;
②转换关系:标志与指标的关系随着总体单位与总体的相对转换而转换。
统计指标体系是指由一系列相互联系的统计指标组成的有机整体。利用指标体系可以从各个侧面完整地反映现象总体或样本的数量特征。
例如:企业绩效评价指标体系
变量与变量值
变量:是说明现象某种特征的概念。可变的数量标志和统计指标是变量;
变量的数值表现是变量值。
变量的分类
按记录方式的不同可分为数量变量和品质变量
按其性质不同可分为确定性变量和随机性变量
按其取值是否连续可分为连续型变量和离散型变量。
六个基本概念之间的关系
汇总
标志
总体单位
品质标志
数量
标志
变量值
统计
指标
组成
说明
说明
具体表现
总体
变量
5、我国的统计法规体系
我国统计法规体系的基本框架:
○统计法律
○统计行政法规
○统计规章
○地方性统计法规
1、下面属于品质标志的是
A、工人年龄
B、工人性别
C、工人工资
D、工人体重
练一练
2、下面属于连续变量的是()
A、职工人数
B、机器台数
C、工业总产值
D、车间数
3、人均收入,人口密度,平均寿命,人口净增数,这四个指标中属于数量指标的有( ),属于质量指标的有( )
A、1个 B、2个
C、3个 D、4个
4、统计总体的基本特征有( )
A、数量性
B、同质性
C、大量性
D、差异性
E、综合性
5、统计指标的特点有( )
A、综合性
B、大量性
C、差异性
D、同质性
E、数量性
6、在全国人口普查中( )
A、全国人口数是统计总体
B、男性是品质标志
C、全部女性人口数是统计指标
D、每个人是总体单位
E、人的年龄是变量
7、以下属于质量指标的是( )
A、性别比例 B、人口数
C、平均工资 D、计划完成程度
E、商品销售额 F、工资总额
8、工业总产值(工厂法计算),这一指标中还缺少的构成要素是
A、计量单位
B、指标名称
C、时间限制
D、空间限制
E、计算方法
第二章 统计调查
本章主要内容:
第一节 统计调查的意义和种类
第二节 统计资料的调查方式
第三节 统计调查方案的设计
第四节 统计资料的搜集方法
. 1统计调查的意义
概念:统计调查是按照统计研究所预定的目标和要求,采用科学的调查方法,有组织、有计划地向客观实际搜集各种数据资料的过程。
意义:
(1)是统计过程的开始阶段,担负着提供基础资料的任务,是统计整理和统计分析的前提。
(2)统计调查搜集资料的质量好坏,是否完整、准确、及时会影响统计工作的最终成果。
基本要求
准确性:指搜集到的统计资料必须符合实际,真实可靠、准确无误,既不夸大,也不缩小。
及时性:指统计资料的搜集必须按规定的时间如期完成并及时上报,从时间上满足各方面对统计资料的需要。
完整性:指必须按照调查的目的和要求搜集到完整、全面、系统的统计资料,即在规定的时间内将调查的单位和项目的资料全部搜集起来,不得遗漏。
经济性:指统计资料的搜集要根据统计调查主体和客体的需要和可能,注重现实条件,以尽量少的人力、物力、财力和时间耗费,搜集到符合统计要求的高质量的统计资料。
统计调查的分类(一)
按统计的主体及作用不同分:
国家统计调查
部门统计调查
地方统计调查
其他统计调查
按调查对象包括的范围分:
全面调查
非全面调查
统计调查的分类(二)
按调查时间是否连续分:
一次性调查
经常性调查
按统计调查的组织方式不同分:
统计报表调查
专门调查
统计资料的调查方式
※普查
※重点调查
※典型调查
※抽样调查
※统计报表
普 查
概念:普查是一种专门组织的一次性全面调查,用以收集属于一定时点状态的社会现象的全面资料。
目的:
掌握有关国情、国力的重要资料,为国家制定有关政策或措施提供依据。
普 查
特点:
周期性、一次性调查。
统一标准调查时点即标准时间;
确定统一的普查期限,即规定进行普查登记的时期;
统一规定普查的项目和指标;
普查资料的全面性和系统性;
普查可为其他调查提供基本依据;
普查所需要的人力、物力、财力较大。
普 查
组织方式:
专门组织的普查机构。
由调查单位自填调查表。
普查的组织原则
明确统一的普查标准时点。
标准时点就是在对被调查对象进行登记时所依据的统一时点,调查结果所表明的就是现象在该时点上的状态。
确定标准时点是为了保证在整个普查的空间范围内取得准确的时点资料,反映同一时点上的情况,避免产生遗漏和重复现象。
标准时点一般选择在一年中人口的流动性较小,易于登记的时间。
正确选择普查的时期。
整个普查范围内的调查登记工作要同时进行,并尽可能在最短期限内完成,在方法上、步调上保持一致。
统一规定调查项目,不能任意改变或增减,以免影响综合汇总,降低资料的质量。
尽可能按一定的周期进行,以便历次普查资料的对比分析。
重点调查
概念:重点调查是指在调查对象中,只选择一部分重点单位进行调查,以了解基本情况的一种非全面调查方式。
重点单位是指这些单位在全部总体中虽然数目不多,所占比重不大,但就调查的标志值来说却在总量中占很大的比重,通过对这些单位的调查就可以从数量上说明总体在该标志总量方面的基本情况。
特点:
是专门组织的一次性非全面调查。
所研究现象在地域上的分布是很集中的。
节省人力、物力和时间,具有费力小、收效快的特点。
适用场合:
调查任务只要求掌握研究对象的基本情况,并不要求了解总体的全面、准确情况。
调查对象中客观存在有明显的重点单位。
由于重点单位与一般单位差异较大,所以,重点调查一般不能用以推算整个总体的指标。
典型调查
概念:典型调查是根据调查目的和要求,在对研究总体作全面分析后,有意识地从中选择具有代表性的单位进行深入调查研究的一种非全面调查。
特点:
可以用来检验总体特征的某些假设,判断假设的真伪,为决策提供依据。
专门组织的一次性非全面调查。
调查单位是有代表性的典型单位,要按照调查的目的和要求,在对所研究的对象进行全面分析的基础上,有意识地选择。
调查单位少,有可能用少量人力、物力,深入基层,作具体、细致的调查研究。
方法:
“解剖麻雀式”的典型调查。
“划类选典式”的典型调查。
作用:
了解事物的一般情况和发展规律。
发现、分析和研究新事物、新情况、新问题,掌握事物生动、具体的情况。
补充和验证全面调查的不足。
抽样调查
概念:指从所要研究的总体中,按照随机的原则,抽取部分单位进行调查,并根据调查结果对总体的某一指标数值作出推算。
特点:
调查单位是总体中部分样本单位:经济性
调查单位的抽选是按随机原则从全部总体中抽选。
随机原则:在抽选具体单位时,不搀杂调查者的主观判断,总体中每个单位都有同等被抽中的机会,抽中抽不中全凭机会,而不是“人为”地抽选。
3、 及时性;
4、科学性;
5、应用广泛性。
作用:
可以承担全面调查无法或很难承担的调查任务。
和全面调查相结合,发挥补充和核对的作用。
进行生产过程的质量控制。
统计报表
概念:统计报表制度是各企事业单位和机关用一定的表格形式,按一定的原始记录和核算资料、一定的报送时间和程序,自下而上地向上级主管部门和国家统计部门提供统计资料的一整套组织形式。
特点:
统一性
可靠性
全面性
统计报表的种类
统计调查方案的设计
确定调查目的和任务
调查目的:指通过统计调查要搜集什么资料、研究和解决什么问题。
确定调查对象和调查单位
调查对象,就是根据本次调查目的确定的统计调查的总体和调查范围。
调查单位,是指所要调查的具体单位,它是调查项目的具体承担者或载体,是要搜集数据、分析数据的基本单位。
填报单位,是负责向上报告调查内容,提交统计资料的单位。
统计调查方案的设计
确定调查内容,拟定调查表
调查内容,是用来说明调查单位的特征,即调查项目的统计标志,包括品质标志和数量标志及其他情况。
调查表,是调查内容的表格形式,是将调查内容按照一定的顺序排列成表格形式,是用来登记调查单位数据的统计表格。一般由表头、表体和表外附加三部分组成。
调查表可分为单一表和一览表
确定调查的时间和期限
调查时间和时限
调查时间——调查资料所属的时间,“客观时间”
(准确性)
调查时限——进行调查工作的期限,“主观时间”
(及时性)
例:假定企业2008年经济活动成果年报呈报时间规定在2009 年的一月底,则调查时间为一年,调查时限为一个月。
确定调查方式
调查方式,是搜集资料的具体方式或方法。是全面调查还是非全面调查,非全面调查中是抽样调查、重点调查还是典型调查等。
调查的组织与实施
主要包括调查工作的组织架构;调查人员的选择、组织与培训;调查经费来源;开支预算及物资准备等。
统计资料的搜集方法
直接观察法
是由调查人员亲自深入调查对象中,主动与调查对象接触,亲身体察和计量实际情况,以取得原始资料的一种资料搜集方法。
统计资料的搜集方法
问卷调查法
是为了特定的目的,设计好问卷,再将问卷发放给调查者,由调查者自愿回答,调查者再根据回收回来的问卷答案汇总成统计资料的一种资料搜集方法。是一种书面调查的方式。
统计资料的搜集方法
采访调查法
是由调查人员通过一定的采访方式采访被调查者,然后根据被调查者的答复搜集和取得统计资料的一种调查方法。
有直接采访、电话采访等。
统计资料的搜集方法
网络调查法
指利用互联网调查,以搜集统计资料的方法。
有电子邮件方式、网页方式等。
统计资料的搜集方法
报告法
是由调查者根据各种原始记录和核算资料,按照统计调查机构统一制定的报表格式和要求,在规定的时间内,按规定的程序,以信函、传真、电子文档的方式逐级向上报送统计资料的一种调查方法。
统计资料的搜集方法
实验调查法
是在事先确定调查的问题中,选择影响这些问题的诸多因素中的一个或几个因素,将其置于一定的条件下,进行小规模实验的调查方法。
练一练
1、统计调查按调查对象包括的范围不同,可分为( )
A、定期调查和不定期调查
B、经常性调查和一次性调查
C、统计报表和专门调查
D、全面调查和非全面调查
练一练
2、统计调查中,搜集统计资料的方法有( )
A、直接观察法、普查和抽样调查
B、直接观察法、采访法和问卷调查
C、报告法、统计报表和抽样调查
D、采访法、典型调查、重点调查
练一练
3、在统计调查中,调查标志的承担者是( )
A、调查对象 B、调查单位
C、填报单位 D、一般单位
练一练
4、为了了解全国钢铁企业生产基本情况,可对首钢、宝钢、武钢、包钢等钢铁企业进行调查,这种调查方式是( )
A、全面调查 B、典型调查
C、抽样调查 D、重点调查
练一练
5、 2010年11月1日零点的全国人口普查是( )
A、重点调查
B、典型调查
C、一次性调查
D、经常性调查
练一练
6、非全面调查中最完善、最有科学根据的方式方法是( )
A、重点调查 B、典型调查
C、抽样调查 D、非全面报表
第三章 统计整理
本章主要内容:
第一节 统计整理的概念
第二节 统计分组
第三节 分配数列
第四节 统计资料的显示
统计整理
概念:统计整理,就是根据统计研究的目的,对所搜集到的资料进行科学加工,使之系统化、条理化的工作过程。
作用:
是统计工作必不可少的中间环节。
实现从个体单位标志值过渡到总体数量特征值的必经阶段。
统计资料整理的质量如何,会直接影响统计分析的效果。
内容(程序):
统计整理方案的设计
统计资料审核
统计资料的分组、汇总和计算
编制统计图表
统计资料的积累和保管
统计分组
概念:统计分组就是根据统计研究的目的,按照某个或某几个重要标志将总体划分为若干性质不同的部分或组的一种统计方法。
遵循两个原则:
穷尽性原则
互斥性原则
统计分组的作用
区分现象质的差别
反映现象总体的内部结构
分析现象之间的相互依存关系。
统计分组的方法
统计分组的关键是分组标志的选择和确定分组界限。
分组标志的选择:
要根据研究问题的目的来选择
要选择反映现象本质特征及内在联系的标志作为分组标志。
要结合现象所处的具体历史条件或经济条件来选择
(一)按其任
务和作用不同分
统 计 分 组 的 种 类
类型分组
结构分组
分析分组
1.类型分组
全国总计
大型工业企业
中型工业企业
小型工业企业
比重
(%)
产值
(亿元)
比重
(%)
产值
(亿元)
2001年
2000年
按大中小型分
一般认为:现象总体按主要的品质分组,多属于类型分组。类型分组的目的是划分现象的类型。
如:工业企业按大中小型分组
2.结构分组
一般认为:按数量标志分组为结构分组。结构分类的目的是揭示现象内部结构。
如:按年龄分组、考试成绩按分数分组(如右表)。
45
合计
3
90以上
12
80~90
18
70~80
10
60~70
2
60以下
人数
(人)
成绩
(分)
3.分析分组
分析分组的目的是研究现象之间的依存关系。
如商业企业按营业额分组后,再计算各组商业企业的平均商品流通费用率,就可以分析商品营业额和流通费用率之间的关系。
20
42
125
38
6
2
50以下
50~100
100~200
200~400
400~600
600以上
流通费
用率(%)
企业
个数
(个)
营业额
(万元)
(一)按其任
务和作用不同分
(二)按分组
标志的多少分
二、统 计 分 组 的 种 类
类型分组
结构分组
分析分组
简单分组
复合分组
1.简单分组
简单分组是根据现象的复杂程度和分析研究的任务,将总体按一个标志进行分组。
如:人口按年龄分组
2.复合分组
复合分组是根据现象的复杂程度和分析研究的任务,将总体按两个或两个以上标志进行层叠分组。
如:工人按技术等级和性别进行层叠分组(见右表)
219
合计
8
6
2
64
48
16
147
102
45
高级
男
女
中级
男
女
初级
男
女
人数(人)
技术等级
(一)按其任
务和作用不同分
(二)按分组
标志的多少分
(三)按分组
标志的性质分
品质分组
变量分组
二、统 计 分 组 的 种 类
类型分组
结构分组
分析分组
简单分组
复合分组
1.品质分组
品质分组是按品质标志进行的分组
如企业按经济成份、地理位置分组,职工按性别、文化程度分组等
合 计
国有企业
集体企业
个体企业
其它企业
企业数(个)
企业按经济类型分组
2.数量分组
数量分组是按数量标志进行的分组。
如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。
合 计
0
1
2
3
户数(户)
居民家庭按子女数分组
分组体系
分组体系: 对现象总体运用多个有联系的分组标志进行分组,形成相互联系、相互补充的组所组成的整体称为分组体系。
分组体系在形式上有平行分组体系和复合分组体系
平行分组体系
平行分组体系是选择两个或两个以上的标志对总体进行简单分组后所形成的体系。
某企业技术人员按技术等级和性别的平行分组,如右表。
8
64
147
156
63
1.按技术等级分
高级
中级
初级
2.按性别分
男
女
人数
(人)
分组标志
复合分组体系
某企业技术人员按技术等级和性别的复合分组,如右表。
219
合计
8
6
2
64
48
16
147
102
45
高级
男
女
中级
男
女
初级
男
女
人数(人)
技术等级
分配数列及其种类
概念:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定的顺序排列,形成总体单位在各组之间的分布,称之为频数分布、次数分布或分配数列。
构成:分配数列是由分组标志序列和各组相对应的分布次数两个要素构成。
种类:
分配数列
品质数列
变量数列
单项数列
组距数列
等距数列
异距数列
品质数列
品质数列是按品质标志分组形成的分配数列
例如,我国第五次人口普查人口文化程度构成情况
单位:万人
112953
合计
8950
文盲
47334
小学
42989
初中
14109
高中和中专
4571
大专及以上
比重(%)
绝对数人数
按文化程度分组
单项数列
单项数列是总体按单项式分组而形成的变量数列。
一个变量值为一个组,按大小顺序排列,在组数不多和组值变动幅度不大时采用。
例如, 某厂第二季度工人平均日产量
115
合计
20
6
40
5
30
4
15
3
10
2
比重(%)
绝对数
工人数
工人平均日产量(件)
变量
次数
频率
组距数列
组距数列是总体按组距式分组而形成的变量数列
每个组是由若干个(一组)变量值形成的区间表示,在变量值个数较多、变动幅度较大时采用。
例如, 某工厂工人完成生产定额情况表
125
115
105
95
85
组中值
180
合计
20
120以上
30
110--120
60
100--110
40
90--100
30
90以下
比重(%)
绝对数
工人数
工人按完成生产定额分组(%)
变量值
次数
频率
下限
上限
开口组
组距为10
几组重要的概念
※全距 ※组数:指某个变量数列共分为多少组。
※组限:指各组的数量界限。即数列中每个组两端表示各组界限的变量值,分为上限与下限。每个组的最小值为下限,最大值为上限。上、下限都齐全的叫闭口组,有上限缺下限或有下限缺上限的,叫开口组。
※组距:各组所包含的变量值的变动范围。
通用公式:组距=上限-下限
※组中值:指组距数列中各组所有变量值的代表值。即各组上限与下限之间的中点值。计算公式.66
等距数列与异距数列(不等距数列)
1)等距数列:指每个组的组距都相等的组
组距数列。
2)异距数列:指各组的组距不尽相等的
组距数列。
变量数列的编制
将原始资料从大到小或从小到大排列起来
确定变量数列的形式:是采用单项数列?组距数列?
根据变量的类型和变动的幅度来定:
变量的类型 变动的幅度
离散型变量
组距数列
4.确定组限和组限的表示方法
5. 分组计算次数.
6.组中值与开口组
确定组数和组距
连续型变量
个数少,变动幅度不大 单项数列
个数多,变动幅度大
例3-1 已知某车间有20名工人,他们的日产量(件)分别为:4,3,5,6,4,6,5,3,5,4,6,4,3,6,7,4,5,4,5,5,要求根据以上资料编制变量数列.
变量数列的编制
变量数列的编制
例3-2 某班40名学生考试成绩为:
89 88 76 99 74 60 82 60 89 86 93 99 94 82 77 79 97 78 95 92 87 84 79 65 98 67 59 72 84 85 56 81 77 73 65 66 83 63 79 70
将上述资料按数值大小排列为:
56 59 60 60 63 65 65 66 67 70 72 73 74 76 77 77 78 79 79 79 81 82 82 83 84 84 85 86 87 88 89 89 92 93 94 95 97 98 99 99
经初步整理可看出,资料的最小值为56,最大值为99,全距=99-56=43.
本例变量为连续型,应取标志值变动的一个区间作为一组,应采用组距数列。
学生成绩的数量特征分为:优、良、中、及格、不及格,为将本班成绩分布的数量特征反映出来,应该分为五个组,
这时,
学生成绩这种现象60分是一个数量界限,并可用70、80、90分分别表示中、良、优等,故应该用这些数值作为组限。
学生成绩为连续型变量,应该用同一个数值分别作为相另两个组的上、下限。
变量数列的表示方法
列表法 学生成绩组距数列分组资料
--
--
--
--
40
合计
8
40
8
90--100
20
32
12
80--90
31
20
11
70--80
95
38
9
7
60--70
40
2
2
50--60
比率%
人数
比率%
人数
向下累计
向上累计
比率(频率)%
人数
考分
累计次数--—截至某一组累积起来的总次数。分为向上累计和向下累计。
向上累计—-从最小一组的次数起逐项累计,表示小于该组上限的次数共有多少。
向下累计—-从最大一组的次数起逐项累计,表示大于该组下限的次数共有多少。
组限的表示方法
最小一组的下限要低于最小的变量值,最大一组的上限要高于最大的变量值。
组限的确定应有利于显示总体次数分布的规律性。
组限的表示应是组距的整倍数。
离散型变量和连续型变量组限的表示方法不一样
离散型变量可以用相另两个变量值作为两个相另组的上、下限:
例如,职工人数分组
100人以下
100—499
500—999
1000人以上
连续型变量不可能一一列举,相另组的上、下限不可能用两个确定的数值表示,通常用一个数值作为相另组的上、下限:
例如,粮食亩产量分组:
400斤以下
400—800
800—1000
1000斤以上
次数分布的主要类型
钟型分布
U型分布
J型分布
统计资料的显示之统计表
概念:将汇总整理后得出的一些系统化的统计资料,按一定的顺序填列的表格。
作用:
使大量的统计资料系统化、条理化,更清晰地表述统计资料的内容。
便于比较各项目(指标)之间的关系,便于计算。
比文字叙述更紧凑、简明、醒目,一目了然。
积累和保存统计资料的良好方式。
统计表的结构
2000年全国国民生产总值
合计
第三产业
第二产业
第一产业
比重(%)
产值(亿元)
国民生产总值
项目
总标题
纵栏标题
(纵标目)
数字资料
横行标题
(横标目)
主词
宾词
统计表的种类
简单表—主词未经任何分组的统计表。
分组表—主词按照某一标志进行了分组的统计表。
复合表—主词按照两个或两个以上标志进行重叠式分组的统计表。
复合表举例
某年某地区工业净产值和职工人数
91250
39450
合计
4500
4400
小
10400
5200
中
7500
7300
大
集体
10050
4200
小
45000
8600
中
13800
9750
大
国有
职工人数(人)
净产值(万元)
项目
宾词指标的设计1
简单设计
案例: 某地区工业企业的工人性别和工龄
国有经济
合计
集体经济
(9)
(8)
(7)
(6)
(5)
(4)
(3)
(2)
(1)
(甲)
10年以上
5-10年
3-5年
1-3年
1年以下
女
男
工龄
性别
工人
人数
企业数
按所有制
形式分组
宾词指标的设计2
复合设计
某地区工业企业的工人性别和工龄
合计
集体经济
国有经济
(19)
(18)
(17)
(16)
(15)
(14)
(13)
(12)
(11)
(10)
(9)
(8)
(7)
(6)
(5)
(4)
(3)
(2)
(1)
(甲)
计
女
男
计
女
男
计
女
男
计
女
男
计
女
男
计
女
男
10年以上
5-10年
3-5年
1-3年
1年以下
工龄
工人人数
企业数
企业按所有制分组
编制统计表应注意的问题
1、统计表的总标题和各分标题都要简明扼要,准确反映内容。总标题要注意标明资料所属的地区和时间;纵横各栏的排列要注意表述资料的逻辑系统,反映现象的内在联系。
2、表中主词各行和宾词各栏,一般应按先局部后整体的原则排列,即先列各个项目,后列总体。若无必要列出所有项目时,就要先列出总体,后列其中一部分重要项目。
3、表中必须注明数字资料的计量单位。当全表只有一个计量单位时,写在表的右上方。当一个横行一个计量单位时,可以专设“计量单位”栏。纵栏的计量单位与纵栏标目写在一起。
4、表中数字上下位置要对齐。遇有相同数字应照写,不能写“同上”。无数字的空格,用符号“-”表示;缺数字时,用符号“… …”。表中还应列出合计栏。
5、统计表的格式一般是开口式,即表的左右两端不画纵线,上下用粗线封口。对于栏数较多的统计表,通常加以编号。文字栏用甲、乙等文字标明;宾词栏用(1)、 (2)、 (3)等标明。
6、必要时,统计表要加注解。
统计资料的显示之统计图
统计图是用点、线、面等几何图形,直观形象地表达、描述数据或结果。
1. 统计图的结构
2. 统计图的种类与绘制注意事项
统计图的结构
统计图由以下几个部分组成:
①标题 ②标目 ③点\线\条\面 ④刻度 ⑤图例
1.标题
其作用及要求与统计表的标题相同,但位置是在图的下方。若同一篇论文中有两个以上统计图时,则标题前应有序号。
2.标目
分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般有度量衡单位。 按中文排版习惯,纵标目由上而下,横标目由左向右。如果横轴的分组标志十分明确,也可省略横标目。
3、刻度
指在纵轴或横轴上的坐标。 按从小到大的顺序,纵轴刻度数值由下向上排列,横轴刻度数值从左到右排列。 常用的刻度有算术尺度和对数尺度两种。为了图形美观,图形的长宽比例习惯上为7:5或5:7。
4、图例
其目的是为了使读者能区分统计图中各种图形的意义。图例通常在横标目与标题之间,如果图中有较多空间(如线图),也可放在图中。
统计图的种类与绘制注意事项
⑴条形图 ⑵圆形图 ⑶百分条图
⑷折线图 ⑸直方图 ⑹散点图
⑺统计地图 ⑻ 箱图
⑼茎叶图 ⑽雷达图 ⑾气泡图
(1)条形图
条形图是以等宽条形的长短或高低来比较数字资料的一种统计图。
具体的形状可以是条形、立体的圆柱、方柱或锥体
位置:可以横放,也可以竖放
0
20
40
60
80
100
单位:公顷
粮食
棉花
油类
80
50
30
某村农作物种植面积统计图
2000年12月
绘制条图注意事项
⑴ 纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
(2)圆形图
圆形图:用于表达事物内部的百分构成比大小。
各个扇形面积(°)的大小反映了各组成部分百分比(1%)的大小。
从12点钟处开始绘制,顺时针方向排列。
2002年某医院1402例孕妇分娩结果
100
1402
总计
83
1148
足月
15
212
早产
1
21
死产
1
21
过期产
构成比(%)
例数
分娩结果
(3)线图
①普通线图:用线段的升降表示某事物动态变化,或某现象随另一现象变迁的情况(绝对差)。适用于连续性资料。
纵轴:算术尺度;横轴:连续性变量(时间、年龄等)
②半对数线图:表示事物发展速度(相对比)。
纵轴:对数尺度; 横轴:连续性变量(时间、年龄等)
表2-13 某市1949~1957年15岁以下儿童结核病和白喉死亡率(1/10万)
1949
1950
1951
1952
1953
1954
1955
1956
1957
百喉死亡率
结核病死亡率
年份
(4)直方图
直方图:用矩形面积表示连续变量的频数(频率)分布。
1. 横轴:连续变量的组段;
纵轴:频数或频率,尺度从0开始。
2. 各矩形条之间不留空隙。
3. 矩形的高度为频数或频率,宽度为组距。
(5)散点图
散点图:用点的密集程度和趋势表示两种现象间的相关关系。
横轴:自变量X
纵轴:因变量Y
纵轴与横轴的起点可根据资料的情况而定。
(6)统计地图
统计地图:用于表示某现象的数量在地域上的分布。
1
2
3
4
5
25
45
116679
0
49
茎:十位数字
叶:表示个位数字
例:某篮球运动员在某赛季各场比赛的得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,50
(7)茎叶图
制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.
茎叶图的制作方法
注意:在制作茎叶图时,重复出现的数据要重复记录,不能遗漏,特别是“叶”部分;同一数据出现几次,就要在图中体现几次.
第四章 静态分析指标
本章主要内容:
第一节 总量指标
第二节 相对指标
第三节 平均指标
第四节 标志变异指标
第一节 总量指标
概念:反映社会经济现象在一定时间、地点、条件下的
总规模或总水平的统计指标,也称为绝对指标或绝对数。
作用:
反映一个国家的基本国情和国力,反映某部门、单位等人、财、物的基本数据,是认识社会经济现象的基础。
实行社会、经济管理的基本依据。
计算相对指标、平均指标以及各种分析指标的基础。
种类:
总体单位总量与总体标志总量
⑴总体单位总量:表明总体中单位数目多少的总量指标;用来说明总体本身的规模的大小。
⑵总体标志总量:总体单位数量标志值之和的总量指标
注:一个特定总体内,只能存在一个单位总量,而可以同时存在多个标志总量,从而构成一个总量指标体系。
两者的关系:两者的位置随研究目的的不同而变化。
时期指标与时点指标
时期指标反映现象在某一时期发展过程的总数量,例如一定时期的产品产量、产值、商品销售量、工资总额等。
时点指标反映现象在某一时刻(瞬间)上状况的总量,例如人口数、企业数、商品库存数、流动金额数等等 。
指标数值的大小受时期长短的制约,时期越长,数值越大。
可以相加,相加有意义;
通过连续计数加总取得
时期指标
指标数值的大小与时点间的间隔长短无直接关系。
不可以相加相加无意义;
通过在某一时点上间断计数
时点指标
指标数值的大小是否与时间长短有关
是否具有可加性:
从指标取得的方式看
不同的特点:
计量单位
⑴实物单位:是根据现象的自然、物理或化学属性而确定的计量单位。
①自然单位:人、辆
②度量衡单位:千克、吨
③标准实物单位:是一种折算单位
④复合单位:吨公里
⑵货币单位:是采用货币形式进行度量的计量单位
元
⑶劳动量单位:是按照劳动时间来计量的单位。
工时、工日
总量指标的计算
1、直接计算法
总量指标数值是通过对总体单位进行全面调查登记,采用直接计数、点数或测量等方法,逐步计算汇总得出。直接计算法就是全面调查的方法,即对所有的总体单位进行调查登记,然后逐步汇总得到总量指标。
2、间接推算法
是根据各种关系推算总量指标或根据非全面调查资料推算总量指标的方法。如比率关系推算法、抽样推算法等。
总量指标计算应注意的问题
⑴同类现象才能加总
⑵明确总量指标的含义
⑶在统计汇总时,计量口径、计量单位、计量价格和计算方法应一致。
第二节 相对指标
概念:又称相对数,是两个有联系的指标数值对比的结果,用来反映相关事物之间数量联系程度的综合指标。
作用:
反映社会经济现象之间的数量对比分析关系,是研究社会经济现象的重要手段,可说明事物发生和发展的程度、结构、比例和效益,有助于鉴别和分析事物。
能使一些不能直接对比的事物找出共同比较的基础。
说明现象的相对水平,表明现象的发展过程和程度,反映事物发展变化的趋势。
是进行计划管理和考核企业经济活动效果的工具。
相对指标的表现形式
无名数
系数和倍数:将对比的基数抽象化为1的数值。
成数:将对比的基数抽象化为10的数值。
百分数:将对比的基数抽象化为100的数值。
千分数:将对比的基数抽象化为1000的数值。
有名数
将对比的分子、分母的计量单位结合使用的复合单位形式。
种类
计划完成程度相对数
结构相对数
比例相对数
比较相对数
强度相对数
动态相对数
(一)计划完成程度相对数
概念:又称计划完成百分比,是将某一时期的实际完成数与计划数对比的比值。是用来检查计划执行情况的相对指标,通常用%表示。
计算公式:
3.计划预期完成情况。
例如,
2.检查计划完成进度。
例如,
实际应用:
1.检查本期计划完成程度。 例如,
以绝对数计算计划完成相对数
直接运用定义公式。
例1:2007年某企业总利润计划600万元,实际完成630万元。求2007年总利润计划完成程度。
以平均数计算计划完成相对数
公式为:
例2.某企业产品计划在去年平均每件900元的成本水平上降低80元,而实际今年每件平均成本为800元,求产品成本计划完成数。
以相对数计算计划完成相对数
在经济管理中,有时计划任务是用提高或降低的百分数来规定的,比如
某企业计划规定劳动生产率提高10%,实际提高了15%;
某企业计划规定单位产品成本降低6%,实际降低了%;这时应如何求劳动生产率提高和单位产品成本降低计划的完成程度?
此时,应以实际完成的百分数与计划完成的百分数对比来计算。
公式为:
注意在这两种情况下,分析超额完成任务的方法不同。
越小越好的指标:
越大越好的指标:
可分为越大越好的指标与越小越好的指标两种情况,计算公式:
案例
某企业计划规定劳动生产率提高10%,实际提高了15%,求计划完成程度。
>100%为超额完成任务
<100%为超额完成任务
对:
错:
某企业计划规定单位产品成本降低6%,实际降低了%,求计划完成程度。
对:
错:
应用:检查短期计划完成情况
有两种情况:
1、计划数与实际数是同期的,说明同期计划执行的程度;如月度计划执行情况
2、计划期中某一段实际累计数与全期计划数对比,用以说明计划执行的进度如何,为下阶段工作安排做准备。公式为:
检查中长期计划完成情况的两种方法1
制定中长期计划任务有两种方法:
水平法:规定计划末期应达到的水平;
累计法:规定全期应完成的累计总数。
因此,检查中长期计划完成情况也有两种方法。
(1)水平法
计算提前完成任务的时间,是根据计划期内连续一年时间的指标与计划规定最后一年的指标相对比来确定的。
即:计划期内有连续一年时间的指标达到计划规定最后一年的指标水平,往后余下的时间,即为提前完成计划的时间。
计算公式:
案例
“九五”计划规定某种产品达到年产45万吨的水平,实际在计划最后一年即2000年实际完成50万吨,那么,
13
13
12
12
12
11
10
10
19
17
32
30
产量
四
三
二
一
四
三
二
一
下半年
上半年
第五年
第四年
第三年
第二年
第一年
45万吨
提前9个月
假如此产品在五年内实际完成情况如下:
检查长期计划完成情况的两种方法2
(2)累计法
计算公式:
假如此项计划实际至第五年6月底为止,累计实际完成2200亿元,即提前半年完成计划。
例如,某五年计划的基本建设投资总额2200亿元,五年内累计实际完成2400亿元,则:
(二)结构相对数
概念:利用分组法,将总体区分为不同性质的各部分,以各组数值对总体总数值计算得到的比重或比率。
计算公式:
第三产业
第二产业
第一产业
2000
1999
1998
1997
1996
1995
3、能反映对人力、物力、财力的利用程度及生产经营的效果。
作用:
说明总体内部的构成情况,从而揭示现象的性质和特征。
通过各构成部分在不同时期的变化,说明现象的发展过程和规律性。
例如, 我国三次产业构成 单位:%
(三)比例相对数
概念:是同一总体内不同组成部分的指标数值对比的结果,用来表明总体内部的比例关系。
可以用百分数来表示,也可以用比例的形式来表示。
计算公式:
作用:
说明同一总体内各部分的比例关系。
用来分析研究国民经济中各种比例关系。
(四)比较相对数
概念:是将同一时期两个同类现象数值对比,说明同类现象在不同条件下的数量对比关系。
计算公式:
应用方法:
作为比较基数的分母可取不同的对象。
比较对象是一般对象——此时分子与分母可以互换。
比较对象典型化——此时分子与分母的位置不能互换。
可以用总量指标对比,也可以用相对指标或平均指标对比。
作用:
进行类比分析。说明同一时期两个同类现象在不同(国家、地区、单位)条件下的数量对比关系。
计算比较标准典型化的比较相对数,可以找出差距,为提高企业生产与管理水平提供依据。
(五)强度相对数
概念:是两个性质不同、但有联系的不同总体总量之比,说明现象的强度、密度或普遍程度。
计算公式:
指标数值越大,网点密度越小。
逆指标:
指标数值越大,网点密度越大。
正指标:
作用:
反映和考核社会经济效益。
例如,流通费用率、资金利润率、资金产出率等。
为编制计划和长远规划提供依据。
说明一个国家、地区、部门的经济实力或为社会服务的能力。
例如,人均钢产量、人均GDP、每万人拥有的病床数、商业网点密度等。
正逆指标:某些反映为社会服务能力及经济效益的指标分子与分母可以互换,
有正、逆指标之分。例如,
(六)动态相对数
概念:同一现象在不同时间的两个数值之比。
计算结果用百分数或倍数表示。
计算公式:
作用:说明现象在不同时间上的
发展速度与规律性。
正确运用相对指标的原则
注意两个对比指标的可比性。
在经济内容上要具有内在联系;
在总体范围及指标口径上要求一致或相适应;
注意计算方法、计算价格的可比。
正确选择对比的基数。原因是:
不同的对比基数说明的问题不同;
基数选择不当,会得出绝然相反的结论。
和总量指标结合运用
4. 多种相对指标结合运用
正确选择对比基数的案例
例:某车间三个生产小组,有关缺勤资料及计算的相对指标如下:
6240
200
合计
1040
30
60
第三组
2080
34
68
第二组
3120
36
72
第一组
各组缺勤占各该组应出勤工日数的比重%
制度规定应出勤工日数
各组缺勤占全部缺勤工日数的比重%
缺勤工日数
第三节 平均指标
概念:是同质总体内各单位某一数量标志的一般水平。
特点:
就总体内某一数量标志进行计算,将各单位数量差异抽象化。
只能就同类现象计算。
反映总体变量值的集中趋势和一般水平。
作用:
比较作用:
不同空间对比。
不同时间对比。
平均指标作为总体各单位标志的一般水平和代表值;
用于分析现象之间的依存关系和进行数量上的估算。
平均指标的种类和计算
按计算方法不同可分为数值平均数和位置平均数
数值平均数:是根据总体各单位所有标志值计算的平均数,有:算术平均数、调和平均数、几何平均数
位置平均数:是根据 标志值在变量数列中所处的特殊位置来确定的平均数,有:中位数、众数
平均指标的种类和计算
按时间状况的不同分为静态平均数和动态平均数
静态平均数:是将同一时间总体各单位的数量加以平均所得到的平均指标;
动态平均数:是将同类事物不同时间上的数量加以平均所得到的平均指标,又称序时平均数。
算术平均数
概念:是统计中最基本最常用的一种平均数,是同一总体的标志总量除以总体单位总量的结果。
基本公式:
2. 注意分子、分母在经济上有从属关系:是同一总体的标志总量和总体单位总量之比。分子标志总量依附于分母总体单位总量,随着分母的变动而变动。这一点也是平均数与强度相对数的区别。
平均数与强度相对数的区别:
分子与分母的关系不同:强度相对数的分子与分母不存在依据汇总关系。
指标的含义和作用不同。
计算时应注意分子与分母两者的范围口径必须严格保持一致
应用此公式应注意:
1. 此公式是一个基本公式,在实际计算中由于掌握资料的不同,有不同的计算公式。但不论资料情况如何,计算公式如何改变,其基本含义最终都可归结为基本公式。
简单算术平均数
适用条件:总体各单位标志值未分组的资料。
计算公式:
上式用符号表示:
例如,某生产小组有5名工人,生产某种零件,日产量分别为12、13、14、14、15,则平均每个工人日产零件件数为:
加权算术平均数
适用条件:分组资料,掌握各组次数(总体单位数)。
例如,某单位工人工资分组资料如下:
80100
100
合计
24300
30
810
40000
50
800
15800
20
790
各组工资额 Xf
工人人数 f
各组工资额 X
资料栏
计算栏
801
计算公式:
关于“权数”和加权的原理
从上述计算可看出:算术平均数的大小取决于两个因素:
各组变量值 X 的大小;各组次数 f 的多少。
次数大的变量值对平均数的影响大;
次数小的变量值对平均数的影响小。
次数在这里起着权衡轻重的作用。所以,
权数,即各组的次数。
加权,即各组变量值乘以各组次数的过程。
用加权方法计算的算术平均数叫做加权算术平均数。
权数的两种形式:
绝对数形式:即各组次数或频数,f
相对数形式:即各组的比重或频率,
权数为频率形式时的计算
权数为频率形式时,计算加权算术平均数的公式为:
801
合计
243
810
400
800
158
790
X
平均工资
例如,某单位工人工资资料:
简单算术平均数与加权算术平均数的关系
区别:简单算术平均数用于未分组资料,只反映变量值一个因素的影响;而加权算术平均数用于分组资料,同时受到变量值大小和次数多少两个因素的影响。
联系:当各组权数都相等或都等于1,即:
加权算术平均数就等于简单算术平均数。
时,
组距数列加权算术平均数的计算
组距数列计算加权算术平均数的方法与上述基本相同,所不同的是,必须先计算出各组的组中值,代表该组的标志值,然后再计算加权算术平均数。例如,
13550
--
164
合计
920
115
8
110以上
1470
105
14
100-110
2565
95
27
90-100
3060
85
36
80-90
3750
75
50
70-80
1235
65
19
60-70
550
55
10
60以下
Xf
组中值
X
工人数(人)
f
按日产量分组
(千克)
资料栏
计算栏
加权算术平均数应用中权数的选择问题
实际计算加权算术平均数时,应注意到,有时总体单位数不是合适的权数。
这种情况往往出现在,要根据已知某个相对数或平均数数列,求总平均数时。
这时必须按照算术平均数的基本形式,标志总量除以总体总量这个计算原理,根据经济含义来选择适当的权数。例如,
120
10
合计
60
50
1
120
44
40
2
110
20
20
3
100
10
4
95
实际产量
计划产量
企业数
产量计划完成率(%)
X
应该以计划产量为权数计算,
如果以企业数为权数计算,
算术平均数的数学性质
算术平均数与总体单位数的乘积等于总体各单位标志值的总和。
简单算术平均数
加权算术平均数:
简单算术平均数:
3)如果每个变量值都乘以或除以一个任意值A,则平均数也乘以或除以这个数A。
加权算术平均数:
简单算术平均数:
2)如果每个变量值都加或减任意数值A,则平均数也要增多或减少这个数A。
加权算术平均数:
各个变量值与算术平均数的离差之和等于零
简单算术平均数:
证明:
加权算术平均数:
证明:
各个变量值与算术平均数的
离差平方之和等于最小值
简单算术平均数:
为中心的离差平方之和为:
以
,则
为任意数,
证明: 设
加权算术平均数:
算术平均数的简捷计算法
在计算算术平均数时,往往会遇到标志值与权数较大的资料,为了计算简便,可利用算术平均数第2、第3条数学性质,得出在组距数列中求加权算术平均数的简捷公式:
-39
--
--
164
合计
24
3
115
8
110以上
28
2
105
14
100--110
27
1
95
27
90--100
0
0
85
36
80--90
-50
-1
75
50
70--80
-38
-2
65
19
60--70
-30
-3
55
10
60以下
组中值
工人人数
日产量(千克)
以上计算方法与普通法计算结果完全相同
例:某企业工人日产量的算术平均数简捷计算表
算术平均数应用的优缺点
算术平均数适合代数方法的演算,不仅易于掌握,而且与大量的社会经济过程相适应。因此,应用十分广泛。
易受极端数值的影响,使算术平均数的代表性变小;而且受极大值的影响大于受极小值的影响。
当组距数列为开口组时,由于组中值不易确定,使平均数的代表性受影响。
调和平均数
概念:又称“倒数平均数”,它是各个变量值倒数的算术平均数的倒数。
简单调和平均数:
作用:在社会经济统计中,一般是把它作为算术平均数的变形来使用的。
在由相对数计算算术平均数和由平均数计算算术平均数时,当只掌握算术平均数的分子,而不掌握其分母时,需要用调和平均数形式来计算。
与算术平均数的关系:
加权调和平均数:
调和平均数的应用1
在由相对数计算算术平均数和由平均数计算算术平均数时,当只掌握算术平均数的分子,而不掌握其分母时,需要用调和平均数形式来计算。
例如,在前面加权算术平均数计算中所举的计算平均计划完成率的案例中,如果已知分子实际产量,未知分母计划产量,需要用调和平均数计算。
120
50
40
20
10
计划产量
合计
60
120
44
110
20
100
95
实际产量
产量计划完成率(%)
资料栏
计算栏
调和平均数的应用2
怎样判断在什么情况下采用加权算术平均数,在什么情况下采用调和平均数?
关键在于以算术平均数的基本公式为依据。
当所掌握的权数资料是公式的母项数值时,采用加权算术平均数;
当所掌握的权数资料是公式的子项数值时,采用加权调和平均数。
例 1 某种农产品在三个农贸市场的价格分别为:甲市场2元/千克,乙市场元/千克,丙市场3元/千克。试就以下两种情况计算该农产品的平均价格:1)若分别在各市场购买了1千克;2)若分别在各市场购买1元。
调和平均数的特点
如果数列中有一个标志值等于零,则无法计算。
作为一种数值平均数,受所有标志值的影响,它受极小值的影响大于受极大值的影响,但较之算术平均数,它受极端值的影响要小。
几何平均数
概念:又称“对数平均数”,是若干项变量值连乘积开其项数次方的算术根。
简单几何平均数
89
95
合格率%
178
178
182
190
合格品只数
200
182
190
200
投产只数
成品
电镀车间
金加工车间
铸造车间
作用:当各组变量值的连乘积等于总比率或总速度时,
用于计算平均比率或平均速度。
例如,某产品要经过铸造、金加工和电镀三个车间进行连续加工,其投产数、各车间产品合格率及最后成品合格率
加权几何平均数
众 数
概念:是总体中出现次数最多的标志值。
作用:
能直观地说明现象分布的集中趋势,当总体中出现极端数值时,可代替算术平均数来说明现象的一般水平。
当缺乏平均数资料或某些场合不必计算平均数时,可采取判断决定众数,代替平均数。
例如,集贸市场上成交量最多的价格;购买量最多的商品规格尺码等。
计算:
单项数列中,出现次数最多的变量值就是众数。
组距数列中——观察次数,出现次数最多的就是众数组,然后用比例插值法推算众数值。
计算公式:
下限公式:
上限公式:
众数计算案例
某企业工人日产量次数分布
164
合计
8
110以上
14
100-110
27
90-100
36
80-90
50
70-80
19
60-70
10
60以下
工人数(人)
按日产量分组(千克)
首先确定众数组,这里次数最多的是50,对应的分组为70-80,就是众数组。
中位数
概念:将某总体各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数。
作用:可以代替平均数说明现象的一般水平。
计算:
由未分组资料确定中位数。首先将标志值按大小顺序排列,然后确定中位数所在的位置。
项数是偶数:15 17 19 20 22 22 23 23(八项)
项数是奇数:15 17 19 20 22 22 23 (七项)
单项数列计算中位数
求:中位数位置
计算各组的累计次数
--
--
80
合计
8
80
8
41
26
72
18
36
53
54
27
34
67
27
14
32
77
13
10
31
80
3
3
26
向下累计次数
向上累计次数
工人数(人)
按日产零件分组(件)
根据中位数位置找出中位数。
例如, 某厂工人日产零件中位数计算表
组距数列计算中位数
求:中位数所在组的位置
用比例插值法确定中位数的值。其计算公式如下:
组距数列计算中位数案例
某企业工人日产量的中位数计算表
--
--
164
合计
8
164
8
110以上
22
156
14
100--110
49
142
27
90--100
85
115
36
80--90
135
79
50
70--80
154
29
19
60--70
164
10
10
60以下
向下累计
向上累计
工人数(人)
按日产量分组(千克)
各种平均数之间的关系1
算术平均数、几何平均数和调和平均数
的关系为:
各种平均数之间的关系2
当总体分布呈对称状态时,三者合而为一,即
当总体分布呈左偏时,
正确应用平均指标的原则1
平均指标只能运用于同质总体;
与分组法相结合,用组平均数补充说明总平均数。
例如, 两个纺织品商店销售水平的情况比较
5745
114900
20
5600
56000
10
合计
7500
52500
7
8000
16000
2
绸缎呢绒
4800
62400
13
5000
40000
8
棉布
人均销售
月销售额
店员人数
人均销售
月销售额
店员人数
乙店
甲店
商品类别
甲店各组的人均销售额都比乙店高,但总的人均销售额却低于乙店,原因就在于甲店售价低的棉布类销售额占的比重大,而乙店反之售价高的绸缎呢绒类销售额占的比重大,使总的人均销售额高于甲店。
可见,总平均数要受到各组结构水平的影响,而组平均数不受这种影响,为此,需要用组平均数补充说明总平均数。
正确应用平均指标的原则2
用分配数列补充说明平均数
平均数说明现象的一般水平,
它经常会掩盖现象内部生动具体的情况,
为了深刻分析问题,需要对被平均的标
志分组,编制分配数列深入分析现象内
部的具体情况,使我们的认识更为深刻
具体。
例如,上例中,通过分组资料,说
明甲店由于售价低的棉布类占了极大比
重,影响了总平均水平。为了深入分析
现象的内部原因,有必要进一步对甲店
棉布组进行具体分析,用分配数列考察
详细情况。
8
合计
5
5000--6000
2
4000--5000
1
3000--4000
店员人数
按月销售额分组(元)
第四节 标志变异指标
概念:又称标志变动度指标,是总体中各单位标志值差别大小的程度。又称离散程度或离中程度。
作用:
是评价平均数代表性的依据。标志变动度愈大,平均数代表性愈小;标志变动度愈小,平均数代表性愈大;
例如,某车间有两个生产小组,都是7名工人,各人日产件数如下:
甲组:20、40、60、70、80、100、120
乙组:67、68、69、70、71、72、73
两个小组的平均数都是70件,但代表性不同,乙组的代表性大,而甲组小。
可用来反映社会生产和其他社会经济活动过程的均衡性或协调性,以及产品质量的稳定程度。
例,甲乙两车间某月各旬生产计划完成情况如下:很显然甲车间完成情况更均衡一些。
100
乙车间
100
甲车间
全月
下旬
中旬
上旬
变异指标的种类
分 为 全 距、平均差、标准差、离散系数。
全距®,又称“极差”,是总体各单位标志最大值和最小值之差,说明标志值变动范围的大小,通常用R表示全距。即:
计算可分为:
未分组资料或单项分组资料:
全距=最大变量值-最小变量值
组距式分组资料有开口组和闭口组,一般只求闭口组分组资料的全距
全距=最大组的上限-最小组的下限
在上述两组工人日产量的例子中:
甲组日产件数的R=120-20=100件
乙组日产件数的R=73-67=6件
作用:用来检查产品质量的稳定性和进行质量控制,及时发现问题。
缺点:很粗略,只考虑数列两端差异,易受极端数值影响。
2)平均差(.)
概念:是各单位标志值对平均数的离差绝对值的平均数。
作用:能够综合反映总体中各单位标志值变动的影响。平均差愈大,表示标志变动度愈大,则平均数代表性愈小;反之,平均差愈小,表示标志变动度愈小,则平均数代表性愈大;
计算:由于各标志值对算术平均数的离差之和等于零,因此,计算平均差采用离差的绝对值。
分组资料:
未分组资料:
平均差计算案例
某乡耕地化肥施用量的平均差计算表
1069
--
4250
--
260
合计
275
10
25--30
1125
50
20--25
115
1750
100
15--20
875
70
10--15
225
30
5--10
总施肥量(万千克)Xf
组中值X
耕地面积(万亩)f
按每亩化肥施用量分组(千克)
3)标准差
概念:是各单位标志值与其算术平均数的离差平方的平方根,又称“均方差”。方差是均方差的平方。
标准差与平均差的意义基本相同,都是求各单位标志值与其算术平均数的平均离差,但它采用离差平方的方法来消除正负离差,在方法上比平均差更合理、更科学。
计算:
标准差计算案例
13550
920
1470
2565
3060
3750
1235
550
Xf
--
--
--
164
合计
115
8
110以上
105
14
100--110
95
27
90--100
85
36
80--90
75
50
70--80
65
19
60--70
55
10
60以下
组中值X
工人数(人)
按日产量分组(千克)
某企业工人日产量的标准差计算表
4)变异系数
概念:也称为标志变动系数 ,是相对数形式的标志变动指标。反映单位平均数的变异程度。
各种标志变动度指标都可以计算变异系数,即有全距系数、平均差系数及标准差系数中,最常用的是根据标准差与算术平均数对比的离散系数,称为“标准差系数”,用
表示。
变异系数
作用:由于各种绝对数形式的标志变动度指标,都有与平均数相同的计量单位,不仅受离散程度的影响,而且还受数列平均水平高低的影响,在不同总体对比分析中,不能直接比较不同平均水平数列之间的标志离散程度,而只能采用变异系数才能比较。
计算公式:
变异系数
应用:某两企业工人的劳动生产率资料如下:
500
6000
乙
800
12000
甲
平均劳动生产率
企业名称
变异系数计算案例
例:某公司下属67家连锁超市2009年平均销售额为万元,销售额标准差为万元;同期销售利润平均为万元,销售利润额标准差为万元。比较商品销售额与销售利润的离散程度。
销售额标准差系数:
利润额标准差系数:
5)是非标志的平均数和标准差
是非标志的概念
通过“是、否”或“有、无”的区分将总体单位划分为两部分的标志。又称交替标志。
总体成数:是指具有某种性质或属性的单位数占全部单位数的比重,反映数列“是”或“非”的构成。
作用:用于反映总体单位间性质上的差别。
是非标志的平均数和标准差
可用1代表具有某种性质的单位的标志值,用0代表不具有某种性质的单位的标志值,并将具有某种标志值的那部分总体单位数占总体全部单位数的比重(成数),用p表示;将不具有某种标志值的那部分总体单位数占总体全部单位数的比重(成数),用q表示,N代表总体单位数。则
p=N1/N, q=N2/N
N1+N2=N
p+q=1
是非标志的平均数和标准差
是非标志的平均数:
是非标志的标准差:
是非标志的平均数和标准差案例
例:某机械厂铸造车间本月生产6000吨铸件,其中合格品5400吨,不合格品600吨。其是非标志的平均数、标准差、方差计算如下:
变异指标的应用
个体差异分析
均衡性、稳定性分析
风险分析
估计误差或预测误差的测定
第五章 动态数列
第一节 动态数列的概念、种类和编制方法
第二节 动态水平分析指标
第三节 动态速度分析指标
第四节 长期趋势的测定与预测
第五节 季节变动的测定与预测
第一节 动态数列的概念、种类和编制
一、动态数列的概念和作用
二、动态数列的种类
三、动态数列的编制原则
动态分析与静态分析
动态分析是对现象的变动态势进行分析。
静态分析是对相同时间内现象之间相互关系进行比较分析的方法。
一、动态数列的概念
动态数列也叫时间序列或时间数列。它是将同类指标在不同时间上的数值按时间先后顺序排列起来所形成的数列。
动态数列由两个基本要素构成:
一是资料所属的时间,二是各时间上的统计指标数值。可以是总量指标、相对指标或平均指标。
例如, 我国1995—2000年国民经济主要指标
7078
6547
6307
6053
5576
4854
人均GDP(元)
GDP增长率(%)
126583
125909
124810
123626
122389
121121
年末总人口数(万人)
89403
82067
78345.
国内生产总值
2000
1999
1998
1997
1996
1995
年份
二、动态数列的作用
描述社会经济现象的发展状况和结果;
反映现象发展变化的方向、速度,研究现象变化的规律性。
分析时间序列的发展趋势和季节变动。
拟合理论模型,预测序列未来的发展情况。
利用不同的但有互相联系的数列进行对比分析或相关分析。
三、动态数列的种类
绝对数动态数列:是将同类总量指标在不同时间上的数值,按时间先后顺序排列所形成的动态数列。反映现象在不同时间上所达到的总规模、总水平。
相对数和平均数动态数列:是将同类相对指标或平均指标在不同时间上的数值,按时间先后顺序排列所形成的动态数列。前者反映现象在各个不同时间内的内部结构或现象之间相互联系状况,后者反映现象在各个不同时间内所达到的一般水平。
时期数列与时点数列的不同特点
时期数列:
数列中的数据通常是通过累计登记获取的;
数列中的每个数据都是表示现象在一定时期内发展过程的总量,具有可加性;
数据的大小与时期长短有直接联系。
时点数列:
数列中的数据通常是通过在一定时点上登记一次而取得的;
数列中的每个数据表示现象在某一时点上的数量,不具有可加性;
数据的大小与时点间隔长短无直接联系。
四、动态数列的编制原则
时间跨度或间隔应相等
总体范围应该一致
计算方法和度量单位应该一致
指标含义和经济内容应该一致
动态分析指标的种类
动态水平指标
发展水平
序时平均数
增长量
平均增长量
年距增长量
水平与速度结合的指标——增长1%的绝对值
动态速度指标
发展速度
增长速度
平均发展速度
平均增长速度
第二节 动态数列水平指标
发展水平
平均发展水平
增长量
平均增长量
年距增长量
发展水平
时间数列中的各指标数值,称为发展水平。
案例:“九五”时期我国城市居民家庭人均可支配收入
收入(元)
年份
2000
1999
1998
1997
1996
1995
中间水平
最初水平
最末水平
所研究的那一时期的指标水平
用来比较的那个时期的水平
平均发展水平
它是对时间序列中各期发展水平的平均数,表明现象在一段时期的一般水平。
平均发展水平与一般平均数的异同:
共同点:都是将个别差异抽象化,用以代表现象的一般水平。
区别:
一般平均数是同质总体内各单位某一数量标志的一般水平,它所平均的变量值,都是发生在同一时间内同一总体不同部分的变异量,故称静态平均数。
平均发展水平是同类现象在不同时间上发展水平的平均数,从动态上说明某一时期内发展的一般水平,故又称动态平均数。
平均发展水平的计算
由绝对数动态数列计算平均发展水平
由相对数动态数列计算平均发展水平
由平均数动态数列计算平均发展水平
A.由绝对数动态数列计算平均发展水平
由时期数列计算:
计算公式:
d)间断时点间隔不等:
c)间断时点间隔相等:
b)连续时点间隔不相等:
由时点数列计算:
连续时点间隔相等:
逐日登记
较长时间登记
a)由连续时点间隔相等时点数列计算
计算公式:
案例:
人数
日期
27
27
27
26
26
26
26
25
25
25
10
9
8
7
6
5
4
3
2
1
平均人数
b)连续时点间隔不等时点数列计算
计算公式:
260
81
104
75
xf
10
3
4
3
间隔天数x
_
27
26
25
人数 f
合计
8-10
4-7
1-3
日期
案例:
c)间断时点间隔相等时点数列计算
计算公式:
1290
1254
1260
1200
人数
9月末
8月末
7月末
6月末
日期
第一步:求各月平均人数:
第二步:求第三季度平均人数:
+
+
3
第三步:上式中,中间各项合并为:
案例:
要求计算第三季度平均人数。
d)间断时点间隔不等时点数列计算
计算公式:
人口数(万人)
12月31日
8月1日
6月1日
1月1日
日期
第一步:求各段平均人数:
第二步:以间隔月数为权数,对各段平均数进行加权平均,求出全年平均人数:
案例:求月平均人数。
B.由相对数和平均数动态数列
计算平均发展水平
总的原则:先分别计算分子、分母数列的序时平均数,然后将这两个序时平均数相除,得到相对数和平均数动态数列的序时平均数。
计算公式:
(1)分子、分母均为时期数列
(2)分子、分母均为时点数列
(3)分子、分母一个为时期数列,一个为时点数列
(1)分子、分母均为时期数列
案例:求一季度月平均计划完成相对数。
145
435
160
125
150
计划产量
151
453
168
120
165
实际产量
105
96
110
计划完成%
月平均
1季度
3月
2月
1月
月份
如果缺乏分母,仅有分子实际产量和计划完成%,则用加权调和平均:
如果缺乏分子,仅有分母计划产量和计划完成%,则用加权算术平均:
计算:
(2)分子、分母均为时点数列
275
320
304
255
256
250
零售企业数b
1469
1536
1520
1479
1408
1400
职工人数a
平均每个企业人数c
年平均
四季末
三季末
二季末
一季末
上年末
时间
计算:
如果已知a,b:
求年季度单位企业人数。
(3)分子、分母一个为时期数列,一个为时点数列
求一季度月平均商品流转次数。
计算时,应注意在掌握不同的时点资料情况下,用不同的计算方法。
本题中分子是时期数列,分母是时点数列的序时平均数,可以代表各月中每个时点的水平。所以分子分母均可用简单平均计算。
70
70
70
65
60
平均库存额
184
552
289
143
120
商品销售额
商品流转次数
平均
季度
三月
二月
一月
=*3
增长量
概念:指某一社会经济现象在一定时期内增长(或减少)的绝对量,是报告期水平与基期水平之差,反映报告期水平比基期增长的水平。
计算公式:增长量=报告期水平—基期水平
种类:由于采用的基期水平不同,可分为:
逐期增长量=报告期水平—前一期水平,表明比前一期增长的绝对量
累计增长量=报告期水平—某一固定基期水平,表明现象在某一较长时期内总的增长量。
用符号表示,逐期增长量:
累计增长量:
逐期增长量等于相另两个累计增长量相减之差.
关系:累计增长量等于相应各逐期增长量之和.
年距增长量
年距增长量,是报告期水平与上年同期水平之差。
公式为:
年距增长量=报告期发展水平-上年同期发展水平
平均增长量
平均增长量是逐期增长量的序时平均数,用于表明现象在一定时期内,平均每期比前期增长的绝对水平。
计算公式为
计算案例
我国“九五”时期GDP动态数列资料
30926
23590
19867
15985
9407
--
累计
7336
3723
3882
6578
9407
--
逐期
增长量
89404
82068
78345.
74463
67885
58478.
GDP(亿元)
2000
1999
1998
1997
1996
1995
年份
第三节 动态速度指标
发展速度
增长速度
平均发展速度
平均增长速度
发展速度
概念:是某种社会经济现象两个不同时期发展水平之比,它是用相对数来表明某种现象发展程度的,主要说明报告期水平已发展到基期水平的若干倍或百分之几。
计算公式:
种类:由于作为比较标准的基期选择不同,可分为:
环比发展速度:报告期水平与前一期水平之比,说明报告期水平比 前一期水平的逐期发展变动的程度。
定基发展速度:报告期水平与某一固定基期水平之比,说明社会经济现象在一个较长时期内的发展变动情况,又称总发展速度。
年距发展速度
年距发展速度:用于说明现象本期水平相对于上年同期水平的发展变化情况。
增 长 速 度
概念:是报告期增长量对基期水平之比,它是用相对数来表明某种现象的增长速度,用以说明报告期水平比基期水平增加了多少倍或百分之几。
计算公式:
定基:
种类:由于采用的基期水平不同,可分为:
环比增长速度:逐期增长量对前一期水平之比,表明现象逐期增长的程度。
定基增长速度:累计增长量对某一固定基期水平之比,表明现象在较长时期内总的增长程度。
用符号表示,环比:
两种增长速度之间的关系
定基增长速度不等于环比增长速度的连乘积。
如果要由环比增长速度求定基增长速度,则必须先把各环比增长速度加1换算成环比发展速度,再连乘得定基发展速度,然后再减1,求得定基增长速度。
环比增长速度
环比发展速度
定基增长速度
定基发展速度
+1
-1
连乘
增长1%的绝对值
概念:指逐期增长量与环比增长速度之比,也可以用100去除前一期水平而得。
公式:
计算案例
我国“九五”时期GDP动态数列资料
--
增长1%绝对值
--
定基
--
环比
增长
速度
--
定基
--
环比
发展
速度
GDP(亿元)
2000
1999
1998
1997
1996
1995
年份
平均发展速度和平均增长速度
概念:平均发展速度是各个环比发展速度的序时平均数,它说明某种现象在一个较长时期中逐年平均发展变化的速度;
平均增长速度说明某种现象在一个较长时期中逐年平均增长变化的速度。它是各个环比增长速度的序时平均数,但不是根据环比增长速度计算的,而是根据平均发展速度计算的。
计算:平均增长速度=平均发展速度-1
由上式可知,
如果平均发展速度>1,则平均增长速度为正值,表明现象在某一段较长时期中逐年平均递增的程度;也称平均递增率;
如果平均发展速度< 1,则平均增长速度为负值,表明现象在某一段较长时期中逐年平均递减的程度;也称平均递减率
计算平均发展速度的水平法
水平法,也称几何平均法。因为总速度不等于各期环比发展速度的算术总和,而等于它们的连乘积,所以不能应用算术平均数,而要应用几何平均数。
计算:
计算平均发展速度的水平法
案例:计算我国“九五”时期GDP的平均速度如下:
计算平均发展速度的方程式法
方程式法,也称累计法。按此平均速度发展,可以保证计划期内各期发展水平的累计达到计划规定的总数。
平均增长速度查对表
累计法查对表(间隔期:1—5年)
设某地区在五年内原油产量累计法总速度R=%,在累计法查对表中的n=5年栏内,找到最接近%的数字是%,再查到该数所在行左边第一栏内百分比为%,即为所求的平均每年增长速度。则平均发展速度=平均增长速度+1
…
…
…
…
…
…
…
…
…
…
…
…
5年
4年
3年
2年
1年
各年发展总和为基期的%
平均每年
增长(%)
平均速度的作用
用于不同时间、地点对比分析。
用于编制长期计划时,掌握计划执行的均衡性,是说明经济发展速度的一个控制指标。
例如我国1988年至2001年13年间,GDP年均增长速度为%,比世界平均增长速度快个百分点。
可进行推算和预测。在平均发展速度计算公式中已知3个,可以推算第四个指标。
案例
我国2000年人均GDP为800美元,“九五”时期经济增长率为%,若按此增长率计算,2020年,人均GDP将达多少美元?
+%
课堂练习
1、某企业2007年商品库存额资料见下表:
28
32
26
22
12
商品库存额/万元
12月31日
10月1日
6月30日
3月1日
1月1日
时间
要求:计算该企业2007年的平均商品库存额。
表 1 某企业2007年商品库存情况
2、某企业第三季度销售量的计划数和实际数资料如下表:
270
265
255
250
月初职工工人数/人
230
220
200
180
计划数/人
220
220
210
190
实际数/人
10月
9月
8月
7月
时间
要求:计算该企业第三季度销售量的月平均计划完成程度和平均月劳动生产率。
表2 某企业第三季度销售量及职工人数情况
*
*
3、某企业上半年各月份产量下表:
月份
产量
环比动态指标
增长量
发展速度
增长速度
增长1%的绝对值
1月
3530
2月
240
3月
4月
5月
6月
320
要求:计算并填写表中所缺数字。
表3 某企业上半年各月份产量
单位:万元
3、某企业上半年各月份产量下表:
7
107
300
4590
5月
6月
4月
3月
2月
1月
月份
7
107
320
4910
40
290
4290
230
4000
240
3770
3530
增长1%的绝对值
增长速度
发展速度
增长量
环比动态指标
产量
要求:计算并填写表中所缺数字。
表3 某企业上半年各月份产量
单位:万元
第四节 长期趋势的测定与预测
动态数列的影响因素按其性质和作用大致有四种:
长期趋势,即由各个时期普遍和长期起作用的基本因素引起的变动;
季节变动,即由自然季节变换和社会习俗等因素引起的有规律的周期性波动;
循环变动,指社会经济发展中的一种近乎规律性的盛衰交替变动;
不规则变动,即剩余变动或随机变动,是由于受临时的、偶然的因素或不明原因而引起的非趋势性、非周期性的随机变动。
上述4种因素按一定的方式组合,形成动态数列两种经典模式:
加法模式。当各因素呈现出相互独立的关系时,动态数列总变动体现为各种因素的总和,即Y=T+S+C+I.
乘法模式。当各因素呈现出相互影响的关系时,动态数列总变动体现为各种因素的乘积,即Y=T·S ·C ·I.
动态数列分析一般采用乘法模式。在四种影响因素中,长期趋势和季节变动尤其重要。下面分别加以讨论。
长期趋势测定的意义和方法
概念:长期趋势是客观现象由于基本因素的影响,在一个相当长的时期内持续向上或持续向下发展变动的趋势。
测定长期趋势的目的:
把握现象的趋势变化;
从数量方面来研究现象发展的规律性,为进行统计分析提供必要条件;
通过测定出长期趋势,可以消除原有动态数列中长期趋势的影响,以便更好地显示和测定季节变动。
测定方法,须对原来的动态数列进行统计处理,称为动态数列的修匀,主要方法有:
间隔扩大法
移动平均法
最小平方法
时距扩大法
当原始数列中各指标数值上下波动,使现象变化规律表现不明显时,可通过扩大数列的时间间隔,对原资料加以整理,以反映现象发展的趋势。
例如,某机器厂各月生产机器台数资料:
54
56
49
51
40
53
51
45
43
52
42
41
机器台数
12
11
10
9
8
7
6
5
4
3
2
1
月份
159
144
139
135
机器台数
4
3
2
1
季度
53
48
45
平均机器台数
4
3
2
1
季度
注意:1、同一数列前后时间间隔应当一致,以便于比较;
2、时间间隔的长短,应根据具体情况而定,以能显示现象变化趋势为宜。
也可以计算间隔扩大后的序时平均数来编制新的动态数列来表示发展趋势:
从表中可看出,数列变化并不均匀,各月数字起伏不定,不能清楚地反映该厂生产量不断上升的趋势。可以扩大时间间隔,整理成季度资料如下:
移动平均法
此方法是采用逐项递推移动的方法,从首项开始,边移动边平均,分别计算一系列移动的序时平均数,形成一个新的派生的序时平均数动态数列,来代替原有的动态数列。在这个新的动态数列中,短期的偶然因素引起的变动被削弱了,从而呈现出明显的长期趋势。
例如, 某机器厂各月生产机器台数的移动平均数
--
--
48
50
--
--
--
45
48
48
52
53
--
41
42
52
43
45
51
53
40
51
49
56
54
1
2
3
4
5
6
7
8
9
10
11
12
5项移动平均数
3项移动平均数
机器台数(台)
月份
应用移动平均法应注意的问题
如果原数列存在着自然周期,应以周期数作为移动平均的项数,它能把周期的波动完全抹掉。
如果没有自然周期,则宜用奇数项较简便。每次移动平均值应对准所平均时期的正中间时期,一次移动平均即可;偶数项平均因为中点错了半期,需再作一次两项移动平均才能正过来。
移动平均的项数要根据情况而定。所取项数愈大,则平均数愈少,所得的动态数列更均匀一些;但项数过大,平均数过少,分析作用会减弱。
优点:由于移动平均计算考虑到了现象变动的连续性,因此它能把现象固有的发展趋势更明显地反映出来;能够削弱或消除不规则变动和季节变动,使之成为测定长期趋势最常用、最主要的一种方法。
缺点:1)如果需要首尾数字,不能用此法;
2)不能直接据以外推预测,还需要进一步加工。
最小平方法
采用一定的数学模型,对原有的动态数列配合一条适当的趋势线来进行修匀。
理论依据:最小平方法(最小二乘法)
所求的趋势线必须满足最基本的要求,即原有数列的实际数值与趋势线的估计数值的离差平方之和为最小值。符合这一条件的趋势线为最合理的。
用公式表示:
趋势线的类型:直线型、曲线型。
(一)直线方程
上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求
即
适用条件:现象发展的各期逐期增长量大体相等。
直线方程的一般形式:
(一)直线方程(续)
上述方程中的t为时间。为了计算方便,可对其进行假设:
当时间项数为奇数时,可假设t的中间项为0,这时时间项依次排列为:…,-3,-2,-1,0,1,2,3,…;
当时间项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:…,-5,-3,-1,0,1,3,5,…;
这种设t的方法是要使时间项的正负相抵消,使t=0,则上述联立方程组可简化为:
12
14
12
13
15
15
13
12
--
逐期增长量
206
194
180
168
155
140
125
112
100
粮食产量
1998
1997
1996
1995
1994
1993
1992
1991
1990
年份
本例中各期的逐期增长量大体相同,可以配合直线趋势方程。
例如,某地区各年的粮食产量为:
案例:某地区粮食产量直线趋势方程计算
60
808
1380
--
合计
16
824
206
4
1998
9
582
194
3
1997
4
360
180
2
1996
1
168
168
1
1995
0
0
155
0
1994
1
-140
140
-1
1993
4
-250
125
-2
1992
9
-336
112
-3
1991
16
-400
100
-4
1990
ty
y
t
年份
(二)抛物线方程
适用条件:现象发展各期逐期增长量的增长量(即各期的二级增长量)大体相同,可以配合抛物线方程。
抛物线的一般方程:
…
…
…
…
2c
b+9c
a+5b+25c
5
2c
b+7c
a+4b+16c
4
2c
b+5c
a+3b+9c
3
--
b+3c
a+2b+4c
2
--
--
a+b+c
1
二级增长量
逐期增长量
t
此抛物线方程的二级增长量是相等的。如下表所示。
抛物线方程计算表
(二)抛物线方程(续)
上述抛物线方程中,有三个未定参数,根据最小平方法的要求,同样用求偏导数的方法,导出由三个方程组成的联立方程组。
7
8
7
7
9
6
7
--
--
二级增长量
75
68
60
53
46
37
31
24
--
逐期增长量
1382
1307
1239
1179
1126
1080
1043
1012
988
产品产量
1998
1997
1996
1995
1994
1993
1992
1991
1990
年份
例如, 某工业产品产量增长量指标
案例: 某工业产品产量抛物线方程计算表
708
70178
60
2952
10356
--
合计
256
22112
16
5528
1382
4
1998
81
11763
9
3921
1307
3
1997
16
4956
4
2478
1239
2
1996
1
1179
1
1179
1179
1
1995
0
0
0
0
1126
0
1994
1
1080
1
-1080
1080
-1
1993
16
4172
4
-2086
1043
-2
1992
81
9108
9
-3036
1012
-3
1991
256
15808
16
-3952
988
-4
1990
ty
y
t
年份
(三)指数曲线方程
式中:a——基期水平,b——平均发展速度,t——时间
a、b均为未定参数。求解指数方程时,一般是将指数方程通过取对数转化为直线方程,然后按直线方程办法求出参数,再对所得结果查反对数还原。
应用条件:现象发展各期的环比增长速度大体相同。
指数曲线的一般方程为:
案例:某地区工业净产值指数曲线方程计算
--
70
--
合计
25
5
1998
9
3
1997
1
1
1996
1
-1
1995
9
25
-3
1994
-5
1993
t
净产值y
年份
第五节 季节变动的测定与预测
概念:现象在一年之内,随着季节的更换而发生比较有规律的变动。这种规律性变动是年复一年,年年如此,具有一定的周期性和相对的稳定性。这种因季节性改变带有规律性的变动称为季节变动。
测定方法:
1、不考虑长期趋势影响的方法:
按月(季)平均法
2、考虑长期趋势影响的方法:
移动平均趋势剔除法
按月(季)平均法
资料:时间越长越好,至少应具备有三年的各月份(季度)发展水平的资料。
步骤:
列表。将各年同月(季)的数值列在同一栏内;
将各年同月(季)的数值加总,并求出月(季)平均数;
将所有月(季)数值加总,求出总的月(季)平均数;
求季节比率(或季节指数).,其计算公式为:
作用:
掌握事物年复一年的季节变动规律;
根据季节比率绘制季节变动曲线图;
进行某些预测,以供决策参考。
季节比率计算表
调整后季节比率(%)
季节比率(%)
121
133
90
13
5
4
7
31
41
72
105
月平均数
2084
363
399
270
39
15
12
21
93
123
216
218
315
合计
552
720
812
85
134
144
90
148
161
80
96
94
11
13
15
4
5
6
3
4
5
5
7
9
20
28
45
38
40
45
62
70
84
72
65
81
82
110
123
第一年
第二年
第三年
合计
12
11
10
9
8
7
6
5
4
3
2
1
年份
月份
移动平均趋势剔除法
对于Y=T+S+I的现象,应采用原数列减去长期趋势的方法剔除长期趋势T;即:Y-T=S+I
对于Y=T·S ·I 的现象,剔除长期趋势T的步骤:
1、用移动平均法求出长期趋势T.
2、将原数列实际数除以长期趋势,求
根据动态数列的两种经典模式:从原数列中剔除长期趋势,然后求出季节变动。
对于Y=T·S ·I 的现象,应采用原数列除以长期趋势的方法剔除长期趋势T;即:
比率重新按年按月编排,求出各年同月平均比率
4、计算校正系数,用校正系数乘上各月的平均季节比率,使其总和等于1200%,得校正后的各月季节比率。
3、将
移动平均趋势剔除季节比率计算
仍以某厂围巾资料为例,为方便计算,把上例的月资料改为季资料:
某厂3年各季度围巾销售量 单位:万条
399
26
99
288
第三年
378
22
75
245
第二年
255
18
63
216
第一年
第四季
第三季
第二季
第一季
季度
年份
步骤1-2、用移动平均求长期趋势,再剔除
某厂围巾销售量剔除长期趋势计算表
--
--
--
--
--
--
288
99
26
399
第三年1
2
3
4
245
75
22
378
第二年1
2
3
4
--
--
--
--
--
--
216
63
18
255
第一年1
2
3
4
Y-t
Y/t
趋势值剔除
二项移正平均t
四项移动平均
销售量
(万条)y
季度
138
180
203
步骤3-4、求季节比率并调整
除法剔除长期趋势后季节比率计算表
400
155.
季节比率(%)
平均
合计
--
--
第3年
第2年
--
--
第1年
合计
第四季
第三季
第二季
第一季
季度
年份
第六章 统计指数
第一节 统计指数的概念
第二节 综合指数
第三节 平均指标指数
第四节 指数体系
第五节 平均指标对比指数
指数
指数起源于人们对价格动态的关注。
今天的面包价格
昨天的面包价格
个体价格指数
今天的面包、鸡蛋、香肠等等价格
昨天的面包、鸡蛋、香肠等等价格
综合价格指数
指数是解决多种不能直接相加的事物动态对比的分析方法
第一节 统计指数的概念
概念:指数的涵义有广义和狭义两种。
广义的指数指一切说明社会经济现象数量变动或差异程度的相对数。
狭义的指数是一种特殊的相对数,专指不能直接相加和对比的复杂社会经济现象综合变动程度的相对数。
作用:
综合反映事物变动的方向和程度;
分析多因素影响现象的总变动中,各个因素的影响方向和程度;
研究现象在长时间内的变动趋势。
统计指数的种类
按照说明现象的范围不同
个体指数
总指数
按照统计指标的内容不同
数量指标指数
质量指标指数
按照编制的方法不同
综合指数
平均指数
按照在一个指数数列中所采用的基期不同
定基指数
环比指数
第二节 综合指数
综合指数的编制原理:
根据经济理论和统计研究任务,对被研究现象诸因素的内在联系进行分析,确定同度量因素和指数化指标;
同度量因素是把不能直接相加的指标过渡为可以相加的因素。
指数化指标是用来计算指数的指标。
采取合理的假定的抽象方法,固定同度量因素,来测定另一个因素(指数化指标)的变动。
综合指数可分为数量指标综合指数和质量指标综合指数,编制基本原理相同。
总指数的计算形式有两种
综合指数是总指数的编制方法之一,其
编制方法是“先综合、后对比”。也就是首
先加总个别现象的指数化指标,再通过综
合对比得到总指数。
综合指数
平均指数
由于复杂现象总体的指数化指标是不能直
接相加的,因此,编制综合指数需要解决
两个问题:同度量因素问题和同度量因素
的固定问题。
指数化指标:指在指数分析中被研究的指标
同度量因素:指把不同度量的现象过渡成
可以同度量的媒介因素,同时起到同度量
和权数 的作用
举例:
100
1200
100
120
1000
60
件
支
台
甲
乙
丙
报告期
基期
报告期
基期
价格(元)
销售量
计量单位
商品名称
反映各种商品销售量的变动:
反映三种商品销售量的综合变动:
√
指数化指标
同度量因素
综合指数的编制原理
(1)根据客观现象间的内在联系,引入同度量因素;
(2)将同度量因素固定,以消除同度量因素
变动的影响;
(3)将两个不同时期的总量指标对比,以测
定指数化指标的数量变动程度。
综合指数的一般编制原则
⒈数量指标综合指数的编制:一般采用基期的质量指标作为同度量因素。
⒉质量指标综合指数的编制:一般采用报告
期的数量指标作为同度量因素
35800
38500
23800
—
—
—
—
—
合计
29000
30000
17400
300
290
100
60
台
丙
4800
6000
4000
5
4
1200
1000
支
乙
2000
2500
2400
25
20
100
120
件
甲
报告期
基期
报告期
基期
销售额(元)
价格(元)
销售量
计量单位
商品名称
计算:三种商品销售量综合指数和销售价格综合指数。
资料栏
计算栏
解:
销售量综合指数为:
由于销售量的增加而增加的销售额为:
价格综合指数为:
由于价格上涨而增加的销售额为:
综合指数的其它编制方法
⒈拉氏指数:
同度量因素均固定在基期的综合指数。
⒉派氏指数:
同度量因素均固定在报告期的综合指数。
可见:
数量指标指数一般采用拉氏指数公式。
质量指标指数一般采用派氏指数公式。
练习:根据上述资料要求:计算全部商品销售量总指数和全部商品价格总指数。
—
—
—
—
合计
100
1000
1200
120
800
1000
件
支
个
甲
乙
丙
报告
基期
报告
基期
商品价格
商品销售量
计量
单位
商品
名称
18600
19000
15560
—
—
—
-
合
计
200
400
18000
400
600
18000
240
320
15000
100
1000
1200
120
800
1000
件
支
个
甲
乙
丙
假定
p0q1
报告期
p1q1
基期
p0q0
报告期
p1
基期
p0
报告期
q1
基期
q0
商品销售额(万元)
商品价格
商品销售量
计
量
单
位
商
品
名
称
(1)
即三种商品销售量报告期比基期总的(平均)增长了%。
即由于商品销售量的变动而使商品销售额增加的绝对额为3040元。
即三种商品价格报告期比基期总的(平均)增长了%。
即由于商品价格的变动而使商品销售额增加的绝对额为400元。
三、综合指数法的特点
借助于同度量因素进行综合对比
同度量因素的时期要固定
用综合指数法编制总指数,使用的是全面资料,没有代表性误差。
§3 平均指数法
一、加权算术平均法
二、加权调和平均法
三、固定权数加权平均法
四、统计指数法应用实例
平均指数是首先通过计算个别现
象的个体指数,然后以相应的总值指标
作为权数对个体指数加权平均得到的总
指数。
平均指数的分类
综合指数变形
权数平均指数
固定权数
平均指数
按平均指数的权数不同分
加权算术
平均指数
加权调和
平均指数
一、加权算术平均数指数
——适用于数量指标综合指数的变形
式中,kq为数量指标个体指数。
是以个体指数为变量值,以一定时期的总值资料为权数,对个体指数加权算术平均以计算总指数的方法。
【例】设某企业生产三种产品的有关资料如表。
试计算三种产品的产量总指数。
120
50
200
个体产量指数
(q1/q0)
箱
丙
台
乙
件
甲
基期总成本
(万元)
(p0q0)
计量
单位
商品名称
解:
产量总指数为
——适用于质量指标综合指数的变形
二、加权的调和平均指数
式中,kp为数量指标个体指数。
是以个体价格指数为变量值,以报告期总量资料 为权数的加权调和平均法。
【例】设某企业生产三种产品的有关资料如表。试计算三种产品的单位成本总指数。
150
50
220
个体价格指数
(p1/p0)
箱
丙
台
乙
件
甲
报告期总量
(万元)
(p1q1)
计量
单位
商品名称
解:
平均价格指数为
三、固定权数的加权平均法
固定权数(可根据有关
的普查、抽样调查或全
面统计报表资料调整计
算确定),∑w=100
个体指数或类指数
固定权数的应用:
我国的商品零售价格指数、农副产品收购价格指数、职工生活费指数(居民消费指数)及西方的工业生产指数、消费品价格指数等等,均采用了固定权数的平均指数的编制方法。
以商品零售价格指数的编制为例
将全部商品划分为大类、中类、小类、品种、规格;
确定各品种的代表规格品及权数w ;
按照小类、中类、大类、总指数的顺序逐级计算各级指数。
个别商品或类商品的价格指数
确定的居民消费构成固定权数,∑w=100
千克
千克
标准
粳米
100
51
35
65
40
60
35
45
11
9
20
11
5
2
6
2
3
总指数
一、食品类
⒈粮食
⑴细粮
面粉
大米
⑵粗粮
⒉副食品
⒊烟酒茶
⒋其他食品
二、衣着类
三、日用品类
四、文化娱乐用品类
五、书报杂志类
六、药及医疗用品类
七、建筑装潢材料类
八、燃料类
指数(﹪)
权数(w)(﹪)
平均价格(元)
计算单位
代表规格品
商品类别及名称
四、几种主要价格指数的编制
股票价格指数是衡量整个股票市场价格变动的基本趋势的指数。人们形象地称之为市场经济的“晴雨表”。
股票价格指数的编制方法多种多样,各有所长,综合指数是其中的一种重要编制方法。
综制方法是,记入编指数的各种股票价格p,相应股票的发行量(或交易量)为q,则综合形式的股价格指标数为:
q可以固定在基期水平(即采用拉氏公式),
也可以固定在计算期水平上(即采用派氏公式)。
世界主要证券交易所的股票价格指数
道·琼斯股票价格指数和标准普尔股票价格指数;伦敦金融时报FTSE指数;法兰克福DAX指数;巴黎CAC指数;瑞士的苏黎士SMI指数;日本的日京指数;香港的恒生指数
我国上海和深圳两个证券交易所
上交所的综合指数和180指数
深交所的成分股指数和综合指数
综合指数和平均指数的关系
联系:
在一定权数条件下,二者具有变形关系。
区别:
⒈解决复杂总体不能直接同度量问题的思想不同
⒉运用资料的条件不同
在经济分析中,平均指数有其独立的使用价值。
综合指数:先综合后对比
平均指数:先对比后综合
综合指数:需具备研究总体的全面资料
平均指数:既适用于全面、也适用于非全面资料。
数量指标综合指数
是用来反映生产、经营或经济工作数量和总体规模变动的指数。如工业产品产量指数、商品销售量指数、职工人数指数等。
综合指数计算表
236
282
248
--
合计
32
60
144
60
48
54
180
40
48
160
600
108
100
400
120
80
支
尺
顶
铅笔
棉布
童帽
报告期
基期
报告期
基期
商品销售额(元)
单位价格(元)
销售量
计量
单位
商品
名称
资料栏
计算栏
数量指标综合指数2
236
282
248
--
--
--
--
--
合计
32
60
144
60
48
54
180
40
48
160
600
108
100
400
120
80
支
尺
顶
铅笔
棉布
童帽
报告期
基期
报告期
基期
商品销售额(元)
单位价格(元)
销售量
计量
单位
商品
名称
计算栏
资料栏
质量指标综合指数
是说明经济工作质量变动的指数。
综合指数计算表
236
282
248
--
--
--
--
--
合计
32
60
144
60
48
54
180
40
48
160
600
108
100
400
120
80
支
尺
顶
铅笔
棉布
童帽
报告期
基期
报告期
基期
商品销售额(元)
单位价格(元)
销售量
计量
单位
商品
名称
计算栏
资料栏
质量指标综合指数2
236
282
248
--
合计
32
60
144
60
48
54
180
40
48
160
600
108
100
400
120
80
支
尺
顶
铅笔
棉布
童帽
报告期
基期
报告期
基期
商品销售额(元)
单位价格(元)
销售量
计量
单位
商品
名称
计算栏
资料栏
拉氏公式与帕氏公式
拉氏公式:以基期加权综合的指数公式,1864年由德国学者拉斯拜尔(Laspeyres)首次提出。
帕氏公式:以报告期加权综合的指数公式,1874年有德国学者帕斯彻(Paasche)首次提出。
优缺点:
拉氏公式优点在于在定基指数的数列中各期权数相同,指数数值之间可以进行互相比较,用以说明所研究现象变化的程度及其规律性;缺点是在物价指数中,无法体现消费量结构的变化;
帕氏指数优点在于考虑到现实的经济意义。但不足之处在于使用报告期的权数,资料往往不能迅速取得,工作量较大,同时由于在指数数列中各期权数不同,数值之间不能直接比较。
帕氏公式
拉氏公式
物量指数
物价指数
综合指数的编制
综合指数编制的一般原则:
在编制数量指标综合指数时,一般采用基期的质量指标作为同度量因素;
在编制质量指标综合指数时,一般采用报告期的数量指标作为同度量因素。
编制过程:首先列出公式,需要什么数字列表计算,然后代公式算出结果,并用文字分析说明。
优点:综合指数经济含义比较明确,既可以说明现象变动的方向和程度,也可以说明现象变动所产生的实际效果。
缺点:
应用中要求条件比较高,需要有全面的原始资料,资料难收集;
计算繁杂,需要一一计算对应的 数据。
第三节 平均指标指数
概念:以个体指数为基础采取平均指标形式编制的总指数。
基本形式,有两种:加权算术平均数指数、加权调和平均数指数。
(一)加权算术平均数指数——一般作为数量指标综合指数的变形来使用。
加权算术平均数指数计算案例
加权算术平均数指数计算表
248
--
合计
60
200
40
48
160
铅笔
棉布
童帽
品名
平均指标指数2
(二)加权调和平均数指数——一般作为资料指标指数的变形来使用。
加权调和平均数计算案例
加权调和平均数计算表
282
--
合计
60
200
48
54
180
铅笔
棉布
童帽
品名
平均指标指数的应用1
综合指数变换为平均数指数的一般原则:
数量指标综合指数可以变换为加权算术平均数指数,用综合指数的分母为权数;
质量指标综合指数可以变换为加权调和平均数指数,用综合指数的分子为权数。
平均指标指数的应用2
我国居民消费价格指数的编制:采用加权算术平均数公式编制。
工业生产指数:
农副产品收购价格指数的编制:
采用加权调和平均数公式计算。
第四节 指数体系与因素分析
概念:若干个指数之间在经济上有联系、在数量上保持一定的关系而形成的一个整体。
例如, 商品销售额指数=商品销售量指数×商品价格指数
生产费用总额指数=产品产量指数×单位产品成本指数
农作物总产量指数=播种面积指数×亩产量指数
(总变动指数) (数量指标指数)(质量指标指数)
(因素指数)
基本涵义:
若干因素指数的乘积等于总变动指数;
若干个因素影响差额之和,等于实际发生的总差额。
作用:
因素分析。可以说明在复杂现象的总变动中,各因素作用的方向和程度,寻找现象变动的原因;
根据指数体系可以进行指数之间的相互推算,已知其中两个,推算第三个。
总量指标动态对比中的二因素分析
以商品销售额的动态变动为例。销售额是由销售量和价格二个因素组成。实际上这两个因素是在同时变动,形成销售额的变动。故,可以编制指数体系:
商品销售额指数=商品销售量指数×价格指数
根据指数体系进行指数之间的推算
例1,某地区电视机销售量比上年增加35%,价格比上年降低20%,试问销售额变动程度如何?
例3,如果报告期计划价格降低5%,销售额增加10%,问销售量增加多少?
例2,某市居民拿10万元比提价前少买8%的副食品,试问该市副食品零售物价变动程度如何?
多因素指数体系1
概念:多因素分析,就是把一个总变动指数分解成三个或三个以上因素的分析,分别测定每个因素对总量指标总变动的影响程度。
多因素分析的基本原理同二因素分析法完全一样,关键在于指数体系如何确定。首先把指数体系定下来,就可以进行计算分析。
指数体系的编制方法:
具体分析现象总体的经济内容,根据掌握的经济知识,
确定现象是由哪几个因素组成;
这些因素之间的相互关系是什么。
依据现象因素之间的联系关系,确定在指数体系中各因素的排列顺序。在确定多因素的排列顺序时,一般应考虑两点:
一般应将数量指标指数排在前面,把质量指标指数排在后面,对某些排在中间的指标是数量指标还是质量指标要根据经济意义相对地确定。
多因素排列时,应注意相另两个因素相乘具有经济意义。
多因素分析案例
对工业企业原材料支出额进行多因素分析:
原材料支出额
原材料消耗量
单位产品
原材料
消耗额
产量
单耗
单位原材
料价格
多因素指数体系2
确定同度量因素的方法
总的原则:在分析一个因素变动时,将其他因素固定不变。
遵循编制总指数的一般原理:
在测定数量指标指数因素变动时,以基期质量指标为同度量因素;
在测定质量指标指数因素变动时,以报告期数量指标为同度量因素;
如果分析的因素较多,且排列的顺序就是数量指标在前,质量指标在后,也可以这样来叙述这一方法,即:
在分析第一个因素变动对总变动的影响时,只有第一个因素变动,其余都固定在基期不动;
在分析第二个因素变动对总变动的影响时,则在第一个因素已经变动的基础上进行,即第一个因素固定在报告期,只有第二个因素变动,其余因素仍固定在基期;
在分析第三个因素变动对总变动的影响时,则在第一、二个因素已经变动的基础上进行,即第一、二个因素都固定在报告期,只有第三个因素在变动,其余因素仍固定在基期。
依此类推,一直到分解出最后一个因素的变动为止。
原材料支出额总变动的指数体系
设:产量q 单耗 m 单位产品原材料购进价格p
则:原材料支出额=qmp
对多种产品的产量、单耗、价格解决不能直接相加的问题,应从总额变动中考虑,故:
多因素指数体系计算表
911100
864000
720000
659000
--
--
--
--
--
--
合计
107100
84000
720000
102000
90000
672000
85000
75000
560000
80000
75000
504000
210
140
300
200
150
280
850
500
1000
800
500
900
甲(件)
乙(台)
丙(套)
原材料费用支出总额(元)
价格
单耗
产量
产品
种类
+
+
计算结果的分析
绝对数关系:万元=万元+万元+万元
文字分析:该厂报告期比基期原材料费用增长%,多支出万元。其中,由于产量增长%,使费用多支出万元;
由于单耗增长20%,使费用多支出万元;
由于原材料价格上涨%,使费用多支出万元。
由于单耗增加使费用增加占原材料费用总额增长的比重为:
可见,单耗增加是原材料费用增长的主要原因。
相对数关系:%=% 120% %
第五节 平均指标对比指数
利用指数体系对若干因素组成的现象总变动进行因素分析的方法,也可以用来分析总平均指标动态变动的原因。因为,在分组条件下,平均指标的变动也受两个因素的影响。
一是各组平均指标变动的影响;
二是各组单位数在总体中比重变动的影响。
即:
这两个因素对总平均指标变动所起的作用,便要利用指数体系,编制相互联系的平均指标指数体系,借以分析总平均指标的动态及其各个因素所起的作用。
概念:平均指标的因素分析,即要在总平均指标的动态对比中,分析各个因素变动对总平均指标的影响方向和程度。
为了分别测定组平均指标 X,及总体结构
平均指标指数体系的编制步骤
在分组基础上进行,应有分组资料,计算各组平均指标及各组结构;
确定数量指标和质量指标,一般将各组平均水平作为质量指标,将各组单位数在总体中的比重(结构)作为数量指标;
当考察一个因素变动时,将另一个因素作为同度量因素固定不动。同度量因素固定的时期:
当考察 各组平均水平变动时,将各组比重(数量指标)固定在报告期;
当考察各组结构变动时,将各组平均水平(质量指标)固定在基期。
由此可形成平均指标指数体系:
平均指标指数体系1
(一)可变构成指数:反映总平均指标变动方向和程度的指数,它不仅受各组平均水平变化影响,而且受总体内部结构变动影响。
为了测定组平均水平和各组工人结构变动对总平均指标变动的影响,需要分别计算固定构成指数和结构变动影响指数
(二)固定构成指数:是将总体结构这一因素固定在报告期,借以测定各组平均水平变动影响程度的指数
为了将总体结构固定在报告期,单纯考察各组平均水平变动,需计算以基期平均工资计算的报告期工资总额除以报告期人数的假定平均工资。
则:
平均指标指数体系2
上述三种平均指标指数之间存在着密切联系:
(三)结构变动影响指数:是指将各组平均水平这个因素固定在基期,
借以测定总体结构变动影响程度的指数
计算案例
144000
159000
58000
53
58
3000
1000
合计
56000
88000
60000
99000
42000
16000
75
45
70
40
800
2200
600
400
技术工
辅助工
假定
报告期
基期
报告期
基期
报告期
基期
工资总额(元)
月平均工资
工人数
工人
类别
两种指数体系的结合应用
当所研究的平均指标与总量指标存在一定联系时,根据它们的经济联系的平均指标指数体系与总量指标指数体系之间也存在密切联系,现将两种指数体系结合起来。仍以上述工资总额例子。
计算结果分析
由上述计算结果:%=300%*%*%表明:
工资总额增长%,是由于三个因素共同作用的结果:
工人人数增长200%;
各组工人平均工资提高%;
工人人数结构变化,影响平均工资下降%。
绝对数分析1
从绝对额方面分析,报告期工资总额比基期增加
159000-58000=101000元
分析工人人数和平均工资这两个因素对于工资总额变动的影响
根据指数分析法的一般原则,分析工人人数变动对工资总额影响时,应将人数的差额乘以基期平均工资,即:
2)测定总平均工资变动对工资总额影响时,应将两个时期的总平均工资差额乘以报告期工人人数,即:
由于上述这两个因素共同变动使工资总额增加了101000元,即:
101000元=116000元+(-15000元)
绝对数分析2
进一步,利用平均指标指数体系,分析总平均工资变动中两个因素对工资总额变动的影响,只要将固定构成指数和结构影响指数的分子、分母分别乘以报告期工人人数即可确定。
各组平均水平变动对工资总额变动影响
2)各组人数比重变动对工资总额变动影响
由于上述两个因素共同作用,使总平均工资变动影响工资总额
15000+(-30000)=(-15000)元
第八章 抽样调查
第一节 抽样调查的意义
第二节 抽样调查的基本概念及理论依据
第三节 抽样平均误差
第四节 全及指标的推断
第五节 抽样方案设计
第六节 必要抽样单位数的确定
第七节 假设检验
第一节 抽样推断的意义
概念:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
特点:
只抽取总体中的一部分单位进行调查;
用一部分单位的指标数值去推断总体的指标数值;
抽选部分单位时,要遵循随机原则;
“随机原则”,就是在抽选具体单位时,不搀杂调查者的主观判断,总体中的每一个单位都有同等被抽中的机会,抽中抽不中完全是偶然的(全凭机会),而不是人为地抽选。
为什么要遵守随机原则?
只有遵守随机原则,才能使抽选的部分单位与总体保持相同的结构,或相同的分布状况,使得抽选的部分单位有充分的代表性;
只有遵守随机原则,才有可能计算抽样误差。
4、抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制。
抽样调查的适用范围
事物在测量或试验时有破坏性,不可能进行全面调查;
有些总体从理论上讲可以进行全面调查,但实际上办不到;
用于某些不必要进行全面调查的现象。和全面调查相比较,抽样调查能节省人力、费用和时间,而且比较灵活;
在有些情况下,抽样调查的结果比全面调查更准确;可以用来对全面调查资料进行评价和修正;
抽样调查方法可以用于工业生产过程中的质量控制;
利用抽样推断的方法,可以对于某种总体的假设进行检验,来判断这种假设的真伪,以决定取舍。
局限性:抽样调查不能满足对总体各部分单位都要求提供详细资料的需要,因此,它不能代替全面调查,应与全面调查相辅相成。
抽样调查的基本概念
一、全及总体和抽样总体
二、全及指标和抽样指标
三、抽样方法和样本可能数目
四、抽样调查的理论依据
一、全及总体和抽样总体
(一)全及总体,简称总体
全及总体是指所要认识对象的全体,总体是由具有某种共同性质的许多单位组成的集合体。全及总体的单位数用N表示。
按其各单位标志性质
不同,可以分为:
变量总体
属性总体
有限总体
无限总体
(二)抽样总体,简称样本
抽样总体是指从全及总体中随机抽取出来,代表全及总体部分单位的集合体。抽样总体的单位数用n表示。
按样本单位数的多少可分为:
大样本:n
小样本:n
30
30
二、全及指标和抽样指标
全及指标,是根据全及总体各单位标志值计算出的综合指标,它是反映总体的某种属性或特征的综合指标,也叫总体指标或总体参数。
由于总体是唯一的,因此,全及指标的数值也是唯一确定的。在抽样推断中,总体指标事先是未知的,是通过抽样推断得出的。
样本指标,是根据样本各单位标志值计算出的综合指标。
因为从一个总体中可以按随机原则抽选很多个样本,样本不同,抽样指标的数值也各不相同,因此,样本指标是一个随机变量,或称样本统计量。
常用的全及指标和样本指标:
全及指标:
总体平均数
总体成数 P
总体标准差
总体方差
样本指标:
样本平均数
样本成数
p
样本标准差 s
样本方差
全及指标
总体平均数:是全及总体各单位标志值的平均数。
全及指标
总体标准差:是指全及总体中根据各单位标志值计算的标准差。
全及指标
全及成数:是指全及总体中具有某一种相同标志表现的单位数占全及总体单位数的比重。
全及指标
总体是非标志的平均数与标准差
样本指标
样本平均数
样本指标
样本标准差
样本指标
全及成数:是指全及总体中具有某一种相同标志表现的单位数占全及总体单位数的比重。
样本指标
样本是非标志的平均数与标准差
成数的概念及有关指标的计算
概念:指在具有交替标志的现象中,其中具有某种表现的单位数在全部单位数中所占的比重。
设:N代表总体单位数,
证明:成数的平均数就是成数本身
设:具有某种表现的变量值为1,不具有某种表现的变量值为0
成数的方差等于P(1-P)
证明:
三、抽样方法和样本可能数目
从总体中抽取需要调查的样本单位有两种抽选方法:
重复抽样(回置抽样)
从总体中随机抽选一个样本之后,
把结果登记下来,再放回到总体
中,第二次抽选再从全部总体单
位中抽选。在这样抽选过程中,
总体单位数始终是相同的,每一
单位始终都有同等被抽中的可能,
同一单位有多次重复中选的可能。
不重复抽样(非回置抽样)
任一单位一经抽出,不再放回
总体中去参加下一次抽选。在
这样抽选过程中,抽一次,总
体单位数就少一个,每一单位
被抽中的可能不断变化(机会
增加),每一单位只能被抽中
一次,不会被重复抽选出来。
两种抽选方法的差别
可能抽取的样本数目不同
样本可能数目是从总体中可能抽取或可能构成的样本数目。计算样本可能数目要用排列组合知识:
重复抽样得到的样本可能数目为
不重复抽样得到的样本可能数目为
抽样误差的计算公式不同
抽样误差的大小不同
四、抽样推断的理论依据1
(一)大数法则,是关于大量随机现象具有稳定性质的法则。它说明如果被研究的总体是由大量的相互独立的随机因素所构成,而且每个因素对总体的影响都相对的小,那么,对这些大量因素加以综合平均的结果,因素的个别影响将相互抵消,而呈现出它们共同作用的倾向,使总体具有稳定的性质。
大数法则的意义:
现象的某种规律性,只有当具有这种现象的足够多数的单位综合汇总在一起的时候,才能显示出来。因此,只有从大量现象的总体中,才能研究这些现象的规律性。
现象总体的规律性,通常是以平均数的形式表现出来。
当所研究的现象总体包含的单位越多,平均数也就越能够正确地反映出这些现象的规律性。
各单位的共同倾向(表现为主要的、基本的因素)决定着平均数的水平,而各单位对平均数的离差(表现为次要的、偶然的因素)则会由于足够多数单位的综合汇总的结果,而相互抵消,趋于消失。
四、抽样推断的理论依据2
(二)中心极限定理
论证:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数的增加,抽样平均数的分布便趋近于正态分布。
这个结论对于抽样推断是十分重要的,因为在经济现象中变量和的分布是普遍存在的。例如,
城市用电量是千家万户用电量总和的分布;
产品标准规格的偏差是许多独立因素之和的分布等。
根据中心极限定理,我们有理由相信,这些分布都趋近于正态。
在现实生活中,一个随机变量服从于正态分布未必很多,但多个随机变量和的分布趋近于正态分布则是普遍存在的。
抽样平均数也是一种随机变量和的分布,因此,在抽样单位数充分大的条件下,抽样平均数也趋近于正态分布,这为抽样误差的概率估计提供了一个极为有效而方便的条件。
抽样平均数趋近于总体平均数
大数法则证明:如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数n,可以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对于任意的正数 a有,
这从理论上揭示了样本和总体之间的内在联系,即随着抽样单位数n的增加,抽样平均数
有接近于总体平均数
的趋势,或者说,
抽样平均数在概率上收敛于总体平均数
大数法则论证了抽样平均数趋近于总体平均数的趋势,这为抽样推断提供了重要的依据。
正态分布1
正态分布是统计学中最重要的分布。这一分布是由阿伯拉罕·德莫弗于1733年首先发表。其他几位数学家如皮埃尔·西蒙、拉普拉斯、高斯等进一步发展,为纪念高斯,正态分布也称为高斯分布或常态分布。
作用:
正态分布是一种最常见的分布。许多变量的分布是正态的或近似于正态分布的。
只要某一随机变量是大量相互独立的偶然因素的和,而且每个因素的个别影响几乎是同样地小,那么就可以断定这个随机变量服从于或近似地服从于正态分布。
各种统计量(如平均值)的分布,对于大样本来说,是正态的或近似于正态的,即使它们所取的总体不是正态的也是如此。
对于充分大的样本,正态分布也是一些其他分布的极好近似。
正态分布2
正态分布的概率密度函数:
正态分布曲线是钟型曲线,是一个对于平均值µ对称的分布, µ的任何一侧曲线均为另一侧曲线的镜像,当x时,以x轴为其渐进线。
平均数、中位数与众数三者相等;
曲线位于x轴上方,即正态密度函数处处为正;
曲线与x轴所包围的面积为1,由于正态曲线的对称性,若由平均值处引x轴的垂线,则其左右两侧面积各占总面积的50%;
如在平均值两侧离平均值三个标准差处引x轴的两条垂线,所形成的相应面积约等于总面积的%;
如在平均值两侧离平均值两个标准差处引x轴的两条垂线,则这两条垂线与x轴与正态曲线所围的面积约等于总面积的%;
如在平均值两侧离平均值一个标准差处引x轴的两条垂线,则这两条垂线与x轴与正态曲线所围的面积约等于总面积的%;
2µ
%
%
%
1µ
3µ
-1µ
-2µ
-3µ
正态分布的
重要特征
标准正态分布
正态分布是一个分布族,其中一个成员与另一个成员按不同的µ值和值来区别。这一分布族中最重要的成员是平均值为0和标准差为1的正态分布,被称为标准正态分布N(0,1).
概率密度函数
可以通过以下公式将正态分布N(0,1)变换为标准正态分布:
使用此公式把原分布中任意x值变换为标准正态分布中相应的Z值,由Z值利用标准正态分布表,可以求出与原计量值集合有关的概率。
抽 样 分 布
概念:假如从同一总体随机抽出容量相同的各种样本,则从这些样本计算出的某统计量所有可能值的分布,称为这个统计量的抽样分布。
当被抽样总体服从正态分布时,样本平均值的分布具有以下性质:
(10)
()
(9)
()
(8)
()
(7)
()
(6)
()
10
()
(9)
()
(8)
()
(7)
()
(6)
()
(5)
9
(9)
()
(8)
()
(7)
()
(6)
()
(5)
()
8
()
(8)
()
(7)
()
(6)
()
(5)
()
(4)
7
(8)
()
(7)
()
(6)
()
(5)
()
(4)
()
6
()
(7)
()
(6)
()
(5)
()
(4)
()
(3)
5
(7)
()
(6)
()
(5)
()
(4)
()
(3)
()
4
()
(6)
()
(5)
()
(4)
()
(3)
()
(2)
3
(6)
()
(5)
()
(4)
()
(3)
()
(2)
()
2
()
(5)
()
(4)
()
(3)
()
(2)
()
(1)
1
10
9
8
7
6
5
4
3
2
1
第二次抽取
第一次
抽取
来自容量N=10的总体的、容量n=2的所有样本
的抽样分布1
假定某公司有10个销售员构成一个总体,x是一个销售员在该公司工作的年数,这个变量的各种可能值为(1,2,3,4,5,6,7,8,9,10),从这个总体可以算出如下参数:
现从中抽选n=2容量的样本,在重复抽样时,将有
对于每一个样本计算其平均值
这些
被置于表中圆括号内,
所构造的频数分布列成表:
100
1 2 3 4 5 6 7 8 9 10 9 8 7 6 5 4 3 2 1
f
合计
1 2 3 4 5 6 7 8 9 10
把对
所构造的分布的函数形式同原总体分布的函数形式作一比较
的抽样分布2
把对
总体分布
100个样本的分布
抽样分布的特征值
§2 抽样误差
一、抽样误差的概念
二、影响抽样平均误差的因素
三、抽样平均误差
一、抽样误差的概念
抽样误差是按随机原则而造成的样本指标与总体指标的绝对离差。有三种,以数学符号表示:
理解抽样误差可以从两方面着手:
抽样误差是指由于抽样的随机性而产
生的那一部分代表性误差,不包括登记
性误差。
统计调查误差
登记性误差
代表性误差
在调查过程中由于主客观原因引起的登记、汇总或计算等方面的差错而造成的误差
由于样本结构和总体结构不同,样本总体不能完全代表总体而产成的样本指标与总体指标的误差
偏差
随机误差
破坏了抽样的随机原则而产生的误差
抽样实际误差
抽样平均误差
是可能抽到的样本指标与总体指标的差别
所有可能出现的样本指标与总体指标之间误差的平均数,用标准差表示
遵守随机原则但可能抽到各种不同的样本而产生的误差
二、抽样平均误差
抽样平均误差是反映抽样误差一般水平的指
标,其实质是指抽样平均数的标准差,它反
映了抽样指标与总体指标的平均离差程
度,也就是样本指标与总体指标的标准差,
通常用 来表示。
可以作为衡量抽样指标对于全及指标代表性程度的一个尺度。
是计算抽样指标与全及指标之间变异范围的一个根据。
在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。
抽样平均误差的意义
三、影响抽样平均误差的因素
1.总体各单位标志值的差异程度;
2.样本的单位数;
3.抽样的方法;
4.抽样调查的组织形式。
差异越大,抽样误差越大
单位数越多,抽样误差越小
重复抽样的抽样误差比不重复抽样的大
简单随机抽样的抽样误差最大
计算抽样平均误差的理论公式
K:为样本配合总数
样本平均数的平均数等于总体平均数。
例:P209-211
计算抽样平均误差的实用公式: 1.重复抽样的条件下
式中,n为样本容量; 为总体标准差一
般况下是末知,可用样本标准差替代 。
抽样平均数的抽样平均误差:
抽样成数的抽样平均误差:
2.不重复抽样的条件下
式中,N为总体单位数;n为样本容量;σX2 为总体方差一般情况下是末知,可用样本方差替代σx 2。
抽样平均数的抽样平均误差:
式中, N为总体单位数; n为样本容量.
抽样成数的抽样平均误差:
抽样平均数的抽样平均误差例题:
例:某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其工资水平资料如下:
3
4
6
8
10
9
6
4
工人数
660
600
580
560
550
540
534
524
月平均工资
计算样本平均数和抽样平均误差。
解:先列表
52640
28000
50
30000
10000
1980
3
660
6400
1600
2400
4
600
2400
400
3480
6
580
0
0
4480
8
560
1000
100
5500
10
550
3600
400
4860
9
540
4056
676
3204
6
534
5184
1296
2096
4
524
xf
f
x
计算平均数即平均工资:
抽样成数的平均误差例题:
例:某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。
解:已知p=60% 、n=100、N=500
练习:要估计某高校10000名在校生的近视率,现随机从中抽取400名,检查有近视眼的学生320名,试计算样本近视率的抽样平均误差。
解:根据已知条件:
1)在重复抽样条件下,
样本近视率的抽样平均误差:
2)在不重复抽样条件下,
样本近视率的抽样平均误差:
计算结果表明,用样本的近视率来估计总体的近视率其抽样平均误差为2%左右(即用样本的近视率来估计总体的近视率其误差的绝对值平均说来在2%左右)。
第三节 抽样平均误差
抽样误差,就是按随机原则抽样,所得抽样指标和总体指标的差额,包括:
抽样平均数与总体平均数的差额
抽样成数与总体成数的差额
1、抽样误差是指由于抽样的随机性而产生的那一部分误差,不包括调查误差,也不包括可能发生的偏差。
理解抽样误差有两个要点:
2、随机误差有两种:实际误差和平均误差。
抽样平均误差
概念:是指所有可能出现的样本指标的标准差,也就是所有可能出现的样本指标和总体指标的平均离差。
意义:由于抽样误差把所有可能的抽样指标与全及指标之间所存在的抽样误差的所有结果都考虑进去,概括地反映了整个抽样过程中一切可能结果的误差,表明抽样平均数(或成数)与总体平均数(或成数)的平均误差程度,
因此,它既可以作为衡量抽样指标对于全及指标代表程度的一种尺度,又是计算抽样指标与全及指标之间变异范围的主要依据;
同时,在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。
抽样平均误差的计算1
抽样平均误差是抽样平均数的标准差,它反映了抽样平均数的所有可能值与全及平均数的平均离散程度。用公式表示就是:
(其中,k为样本配合总数)
此公式仅仅是一个定义公式,表明抽样平均误差的实质,但因为计算时要使用总体平均数的材料,而这个材料我们事先是不知道的,加之也不可能连续抽取一系列所有可能的样本,所以,无法根据这个公式来计算抽样误差。
实际计算时,是根据样本平均数的标准差与总体标准差之间的关系来推算的。
根据中心极限定理,
抽样平均误差的计算2
样本指标有平均指标和成数两种。因此,抽样误差也有两种:
(一)平均指标抽样误差的计算:
1、重复抽样的计算公式
2、不重复抽样的计算公式
抽样误差的计算3
可见,不重复抽样的抽样误差和重复抽样的误差相差一个
表示抽中单位占全部单位的比重
表示未抽中单位占全部单位的比重,这个数值总是小于1,用小于
1的分数去修正
当然要比原来的数字小
所以,不重复抽样的抽样误差要比重复抽样方法的代表性高。
在统计工作中,通常都采用不重复抽样方法进行抽样调查,但在计算抽样误差时,为简便起见,有时使用重复抽样的误差公式,这是可以的。
一则
(抽样比例)通常数值很小,
仍接近于1,
对于平均误差数值的影响不大,二则,抽样误差计算得偏大,从认识上讲没有多大坏处,通常在N未知的情况下,即使采用不重复抽样方法,也可采用重复抽样公式计算
抽样误差的影响因素
总体被研究标志的变异程度;
即受总体方差或总体标准差数值大小的影响:
总体标准差数值大,则抽样误差也大;
总体标准差数值小,则抽样误差也小;
抽样误差的大小与总体标准差的大小成正比关系。
抽样单位数的多少;
抽取的样本单位数越多,抽样误差越小;
抽取的样本单位数越少,抽样误差越大;
抽样误差的大小和样本单位数的平方根成反比关系。
受抽样方法不同的影响。不重复抽样误差小于重复抽样误差
抽样误差的大小还受抽样组织方式的影响,和抽取样本单位的组织方式有关。
了解了抽样误差受那些因素的影响,就可以有意识地用调整这些因素的方法来控制抽样误差的大小。例如,增加抽样数目,减少标志变异程度等。
总体方差未知情况下的代替材料
上述计算公式中,计算抽样误差是根据总体方差计算的,事实上,总体的方差是未知的。在总体方差未知的情况下,可用以下材料代替:
一般可以用样本方差代替总体方差;
概率论已经证明,样本方差可以相当接近于总体方差,用它来代替总体方差是可以的,在组织工作得当,并有足够的抽样单位数的条件下,是能够得到良好的结果的。
也可以用过去调查所得到的材料;
用小规模试验调查得到的材料;
用估计的材料,例如,用农产量预计估产的材料。
如果有几个不同的方差,则应采用数值较大的。
抽样误差的计算4
(二)成数抽样误差的计算
重复抽样的计算公式
不重复抽样的计算公式
在这两个公式中,总体方差的材料也是没有的通常也用样本方差来代替:
如果有几个方差材料也应该用最大的。
成数的方差有一个特点,它的最大值是*=
就是说,当两类总体单位各占一半时,它的变异程度最大,因此选用最大值,也就是选用最接近的方差值或最接近的成数值。
抽样平均误差计算案例
某灯泡厂对10000只产品进行使用寿命检验,随机抽取2%样本进行测试,所得资料如下:
抽样产品使用寿命资料表
200
合计
3
1200以上
7
1150--1200
18
1100--1150
84
1050--1100
71
1000--1050
11
950--1000
4
900--950
2
900以下
抽样只数
(只)f
使用时间
(小时)
按照质量规定,灯泡寿命在1000小时以上者为合格品,按此资料计算抽样误差:
第四节 全及指标的推断
一、有关的几个重要概念:
(一)抽样极限误差:即给定的抽样误差范围,也称置信区间。
由于未知的全及指标是一个确定的量,而抽样指标是随机变量,它会随着各个可能样本的不同而变动,是围绕着全及指标上下随机出现的变量。它与全及指标可能产生正离差,也可能产生负离差,这样抽样指标与全及指标之间就有个误差范围的问题。
抽样误差范围就是变动的抽样指标与确定的全及指标之间的可能范围
它是根据概率理论,以一定的可靠程度保证抽样误差不超过某一给定的范围。统计上把这个给定的抽样误差范围叫做抽样极限误差。
抽样极限误差的计算
分别为抽样平均数与抽样成数的抽样极限误差,则有:
经过变换可以得到不等式:
设
与
(二)可信程度
概率度t,是以抽样平均误差为尺度来衡量的相对误差范围,在数理统计中常称为置信度。公式表示:
概率P,抽样估计的可靠程度,它是概率度t的函数,其函数关系为:
在一定的条件下,当概率度t越大,则抽样误差范围Δ越大,可能样本落在误差范围内的概率越大,从而抽样估计的可信程度也就越高;
反之,当t越小,则Δ越小,可能样本落在误差范围内的概率越小,从而抽样估计的可信程度也就越低。
抽样分布与抽样可信程度
抽样推断中,根据一个样本的样本指标,加上误差范围,说全及指标落在某个区间范围之内,不是完全肯定的事,它的可信程度有时会大些,有时会小些。所以还要研究估计的可信程度。这就要运用抽样分布的理论。
根据抽样分布理论和中心极限定理,不论全及总体的分布是正态的或是非正态的,只要样本容量足够大(n30),则抽样平均数(或成数)的分布,近似地服从平均值为,方差为
的正态分布。
这个正态分布是以全及平均数(或成数)为对称中心,并且已知这一分布的标准差,就是抽样平均误差,分布曲线与
为此我们能作出有关
轴围成的面积为1。
分布的进一步陈述。
所有可能的样本指标的抽样分布1
约有%处在平均值
约有%处在平均值
约有%处在平均值
%
%
%
1µ
2µ
3µ
-1µ
-2µ
-3µ
的全部数值中,
即,在
的一个标准偏差范围之内;
的两个标准偏差范围之内;
的三个标准偏差范围之内。
所有可能的样本指标的分布2
根据上述理论抽样极限误差要以抽样平均误差作为标准单位来衡量,并且具有一定的概率保证。
Δ、t、F(t)三者关系
随着概率度的不断增大,概率的数值就趋近于1。
t与F(t)的数量关系可以查正态概率度(附表)常用的数值有:
F(t)
3
2
1
t
总体指标的可靠性推断
根据以上理论。虽然抽取一个样本不可能知道它和总体指标的实际离差,但根据样本指标和抽样平均误差,可以推断总体指标落在什么范围之内,并且知道落在这个范围内的可能性有多大。
区间估计的方法1
按预定的概率保证程度F(t)来估计抽样误差可能范围Δ.
步骤:
F(t) t
F(t) t
区间估计的方法2
2、事先提出允许的误差范围Δ,计算估计可信程度F(t).
步骤:
Δ
第五节 抽样方案设计
一、抽样方案设计的基本原则
二、简单随机抽样
三、类型抽样
四、机械抽样
五、整群抽样
六、多阶段抽样
一、抽样方案设计的基本原则
(一)保证实现抽样随机性的原则
(二)保证实现最大的抽样效果的原则
抽样设计的原则应是在一定的误差和可靠性的要求下选择费用最少的样本设计。
在通常情况下,提高抽样精度的要求与节省费用的要求往往有矛盾,因为要求抽样误差愈小,就要增加抽样单位数目,相应地要增加调查费用。但实际工作中并非抽样误差最小的方案就是最好的方案,因为不同的调查项目对于精度的要求往往是不同的,而且调查费用和精度之间并不是线性关系,可以用图表示。
98
精度(%)
100
90
50
75
100
费用(%)
此图表示用100%的费用可以达到100%的精度。但如果用75%费用就可以达到98%的精度,若98%的精度可满足需要时,就没有必要再花25%的费用来获取余下的2%的精度。
二、简单随机抽样
简单随机抽样,又称纯随机抽样。它是对总体不作任何处理,不进行分类也不搞排队,而是从总体的全部单位中随机抽选样本单位。
具体做法:
直接抽选法
抽签法
随机数码表法
适用情况:
对调查对象很少了解;
总体单位的排列没有秩序;
抽到的单位比较分散时也不影响调查工作。
三、类型抽样
概念:类型抽样又称分类抽样,是先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,由各类(层)内的样本组成一个总的样本。
优点:
可以提高样本的代表性。由于分类使差别大的单位分开,使样本单位的分布更接近总体的分布;
可以降低影响抽样误差的方差。由于进行了分类,所以影响抽样误差的只是各个组之内的方差,而各个组之间的方差已经不再影响抽样误差了,因为每个组都进行了抽样调查,因此对所有的组来讲,实际上是全面调查。而由于分类的结果,各个组内的方差是比较小的。
作用:
利用已知的信息提高抽样效率;
抽样的组织工作比较方便;
掌握总体中各个子总体的情况。
确定各类型组抽样单位数的方法
一、类型比例抽样:不考虑各组标志差异程度,而是根据统一的比例来确定各组要抽取的样本单位数,即通常以各类型组的单位数占全及总体单位数的比例,来确定各组抽取的单位数。
根据抽样误差大小与标志差异程度、抽样单位数等关系来确定。对于标志变动程度大的组,抽取样本单位数的比例要大些;反之,对于标志变动程度小的组,抽取样本单位数的比例相应地可小些。
二、类型适宜抽样:
类型抽样误差的计算
类型比例抽样的误差,取决于各组单位数的总和与各组组内的方差(即各组组内标准差的平方)的平均数。
当测定平均数指标时计算抽样误差不是用
而是用各组组内方差的
(即各组组内方差的平均数)。
在测定成数指标时,计算抽样误差不是用全及总体P和(1-P)的乘积,而是各组
计算公式如下:
计算案例
某乡共有农户4000户,分粮食作物区与技术作物区。现用类型比例抽样方法分别抽10%农户,并计算平均每户收入及其标准差。试推断全乡抽样平均每户收入和抽样平均误差。
--
--
400
4000
合计
75
5400
150
1500
技术作物区
52
3600
250
2500
粮食作物区
抽样标准差(元)
抽样平均每户收入(元)
样本户数
农户总数
四、机械抽样
概念:又称等距抽样或系统抽样,是对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个或若干个单位,并把这些抽取的单位组成样本进行观察的一种抽样方法。
k
k
k
k
i
I+k
I+2k
I+(n+1)k
作用:可以保证所取到的样本单位均匀地分布在总体的各个部分,有较高的代表性,可以减小抽样误差。
机械抽样的方式
机械抽样中作为总体各单位顺序排列的标志,可以是无关标志,也可以是有关标志。按照排队所依据的标志不同,可分为:
(一)无关标志排队,是指排列的标志和单位标志值的大小无关或不起主要的影响作用。
例如,工业产品质量抽查按时间顺序取样,农产量抽样调查按田间的地理顺序取样,家计调查按街道的门牌号码抽取调查户等。
(二)有关标志排队:是指作为排列顺序的标志和单位标志值的大小有密切关系。
例如,农产量抽样调查,利用近几年平均亩产或当年估计亩产排队;职工家计调查按职工平均工资排队抽取调查单位或调查户等。
按有关标志顺序排队,并根据样本单位数加以n等分之后,对每一部分抽取一个单位有三种方法:
随机起点等距抽样: a, k+a, 2k+a, …,( n-1)k+a
半距中点取样:
对称等距取样: i, 2k-i,2k+i,4k-i,…,(n-2)k+i,nk-i等等。
机械抽样的抽样误差
机械抽样的平均误差和标志的排列顺序有关,情况比较复杂。
无关标志排队,近似于简单随机抽样的误差,可以采用简单随机抽样误差公式来近似反映。即:
或:
有关标志排队:可以看作一种特殊的分类抽样,可以用类型抽样的抽样误差公式来计算抽样误差。即:
在等距抽样时,每个组内只抽取一个单位,因此,
五、整群抽样
概念:也称为集团抽样,它是将总体各单位划分成若干群,然后以群为抽样单位,从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织方式。
特点:
整群抽样是对中选群进行全面调查,所以只存在群间抽样误差,不存在群内抽样误差。这一点和类型抽样只存在组内抽样误差恰好相反。因此,整群抽样和 类型抽样虽然都要对总体各单位进行分组,但对分组所起的作用则是完全不同的:
类型抽样分组的作用在于尽量缩小组内的差异程度,达到扩大组间方差提高效果的目的。
而整群抽样分组的作用则在于尽量扩大群内的差异程度,从而达到缩小群间方差提高效果的目的。
作用:
当总体缺乏包括全部总体单位的抽样框,无法进行抽选时须采用整群抽样;
比较方便和节约费用。
局限性:样本单位比较集中,在总体中分布不均匀,抽样误差大。
整群抽样的影响因素
抽出群数多少。设所有的群数为R,抽出的群数为r。显然抽出的r的数目越多,抽样误差越小;
群间方差,即群与群之间的差异程度。其计算方法如下:
(1)平均数的群间方差:
(2)成数的群间方差:
3、抽样方法:整群抽样都采用不重复抽样方法,计算时要使用修正系数。
整群抽样误差的计算
案例:某工厂生产某种灯泡,在连续生产720小时中每隔24小时抽取1小时的全部产品加以检查,根据抽样资料计算结果,灯泡平均使用寿命1200小时,群间方差为60小时,计算样本平均数的抽样误差,并以95%的可靠程度推断该批灯泡的平均使用寿命。
六、多阶段抽样
概念:就是在抽样调查抽选样本时,分两个或两个以上的阶段来进行。
作用:
当抽样调查的面很广,没有一个包括所有总体单位的抽样框,或者总体范围太大无法直接抽取样本时,须采用多阶段抽样。
可以相对地节约人力物力。
可以利用现成的行政区划、组织系统作为划分各阶段的依据,为组织抽样调查提供方便。
步骤:省
地块
农户
乡或村
县
注意:整群抽样中每一阶段抽样都会存在抽样误差。为提高抽样指标的代表性,各阶段抽取群数的安排和抽样方式,都应注意样本单位的均匀分布
1、适当多抽第一阶段的群数,使样本单位在总体中得到均匀分布。
2、根据方差的大小,来考虑各阶段抽取群数的多少。群间方差大的阶段适当多抽一些,反之,则可少抽一些。
在各阶段灵活运用各种抽样组织方式,而且尽可能利用现成的资料。
两阶段抽样的步骤和特点
特点:
两阶段抽样和类型抽样的区别——两阶段抽样在第一阶段只是随机地抽取部分的组;而类型抽样在第一阶段取了全部的组。
两阶段抽样和整群抽样的区别——两阶段抽样在第二阶段只是在中选组中随机地抽取部分单位,而整群抽样在第二阶段抽取了中选组的全部单位。
所以,两阶段抽样在组织技术上是类型抽样和整群抽样的综合。
两阶段抽样误差的计算
计算案例
某地区共有30000户居民分成100群,每群包括300户,现欲调查居民的收入水平。如果用两阶段抽样,先以群为第一阶段抽取单位,从100群中抽6群,然后以住户为第二阶段的抽取单位,从抽中的群体中每群抽3户,调查其平均收入。计算两阶段样本平均数的抽样误差,并以95%的可靠程度推断该地区居民每户平均收入。
--
--
1369
361
3136
-37
-19
56
544
507
525
600
6
462
484
510
5
256
0
256
-16
0
16
434
418
434
450
4
370
390
420
3
400
100
900
-20
-10
30
350
330
340
380
2
300
330
350
1
离差平方
离差
样本平均数
每户每人月平均收入(元)
群别
计算
R=100,M=300,r=6,m=3
第六节 必要抽样单位数的确定
确定抽样单位数的意义:
认识允许有一定的误差。在一定的允许误差的条件下,只需要抽取一定的样本单位。抽取的样本单位数过多,会增加不必要的开支,造成人力物力浪费;但若抽取的样本单位数过少,又会使误差增大,达不到所要求的准确程度。
抽样数目是影响抽样误差的重要因素,如果其他条件都相同,要改变对抽样误差的要求,就可以相应地改变抽样数目,用增加或减少抽样数目的办法来控制抽样误差的大小。
确定抽样单位数的原则:
在保证抽样推断达到预期的可靠程度和精确程度的要求下,确定一个恰当的抽取样本单位的数目。
确定抽样单位数的依据:
调查者对一项抽样推断的可靠程度和精确程度的要求;
总体标志的变异程度;
抽样组织方法;
人力、物力和财力的许可情况。
抽样单位数的计算1
计算简单随机抽样平均指标的必要抽样单位数公式:
重复抽样
不重复抽样
简单随机抽样成数的必要抽样数目公式:
重复抽样
不重复抽样
抽样单位数的计算2
计算类型抽样的必要抽样单位数的公式:
不重复抽样
重复抽样
整群抽样计算必要抽样公式:
机械抽样计算必要抽样单位数公式:
第七节 假设检验
概念:根据一定随机样本所提供的信息,用来判断总体未知参数事先所作的假设是否可信的统计分析方法,叫做假设检验。
基本思想:为了判断总体的某个特征,先根据决策要求,对总体特征作出一个原假设,然后从总体中抽取一定容量的随机样本,计算和分析样本数据,对总体的原假设做假设检验,进而作出接受或拒绝原假设的决策。
一、假设检验的概念
二、假设检验的一般方法
三、总体平均数的假设检验
假设检验的方法步骤
假设检验一般由以下七个步骤来完成:
陈述假设;
识别检验统计量;
选择显著水平;
陈述决策的规则;
收集数据并计算其结果;
作出统计决策;
作出经营或管理决策。
识别检验
统计量
指定显著性
水平
陈述决策
规则
收集数据
和完成计算
陈述假设
作出统计
决策
不否定
否定
得出 可能
真实的结论
得出 真实
的结论
(一)陈述假设
首先要明确提出有关总体参数的假设,一般有两个部分,即原假设和替代假设。
原假设:接受检验的假设,记作
替代假设:是当原假设被否定时生效的另一种假设,记作
原假设和替代假设相互对立:
例如,关于总体平均数的假设有三种情况:
第一种类型的假设检验称为双边检验,
第二、第三种类型的假设称为单边检验。
真实的,则替代假设
如果原假设
不真实;
也可能不真实,这意味着替代假设是真实的。
如果原假设
(二)检验统计量
计算结果差距越小,假设值真实性可能就越大;
反之, 差距越大,假设值真实性可能就越小。
因此,只要分析结果说明它们之间的差距是显著的,
就否定原假设,故假设检验又称显著性检验。
但要注意的是这种分析是建立在原假设
为真的基础上,
只有当分析完成时,概率很小的事情发生了,我们才能接受原假设非真的想法。
这里用到这样一个基本思想,即在一次试验或一次观察中“小概率事件”几乎不可能发生。
因此,一般在个体检验中,先认为提出的“原假设”是正确的,而某事件A在原假设为真的条件下发生的概率很小(事先就确定的显著水平a).但是经过抽样观察,如果小概率事件A居然发生了,这就要怀疑原假设的正确性。
由于对原假设是不是否定取决于检验统计量的大小,故它起着决策者的作用。
假设检验的依据是样本,
通过计算合适的检验统计量,
分析样本统计值与参数值的差距。
检验统计量的基本形式:
假设检验结果的分类
对
1-β
错
α
否定
错
β
对
1-α
不否定
非真
为真
假设的可能状态
可能的行动
选择的
正确性
我们可以把两种不希望出现的结果视作错误的行为或错误,
并把它们区别为两种类型。
我们可以把否定真实
的行为称作第一类错误,记作α
的行为称作第二类错误,记作β
而把不否定非真实
(三)显著性水平及否定域1
否定真实原假设的错误称为第一类错误,它的概率就是显著性水平。是在收集数据之前就应作出的规定,使显著性水平或犯第一类错误的概率是某一个小概率(最常用的α取或)。
显著性水平规定了统计量的否定域或临界值。双边检验的否定域是:
接受域
0
1-α
样本的统计量与假设的总体参数没有显著差异的区域
否定域
否定域
样本统计量与总体参数有显著差异的两个区域
临界值即为将接受域同否定域分开来的检验统计量的数值
显著性水平及否定域2
单边检验的否定域是:
0
1-α
否定域
接受域
α
0
1-α
否定域
α
接受域
右尾检验
左尾检验
(四)计算与决策
四、决策规则:
决策规则应在收集数据之前作出,这一规则可用概率的语言陈述如下:
当原假设真实时,如果检验统计量的取值等于或超过实际得出的极端值的概率小于或等于α,我们就否定原假设;否则不否定原假设。
这一规则也可用检验统计量计算值的语言表述如下:
如果检验统计量的计算值落在否定区之内,我们就否定原假设;如果检验统计量的计算值落在接受区之内,我们就不否定原假设;当检验统计量的计算值等于临界值时,我们也否定原假设。
五、收集数据并完成计算。
六、作出统计决策:根据决策规则评价计算值,在这一评价的基础上,决定否定或不否定原假设。
七、作出管理决策。
总体平均数的假设检验1
总体为正态分布且方差已知,双边检验案例。
设总体服从标准差为50的正态分布,从该总体抽出 某容量为25的随机样本,得出样本平均值为70,试以α=的显著水平检验原假设
总体平均数的假设检验2
0
接受域
1-α
否定域
否定域
4、陈述决策规则:
5、收集数据完成计算:
6、作出统计决策:
双边假设检验与区间估计的联系
双边假设检验与区间估计存在内在联系。我们可以通过求µ的100(1-α)%置信区间来检验该假设。如果求出的去间包括µ,就接受原假设
总体平均数的假设检验3
某厂生产一种产品,原月产量x服从平均值µ=75,方差
设备更新后,为了考察产量是否提高,抽查了6个月产量,求得平均产量为78,
假定方差不变,问在显著性水平α=下,设备更新后的月产量是否有显著提高?
0
1-α
否定域
接受域
α
总体平均数的假设检验4
例3,基于产品转换的时间与成本,某生产主管在说服公司经理采用另一种新生产方法时,必须说明新方法能降低成本才行。目前的生产方法其平均成本为500元,标准差为20元,新方法试行了一段时间,发现25个产品的平均成本为480元,且方差不变。假定产品的成本服从正态分布,试以α=的显著性水平决定该公司是否转换新的生产方法。
0
1-α
否定域
α
接受域
第八章 相关分析和回归分析
第一节 相关分析的意义和任务
第二节 简单线性相关分析
第三节 回归分析
第四节 估计标准误差
一、相关关系的概念与特点
客观现象之间的数量联系存在着两种不同的类型:函数关系和相关关系。
函数关系:变量之间存在着确定的严格依存的关系,即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。
(1) 某种商品的销售额(y)与销售量(x)之间的关系可表示为
y = p x (p 为单价)
(2)圆的面积(S)与半径之间的关系可表示为
S = R2
例如
相关关系:变量之间存在有依存关系,但
这种关系是不完全确定的随机关系,即当
一个或一组变量每取一个值时,相应的另
一个变量可能有多个不同值与之对应 。
商品的消费量(y)与居民收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系
收入水平(y)与受教育程度(x)之间的关系
父亲身高(y)与子女身高(x)之间的关系
例:
相关关系的主要特点
相关关系表现为数量相互依存关系。
相关关系在数量上表现为非确定性的相
互依存关系。
二、 相关关系的种类
1.按相关的程度分:
完全相关
不完全相关
不相关
2.按相关的方向分:
正相关
负相关
3.按相关的形式分:
线性相关
非线性相关
1.按相关的程度分:
完全相关
不完全相关
不相关
2.按相关的方向分:
正相关
负相关
3.按相关的形式分:
线性相关
非线性相关
1.按相关的程度分:
完全相关
不完全相关
不相关
2.按相关的方向分:
正相关
负相关
3.按相关的形式分:
线性相关
非线性相关
4、按相关分析因素的多少划分
单相关
复相关
图示
不相关
负线性相关
正线性相关
非线性相关
完全负线性相关
完全正线性相关
三、相关分析的内容
确定现象之间有无关系,以及相关关系的表现形式。
确定相关关系的密切程度
选择合适的数学模型
测定变量估计值的可靠程度
§2 相关关系的判断与测定
一、相关关系的判断
二、相关系数
一、相关关系的判断
定性分析是依据研究者的理论知识、专业知识和实践经验,对客观现象之间是否存在相关关系,以及是何种关系作初步的判断。
在进行详细的定量分析之前,可以先利用它们对现象之间存在的相关关系的方向、形式、和密切程度作大致的判断。
相关关系判断方法1:定性分析
相关表:将变量各样本值按从小到大的顺序一一对应的列在一个表格里,就构成了一个相关表。
99
98
92
88
75
62
60
45
25
18
可支配收入x
70
78
65
60
53
42
40
30
20
15
消费支出
y
居民消费和收入的相关表
单位:百元
相关关系判断方法2:利用图表进行判断
相关表可分为简单相关表和分组相关表
简单相关表:是对未分组资料,只将自变量的数值由小到大的顺序排列,然后再列出对应的因变量的数值表。
分组相关表:将自变量与因变量的相关原始资料进行分组,编制成分组相关表。又可分为单变量分组相关表与双变量分组相关表。
相关图:又称散点图,它是将两个变量相对应的变量值用坐标点的形式,在直角坐标上描绘出来,以反映二者之间相关关系的图形。
相关图
二、相关系数
(一)相关系数的含义
相关系数:是反映变量之间相关关系密切程度和相关方向的统计分析指标。
若相关系数是根据总体全部数据计算的,称为总
体相关系数,记为
若是根据样本数据计算的,则称为样本相关系
数,记为 r
相关关系判断方法3:定量方法
样本相关系数的计算公式
(二)相关系数的计算公式
式中:
(1)
(1)式可化简为如下公式:
1. r 的取值范围是 [-1,1]
|r|=1,为完全相关
r =1,为完全正相关
r =-1,为完全负相关
相关系数的密切程度
2. r = 0,不存在线性关系
3. -1r<0,为负相关
4. 0<r1,为正相关
5. |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切
+
0
+
完全负相关
无线性相关
完全正相关
负相关程度增加
r
正相关程度增加
例:计算前例中人均可支配收入和消费支出之间
的简单相关系数。
解:
由表中数据得:
∑y = 473, ∑x =662, ∑y2 =26507,
∑x2 =51656,∑xy =36933,n=10
计算得人均可支配收入和消费支出间的简单
相关系数为:
第一节 相关分析的意义和任务
相关关系的概念:
社会经济现象是普遍联系的。在许多现象之间存在着相互依存关系。一种现象同其他现象之间的依存关系可以分为两种:
(一)函数关系:是现象之间存在的严格的依存关系,在这种关系中对于某一变量的每一个数值,都有另一个变量唯一确定的一个数值与之相对应,并且这种关系可以用一个数学表达式反映出来。例如:圆面积
(二)相关关系:是现象之间确实存在的,而关系数值不固定的相互依存关系。理解相关关系要把握两个要点:
1、相关关系是指现象之间确实存在数量上的相互依存关系。
2、现象之间数量依存关系的具体关系值不是固定的。
相关关系的种类
相关分析的主要内容
(一)确定现象之间有无关系,以及相关关系的表现形式
(二)确定相关关系的密切程度
(三)选择合适的数学模型
(四)测定变量估计值的可靠程度
(五)对计算出的相关系数,进行显著检验
第二节 简单线性相关分析
一、散布图和相关表
二、相关系数的测定与应用
三、相关关系的密切程度
四、分组表计算的相关系数
一、散布图和相关表
(一)绘制散布图
案例:有8个生产企业生产某种产品。月产量和生产费用的资料:
160
135
132
115
110
80
86
62
生产费用(万元)
月产量(千吨)
8
7
6
5
4
3
2
1
企业编号
散布图
(二)相关表
880
合计
160
8
135
7
132
6
115
5
110
4
80
3
86
2
62
1
生产费用(万元)
产品产量(千吨)
序号
(三)分组相关表和相关图1
分组相关表就是将原始数据进行分组而编制的相关表。根据分组的情况不同,分组表有两种:
1、单变量分组表:只根据一个变量进行分组,另一个变量不进行分组,只是计算出次数和平均数,这种表叫做单变量分组表。
例如,
--
400
合计
151
1
45以下
154
24
155
91
-50
158
129
160
87
-55
162
38
163
25
-60
167
3
170
2
以上
每组平均身高(厘米)
人数(人)
按体重分组(千克)
单变量散布图
双变量分组表
概念:是对自变量和因变量都进行分组而编制的相关表。例如:
400个大学生身高和体重相关表
400
25
68
125
94
74
9
5
合计
1
45以下
24
10
12
2
45—
91
10
20
28
30
3
—50
129
12
45
42
24
3
3
50—
87
4
25
28
20
8
2
—55
38
8
14
16
55—
25
8
7
6
4
—60
3
3
60—
2
2
以上
合计
17及以上
166—
170
162—
166
158--162
154—
158
150—
154
150以下
按身高分组(厘米)
按体重分组
(千克)
二、相关系数的测定与应用
概念:相关系数是在直线相关的条件下,说明两个现象之间相关关系的方向和密切程度的统计分析指标。
作用:说明两个变量之间相关关系的方向和密切程度:
相关系数是一个相对数,
它的数值有个范围,在-1和+1之间,即:
r数值越接近±1,
表示相关关系越强
r数值越接近于0,表示相关关系越弱
统计上对相关关系的密切程度分为以下几个等级:
相关系数在以下为无相关,以上为有相关。
其中:—是低度相关;
—是显著相关;
以上是高度相关。
相关系数的计算(积差法)
(一)积差法:
相关系数的计算(简捷计算法)
计算公式:
104214
880
合计
1280
25600
160
8
972
18225
135
7
17424
132
6
575
13225
115
5
418
12100
110
4
248
6400
80
3
172
7396
86
2
3844
62
1
生产费用
(万元)
产品产量
(千吨)
序号
相关系数计算表
根据上表计算:
三、分组表计算相关系数
(一)单变量分组表计算相关系数
(二)双变量分组表计算相关系数
第三节 回归分析
一、概念:回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。
二、直线回归
(一)简单直线回归分析
简单直线回归分析的特点
在两个变量之间,在进行回归分析时,必须根据研究目的,具体确定哪个是自变量,哪个是因变量。
在两个现象互为根据的情况下,可以有两个回归方程
——y倚x回归方程和x倚y回归方程。
回归方程的主要作用在于给出自变量的数值来估计因变量的可能值。一个回归方程只能作一种推算。推算的结果表明变量之间的具体的变动关系。
2、简单直线回归方程的确定
基本形式:简单直线回归方程又称一元一次回归方程,其基本形式是: y倚 x回归方程:
x 倚 y回归方程;
确定直线回归方程的数理依据——最小平方法
直线回归方程的计算
104214
880
合计
1280
25600
160
8
972
18225
135
7
17424
132
6
575
13225
115
5
418
12100
110
4
248
6400
80
3
172
7396
86
2
3844
62
1
生产
费用
(万元)
产品
产量
(千吨)
序号
直线回归方程图
(二)多元线性回归分析1
概念:应用两个或多个自变量来估计因变量,即多元回归分析。
多元回归分析的步骤、方法和一元线性回归分析基本相同,不过在计算上复杂一些。以二元线性回归方程为例。其方程式为:
案例:某地区玻璃销售量与汽车产量、建筑业产值资料
76384.
9054
合计
17
16
15
14
629
13
12
11
10
9
8
7
452
6
5
4
3
2
280
1
建筑
汽车
玻璃
年份
计算
根据表列资料计算得:
多元线性回归方程式
以上方法推广到多个自变量,设因变量y受n个自变量
三、曲线相关
当因变量和自变量间的关系是指数曲线型时,通常采用变量代换法将非线性模型线性化,再按照线性模型的方法处理。
例如,模型是指数型
案例:12个同类企业的月产量和单位产品成本资料
60
65
12
61
60
11
60
56
10
66
51
9
76
45
8
75
40
7
91
36
6
85
31
5
128
25
4
114
20
3
151
16
2
160
10
1
单位产品成本(元)
月产量(吨)
企业编号
从表列资料可以看出,随着产量的逐渐增多,单位产品成本有随之而逐渐降低的趋势。但单位产品成本的降低程度并不是随着产量的增加而均等地变化。例如,把x与y两个数列加以比较,在开始x值每增加一个单位时,y值降低得很多,随后x值继续增加,y值虽也有降低,但和开始阶段比较逐渐下降。这种情形从其散点图看得比较明显。
曲线散点图
分析
从图中观察点的分布来看,适合于配合指数曲线回归方程
(1)b>1
(2)0<b<1
指数曲线回归方程的线性转换
计算
12个企业的月产量与单位产品成本曲线回归计算表
20825
4225
3600
3136
2601
2025
1600
1296
961
625
400
256
100
1127
455
合计
60
65
12
61
60
11
60
56
10
66
51
9
76
45
8
75
40
7
91
36
6
85
31
5
128
25
4
114
20
3
151
16
2
160
10
1
单位产品
成本(元)
月产量(吨)
企业编号
计算
第四节 估计标准误差
概念:估计标准误差是用来说明回归方程推算结果的准确程度的统计分析指标,或者是反映回归直线代表性大小的统计分析指标。
计算:有两种方法。
(一)定义公式:根据因变量实际值和估计值的离差计算
(二)估计标准误差的简捷计算方法
三、相关系数和估计标准误差的关系
四、多元线性回归估计标准误差的测定
测定公式(以二元回归为例):
五、回归分析与相关分析的区别与联系
区别:
相关分析所研究的两个变量是对等关系;回归分析所研究的两个变量不是对等关系,必须根据研究目的事先确定其中一个是自变量,另一个是因变量。
对两个变量x和y来说,相关分析只能计算出一个反映两个变量间密切程度的相关系数,计算中改变x和y的地位不影响相关系数的数值;
回归分析有时可以根据研究目的不同分别建立两个不同的回归方程。
相关分析中,两个变量都必须是随机变量,而回归分析对资料的要求是,自变量是可以控制的给定的变量,因变量是随机变量。
联系:
相关分析是回归分析的基础和前提;如果缺少了相关分析,没有对相关关系的密切程度作出判断,就不能进行回归分析,即便勉强进行了回归分析,也是没有实际意义的。
回归分析是相关分析的深入和继续。只有进行了回归分析,拟合了回归方程,才可能进行回归预测,相关分析才有实际的意义。
《统计基础》复习
考试题型:
一、单项选择题(每个2分,共30分)
二、判断题(每小题1分,共10分)
三、简答题(每题10分,共30分)
四、计算题(共30分)
第一章
1、统计的含义
2、统计总体与总体单位
3、标志
4、统计指标
5、标志与指标的关系
第二章
1、统计调查的概念和作用
2、调查时间和时限
3、统计报表制度
4、普查
5、重点调查、典型调查、抽样调查及其异同
第三章
1、统计整理的概念
2、统计分组的概念
3、分配数列及其种类
4、统计表及其结构
第四章
1、总量指标及其种类
2、相对指标的概念、种类
3、平均指标的概念、种类:算术平均数、众数、中位数的概念及其在钟型分布图上的位置
4、标志变异指标的概念及种类 :平均差、标准差、是非标志的平均差及标准差
第一章---第四章习题
1、某企业成本计划降低6%,实际降低%,则企业成本计划完成程度是多少?
2、某班学生50名,男女各占一半,该班学生性别成数的方差为多少?
3、在组距数列中,向上累计到某组的次数是100,这表示总体单位中含义是什么?
4、在加权算术平均数公式中,若各个变量值都扩大3倍,而频数都减少为原来的三分之一,则平均数如何变化?
第五章
1、动态数列的概念
2、动态数列的种类
3、发展水平的概念
4、平均发展水平的概念及其与一般平均数的区别
5、平均发展水平的计算
6、增长量的概念及计算
7、发展速度概念及计算
8、增长速度概念及计算
9、增长百分之一的绝对值
10、平均发展速度和平均增长速度
第五章习题
人数
日期
27
27
27
26
26
26
26
25
25
25
10
9
8
7
6
5
4
3
2
1
1、 已知某企业前10天职工人数如下表,求这10天平均职工人数。
第五章习题
2、某企业1-4月份各月的平均职工人数分别为190人、214人、220人和232人,则该企业第一季度平均职工人数为多少?
3、 根据动态指标的相互关系,确定并填入下表空缺数值 :
5
2003
105
2002
5
2001
——
——
——
——
100
2000
增长1%的绝对值
(万元)
增长速度
(%)
发展速度
(%)
增长量
(万元)
与上年比较
利润
(万元)
年份
第五章习题
第六章
1、统计指数的概念及种类
2、综合指数的编制
3、指数体系与双因素分析
第六章习题
1、如果零售物价上升2%,商品销售量增长5%,则商品销售额增长多少?
2、某工厂2007年比2006年产量增长了20%,产值增长了30%,则产品价格提高了 多少?
—
—
—
—
—
合计
300
290
100
60
台
丙
5
4
1200
1000
支
乙
25
20
100
120
件
甲
报告期
基期
报告期
基期
价格(元)
销售量
计量单位
商品名称
3、计算:三种商品销售量综合指数、销售价格综合指数、销售额综合指数。
4、根据下述资料:计算全部商品销售量总指数和全部商品价格总指数、全部商品销售额总指数及进行双因素分析。
—
—
—
—
合计
100
1000
1200
120
800
1000
件
支
个
甲
乙
丙
报告
基期
报告
基期
商品价格
商品销售量
计量
单位
商品
名称
第七章
1、相关关系及其特点
2、相关系数、计算及含义
第八章
1、抽样推断的意义
2、全及总体和抽样总体
3、全及指标和抽样指标
分组标志的选择
分组标志的选择
分组标志的选择
分组标志的选择