(多媒体教学课件)
制作:
鲁勇兵
河北经贸大学数统学院
.
统 计 学(一)
统 计 学(一)
第一章 导 论
第二章 统计调查
第三章 统计整理
第四章 综合指标
第五章 抽样估计
第六章 相关与回归分析
第七章 时间序列分析
第八章 统计指数与综合评价
.
.
第一章 导 论
统 计 学
(多媒体教学课件)
.
.
本章相关内容
本章教学内容
本章小结
本章思考与练习题
本章学习目的
本章重点、难点
本章参考资料
相关网站
.
.
本章教学内容(4学时)
第一节 统计学的对象和方法
第二节 统计学的基本范畴
.
.
第三节 统计的任务、职能和
活动过程
第一节 统计学的对象和方法
一、“统计”一词的涵义
二、统计学的研究对象和特点
三、统计学的研究方法
四、统计学的产生和发展
五、统计学与其他学科的关系
.
.
一、“统计”一词的涵义(第1页)
“统计”一词
统计工作(即统计实践)
统计资料(即统计信息)
统计学
“统计”一词,是指统计工作、统计资料和统计学的总称。
.
.
是通过统计实践活动所取得的能够说明所研究对象某种数量特征的数据。它是统计工作的对象和成果。
是人们为了说明所研究对象的某种数量特征和规律性,对社会、政治、经济、自然等现象的数量进行搜集、整理和分析的活动过程。
是系统地论述统计工作理论和方法的科学。
例如,资料1-1 :
见后面资料1-1:
统计工作(即统计实践) :
统计资料(即统计信息) :
统计学 :
.
.
“统计”一词三种涵义之间的关系(2页):
① 统计工作与统计资料是统计活动过程和结果之间的关系;
② 统计工作与统计学是统计实践和理论的关系。
见前面统计一词的涵义
.
.
《中国2005年国民经济和社会发展统计公报》
资料1-1:
见前面统计一词的涵义
见后面统计学的对象
.
.
国内生产总值 亿元 比上年增长 %
粮食总产量 万吨 比上年增长 %
工业增加值 亿元 比上年增长 %
建筑业增加值 亿元 比上年增长 %
社会消费品零售额 亿元 比上年增长 %
固定资产投资总额 亿元 比上年增长 %
进出口总额 亿美元 比上年增长 %
全年保险费收入 亿元 比上年增长 %
全年各种税收收入 亿元(不包括农业税和关税)
居民消费价格指数 %
年末居民存款余额 亿元
年末人口总数 万人 人口自然增长率 %
城镇居民人均可支配收入 元/人 比上年增长 %
农村人均纯收入 元/人 比上年增长 %
见前面统计一词的涵义
.
.
国内生产总值 亿元 比重:
其中:第一产业 亿元 %
第二产业 亿元 %
第三产业 亿元 %
工业增加值 亿元 比上年增长 %
钢产量 万吨 比上年增长 %
原煤产量 亿吨 比上年增长 %
布产量 亿米 比上年增长 %
彩电产量 万部 比上年增长 %
冰箱产量 万台 比上年增长 %
发电量 亿千瓦时 比上年增长 %
进出口总额 亿美元 比上年增长 %
其中:出口总额 亿美元
进口总额 亿美元 顺差 320 亿美元
全年保险费收入 亿元
支付各类赔款 亿元
见前面“统计”一词的涵义
.
.
年初人口总数 129227 万人
年末人口总数 129988 万人
男性人口数 66976 万人 比重 (%)
女性人口数 63012 万人 比重 (%)
城镇人口数 52376 万人 比重 (%)
农村人口数 76851 万人 比重 (%)
0~14岁 27947 万人 比重 (%)
14~64岁 92184 万人 比重 (%)
65岁及以上 9857 万人 比重 (%)
平均人口数 = 129227万人 + 129988万人/2 = 万人
人口自然增长率 ‰ 人口净增加数 761 万人
人口出生率 ‰ 人口出生数 1593 万人
人口死亡率 ‰ 人口死亡数 832 万人
二、统计学的研究对象和特点
(一)统计学的研究对象
(二)统计学研究对象的特点
(三)统计学的性质
.
.
(一)统计学的研究对象(第2页)
是客观现象总体的数量特征和数量关系,即研究大量客观现象总体的数量方面,通过对这个对象的研究,以认识客观现象总体的规律性。
统计学的研究对象:
见前面资料1-1
是社会经济现象总体的数量方面,通过对大量社会经济现象的数量方面的研究,以认识社会经济现象总体在一定时间、地点条件下的规律性的表现,把握其发展变化的趋势。
社会经济统计学的研究对象:
例如,资料1-1 :
.
.
(二)统计学的研究对象的特点(第2~3页)
统计学研究对象的特点
统计学的研究对象是客观事物的数量方面,它包括数量的多少,数量关系及质与量互变的数量界限。所以,数字是统计的语言,统计研究必须通过数字来测量事物(现象)量的类型、量的大小、量的关系。
1.数量性:
1.数量性
2.总体性
3.变异性
4.社会性
.
.
统计学对客观现象数量的研究,是在客观现象的质与量的辨证统一中来研究其数量方面的。
即:质量—数量—质量
例如,我国2004年工业增加值62815亿元,比上年增长%。
统计学是以客观现象总体的数量方面作为自己的研究对象。例如:要进行人口统计,目的不在于了解个别人性别、年龄、文化程度等情况,而是要反映一个市区、一个省、一个国家人口的性别比例、年龄构成、文化程度等人口现象总体的数量特征。
2.总体性 :
.
.
统计研究对象的变异性是指总体各单位的特征表现存在着差异。组成总体的事物必须存在着差异性才有必要进行统计研究。
3.变异性(差异性) :
社会经济统计所研究的数量总是反映在社会经济领域中人类有意识活动的条件、过程和结果上,它总是与人们的利益有关,反映着人们之间的相互关系。如:占有关系、分配关系、交换关系等。
4.社会性 :
.
.
(三)统计学的性质
统计学是认识客观现象总体的数量特征和数量关系的方法论科学。
统计学的性质可归纳为如下几个方面:
1.统计学是方法论科学,而不是实质性科学;
2.统计学的应用范围既包括社会科学,也包括自然科学;
3.统计学的研究对象既包括确定性现象的总体数量关系,也包括随机现象的总体数量关系。
.
.
三、统计学的研究方法
统计学的研究方法
.
.
(一)大量观察法
(二)统计分组法
(三)综合指标法
(四)统计模型法
(五)归纳推断法
统计研究客观现象的过程和规律,是从现象总体上加以考察的,就总体中的全部或足够多数的单位进行调查、观察,并加以综合研究,这种调查方法称为大量观察法。也只有通过对大量现象的观察,才能认识总体数量特征的规律性。大量观察法的数理根据是大数定律。
统计分组就是根据统计研究的任务和现象总体的内在特点,将所研究的现象总体划分为若干性质不同而又有联系的几个部分的一种统计研究方法。任何统计研究都是从统计分组开始的。
(一) 大量观察法 :
(二) 统计分组法 :
.
.
综合指标法是指运用各种统计综合指标来反映和研究社会经济现象总体的一般数量特征和数量关系的研究方法。
统计模型法是根据一定的经济理论和假定条件,用数学方程去模拟现实经济现象相互关系的一种研究方法。利用这种方法,可以对社会。经济现象和过程中存在的数量关系进行比较完整和近似的描述,从而简化了客观存在的复杂的其他关系,以便于利用模型对社会经济现象的变化进行数量上的评估和预测。统计模型包括三个基本要素:社会经济变量、基本关系式、模型参数。
(三) 综合指标法 :
(四) 统计模型法 :
.
.
在统计研究过程中,从观察总体中各单位的特征,并由此得出关于总体的某种信息,这种从个别到一般,从事实到概括的推理方法,从逻辑上称为归纳推断法。如:抽样推断法:以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理方法,称为归纳推断法。
(五)归纳推断法 :
.
.
四、统计学的产生和发展 (第3~4页)
(一)古典统计学萌芽时期
(二)近代统计学的形成时期
(三)现代统计学的发展时期
(四)统计学的分科
.
.
(一)古典统计学萌芽时期 (17世纪70年代至19世纪初期)
.
.
1.政治算术学派
2.国势学派
3.古典概率论的应用
1.政治算术学派
威廉·配第。
(William Petty,1623-1687)英国,1690年发表《政治算术》一书(《 PoLiti Arithmetic》),倡导用统计即实证的方法研究社会经济问题。他是统计学的创人。
约翰·格朗特。
(Johan Graunt,1620-1674)英国,1662年他发表了《Natural and Political Observation Made upon the Bills of Mortality》即《关于死亡表的自然观察与政治观察》一书。被认为是人口统计学的创始人。 被认是人口统计学的创始人。
.
.
(Johan Peter Sus
smilch, 1707-1767 )德国,深受政治算术学派影响,成为该学派主要代表人物和继承者。代表作《由人类之出生、死亡及繁殖证明在人类变动中所存在的神的秩序》。
约翰·彼德·劳斯密尔希。
见前面政治算术学派
.
.
2.国势学派
(Hermann Conring,1606-1681)博士。该学派产生于18世纪的德国。他于1660年把国势学从法学、史学、地理学等学科中独立出来,在大学中讲授“实际政治家所必须的知识”。
海尔曼·康令。
马丁·休姆采尔。
(Martin Schneitzel, 1679-1747) ,他将康令的讲义更名为《政治学·统计学讲义》。
.
.
高特弗瑞德·阿痕瓦尔。
( Gottfried Achenw all ,1719-1772)他是休姆采尔的学生,国势学派要的继承人。在1749年确定了统计学( statistik)这一学科的名称及有关统计学的一些术语。他被当时德国誉为“统计学之父”。
见前面国势学派
.
.
3.古典概率论的应用
拉普拉斯
(,1749-1827 ) 19世纪初法国的数学家、统计学家。出版了名著《概率论分析理论》一书,从而形成了完整的应用理论体系。他对统计学的贡献可归纳为:
(1)总结了古典概率论研究成果,初步奠定了数理统计学的理论基础;
(2)他把大数定律作为概率论与政治算术的桥梁;
(3)提出应以自然科学的方法研究社会现象,为数理统计的产生提供了必要的理论依据。
.
.
(二)近代统计学的形成时期 (19世纪初至20世纪初)
1.数理统计学派。
比利时的凯特勒博(Lambert
Adolphe Jacques Quetelet,1796-1874)他深受拉普拉斯的影响,在其《社会物理学》中将概率论引入统计学。他的统计学著作有56种之多。是数理统计学派的奠基人;同时,他还是第一届国际统计会议(1853年)的招集人,因此,他被称之为“近代统计学之父”。
.
.
德国的克尼(,
1821-1898),他认为统计学是一门独立的具有政治算术内容的社会科学;德国统计学家恩格尔( Lonrenz Ernst Engel,1841-1896)发现“恩格尔法则”。
2.社会统计学派。
见前面近代统计学的形成时期
.
.
(三)现代统计学的发展时期(20世纪初至现在)
1.欧美数理统计学。
20世纪初的戈赛特(William
Sealy Gosset , 1876-1937)的T分布理论;20年代费暄(英, 1890-1962)的F分布理论;30年代的尼曼(波兰Jerzy Splaw Neyman,1894-1981)等人的假设检验理论及置信区间估计等理论;40年代的瓦尔德(美, 1902-1950 )等学者的统计决策理论,多元分布理论等,推断统计的基本框架已经建成,逐渐成为20世纪的主流统计学,它越来越依赖于计算技术,成为数量分析的方法论科学。
.
.
2.东方社会经济统计学。
苏联的大多数统计学家主张统计学是一门实质性的社会科学。把统计学定义为:统计学是在质与量的密切联系中研究大量社会现象的数量方面,研究社会发展规律在具体地点及时间条件下的数量表现的社会科学。
见前面近代统计学的形成时期
.
.
3.统计学的发展趋势。
现代主流统计学有四个明显趋势:
(1)随着现代数学的发展,更广泛地应用数学方法;
(2)统计学与其他新科学新理论的结合,不断产生新的边缘科学或新的统计分支;
(3)借助电子计算机,使大量数理方法得以普及应用, 并已成为实证分析的主要工具;
(4)统计的作用,从描述向推断、预测及决策方向发展。
.
.
(四)统计学的类型(分科)(第5~6页)
任何事物的分类,都可以从不同的角度进行,以便深入全面的认识客观事物,对统计学的认识也是如此,其常用的分科具体介绍如下 :
理论统计学和应用统计学
1.统计学按统计研究的性质分为:
描述统计学、推断统计学、应用统计技术
2.按统计方法的特点分为:
3.其他分类
.
.
1.理论统计学和应用统计学
理论统计学是以统计学的基本原理(即一般理论和方法 )为主要研究内容的。如统计学原理、数理统计学、多元统计学等。理论统计学把研究对象一般化、抽象化,以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心内容是统计推断问题,实质是以归纳的方法研究随机变量数量的一般规律。所以,理论统计学是以方法为中心建立方法论体系,并在各种方法项下阐明所能解决的问题。其方法不是自然现象或社会现象的随机变量都是适用的。
理论统计学:
.
.
应用统计学是指以统计方法在各专业领域中应用和在各专业的数量规律性研究中所呈现的特有统计方法为对象的统计学科。如生物、气象统计学、经济统计学、人口统计学等。应用统计学是以问题为中心,建立专业统计指标系,并在各种问题下阐明可能解决问题的方法。它不仅从数量分析,还需要质量分析。故,应用统计学需要有关的专业实质性科学理论作指导,它通常具有边缘交叉学科的性质。
应用统计学:
见前面理论统计学和应用统计学
.
.
2.描述统计学、推断统计学和应用统计技术
是根据部分统计资料的特征,对全部或大部分同类现象的特征进行估计、检验及分析研究的统计方法论。
是指通过对统计资料的收集、整理、综合计算及分析等形式,来反映客观现象的数量特征和数量关系的统计方法论。
描述统计学:
应用统计技术:
在现代统计方法中,将描述统计方法与推断统计方法有机结合,专职应用于某一领域的专有统计方法。如:现代相关分析、统计预测、统计决策等方法。
推断统计学:
.
.
3.其他分类
按统计工作的领域不同统计学可分为,统计指标学、统计调查学、统计决策论、统计报告学、统计法学及统计信息管理学等;按应用统计领域可分为思维科学统计学、社会科学统计学和自然科学统计学等;按国际统计学会对统计理论和方法的分类,可多达16个大类,343个中类,并预计到21世纪初将发展至680多个研究中类。
.
.
五、统计学与其他学科的关系
(一)哲学、数学与理论统计学的关系
(二)经济学与统计学的关系
(三)经济统计学与经济核算的关系
.
.
(一)哲学、数学与理论统计学的关系
统计学是计量分析的工具,它离不开数学方法;它在哲学思想指导下,应用数学等法为其科学研究和管理提供有效的方法论工具。
哲学———是统计研究的方法论基础。
(二)经济学与统计学的关系
统计学以经济理论、部门经济学为理论指导。
经济学———是统计学的理论基础
(三)经济统计学与经济核算的关系
经济统计学以经济核算为其主要研究内容。
.
.
第二节 统计学的基本范畴
.
.
一、统计总体与总体单位及样本
二、标志与标志表现
三、变异与变量
四、统计指标与指标体系
一、统计总体与总体单位及样本 (第7~9页)
(一)统计总体与总体单位的概念
(二)总体的特征
(三)总体与单位的关系
(四)样本(或抽样总体)
.
.
(一)统计总体与总体单位的概念(第7页)
统计总体(总体):
即根据一定目的确定的统计所要研究事物的全体。它是由客观存在的具有某种共同性质的许多个别事物构成的整体。
总体单位(单位):
即构成总体的个别事物。
例1-2 :
研究目的:是全国工业企业生产经营情况时
全国所有的工业企业
总体
单位
(以全国工业企业为总体范围)
每一个工业企业
.
.
研究目的:是工商管理班学生的基本情况时
总体
工商管理班的全体学生
单位
每一个学生
(以工商管理班为总体范围)
.
.
注意:总体范围可大可小,是随研究目的而定的;总体单位可以是人、物、企业、行为等。
(二)总体的特征(第7页)
总体的特 征
1.同质性
2.大量性
3.变异性(差异性)
同质性:
构成总体的各单位必须在某一方面或某一点上具有共同性。
大量性:
总体是由大量的单位组成的,仅仅个别或少数单位不能形成总体。
变异性(差异性):
构成总体各单位在某一方面具有共同性,但在其它方面必须存在着差异。
.
.
总体的特征见后面举例
.
.
例如1-2 :
总体——全国所有的工业企业
大量性:
同质性:
变异性:
每一个工业企业的生产职能都相同。
由许多个工业企业组成。
每个工业企业在经济类型、产品名称、行业、产值、利润、固定资产、职工人数、工资总额等方面存在着差别。
例如1-3:
总体——工商管理班的全体学生
每一个学生所学专业都相同。
单位——每一个学生
由许多个学生组成。
同质性:
大量性:
变异性:
每个学生在性别、面目、籍贯、年龄、考分、身高、体重等方面存在着差别。
单位——每一个工业企业
注意:总体的同质性是研究问题的前提条件,而总体的变异性则是研究问题本身。同质性、大量性是相对的,是根据研究目的而定的。
总体的分 类
根据总体大量性的状态
有限总体
无限总体
变量总体
属性总体
根据总体所研究标志不同
变量总体
(研究数量标志)
(研究品质标志)
属性总体
见前面总体的特征
.
.
(三)总体与单位的关系(第8页)
总体和单位随着研究目的的不同(总体范围的不同),两者可以相互转化。
当研究目的是全国工业企业生产经营情况时
例如:
总体——全国所有的工业企业
单位——每一个工业企业
(华北药厂是一个单位)
当研究是华北药厂(工人)生产经营情况时
总体——华北药厂的所有工人
单位——每一个工人
(华北药厂是一个总体范围)
.
.
又如:
当研究目的是工商管理班学生的基本情况时
总体——工商管理班的全体学生;
单位——每一个学生
总体——河北经贸大学的所有专业班
当研究目的是河北经贸大学各专业班基本情况时
单位——每一个专业班
(工商管理班是一个单位)
.
.
(四)样本(或抽样总体)(第9页)
样本是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。(样本也是由许多单位构成的,也符合总体的概念,故称为抽样总体)。
样本的概念:
样本的特点:
第二,从一个全及总体中可抽取许多个样本。
第一,取自全及总体内部,不允许总体外部单位参加。
第三,样本的代表性。
第四,样本的客观性。
.
.
二、标志和标志表现(第16页)
(一)标志的概念
(二)标志的种类
(三)标志表现
.
.
(一)标志的概念(第16页)
工业产值、产品利润、职工人数、劳动效率 工资总额、固定资产、生产能力、流动资金
是说明总体单位特征的概念。
标志:
例如1-2:
总体——全国所有的工业企业
单位——每一个工业企业
品质标志
经济类型、产品名称、所属行业、主管部门、产品名称、所属行业
数量标志
标志
.
.
(二)标志的种类(第16页)
例如1-3:
总体——工商管理班的全体学生
单位——每一个学生
品质标志
性别、籍贯、家庭成员、面目、所学专业
数量标志
年龄、学习成绩、身高、体重、消费支出
标志
品质标志:
(只能用文字说明,不能用数值表示)
数量标志:
标志的
种 类
(它可以用数值表示)
.
.
(三)标志表现
是标志特征在各单位的具体表现。
标志表现:
标志表现分为品质标志表现和数量标志表现。
例如:
在全国工业企业总体中,
每个工业企业是一个单位
工业企业名称: 甲 乙 丙 … X
工业增加值(万元)
数量标志(概念)
7000 150 800 … 300
工业企业名称: 甲 乙 丙 … X
经济类型
品质标志
集体 国有 国有 …个体
标志表现
标志表现
.
.
注意:单位、标志及标志表现三者之间的关系:
单位是标志的承担者,标志表现是标志的实际体现者。
课堂练习:
张三的 性别 为 “男性”;
李四的 年龄 为 “19”岁
单位
单位
标志
标志表现
标志
标志表现
.
.
三、变异和变量
.
.
(一)变异的概念
(二)不变标志与可变标志
(三)变量、变量值及变量的种类
(一)变异的概念
是指标志(或指标)在总体各单位的具体表现所存在的差别。
变异:
如,全国工业企业总体中,每个企业是一个单位。
工业企业名称: 甲 乙 丙 … X
工业增加值(万元)
7000 150 800 … 300
数量标志(概念)
标志表现
(存在着差别)
工业企业名称: 甲 乙 丙 … X
经济类型
集体 国有 国有 … 个体
标志表现
(存在着差别)
品质标志
.
.
(二)不变标志和可变标志
不变标志:
在一个总体中,当一个标志在各单位的具体表现都相同时,称为不变标志。
在一个总体中,当一个标志在各单位的具体表现有可能不同时,称为可变标志。
可变标志:
例如:在工商管理班学生总体中,
(每个学生是一个单位)
标志:
(所学专业 性别 年龄 成绩 身高)
不变标志
可变标志
注意:不变标志是总体同质性的基础,可变标志即变异性是构成总体的必要条件。
.
.
(三)变量、变量值及变量的种类
变量:
即可变的数量标志。
变量值:
即数量标志的具体表现或变量的取值。
例如: 在全国工业企业总体中,每个工业企业是一个单位。
工业企业名称: 甲 乙 丙 … X
工业增加值(万元)
7000 150 800 … 300
变量值
数量标志
变量
变量的种类
(按变量值变化的连续性与否分类)
变量的种 类
离散变量
连续变量
(只能用整数表示)
(可以用小数表示)
(标志值)
.
.
离散变量:
其取值可以按一定次序一一列举,其变量值是以整数位断开的(通常取整数形式),可以用计数的方法取得。例如,企业的职工人数、设备台数;学生人数等。
例如:[学生人数(人):50 51 52 …]
连续变量:
其取值是连续不断的,相邻两值之间可作无限分割,(即其数值可以用小数表示),其数值须用测量或计量的方法取得。如,企业的产值、利润、学生的身高、体重等。
例如:[体重(公斤): …]
注意:有些变量连续变量如年龄、考分等由于其一般是用整数来表示,可视同离散变量。
.
.
四、统计指标和指标体系
.
.
(一)统计指标的概念和构成要素
(二)统计指标的特点
(三)统计指标的种类
(四)统计指标体系
(一)统计指标的概念和构成要素(第16~17页)
.
.
统计指标的概念:
是反映总体数量特征的概念及其具体数值。
工业企业名称: 甲 乙 丙 … X
数量标志
(概念)
工业增加值(万元)
7000 150 800 … 300
标志值
(反映全国工业企业总体)
统计指标
(概念)
全国工业增加值
62815(亿元)
(指标数值)
(综合汇总)
统计指标的构成要素:
统计指标由指标名称和指标数值两个要素构成。
注意:统计指标是由(数量)标志转化而来的。
(二)统计指标的特点
统计指标的特点
综合性
数量性
具体性
即任何指标都可以用数值表示。没有不用数值表示的统计指标
数量性:
综合性:
具体性:
即任何指标都是综合说明总体数量特征的。
即任何指标数值都是反映所研究现象在具体时间、地点、条件下的规模、水平。
.
.
注意:指标与标志的区别和联系。
区别:
(2)标志可以分为不能用数值表示的品质标志与能用数值表示数量标志两种,而指标都是用数值表示的。没有不用数值表示的指标。
(1)指标是说明总体(数量)特征的,而标志是说明总体单位特征的;
联系:
(1)许多指标值都是从总体单位的数量标志值汇总而来的;
由于总体和单位在一定条件下可以互相转化,故说明总体的指标与说明单位的(数量)标志也会随之而变。
(2)指标与(数量)标志之间存在着变换关系。
.
.
指标与标志的区别和联系见后面举例
例如前1-2:
总体:全国所有工业企业;单位:每一个企业
当研究目的是全国工业企业生产经营情况时
工业企业名称: 甲 乙 丙 … X
工业增加值(万元)
数量标志(概念)
(反映工业企业总体)
7000 150 800 … 300
标志值
(综合汇总)
62815(亿元)
全国工业增加值
统计指标(概念)
指标数值
.
.
当研究目的是甲企业的生产经营情况时,
总体:甲企业的所有工人;
单位:每一个工人
工人名称: 甲 乙 丙 … X
工业增加值(万元)
…
(反映甲企业工人总体)
(综合汇总)
指标数值
统计指标(概念)
数量标志(概念)
7000(万元)
甲企业工业增加值
标志值
.
.
见前面指标与标志的区别和联系
(三)统计指标的种类(第36页)
统计指标的种类
1.按其反映现象的数量特点不同
2.按其数值表现形式不同
数量指标
质量指标
相对指标
总量指标
平均指标
注意:
数量指标
相对指标或平均指标
总量指标
质量指标
.
.
即反映现象总规模、总水平和工作总量的统计指标,又称总量指标,一般用绝对数来表示。例如:国内生产总值、钢产量、商品零售额、粮食总产量、职工人数、工资总额、人口总数等。
即反映现象相对水平和工作质量的统计指标。它是总量指标的派生指标,一般用相对数或平均数来表示。例如:经济增长速度、人口自然增长率、城镇居民人均可支配收入、职工平均工资、学生平均成绩等。
.
.
数量指标 :
质量指标 :
(四)统计指标体系
.
.
是由若干个相互联系的统计指标所组成的整体,用以反映所研究现象各方面相互依存和相互制约的关系。
即基本统计指标体系和专题统计指标体系。
统计指标体系:
社会经济统计指标体系的种类:
如(工业企业统计指标体系)。
第三节 统计的任务、职能 和活动过程
一、统计的任务
二、统计的职能
三、统计活动过程
四、统计的组织
五、我国的统计法制
.
.
一、统计的任务(即统计工作的任务)
具体的任务包括以下四个方面:
1.准确、及时、全面、系统地反映国民经济和社会发展情况,为国家制定政策和长远规划提供事实依据。
2.对国民经济和社会运行情况进行监督和预警,为国家的宏观调控提供对策。
3.在市场经济体制中,提供灵通的市场供需和价格信息,作为企业经营决策的导向。
4.推广统计信息资料的开发和利用,做好统计资料的提供工作,为社会公众服务。
.
.
二、统计的职能
信息、咨询、监督。
三、统计活动过程
统计设计、
统计调查、
统计整理、
统计任务确定、
统计分析、
一个完整的统计工作过程包括:
(主要环节)
统计资料的积累与提供。
(我国及国际统计组织)(略)
四、统计的组织(第17~22页)
五、我国的统计法制(第28~34页)(略)
.
.
本章小结
第一节 统计学的对象和方法
一、“统计”一词的涵义
“统计”一词,是指统计工作、统计资料
和统计学的总称
“统计”一词三种涵义之间的关系
二、统计学的研究对象和性质
(一)统计学的研究对象
(二)统计学研究对象的特点:
1.数量性 2.总体性
3.变异性 4.社会性
.
.
(三)统计学的性质
三、统计学的研究方法
1.大量观察法 2.统计分组法
3.综合指标法 4.统计模型法
5.归纳推断法
四、统计学的产生和发展
(一)古典统计学萌芽时期
1.政治算术学派 2.国势学派
3.古典概率论的应用
(二)近代统计学的形成时期
(三)现代统计学的发展时期
1.欧美数理统计学
2.东方社会经济统计学
.
.
3.统计学的发展趋势。
(四)统计学的分科
1.统计学按统计研究的性质分为理论统
计学和应用统计学
2.按统计方法的特点分为描述统计学、
推断统计学、应用统计技术
3.其他分类
五、统计学与其他学科的关系
(一)哲学、数学与理论统计学的关系
(二)经济学与统计学的关系
(三)经济统计学与经济核算的关系
.
.
第二节 统计学的基本范畴
一、统计总体与总体单位及样本
(一)统计总体与总体单位的概念
(二)总体的特征:
1.同质性 2.大量性
3.变异性(差异性)
(三)总体与单位的关系:总体和单位两者随研究目的的不同,可以相互转化
(四)样本(或抽样总体)
二、标志与标志表现
(一)标志的概念
(二)标志的种类
.
.
(品质标志与数量标志)
(三)标志表现
三、变异与变量
(一)变异的概念
(二)不变标志与可变标志
(三)变量和变量值、变量的种类
变量分为离散变量与连续变量
变量值又称为标志值
四、统计指标与指标体系
(一)统计指标的概念
统计指标包括指标名称和指标数值两
个要素
.
.
(二)统计指标的特点
1.数量性 2.综合性 具体性
注意:指标与标志的区别和联系
(三)统计指标的种类
1.按其反映现象的数量特点不同分为数
量指标和质量指标
2.按其数值表现形式不同分为总量指标、
相对指标和平均指标
(四)统计指标体系
基本统计指标体系和专题统计指标体
系
.
.
第三节 统计的任务、职能
和活动过程
一、统计的任务
二、统计的职能:信息、咨询、监督
三、统计活动过程
四、统计的组织
(包括我国及国际统计组织)
.
.
本章思考与练习题
一、思考题(简答题)
二、单项选择题
三、多项选择题
四、填空题
.
.
一、思考题
1.简述统计的涵义及其关系。
2.简述统计学与其他学科的关系。
3.什么是统计学的研究对象?它有什么特点?
4.统计研究的基本方法是什么?
5.社会经济统计的任务和职能是什么?
6.统计活动过程阶段及各阶段的关系如何?
7.什么是总体与总体单位?
.
.
8.简述标志和指标的关系。
9.什么是变量和变量值?
10.什么是统计指标体系?为什么统计指标体系比统计指标更重要?
11.什么是连续变量和离散变量?如何判断?
.
.
二、单项选择题(在每小题的四个备选答案中选出一个正确的答案,并将正确答案的号码填在题干后的括号内)
1、统计学的基本方法包括( )
A、调查方法、汇总方法、预测方法
B、相对数法、平均数法、指数法
C、大量观察法、综合分析法、归纳推断法
D、整理方法、调查方法、分析方法
2、社会经济统计学的研究对象是( )
A、抽象的数量关系
B、社会经济现象的数量关系
C、社会经济现象的规律性
D、数量关系和研究方法
.
.
3、变量是指( )
A、可变的品质标志 B、可变的数量标志
C、品质标志的标志值 D、数量标志的标志值
4、要了解20个工业企业的职工的工资情况时,则总体是( )
A、20个工业企业
B、20个企业的职工工资总额
C、每一个工业企业的职工
D、20个工业企业的全部职工
5、标志是说明( )
A、总体单位特征的 B、总体特征的
C、单位量的特征的名称 D、以上均不对
.
.
6、工业企业的设备台数、产品产值是( )
A、连续变量
B、前者是连续变量,后者是离散变量
C、离散变量
D、前者是离散变量,后者是连续变量
7、为了了解某市高等学校的基本情况,对该市所有高等学校进行调查,其中某一高等学校有学生5285人,教师950人,该校最大系有师生780,其中教师120人,正、副教授36人,占教师总数的%,上述数值中属于统计指标的有( )
A、0个 B、1个 C、6个 D、3个
.
.
8、几位学生的某门课程成绩分别是67分、78分、88分、89分、和 96分,则成绩是( )
A、质量指标 B、数量指标
C、数量标志 D、品质标志
9、某商店有职工50人,把他们的工资加起来除以50,这是( )
A、对50个变量求平均数
B、对50个变量值求平均数
C、对50个标志求平均数
D、对50个指标求平均数
.
.
10、对某地食品零售物价进行一次全面调查,其调查单位是( )
A、该地区所有经营食品的商店
B、一个经营食品的商店
C、全部零售商品
D、每种零售商品
.
.
三、多项选择题(从每小题的五个备选答案中选出二至五个正确答案,并将正确答案的号码分别填写在题干后的括号内)
1、下列变量中,属于离散变量的有 ( )( )( )( )( )
A、机床台数 B、播种面积
C、粮食产量 D、学生人数
E、汽车产量
A、科学性 B、大量性
C、实用性 D、同质性
E、变异性
2、统计总体的特征是( )( )( )( )( )
.
.
3、在全国人口普查中 ( )( )( )( )( )
A、全国所有人口数是总体
B、每一个人是总体单位
C、人的年龄是变量
D、全部男性人口的平均寿命是统计指标
E、某人的性别为“女性”是一个品质标志
4、下列统计指标为质量指标的有 ( )( )( )( )( )
A、工资总额 B、储蓄存款余额
C、人口密度 D、职工人数
E、人均国民收入
.
.
5、总体、总体单位、标志、指标这几个概念间的相互关系表现为( )( )( )( )( )
A、没有总体单位就没有总体,总体单位也离不开总体而独立存在
B、总体单位是标志的承担者
C、指标是说明总体特征的,标志是说明总体单位特征的
D、统计指标的数值来源于标志
E、指标和标志都能用数值表示
A、数量性 B、社会性 C、总体性
D、综合性 E、具体性
6、统计指标的特点有
( )( )( )( )( )
.
.
7、标志是说明总体单位特征的名称;标志值是标志的数值表现,所以, ( )( )( )( )( )
8、国家统计的职能有 ( )( )( )( )( )
A、标志值有两大类:品质标志值和数量标志值
B、品质标志才有标志值
C、数量标志才有标志值
D、品质标志和数量标志都具有标志值
E、标志值是数量标志的具体表现
A、信息职能 B、协调职能 C、监督职能
D、决策职能 E、咨询职能
.
.
四、填空题
1.统计一词有三种涵义,即_____、_____ 和_____。
2.统计指标按反映的数量特点不同,可分为_____指标和_____指标。
3.在人口总体中,总体单位是____,而性别是____标志,其标志表现为______或_____。
4.统计指标反映的是______的数量特征、数量标志反映的是______的数量特征。
.
.
5.国家统计兼有______、_____和______三种职能。
6.统计指标的特点有______、_______和______。
7.反映社会经济现象的相对水平或平均水平的指标称为____指标。
.
.
本章学习目的
通过本章学习,使学生了解统计学的产生和发展史,掌握统计学的涵义、研究对象、研究方法、学科性质、统计活动过程、统计的职能和统计工作的任务。掌握并深入理解有关基本慨念,弄清慨念间的关系。
.
.
本章重点、难点
重点:统计学的涵义、研究对象、统计活动过程、统计的职能和统计工作的任务、统计学的基本慨念及慨念间的关系。
难点:有关统计学的基本慨念及慨念间的关系。
.
.
本章参考资料
⒈《社会经济统计学原理教科书》编写组编写,第一、二章,中国统计出版社出版。
⒉庞皓主编《统计学》第一章,西南财经大学出版社出版(“211”工程规划教材)。
⒊杨曾武主编《社会经济统计学原理》第一、三章,天津科学技术出版社出版。
⒋郭立田、赵长城主编《基础统计学教程》第一章,新华出版社出版。
⒌.范巧研、鲁勇兵主编《统计学原理》第一章,天津科技出版社出版。
.
.
相关网站
.
.
第二章 统计调查
统 计 学
(多媒体教学课件)
.
.
本章相关内容
.
.
本章教学内容
本章小结
本章思考与练习题
本章学习目的
本章重点、难点
本章参考资料
本章教学内容(5学时)
第一节 统计调查的概念和种类
第二节 统计调查方案
第三节 统计调查的方法(方式)
第四节 统计调查误差及防止
.
.
第一节 统计调查的概念和种类
一、统计调查的概念
二、统计调查的基本要求
三、统计调查的种类
.
.
一、统计调查的概念(第18页)
.
.
是根据统计研究的目的和任务,采用科学的调查方法,有计划、有组织地搜集统计资料(数据)的过程。
统计调查资料有原始资料和次级资料两种。
原始资料指直接向调查对象收集来的未经任何加工整理的资料。次级资料是指已经加工整理的资料。
统计调查是统计工作的基础阶段,它是统计对总体认识的起点。是统计整理与统计分析的前提。
统计调查(统计数据的搜集):
二、统计调查的基本要求(第18页)
.
.
准确性,
即统计资料要如实反映客观实际,搜集的数字要准确、真实,这是保证统计资料质量的首要环节,
及时性(时效性),
即统计资料要按照统计调查方案规定的时间如期提供,以满足各方面对统计资料的需求。
完整性,
指调查单位不重、不漏,调查项目的资料齐全。
统计调查具有准确性、及时性和完整性三个基本要求。
三、统计调查的种类(第20页)
.
.
统计调查的种类
(一)按照调查对象包括的范围不同 .
(二)按照调查登记的时间是否连续 .
(三)按照调查的组织方式不同 .
(四)按照搜集资料的方法不同 .
全面调查
非全面调查
经常性调查
一次性调查
统计报表
专门调查
自填式方法
人员面访
电话调查
直接观察法
电子数据报告
卫星遥感法
(一)全面调查和非全面调查
.
.
统计调查按照调查对象包括的范围不同,分为全面调查和非全面调查。
1.全面调查。
指对调查对象(总体)的所有单位无一例外的都进行调查的一种调查方式,以取得全面的统计资料。
它主要包括普查和全面统计报表。
2.非全面调查。
指对调查对象(总体)的一部分单位进行调查的一种调查方式,用来推断总体或反映总体的基本情况。
非全面调查有重点调查、典型调查、抽样调查等。
总体
N=100人
部分
n=10人
非全面调查
如,要研究某班学生的学习情况
全面调查
(二)经常性调查和一次性调查
.
.
1.经常性调查(连续调查)。
它是指随着被研究现象的变化,而连续不断地进行登记,以反映事物在一定时期内的全部发展过程。
经常性调查
如,2004年 全国工业增加值为 62815亿元
某一时期(一年内)
例如,企业的产品产量、工业增加值、原材料消耗量等属于时期现象。
调查
时期现象的数量
统计调查按照调查登记的时间是否连续,可以分为经常性调查和一次性调查。
.
.
2.一次性调查(不连续调查)。
它是指对被调查对象在某一时刻(瞬间)的状况进行登记,以反映其在一定时点上的水平。
例如,全国人口总数、企业的职工人数、设备台数等属于时点现象。
一次性调查
调查
时点现象的数量
如,
2004年末 全国人口总数为 129988万人。
某一时点(或瞬间)
●
见前面统计调查的种类
(三)统计报表和专门调查
.
.
1.统计报表。
2.专门调查。
是依据国家法律按照统一的规定、表式、上报时间、上报内容、计算方法和上报程序,由基层单位自下而上逐级向上级和国家定期提供统计资料的一种报告制度。
是根据研究目的专门组织的调查。如:普查、重点 调查、典型调查、抽样调查。
统计调查按照调查的组织方式不同,可以分为统计报表和专门调查。
(四)自填式方法 、人员面访 、电话调查 、直接观察法 、电子数据报告 、卫星遥感法
即问卷出现在计算机屏幕上,被调查者或访员将答案通过键盘输入到计算机中。其数据收集比纸张式方法更完整、快速和有效。
.
.
数据搜集模式主要有两种,即纸张式数据搜集模式和计算机辅助式搜集模式。
是将问卷印在纸上,被调查者或访员用笔记录答案,数据录入是数据搜集后的一个单独过程。对于一次性调查来说,纸张式方法通常比计算机辅助式方法更便宜,且开发所需时间也少;
在纸张式数据搜集模式和计算机辅助式搜集模式方式下,将两种分别组合,又有以下基本数据搜集方法。
纸张式数据搜集模式:
计算机辅助式搜集模式:
1.自填式方法 :
.
.
是指被调查者在没有访员协助的情况下完成问卷。
把问卷递送/返回的方法有:由调查员分发,通过邮寄或传真。
使用计算机辅助自我调查是将问卷的电子版本送交给被调查者,被调查者使用计算机完成问卷.
是指访(问)员协助被调查者完成问卷,访问以面对面的形式进行。
当用纸张式方法时,由于同时需要用笔,故这种方法也称为纸笔面访;当用计算机式方法时,称作计算机辅助式面访;
2.人员面访 :
3.电话访问 :
.
.
访员通过电话协助被调查者完成问卷。
注意:面访和电话访问属于访员协助式调查方法。
表2-1
访员协助式数据搜集方法与自填式方法的比较
当用纸张式方法时,称为纸笔访问;当使用计算机方式时,称为计算机辅助电话访问。
中偏高 (70~85%)
高 (80~95%)
低 (70%以下)
回答率
较短
平均
较长
时 间
中
高
低
费 用
电话访问
面访
访员协助式方法
自填式
方法
4.其它搜集资料的方法,包括直接观察法、电子数据报告、行政数据和卫星遥感法 :
.
.
直接观察法:
指调查人员亲临现场对调查单位的调查项目直接清点、测量、计量,以取得资料的一种调查方法。
电子数据报告:
指被调查者以他们自己的格式提供电子数据(如软盘),这也是一种自填式数据搜集方法的形式。
行政数据:
指从其他政府部门或组织的行政记录中搜集的信息。
卫星遥感法:
是一种使用卫星高度分辩辐射,来取得资料的 一种调查方法。
第二节 统计调查方案
.
.
二、确定调查对象、调查单位和
报告单位
三、确定调查项目和调查表(问卷)
四、确定调查时间和期限
五、制定调查的组织实施计划
一、确定调查目的和任务
一、确定调查目的(第19页)
.
.
制定调查方案的首要问题是明确调查目的。它决定着调查的内容和调查的范围。
二、确定调查对象、调查单位和报告单位
1.调查对象(即统计总体)。
是所要调查事物的全体,由性质相同的许多单位构成,即统计总体。
2.调查单位(即总体单位)。
是所要调查的具体单位。调查单位是调查项目(标志)的承担者。
注意:调查对象和调查单位实际上就是总体和在调查阶段的具体化。
.
.
3.报告单位(填报单位)。
是向上报告调查内容、提交统计数据的单位。
调查单位和填报单位有时一致,有时不一致。
例如,在研究全国工业企业生产经营情况时,
调查对象(统计总体)
——全国所有工业企业
调查单位(总体单位)
——每一个工业企业
(调查内容:经济类型、产品名称、所属行业、 主管部门、产值、利润、职工人数、劳动效率、工资总额)
(调查单位与填报单位二者一致)
.
.
例如,要进行工业设备普查时
调查对象(统计总体)
——全国工业企业的所有 设备
调查单位(总体单位)
——每一台设备
报告单位(填报单位)
——每一个工业企业
(调查内容:年限、生产能力、固定资产原值、先进程度等)
(调查单位与填报单位二者不一致)
三、确定调查项目和调查表(问卷)
(一)调查项目
(二)调查表(问卷)
(三)调查表(问卷)的设计
.
.
(一)调查项目
.
.
调查项目(即调查内容),即说明调查单位的基本标志(包括品质标志和数量标志)。调查项目就是调查所要登记的调查单位的特征。
(二)调查表(问卷)
将调查项目,按照一定的顺序排列在表格上,就构成了调查表(问卷)。(第41页)
调查表分一览表和单一表两种形式。
即在一份调查表上登记许多个调查单位的项目(即把许多被调查单位填写在一张表格上)。它适宜在调查项目较少时使用。 (见表2-2)
一览表:
.
.
单一表:
即在一份调查表上只登记一个调查单位的内容(即每个被调查单位单独填写和使用的表格,它可以容纳较多的调查项目)。单一表适宜调查项目较多时使用。
某市工业企业基本情况调查表
劳动生产率
固定资产
职工人数
利润
产值
产品名称
行业
经济类型
甲
乙
丙
丁
…
企业名称
单一表(略)
(一览表)
(三)调查表(问卷)设计
.
.
在数据搜集过程中,问卷(调查表)起着核心作用,也是影响数据质量的主要因素。在设计问卷时,主要包括以下内容:
1.问卷开发程序
2.问题的类型
3.对问题的措辞
4.问题的顺序、过渡说明及问卷的提示
或说明
1.问卷开发程序
.
.
问卷开发过程开始于调查目标的陈述和信息需求,还包括下列步骤:
向数据用户和对象进行咨询;
参考以前相同主题的问卷;
起草问题 ;
对问卷进行审议与修改;
对问卷进行测试与修改 ;
定稿。
(应考虑的因素)
(方法)
.
.
起草问题应考虑的因素 :
①数据搜集方法
②被调查者的特点
③被调查者的回答负担
④信息的机密性和敏感性
⑤所搜集数据的复杂性
⑥数据可靠程度
⑦除上述以外其它还应考虑因素
数据的可用性
无回答
数据的处理
问题的类型、措辞、顺序、问卷的格式
对问卷进行测试与修改的方法 :
即:焦点座谈、非正式测试、向被调查者和访员了解情况、试点调查等
2.问题的类型
.
.
问卷中使用的问题分为两类:开放式问题和封闭式问题 。
开放式问题:
指不向被调查者提供回答选项的问题。被调查者使用自己的语言或提供精确的数字来回答。
如,
“您对改进我们的服务有什么建议吗?”
如果被调查者回答“有”,然后一个开放式后续问题可能是:
“您的建议是什么?”
开放式问题优点:
被调查者有机会进行自我表达或详细描述。
见后面封闭式问题
开放式问题缺点:
它比封闭式问题费用更高、更费时、而且更容易产生误差。
.
.
以下是需要用文字进行回答的开放式问题例子。
请问您过去从事什么工作?
您认为从现在起五年之内您将干什么?
您的公司生产什么产品或提供什么服务?
以下是需要用数字进行回答的开放式问题例子。
您过去12个月中,在纳税和减除所有家庭成员各项花费之前,您对您收入总额的最高估计是多少?
现在这位老板经营这家公司有多少年了?
在某月中,您在家使用互联网的次数是多少?
.
.
在提出问题的同时,列出若干可能的答案供被调查者进行选择。每种答案称为一个选项,要求被调查者在这些选项中,选择一个(或几个)作为回答。
见前面问题的类型
⑴二项选择问题:
最常用的是二项选择问题、多项选择中的单选和多选问题、排序问题和等级评定问题等。
封闭式问题的种类:
通常它是一个判断“是”、或“否”的问题。
您昨天抽烟了吗?
如:
(是,否。)
⑵多项选择中的单选和多选问题:
若提供给被调查者选择的选项多于两个即是多项选择问题,其中,从中选一个为单选。
封闭式问题 :
.
.
多项选择中的单选问题的例子。
您的年龄有多大?
及以下 ~29 ~39
~49 及以上
多项选择中的多选问题的例子(略)。
⑶排序问题:
封闭式问题的另一种类型是排序问题。
在此类问题中,被调查者要根据问题中的提示将所有的答案选项进行排序。
例如:
见前面问题的类型
.
.
见前面问题的类型
A.邮寄“个人简历” D.私人安置服务
B.在报纸或杂志上登广告 E.与顾主直接联系
C.政府就业中心 F.其它
这里列出了人们寻找工作的一些途径。请按有效性大小的顺序将它们排列,在您认为最有效的方法左边标上“1”,其次有效的方法旁边标上“2”,依次类推。
⑷等级评定问题:
一般是要求被调查者对选项进行评级或者对某个问题或陈述发表意见。
例如:
您对我们提供的客户服务的满意程度如何?
A.非常满意 B.满意 C.一般
D.不满意 E.非常不满意
.
.
封闭式问题优点:
见前面问题的类型
封闭式问题缺点:
被调查者能更快、更容易地回答问题,更易按设计者希望的意图来回答问题,搜集起来的数据更容易分析。与开放式问题相比,封闭式问题的编码和数据录入也更容易,花费也更省。
对问题得到可能回答的选项要花费很多精力,同时确保选项是互斥的、穷尽所有可能。被调查者不能对某个答案进行详细叙述,只能从列在问题后的选项中进行选择。
3.对问题的措辞
.
.
⑴措辞要简单 . .
⑵确保问题适用 .
⑶措辞要具体 .
⑷避免意义双关的问题 .
⑸避免引导性问题 .
⑹避免使用双重否定 .
⑺减少敏感问题或隐私问题的影响 .
⑻确保问题读起来顺口.
.
.
即对被调查者使用最简单的日常用语。
即确保所提到问题只于被调查者有关。
例如:
您目前的职业是什么?
(对退休的人不适用)
⑶措辞要具体 :
即确保被调查者能确切理解问题。
例如:在入户调查时,
您的收入是多少?
(不具体)
去年,在交税和各种扣除之前,您全家各种来源的总收入是多少 ?
(具体)
⑴措辞要简单 :
⑵确保问题适用 :
见前面对问题的措辞
.
.
即一个问题中实际包含了两个问题。
例如:
您打算来年把车留在家里,而乘公共汽车上班吗?
(双关语)
即建议或引导被调查者选择某一特定答案,以误导回答并影响调查结果。
例如:
您认为那些在淡季中有工人下岗的大多数公司能采取措施,使工人们全年都有稳定的工作而避免下岗吗?
⑷避免意义双关的问题 :
⑸避免引导性问题 :
A.能
B.不能
C.不知道
调查结果
63%
22%
15%
是的,能避免下岗
不,下岗不可避免
不知道
(回答结果较不可靠)
(引导性措辞)
见前面对问题的措辞
.
.
即避免使用双重否定的句子结构。
您认为那些在淡季中有工人下岗的大多数公司能采取措施,使工人们全年都有稳定的工作权利吗?或者您认为工人下岗是不可避免的?
A.能
B.不能
C.不知道
42%
47%
11%
调查结果
(避免引导性措辞)
(回答结果较为可靠)
例如:
您赞不赞成政府不允许便利店出售酒的规定?
您赞不赞成政府允许便利店售酒的规定?
(措辞不清楚)
(措辞较清楚)
⑹避免使用双重否定 :
见前面对问题的措辞
.
.
⑺减少敏感问题或隐私问题的影响 :
例如:
去年,在各种扣除之前,您个人的总收入是多少?包括来自工资、薪金和所有其他来源的收入?
元以下
~39999元
~59999元
~79999元
~99999元
元及以上
见前面对问题的措辞
4.问题的顺序、过渡说明及问卷的提示或说明
.
.
(1)问题的顺序.
开场问题(第一个问题)
敏感问题的位置
有关被调查者的背景材料和分类问题的位置。
(2)问卷中的过渡说明
(3)问卷的提示或说明
四、确定调查时间和期限
.
.
调查时间。
是指调查资料所属的时间,
调查时间
调查时点
调查时期
(有时期长短,一般用年、季、月表示)
(无时间长短,只表示时刻或瞬间,一般用年末或年初、季末或季初、月末或月初表示)
如果调查的是时期现象,就要规定所属资料的起止时间(即时期);如果调查的是时点现象,就要规定统一的标准时点(即时点)。
是指进行整个调查工作的时限(包括搜集资料和报送资料整个调查工作所需的时间),即从什么时间开始到什么时间结束。
.
.
例如:
调查时期
1月1日
12月31日
2004年 全国钢产量 万吨
调查时点
2004年末 全国人口总数 129988万人
指年末(12月31日)这一时刻或瞬间)
●
2.调查期限 。
又如,2004年末全国人口总数129988万人的资料要求在2005年一月底报出。
例如,2004年全国钢产量万吨的资料要求在2005年1月15日报出。
则调查期限为15天。
则调查期限为1个月。
五、制定调查的组织实施计划
.
.
调查的组织实施计划是指对人、财、物的统筹安排问题。如:调查人员的培训、调查经费的预算开支办法和调查的各种物质准备等。
第三节 统计调查的方法
一、普查
二、统计报表
三、抽样调查
四、重点调查
五、典型调查
六、统计调查方法体系
.
.
一、普 查(第21页)
(一)普查的概念
(二)普查的特点
(三)普查的组织形式
(四)普查的原则
.
.
(一)普查的概念(第44页)
.
.
普查是一种专门组织的一次性全面调查。用来调查属于一定时点上社会经济现象总量。
普查的主要作用在于掌握某些关系到国情国力的重要数据,为党和政府制定重大方针政策、编制国民经济长远规划提供依据。
例如:我国第五次人口普查资料 。
见后面附1:我国第五次人口普查资料
见后面附:有关人口资料
例如,全国人口普查、全国工业普查、全国农业普查等。
(二)普查的特点
.
.
1.它是全面性调查,主要用来反映国情国力的基本状况。
2.它是一次性调查,主要用来调查时点现象的资料(但也不排斥时期现象的资料)。
普查往往涉及面广,资料要求细,需要耗费较多的人力、物力、财力和时间。一方面不宜多采用,另一方面要搞好普查的工作。
(三)普查的组织形式
.
.
普查的组织形式基本上有两种:
一是组织专门的普查机构,配备一定数量的普查人员,对调查单位直接登记;二是利用被调查单位的原始记录和核算资料,由调查单位发放一定的调查表格,由被调查单位填报。
(四)普查的原则(第21页)
1.规定统一的标准时间 ;
2.尽可能在短期内完成登记工作 ;
3.普查应尽可能按一定的周期进行 ;
4.统一规定调查项目 。
.
.
普查往往收集的是时点数据的资料,所以必须规定一个标准时点,以避免由于现象的时空变动而使调查资料出现重复或遗漏。例如,我国第五次人口的标准时点为2000年11月1日零时,普查资料反映的是在这一时点上我国人口的状况。
普查工作在规定调查范围内要同时进行,并尽可能在最短时间内完成,以便在方法和步骤上保持一致,减少误差。
便于在历史普查资料对比中研究现象发展变化的规律和趋势。
历次普查项目尽可能保持相对稳定,并按一定的周期进行,以便于动态对比。
规定统一的标准时间 ;
尽可能在短期内完成登记工作 ;
普查应尽可能按一定的周期进行 ;
统一规定调查项目 。
.
.
我国的普查情况:
(1)人口普查情况:
第一次人口普查,1953年6月30日24时,仅调查四项内容,即姓名、性别、年龄和民族。
第二次人口普查,1964年6月30日24时,内容增至九项。
第三次人口普查,1982年7月1日0时,第四次人口普查,1990年7月1日0时,内容有十五大项。第五次人口普查,2000年11月1日0时。
(2)全国工业普查情况:
在1950年、1985年、1995年我国进行了三次全国工业普查。
.
.
(3)1977全国职工人数普查。
(4)1978年全国科技人员普查。
(5)1993年全国首次第三产业普查。
(6)1996年全国首次农业普查。
(7)2001年全国基本单位普查。
附:有关人口资料
.
.
附1:我国第五次人口普查资料
附2:1975~2000年世界人口增长情况
附3:2001年我国人口资料
见前面普查的概念
附1:2000年11月1日零时我国第五次人口普查资料:
.
.
1.全国总人口:129533万人,
其中,大陆人口为126583万人;
香港人口为678万人(6月30日);
澳门人口为44万人(9月30日);
台湾人口为2228万人(12月30日)。
2.人口性别构成:
男性人口:65355万人,比重 % 女性人口:61228万人,比重 %
3.城乡人口及构成:
城镇人口:45594万人,比重 % 乡村人口:90739万人,比重 %
见前面第二章普查的概念
.
.
.
4.人口年龄构成:
0—14岁 28979万人,比重 % 15—64岁 88793万人,比重 % 65岁及以上 8811万人,比重 %
6.家庭户数为34837户,
平均每户,家庭人口为人
5.民族构成:
汉族, 15940万人, 比重 % 少数民族, 10643万人, 比重 %
附2:1975~2000年世界人口增长情况:
.
.
100
100
41
合 计
79
72
30
发展中国家
21
28
11
发达国家
总增长率(%)
比重(%)
比重(%)
年平均(%)
增长率
人口(亿)
2000年
人口(亿)
1975年
按发达程度
分 组
注1:据测算,全世界每年平均增加1亿人口左右。
注2:1975~2000年在世界人口总的增长中,发达国家的增长数只占1/10,约亿人。
见后面第四章结构相对指标
附3:2001年我国人口资料:
1.年末人口总数:127627万人
(上年末人口总数:126783万人)
2.人口出生数:1702万人,人口死亡数:818万人
3.人口出生率:‰, 人口死亡率:‰
4.人口出生率: ‰,
5.人口性别构成: 男性人口:65672万人,比重 %
女性人口:61955万人,比重 %
6.城乡人口及构成:城镇人口:48064万人,比重 %
乡村人口:79563万人,比重 %
7.人口年龄构成 0—14岁 比重 %
15—64岁 比重 %
65岁及以上 比重 %
(老年人口数:9062万人)
.
.
二、统计报表(第21页)
(一)统计报表的概念
(二)统计报表的特点
.
.
(一)统计报表的概念(第21页)
.
.
统计报表是以基层企事业单位的原始记录为基础,按照国家统一规定的表格形式、填写要求、报送程序和报送时间,自下而上定期向主管部门和国家报送统计资料的一种调查方式。
统计报表制度是我国重要的搜集社会经济统计资料的调查 方法。
(二)统计报表的特点
.
.
1.统一性;
2.全面性;
3.经常性;
4.相对可靠性。
统计报表的优点在于能及时全面的掌握多层次的统计信息,为各级领导部门掌握经常变化的经济情况,制定(年度、季度等)计划提供基本数据。但是它要花费较大的人力、物力和财力,而且资料的准确性受人为因素影响很大。
注意:统计报表与普查的区别和联系。
三、抽样调查(第22页)
(一)抽样调查的概念
(二)抽样调查的特点
(三)抽样调查的优越性
(四)抽样调查作用(应用场合)
.
.
(一)抽样调查的概念
它是以概率论和数理统计理论为基础,按照随机原则从调查对象(总体)中抽取一部分样本单位进行调查,再用部分单位(样本)的资料,对总体数量特征(总体数值)作出具有一定可靠程度的推断。
例如 ,对某灯泡厂生产的10000只灯泡进行耐用时数的检验。
见后面图例2-1
.
.
见后面第五章抽样估计的概念
抽样调查是一种非全面调查,
图例2-1 :
.
.
见前面抽样调查的概念
见后面抽样调查的特点
随机原则
样本
n = 100
总体
N =10000
推断
(抽样误差)
(总体指标)
(样本指标)
M个样本
抽样实际误差
抽样平均误差
(可以计算)
(无法计算)
抽样极限误差
概率度
置信度(概率)
当 t = 1
当t = 2
(二)抽样调查的特点(第22页)
.
.
见后面第五章抽样估计的特点
1.按随机原则选取样本(调查)单位;
2.调查的目是根据样本指标来推断总体指标(总体数量特征);
3.抽样误差可以事先加以控制和计算;
4.它是运用概率估计的方法。
例如,图例2-1 :
见前面图例2-1
(三)抽样调查的优越性
.
.
1.经济性;
2.时效性;
3.准确性;
4.灵活性。
经济性:
由于抽样调查的调查单位少,调查范围比较集中,调查的工作量大大减轻,从而可以节省人、财、物力。
时效性:
抽样调查组织专业队伍,深入现场直接取样,减少了中间环节,并且调查单位少,提高了调查的时效性,可以满足领导决策和经济管理的需要。
.
.
准确性:
由于抽样调查是按照随机原则选取调查单位,排除了主观因素的影响,使样本具有较高的代表性,并且抽样误差可以通过科学方法加以控制,调查结果比较准确可靠。
灵活性:
抽样调查组织方便灵活,调查项目可多可少,调查范围可大可小,既适用于专题研究,也适用于经常性调查。
抽样调查与其他调查方法相比具有明显的优越性,可从统计调查的成果及所付出的代价两方面来分析。
.
.
普查和全面统计报表都是全面调查,可以得到对总体数量特征的认识,但组织工作难度很大,付出代价也很大。
重点和典型调查都是非全面调查,组织相对容易,所付出的代价较小,但难以达到对总体数量特征的具体认识。只有抽样调查既可以收到组织简易的好处,又能达到认识总体数量特征的目的。
(四)抽样调查的作用(参见教材第107~108页)
.
.
见后面第五章抽样估计的作用
1.对于不可能或不必要进行全面调查的场合,抽样调查具有其独特的作用。
2.抽样调查和全面调查相结合,可以验证和补充修正全面调查的资料、数据。
3.利用抽样方法进行生产过程的质量控制。
4.抽样方法可以用来检验总体特征的某些假设,判断假设的真伪,为行动决策提供依据。
四、重点调查(第21页)
(一)重点调查的概念
(二)重点调查的特点
.
.
(一)重点调查的概念(第25页)
.
.
重点调查是在所要调查的总体中选择一部分重点单位进行调查,用以反映总体(某一数量标志)的基本情况。
例如:要了解我国钢铁生产的基本情况,只要调查宝钢、首钢、武钢、鞍钢等十来个大型钢铁企业,就可以掌握我国钢铁生产的基本情况,该调查方法就属于重点调查。因为这十来个大型钢铁企业的总产量占全国所有钢铁企业总产量的绝大比重。
重点单位是指在标志值在总体标志总量中占有较大比重的少数单位。
.
.
例如:2004年在全国钢铁工业企业总体中,每个钢铁工业企业是一个单位:
企业名称: 甲 乙 丙 丁 戊 … X
钢产量(吨)
50 1500 100 800 50 … 70
数量标志
全国钢产量万吨
重点单位:
部分(重点)单位的标志总量
总体全部单位的标志总量
= 比重
绝对大
(二)重点调查的特点
.
.
1.它是选择重点单位进行调查。
重点单位通常具备如下条件 :
(1)这部分单位数占总体单位数比重要很小;
(2)在调查标志中,这部分单位的标志总量要占总体标志总量的绝大比重。
2.调查目的是为了反映总体的基本情况。
重点调查既可以用于经常性调查,也可用于一次性调查,当只要求掌握调查对象的基本情况,而在总体中确实存在重点单位时,进行重点调查是适宜的。
注意:由于重点单位与一般单位差异较大,重点单位调查资料不宜推算总体。
五、典型调查(第22页)
(一)典型调查的概念
(二)典型调查的特点
(三)典型单位的选择
.
.
(一)典型调查的概念(第22页)
.
.
典型调查是在对调查对象(总体)有一定了解的基础上,有意识地选择少数典型单位进行的调查。用以概括说明事物的本质和一般规律。
所谓典型单位是指某种标志表现最具普遍意义,最有代表性的单位。
例如,为了研究我国国有工业企业经营管理特点,可以选择一些具有代表性的企业进行深入的调查和研究,以便从中概括出我国国有工业企业的经营管理中特点。
(二)典型调查的特点
.
.
某乡小麦播种面积及小麦亩产量资料如下:
—
150
300
400
典型亩产量(斤/亩)
20
4
6
10
典型播种面积(亩)
10000
2000
3000
5000
播种面积(亩)
合计
山地
丘陵
平原
地形
该乡小麦总产量为:
150×2000 + 300×3000 + 400×5000 = 320(万公斤)
1.有意识地选择典型单位进行调查;
2.调查目的是为了认识事物的本质和一般规律;
3.在某种场合也可以从数量上推断总体,但不能计算推断误差。
例如:
(三)典型单位的选择
.
.
典型调查的关键是选择典型单位,应根据具体调查目的选择典型单位:
1.如果是为了近似地估算总体的数值,可以在了解了总体大致情况的基础上,把总体分成若干类型,从每一类型中按其在总体中所占比例,选出若干典型单位。
2.如果是为了解总体的一般数量表现,可以选择中等水平的典型单位进行调查。
3.如果是为研究成功的经验或失败的教训,则可以选择先进典型和后进典型,或选择上、中、下各类典型进行比较,然后确定几个典型单位。
六、统计调查方法体系
.
.
以上各种调查方法各有其特点和适应范围,在实际工作中要多种调查方法结合运用,形成统计调查方法体系。这是因为:
1.各种调查方法有其各自特点和适用场合,但彼此并不互相排斥。
2.客观现象的复杂性决定了必须用多种调查方法才能取得所需的资料。
3.各种方法的局限性也决定了只有将多种调查方法相结合才能互相弥补。
.
.
注意:目前,我国的统计调查方法体系是以周期性的普查为基础,以经常性的抽样调查为主体,辅之以少量的统计报表和其它科学推算。
第四节 统计调查误差及防止
一、统计调查误差的概念
二、统计调查误差的种类
三、统计调查误差的防止
.
.
统计数据的质量可以由统计(调查)误差来反映
一、统计调查误差的概念(第24页)
.
.
统计调查误差是指调查数据与客观实际数据之间的差异。
二、统计调查误差的种类(第24页)
调查误差
是由错误的计量、判断、记录、理解或人为虚报瞒报数据而发生的误差。此误差在理论上讲是可以避免的。
(一)登记性误差又称调查误差,
登记性误差
代表性误差 .
(全面和非全面调查)
(非全面调查)
.
.
在过去12各月里,您看医生的次数是多少?
上个月您读过什么杂志?
注意:调查时间越长,丢失的回忆越多。
来自于调查员(访员)。
如调查员对问题的理解错误、调查时的计算错误、记录错误、计量错误、抄录错误等。
来自于被调查者的误差。
如被调查者受“社会意愿倾向”的影响、或其对回忆过去的行为或事件有困说说产生的“记忆误差”。
以下是一个要求被调查者回忆过去行为或事件的例子,
来自于所调查的问题本身。
产生登记性误差的原因;
.
.
(二)代表性误差(第24页)
它又分为系统性误差和抽样误差两种。
1.系统性误差(又称偏差)。
是由于从总体中抽取调查单位时违反随机原则而造成的误差。
2.抽样误差(即偶然性的代表性误差)。
指在抽样调查中,即使严格按照随机原则抽取调查单位,也不可避免地造成误差,这是由于抽中的不同随机样本造成的。
代表性是非全面调查所特有的,只调查一部分单位来代表总体必然会产生代表性误差。
三、统计调查误差的防止
.
.
(一)正确制定统计调查方案
(二)严格、切实地抓好调查方案的贯彻执
行工作
1.加强对统计人员(访员)的知识培训;
2.缩短调查的标准时间;
3.扎实地搞好统计基础工作;
4.在调查中加强对数字填报质量的检查工作。
本章小结
第一节 统计调查的概念和种类
一、统计调查的概念
统计调查资料有原始资料和次级资料两种
二、统计调查的基本要求
即准确性、及时性和完整性
三、统计调查的种类
(一)全面调查和非全面调查
(按调查对象包括的范围不同分类)
全面调查主要包括普查和全面统计报表;
非全面调查有重点调查、典型调查、抽样调查
.
.
(二)经常性调查和一次性调查
经常性调查主要用以调查属于时期现象的数量;一次性调查主要用以调查属于时点现象的数量
(三)统计报表和专门调查
(按调查的组织方式不同分类)
专门调查有普查、重点 调查、典型调查、抽样调查
(四)自填式方法、人员面访、电话调查、直接 观察法、电子数据报告、卫星遥感法
第二节 统计调查方案
一、确定调查目的和任务
.
.
二、确定调查对象、调查单位和报告单位
调查对象即统计总体、调查单位即总体单位、报告单位。 即负责上报调查资料的单位
调查单位和填报单位两者有时一致,有时不一致
三、确定调查项目和设计调查表
调查项目(即调查内容),它是说明调查单位的基本标志
四、确定调查时间和期限
调查时间是指调查资料所属的时间,包括调查时期和调查时点
五、制定调查的组织实施计划
.
.
第三节 统计调查方法
一、普查
(一)普查的概念
(二)普查的特点
1.它是全面性调查,主要用来反映国情国力的基本状况
2.它是一次性调查,主要用来调查时点现象的资料(但也不排斥时期现象的资料)
(三)普查的组织形式
(四)普查的原则
1.规定统一的标准时间
2.尽可能在短期内完成登记工作
.
.
3.应尽可能按一定的周期进行
4.统一规定调查项目
二、统计报表
(一)统计报表的概念
(二)统计报表的特点
1.统一性;2.全面性; 3.经常性;
4.相对可靠性
三、抽样调查
(一)抽样调查的概念
(抽样调查是一种非全面调查)
(二)抽样调查的特点
1.按照随机原则选取调查单位
.
.
2.抽样调查的目的在于根据部分单位的实际资料对总体的数量特征作出估计(即根据样本指标来推断总体指标);
3.抽样误差可以事先计算并且加以控制;
4.它是运用概率估计的方法。
(三)抽样调查的优越性
1.经济性;2.时效性;
3.准确性;4.灵活性。
(四)抽样调查作用(应用场合)
四、重点调查
(重点调查是一种非全面调查)
(一)重点调查的概念
.
.
注意重点单位的含义
(二)重点调查的特点
1.它是选择重点单位进行调查;
2.调查目的是为了反映总体的基本情况
注意重点单位调查资料不宜推算总体
五、典型调查
(典型调查也是一种非全面调查)
(一)典型调查的概念
(二)典型调查的特点
1.有意识地选择典型单位进行调查
2.调查目的是为了认识事物的本质和一般规律
.
.
3.在某种场合它也可以从数量上推断总体,但不能计算推断误差。
(三)典型单位的选择
一、统计调查误差的概念
二、统计调查误差的种类
统计调查误差有两种:登记性误差和代表性误差。
其中代表性误差又分为系统性误差和抽样误差两种。
三、统计调查误差的防止
.
.
第四节 统计调查误差及防止
本章思考与练习题
一、思考题(简答题)
二、单项选择题
三、多项选择题
四、填空题
.
.
一、思考题
1.什么是经常性调查和一次性调查?
2.简述统计调查方案的主要内容。
3.普查与统计报表均为全面调查,两者能否相互替代?为什么?
4.简述三种非全面调查的主要区别。
5.什么是抽样调查?它有哪些特点和作用?
6.在统计工作中为什么要强调多种调查方法的结合运用?
7.统计调查误差的分类如何?
8.调查单位与填报单位有何区别和联系?
.
.
二、单项选择题(在每小题的四个备选答案中选出一个正确的答案,并将正确答案的号码填在题干后的括号内)
1、某机械工业系统欲进行工业企业生产设备状况普查,要求在1月1日至20日全部调查完毕,这一时间是( )
A、调查期限 B、调查时间
C、登记期限 D、标准时间
2、对一批商品进行质量检验,最适宜采用的调查方法是( )
A、全面调查 B、抽样调查
C、典型调查 D、重点调查
.
.
3、对全国各铁路交通枢纽的货运量、货物、种类等进行调查,以了解我国铁路的货运量的基本情况和问题,这种调查方式属于( )
A、普查 B、抽样调查
C、典型调查 D、重点调查
A、这些单位举足轻重
B、这些单位是工作重点
C、这些单位的数量占总体全部单位的很大比重
D、这些单位的标志总量在总体标志总量中占绝大比重
4、重点调查中的重点单位是指( )
.
.
5、全面调查与非全面调查的划分是以 ( )
A、时间是否连续来划分的
B、调查组织的规模大小来划分
C、调查对象所包括的单位是否完全来划分的
D、最后取得的资料是否全面来划分的的
6、对某市全部商业企业职工生活状况进行调查,调查对象是( )
A、该市全部商业企业
B、该市全部商业企业的职工
C、该市每一个商业企业
D、该市商业企业的每一个职工
.
.
A、作用不同
B、组织方式不同
C、灵活方式不同
D、选取的调查单位不同
7、抽样调查与重点调查的主要区别是( )
A、调查资料所属的时间
B、进行调查工作的期限
C、调查资料报送的时间
D、调查工作登记的时间
8、调查时限是指( )
.
.
三、多项选择题(从每小题的五个备选答案中选出二至五个正确答案,并将正确答案的号码分别填写在题干后的括号内)
1、我国第四次人口普查的标准时间是1990年7月1日零时,下列情况应统计人口数的有
( )( )( )( )( )
A、1990年6月29日死亡的人
B、1990年6月29日出生的婴儿
C、1990年7月1日1时死亡的婴儿
D、1990年7月2日出生的婴儿
E、1990年6月30日19时出生,于7月1日6时死亡的人
.
.
2、普查是一种( )( )( )( )( )
3、在工业企业生产设备的调查中 ( )( )( )( )( )
A、专门组织的调查 B、经常性调查
C、一次性调查 D、非全面调查
E、全面调查
A、全部工业企业是调查对象
B、每台生产设备是调查单位
C、每台生产设备是填报单位
D、每个工业企业是填报单位
E、工业企业的全部生产设备是调查对象
.
.
4、按抽样法抽取部分单位进行调查 ( )( )( )( )( )
A、部分单位是有意识抽取的
B、部分单位是按随机原则抽取
C、哪些单位被抽中由其代表性决定
D、哪些单位被抽中纯属偶然
E、总体各个单位都有同等中选的机会
A、工业企业生产设备调查
B、人口普查 C、农产量调查
D、工业企业现状调查
E、城市零售商店销售情况调查
5、下列情况的调查单位和填报单位不一致的是( )( )( )( )( )
.
.
6、下列情况的统计调查,哪些属于连续性调查 ( )( )( )( )( )
A、商店的商品库存量
B、运输部门的客运周转量
C、企业发生的工伤事故次数
D、学校年底在校生人数
E、某地区年出生人数
.
.
四、填空题
1.统计调查按调查对象所包括的范围,可分为_______调查和______调查;按调查登记的时间是否连续,可分为________调查和_______调查。
2.全面调查包括_______和______;非全面调查包括____、 _______和______。
3.对占某市工业总产值三分之二的10个企业进行调查,这种调查方法属于_______。
.
.
4.调查人员亲自到现场对调查单位进行清点和计量,这种调查方法叫做______。
5.要调查某地区某地区工业企业职工的生活状况,调查对象是______,调查单位是______,填报单位是______。
6.统计调查的基本要求是_______和______。
.
.
本章学习目的
统计调查在统计工作中处于基础阶段,它是统计对总体认识的起点。是统计整理与统计分析的前提。学习本章的目的在于掌握各种调查方法的特点、应用条件、掌握调查方案的设计内容,并能根据研究目的和实际情况采用适当的调查方法搜集资料。
.
.
本章重点、难点
重点:统计调查的种类、调查方案的主要内容,各种调查方法的特点、应用条件,统计调查误差的种类及防止。
难点:各种调查方法的区别和联系。调查问卷的设计。
.
.
本章参考资料
⒈《社会经济统计学原理教科书》编写组编写,第三章,中国统计出版社出版。
⒉庞皓主编《统计学》第二章,西南财经大学出版社出版(“211”工程规划教材)。
⒊杨曾武主编《社会经济统计学原理》第二、三章,天津科学技术出版社出版。
⒋郭立田、赵长城主编《基础统计学教程》第二章,新华出版社出版。
⒌范巧研、鲁勇兵主编《统计学原理》第二章,天津科技出版社出版。
.
.
第三章 统计整理
统 计 学
(多媒体教学课件)
.
.
本章相关内容
.
.
本章教学内容
本章小结
本章思考与练习题
本章学习目的
本章重点、难点
本章参考资料
本章教学内容(4学时)
.
.
第一节 统计整理的概念和
步骤
第二节 统计分组
第三节 分布数列
第四节 统计表
第一节 统计整理的概念和步骤
一、统计整理的概念
二、统计调查的步骤(程序)
.
.
一、统计整理的概念(第25页)
.
.
是根据统计研究的需要,将统计调查阶段所搜集到的大量个体资料,进行科学的分类汇总、加工处理,或对已经经过加工的次级资料再加工,使之系统化,条理化、成为能够反映事物总体特征的综合资料的过程。
例如,
某班50名学生,调查其考分资料如下:
77 65 83 56 68 70 99 65 73 72 88 66 74 63 71 84 62 52 80 78 84 79 81 64 58 82 76 62 73 75 89 79 61 65 54 92 86 73 68 51 69 64 78 63 76 68 72 77 81 76
上述这些考分(原始资料)的特点是零星分散、不系统、无规律,不能反映学生总体的学习情况。
统计整理(统计数据的整理):
表3-1
.
.
50
合 计
5
15
18
10
2
60以下
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
学生人数(人)
按考分分组(分)
由表3-1可见,整理后的学生考分资料,较整理前的考分资料明显要条理、系统。由上表可见,在学生总体中,60分以下和90分以上的学生人数都较少,绝大多数学生的考分分布在60—89分之间。
所以,统计整理是统计调查的继续,是统计分析的前提,它实现了从个别单位的标志表现(标志值)向总体综合指标的过渡,在统计研究中起着承前启后重要的作用。
见后面统计整理的步骤
二、统计整理的步骤(第26页)
.
.
1.制定整理方案(汇总方案) ;
2.对原始资料进行审核和订正 ;
3.数据的分类(分组)汇总;
4.编制统计表或绘制统计图 ;
5.数据的保管和发布。
如前表3-1 :
见前面表3-1
.
.
即根据研究任务的要求选择应整理的指标并根据分析任务的需要,确定具体的分组。
制定整理方案(汇总方案) ;
审核方法有逻辑检查和计算检查。
对原始资料进行审核和订正 ;
注意:在审核过程中,当遇到数据缺失、无效、或不一致时,要进行数据插补。数据插补有很多方法:如推理插补、均值插补、比率/回归插补、最近邻值插补等。
数据的分类汇总 ;
即进行统计分组,计算各组和总体总量。
第二节 统计分组
一、统计分组的概念和作用
二、统计分组标志的选则
三、统计分组的种类
四、统计分组的方法
.
.
一、统计分组的概念和作用
(一)统计分组的概念
(二)统计分组的作用
.
.
(一)统计分组的概念(第27页)
.
.
统计分组(统计资料的分类):
例如,
企业按经济类型分组:
国有企业 集体企业 个体企业 其它企业
学生按考分分组:
60分以下 (不及格)
60~70分 (及格)
70~80分 (中等)
80~90分 (良好)
90~100分(优秀)
就是根据统计研究的需要,将总体中的所有单位按照某一标志划分为若干性质不同而又有联系的几个部分。
.
.
统计分组是在总体内部进行的一种定性分类,它客观上把总体划分为一个个性质不同,范围更小的总体。统计分组有两个方面的含义,即:
统计分组
对总体而言
即将总体区分为性质不同的若干组成部分
是“合”
即将性质相同的总体单位合为一组
是“分”
对单位而言
(二)统计分组的作用(第27页)
.
.
20744
72387
43384
17247
61778
37669
第一产业
第二产业
第三产业
136515
116694
合 计
比重
(%)
国内生产总值
(亿元)
2004年
比重
(%)
国内生产总值
(亿元)
2003年
按产业
分组
1.划分社会经济现象的类型;
2.研究总体的内部结构和比例关系;
3.揭示社会经济现象之间的相互依存关系。
表3-2 2003~2004年我国各产业国内生产总值及其构成资料:
见后面结构相对指标的作用
.
.
表3-3
流通费用率 (%)
3
10
15
8
6
2
企业单位数
(个)
400以下
400 ~ 500
500 ~ 600
600 ~ 800
800 ~1000
1000以上
企业按商品销售额分组(万元)
注意:统计分组是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。
二、分组标志的选择(第27页)
.
.
统计分组的关键在于分组标志的选择。
分组标志是统计分组借以划分资料的标准和依据。
选择分组标志的原则:
必须根据现象所处的具体历史条件,按照统计研究的目的,选择具有本质性的标志作为分组标志。
必须根据统计研究的目的选择分组标志。
同一事物由于研究目的不同,选择分组标志也不同。如研究工业企业规模大小,就要按照职工人数、产值等能够反映企业规模的标志分组。
.
.
必须选择能够反映现象本质的分组标志。
在单位所具有的许多标志中,有的标志能反映现象的本质,有的标志则不能。必须按照事物内在联系,选择最能反映现象的本质标志进行分组。
要结合现象所处的具体历史条件选择分组标志。
在同一标志在过去适用,现在就不一定适用;在这一场合适用,在另一场合就不一定适用。如企业按规模分组,在技术较落后的条件下,可按职工人数来划分,而在技术装备较先进的条件下,则可采用固定资产的价值或生产能力来划分。
三、统计分组的种类
.
.
(一)按分组标志的性质不同
品质标志分组
数量标志分组
(二)按分组标志的多少不同
简单分组
复合分组
(一)简单分组、复合分组及分组体系
.
.
1.简单分组:
即对总体只按一个标志进分组。
例如:
企业按经济类型分组
国有企业 集体企业 个体企业 其它企业
男生
女生
学生按性别分组
2.复合分组(第56页):
即对同一总体同时按两个或两个以上标志层叠起来进行的分组。
学生按年级、性别分组
一年级
二年级
见后面复合分组体系
男生 女生
男生 女生
.
见前面复合分组
.
3.统计分组体系:
是根据统计分组的要求,对同一总体进行多种不同分组而形成的体系,体系中的各种分组相互联系、相互补充,以加深对总体的认识。
分组体系有平行分组体系和复合分组体系两种。
平行分组体系:
将同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。
例如,对某职工总体进行分组:
职工按工龄分组: 1~10年 11~20年
职工按性别分组: 男职工 女职工
复合分组体系:
即复合分组(本身)。
见复合分组 .
四、统计分组的方法
(一)品质标志分组
(二)数量标志分组
.
.
(一)品质标志分组
.
.
见后面数量标志分组的概念
品质标志分组就是用反映事物的属性、性质的标志分组。
国民经济按产业分组:
第一产业
第二产业
第三产业
人口按性别分组: 男性 女性
品质分组方法一般比较简单,通常分组标志一经确定,则组数的多少与各组之间的性质界限比较稳定。但是有的分组标志的表现却较复杂,存在着不同性质的过渡状态,使分组现象不易划分,如产品按用途分组、商品零售额按城乡分组、工业部门的细分类等,为此必须制定各类统计标准。
用文字来表示各组性质上的差别
品质标志分组的结果形成品质数列。
(二)数量标志分组(第29页)
.
.
1.数量标志(即变量)分组的概念
2.单项式分组与组距式分组
3.进行组距式分组时应注意的问题
1.数量标志(即变量)分组的概念(第29页)
.
.
数量标志分组,即变量分组,是用事物数量的多少作为标志进行分组。
例如,
学生按考分分组(分)
见前面品质分组的概念
用数量来表示各组性质上的差别
60以下 60 ~ 70 70 ~ 80 80 ~ 90 90 ~ 100
数量标志可以是绝对数,也可以是相对数或平均数。
数量标志分组的结果形成变量数列。
.
.
即是通过数量的变化来区分各组质的差别,而不是单纯的数量差别。
即究竟要以什么样的数量作为划分标准。是单项式或是组距式?组距大小?组数多少?等距或不等距?组限如何确定?
第一,明确分组的目的,.
第二,采用适当的分组形式,
注意:进行数量(变量)分组时,必须首先要明确和掌握以下两点:
2.单项式分组与组距式分组(第29页)
.
.
即在变量分组中,一个组只有一 个变量值。
(1)单项式分组:
适用于当离散型变量的变量值变化幅度(范围)不大、不同变量值个数较少的场合。
适用条件:
变量
离散型变量
连续型变量
居民家庭按子女数分组:
0 1 2 3
(离散型变量)
例如:
见后面组距式分组
.
.
即一个组有一个变量值变动的区间(范围),以从×××到×××为组距。
例如:
企业按人数分组
499及以下
500 ~ 999
1000 ~ 2999
3000及以上
工人按工资分组
600 ~ 700
700 ~ 800
800 ~ 1200
1200 ~ 1500
适用于当连续型变量或离散型变量的变量值变化范围较大、不同变量值个数较多连续型变量的场合。
适用条件:
(离散型变量)
(连续型变量)
注意:连续型变量的数值不能一一列举,故其只能采用组距式分组。
见前面单项式分组与组距式分组
(2)组距式分组 :
3.进行组距式分组时应注意的问题 (第29~31页)
.
.
(1)组限及划分方法
(2)组距与组数
(3)等距分组与不等距分组
(4)组中值
(1)组限及划分方法(第29~31页)
499及以下
500 ~ 999
1000 ~ 2999
3000及以上
600 ~ 700
700 ~ 800
800 ~ 1200
1200 ~ 1500
.
.
组限(第31页):
组距分组中,每一区间两端的值为组限。
其中,每组最大变量值称为上限,
每组最小变量值称为下限。
工人按工资分组:
(连续变量)
企业按人数分组:
(离散变量)
连续组距(重叠组限)
不连续组距(不重叠组限)
见后面组限的划分方法
.
.
组限的划分方法(第29页) :
组限的划分方法
不重叠组限
重叠组限
(只适用于离散型变量)
(适用于连续型变量和 离散型变量 .)
重叠组限 :
不重叠组限 :
即相邻两组的上下限为同一个数值。
即相邻两组的上下限为两个不同的确定数值。
当不重叠组限时:
下限≤每组变量值≤上限
当重叠组限时:
下限≤每组变量值<上限
故当某单位的变量值刚好等于相邻两组的上下限时,一般把此值归到作为下限的那一组中,即遵循“上限不在其内”的原则。
例如 :
见前面重叠组限与不重叠组限示例
见后面离散型变量的组限形式举例
.
.
企业按人数分组:
499及以下 500 ~ 999 1000 ~ 2999 3000及以上
(不重叠组限)
企业按人数分组:
500以下 500 ~ 1000 1000 ~ 3000 3000及以上
(重叠组限)
见前面离散型变量的组限形式
另外,在实际确定组限时,应在分布比较集中的变量值中确定组距的中心位置,然后根据组距大小定出上下限。通常,第一组(最小组)的下限必须略小于实际变量值的最小值,最后一组(最大组)的上限必须略大于实际变量值的最大值。
(2)组距与组数(第31页)
.
.
组数:
是指在组距分组中,将全体变量值划分为多少组(分组的数目)。
组距:
是指每组变量值的变动范围。
组距 = 本组上限 – 前组上限
(通用公式)
组距 = 本组上限 – 本组下限
(重叠式组限)
组距与组数的关系:
全距 = 最大变量值 – 最小变量值
组距与组数一般是用整数表示。
考生按成绩分组(分)
50 ~ 60 60 ~ 70 70 ~ 80 80 ~ 90 90 ~ 100
.
.
注意:组距的大小与组数的多少要恰当。组距过大,则组数过少,这样,分组虽然简单,但是容易将不同性质的单位归并在一组,失去区分事物的界限;组距过小,则组数过多,这样,容易将性质相同的单位划分在不同组内,也不能显示出总体分布的特征和规律性。
50 ~ 60 5 60 ~ 70 15 70 ~ 80 18 80 ~ 90 10 90 ~ 100 2
若最高分为99分,最低分为52分,则全距为47分,又假定分成5组,则距组为47/5 = 化整为10,即确定组距为10分。
考生按成绩分组
人数
(比较合适分组)
.
.
学生按考分分组 人数
50 ~ 55 2
55 ~ 60 3
60 ~ 65 10
65 ~ 70 5
70 ~ 75 7
75 ~ 80 11
80 ~ 85 6
85 ~ 90 4
90 ~ 95 1
95 ~ 10 1
学生按考分分组 人数 50 ~ 60 5 60 ~ 100 45
(组距过小,组数过多)
(组距过大,组数过少)
(3)等距分组与不等距分组
.
.
组距分组
等距分组
不等距分组 .
例如:按身高、考分分组等,应采用等距分组。它便于各组间单位数与变量值的直接对比和各项指标计算。
0 … 50 60 70 80 90 100
考分(分)
各分数段人数(人)
5 15 18 10 2
适用场合:
即各组组距相同的分组。
等距分组:
凡是在变量值分布比较均匀时采用。
·
·
·
·
·
·
·
见后面不等距分组
学生按考分分组(分)
50 ~ 60 60 ~ 70 70 ~ 80 80 ~ 90 90 ~ 100
.
.
不等距分组:
即各组组距不都相等的分组。
适用场合:
当变量值分布很不均匀时采用。
不等距分组多数是根据事物性质变化的数量界限来确定组距,如人口按年龄分组。
0 10 20 30 40 50 60 70 …
·
·
·
·
·
·
·
·
要注意不同年龄生理变化的特点,可分为:
1岁以下; 1~6 岁;7~12 岁;13~18 岁; 19~59 岁;60 岁以上。
年龄段
见前面等距分组与不等距分组
工人按工资分组(元)
600 ~ 700 700 ~ 800 800 ~ 1200 1200 ~ 1500
(4)组中值(第31页)
.
.
组中值是指组距数列中各组上限和下限之间的中点数值。
注意:组中值经常用来代表各组标志值的平均水平,但要假定各组内标志值呈均匀分布。
(考分:52 54 57 58 59)
·
·
·
(考分:51 52 53 54 55)
不均匀分布
50
55
60
均匀分布
50
·
·
·
55
60
·
·
·
·
·
·
·
·
·
·
考生按成绩分组
50 ~ 60
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
55
75
65
85
95
组中值
人数
5
15
18
10
2
.
.
若第一组出现“×××以下”或最末组出现“×××以上”字样的组叫做开口组。
首组组中值
= 首组上限 – 相邻组组距的一半
= 末组下限 + 相邻组组距的一半
末组组中值
50 – 10/2
100 + 10/2
例如:.
首组:
末组:
按考分分组 组中值
50 ~ 60 55 60 ~ 70 65 70 ~ 80 75 80 ~ 90 85 90 ~ 100 95
50以下
100以上
45
105
第三节 分布数列
一、分布数列的概念和构成要素
二、分布数列的种类及编制方法
三、次数与频率的累计分布
四、次数分布的主要类型
.
.
一、分布数列的概念和构成要素(第28页)
.
.
将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重,这样形成的数列称为分布数列,或分配数列。
分布数列的概念。
合 计
男 生 女 生
按性别 分 组
表3-4
表3-5
合 计
50~60 60~70 70~80 80~90 90~100
按考分 分 组
人数 (人)
频率 (%)
20
30
60
40
50
100
5
人数(人)
频率(%)
10
30
10
15
18
50
2
36
4
20
100
.
.
分布数列的构成要素 .
分布数列的构成要素
总体按某标志所分的各个组
各组次数或频率
次数(频数):
频率:
所以,次数或频率分布形成的数列叫分布数列。
即分布在各组的单位数。
即各组单位数在总体单位数中所占的比重。
二、分布数列的种类及编制方法(第31页)
.
.
(一)品质数列
分布数列种类
单项式变 量数列
组距式变数列
(二)变量数列
见后面变量数列
见后面单项式数列与组距式数列
等距数列
等距数列
(一)品质分布数列
.
.
按品质标志分组所形成的分配数列称为品质分布数列(品质数列)。
100
50
合 计
60
40
30 20
男 生 女 生
频率(%)
人数(人)
按性别分组
一般来说品质数列较容易编制,它通常能准确地反映总体的分配特征,一旦分组标志确定以后,其分布数列的形式是唯一的。
例如:
表3-4
(二)变量数列
.
.
按数量标志分组所形成的分布数列称为变量分布数列(变量数列)。
按顺序列出的各组变量值及相应的频率,即成为变量的频率分布。
100
50
合 计
10 30 36 20 4
5 15 18 10 2
50~60 60~70 70~80 80~90 90~100
频率(%)
人数(人)
按考分分组
例如:表3-4
注意:任何一个频率分布都必须满足两个条件:一是各组频率≥0;二是各组频率之和等于100%。
见前面分配数列的种类
见后面单项式数列与组距式数列
.
.
1.单项式变量数列
2.组距式变量数列
(由单项式分组形成)
360
合 计
20
60
150
90
40
0
1
2
3
4
户数 (户)
居民家庭按子女数分组(个)
100
50
合 计
10
30
36
20
4
5
15
18
10
2
50~60
60~70
70~80
80~90
90~100
频率(%)
人数(人)
按考分
分 组
表3-6
(单项式变量数列)
(组距式变量数列)
表3-5
变量数列 .
等距数列
不等距数列 .
(由组距式分组形成)
见后面不等距变量数列
见前面分配数列的种类
见后面编制组距数列步骤
.
.
150
合 计
20
40
60
30
人数(人)
600~700
700~800
800~1200
1200~1500
职工按工资分组
注意:单项式变量分组或组距式变量分组的应用场合,也就是单项式变量数列或组距式变量数列的应用场合。
表3-7 .
(不等距数列)
见前面等距变量数列
.
.
编制组距式变量数列的一般步骤:
(1)编序列、求全距
(2)确定组距和组数
(3)确定组限
(4)编制分配数列表
在编制(组距式)变量数列时,按同一数量标志分组有出现多种分配数列的可能。
因为,在组距式变量分组中,由于存在着组距、组数、组限等,并且在组距式变量分组,决定事物性质的数量界限往往因人的主观认识而异。例如,
例如:学生按考分分组编制的变量数列。
见前面组距变量数列
.
.
50
合 计
3
2
5
10
11
7
6
4
1
1
50~55
55~60
60~65
65~70
70~75
75~80
80~85
85~90
90~95
95~100
人数(人)
按考分分组
50
合 计
5
45
50~60
60~100
人数(人)
按考分分组
50
合 计
5
15
18
10
2
50~60
60~70
70~80
80~90
90~100
人数(人)
按考分分组
三、次数与频率的累计分布(第32页)
.
.
在研究次数和频率的分布时,常需要编制次数或频率的累计分布数列。
1.向上累计:
是指将各组次数或频率由变量值低的组向变量高的组累计,以表明各组上限以下的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。
2.向下累计:
是指将各组次数或频率,由变量值高的组向变量值低的组逐组累计,以表明各组下限以上的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。
如 :表3-8 .
见后面表3-8
累计分布有向上累计和向下累计两种:
如 :表3-8 .
.
.
100
50
合 计
10
30
36
20
4
5
15
18
10
2
50~60
60~70
70~80
80~90
90~100
频率(%)
人数(人)
按考分
分 组
表3-8 . .
某班“统计学”考分分布数列
—
—
10
40
76
96
100
5
20
38
48
50
频率(%)
频数
向上累计
—
—
100
90
60
24
4
50
45
30
12
2
频率(%)
频数
向下累计
向上累计:
如,第一组说明60分以下有5人,占学生总数的10%;第二组说明70分以下有20人,占学生总数的40%。
向下累计:
如,第五组说明90分以上有5人,占学生总数的4%;第四组说明80分以上有12人,占学生总数的24%。
见前面向上累计和向下累计的概念
四、次数分布的主要类型(第45页)
.
.
次数分布类型主要有三种:钟型分布、U型分布 .和J型分布 。.
其分布特征是中间变量值出现的次数多,两端变量值(即极大变量值和极小变量值)出现的次数少,即“中间大,两头小”。
1.钟型分布:
f
x
正态分布
即其分布曲线形如一口古钟,故称钟型分布例如,如人的身高、体重、职工工资、农作物亩产量、市场价格、学生的考分等现象都属于钟型分布,
其分布又可分为以下两种:
正态分布和偏态分布 。
图 3-1 .
见后面U型分布和J型分布
.
.
正态分布:
中间变量值分布的次数最多,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。
见图3-1 。.
偏态分布:
当变量值存在极大值时,次数分布曲线会较正态分布向右延伸,这种分布称为右偏分布,
见图3-2。
右偏分布
当变量值存在极小值时,次数分布曲线就会较正态分布向左延伸,这种分布称为左偏分布。
图 3-2
图 3-3
左偏分布
见图3-3。
x
f
f
x
见前面次数分布的类型
其分布特征呈现“一头大、一头小”的特征,即形如字母J字。
它与钟型分布正好相反,其特点是:越靠近中间变量值分布次数较少;越靠近两端变量值分布的次数较多,呈现出“中间小、两头大”的特征。
.
.
2.U型分布 :
见前面次数分布的类型
见图3-4。
型分布 :
U型分布
x
f
图3-4
J型分布有两种类型,即:正J型分布与反J分布。 见图3-5和图3-6。
图3-5
x
f
正J型分布
反J型分布
图3-6
x
f
第四节 统计表
一、统计表的概念和结构
二、统计表的种类
三、统计表的设计
.
.
一、统计表的概念和结构 (第48~51页)
(一)统计表的概念
(二)统计表的结构
.
.
(一) 统计表的概念
.
.
统计表就是指以纵横交叉的线条所绘制的表格来表现统计资料的一种形式。
20744
72387
43384
第一产业
第二产业
第三产业
136515
合 计
比重(%)
国内生产总值(亿元)
按产业分组
2004年我国各产业国内生产总值及构成
表3-9 .
包括调查表、汇总表、计算及分析表以及各种容纳统计资料的统计表。
(二) 统计表的结构(第33页)
.
.
一张统计表的结构可从外表形式和内容两个方面来认识。
统计表的结构
外表形式结构
总标题
横行标题
纵栏标题
指标数值
内容结构
主词(主栏)
宾词(宾栏)
见表3-9 .
见后面表3-9
.
.
20744
72387
43384
第一产业
第二产业
第三产业
136515
合 计
比重 (%)
国内生产总值(亿元)
按产业
分 组
2004年我国各产业国内生产总值及构成
表3-9 . .
总标题
指标数值
纵栏标题
横行标题
总标题:
横行标题:
纵栏标题:
主词:
宾词:
指标数值:
即表的名称,在表的上方。
即反映横行内容,在表内左方。
即反映纵栏内容,在表内右上方。
即数字资料。
即统计表所要说明的总体,它可以是总体各个单位的名称、总体的各个组、或者是总体单位的全部。
即用来说明主词的各个统计指标的名称。
见备注页
主词栏
宾词栏
见后面统计表的种类(简单分组表)
二、统计表的种类
.
.
统计表根据主词是否分组及分组的情况,分为简单表、简单分组表和复合分组表。
1.简单表:
即主词未经任何分组的统计表。仅罗列总体各单位名称或按时间排列或按地区排列。
如,表3-10
我国2001—2004年钢产量
29723
04年
22234
03年
18155
02年
15266
01年
钢产量(万吨)
年 份
.
.
即主词按某一标志 进行简单分组而形成的统计表。
(见表3-9 :我国各产业国内生产总值及构成)
见前面表3-9 (我国各产业国内生产总值及构成)
3.复合分组表:
即主词按两个或两个以上标志进行层叠分组而形成的统计表。
(见表3-11)
2700
合 计
1200 700 500
1500 850 650
人数
一年级 男生 女生
二年级 男生 女生
按年级性别分组
2.简单分组表 :
三、统计表的设计(第33~34页)
(一)标题问题
(二)合计与总计问题
(三)栏数编号问题
(四)计量单位问题
(五)表中数字问题
(六)统计表的表式
(七)编表说明或注解
.
.
(一)标题问题
.
.
统计表的各种标题应简明、确切地表达其内容,特别是总标题,应十分简要地概括出统计表的基本内容和表中资料所属的时间地点。
26
—
—
—
合 计
10
10
6
(3)
销售额(万元)
1000
2000
3000
(2)
销售量
100
50
20
件
支
个
A商品
B商品
C商品
(1)
价格
(乙)
单位
(甲)
商品名称
如表3-12
2002某厂年各种商品销售量、销售价格和销售额资料:
见后面(三)栏数编号问题
(四)计量单位问题
(六)统计表的表式
(二)合计与总计问题
.
.
表中主词各行和宾词各列,一般按先局部后整体原则排列,即先排列出项目后再列总计,在不必要列出所有项目时,应先列总计后列出其中部分重要项目。
如栏数较多,通常要加以编号。主词栏和计量单位等栏用(甲)、(乙)等文字标明,宾词栏常用(1)、(2)、(3)等数字标明。表中有关栏次如有计算上的关系,可同时标明,例如:(3)=(2)/(1)等。
(三)栏数编号问题
见前面表3-12
见表3-12 .
(四)计量单位问题
.
.
统计表中必须注明计量单位。横行的计量单位,可专设一栏,纵列的计量单位,可写在指标名称下(后),如果各纵栏的计量单位一样,可以将它标在表的右上方。
见表3-12 .
(五)表中数字问题
表中数字应对准位数,填写整齐。当数字为0,应写上0;当缺乏某项数字时,用“…”表示;无法计算的数字用“-”表示。
见表3-12 .
见前面表3-12
(六)统计表的表式
.
.
见表3-12 .
通常是左右开口的,即左右两端不画纵线。
(七)编表说明或注解
必要时,应在统计表下方注明表中某些资料的来源或为对某些数据的计算方法、计算口径作出说明。
见前面表3-12
本章小结
第一节 统计整理的概念和步骤
一、统计整理的概念
二、统计调查的步骤(程序)(五个)
第二节 统计分组
一、统计分组的概念和作用(三个)
二、分组标志的选择
(统计分组的关键在于分组标志的选择)
分组标志选择分组标志的原则
三、统计分组的种类
.
.
.
(一)简单分组和复合分组
(按分组标志的多少不同分类)
简单分组和复合分组的概念
分组体系的概念和种类
(二)品质分组和变量分组
(按分组标志的性质不同分类)
四、统计分组的方法
(一)品质分组
(二)数量(变量)分组
1.数量(变量)分组的概念和目的
2.单项式分组与组距式分组
(两者的概念及应用场合)
.
.
一、分布数列的概念和构成要素(两个)
二、分布数列的种类及编制方法
(一)品质数列
(二)变量数列
1.单项式变量数列概念及应用场合
2.组距式变量数列
第三节 分布数列
3.进行组距式分组时应注意的问题
组限及划分方法(应用场合)
组距与组数
等距分组与不等距分组
组中值的概念及计算
.
.
(等距数列和不等距数列)
三、次数与频率的累计分布
(向上累计和向下累计)
四、次数分布的主要类型(三种)
1.钟型分布 2.U型分布 型分布
第四节 统计表
一、统计表的概念和结构
(表式结构和内容结构)
二、统计表的种类
简单表、简单分组表和复合分组表
三、统计表的设计
.
.
本章思考与练习题
一、思考题(简答题)
二、单项选择题
三、多项选择题
四、填空题
.
.
一、思考题
1.什么是统计分组?它有什么作用?如何正确选择分组标志?
2.简述单项式分组与组距式分组的不同应用场合?组距与组数的关系如何?等距分组与不等距分组的适用场合?
3.什么是简单分组和复合分组?
4.什么是次数分配?它包括哪些要素?
5.什么是变量数列?它有几种?
6.简述统计表的结构和种类。
7.次数分布的类型有哪几种?各有什么特点?
.
.
二、单项选择题(在每小题的四个备选答案中选出一个正确的答案,并将正确答案的号码填在题干后的括号内)
1、按某一标志分组的结果就表现为( )
A、组内差异性,组间差异性
B、组内同质性,组间差异性
C、组内同质性,组间同质性
D、组内差异性,组间差异性
2、对某班学生按考试成绩分为5组,这种分组属于( )
A、简单分组 B、复合分组
C、平行分组 D、再分组
.
.
3、分配数列是( )
A、按数量标志分组的数列
B、按品质标志分组的数列
C、按数量标志或品质标志分组的数列
D、按指标分组的数列
A、组数和组距大小的确定
B、分组形式的选择
C、组限的确定
D、分组标志的正确选择
4、统计分组的关健在于 ( )
.
.
5、某管理局对其所属企业的生产计划完成百分比采用如下分组,请指出哪项是正确的,( )
A、80-89% B、80%以下 C、90%以下 D、85%以下
90-99% -90% 90-100% 85-95%
100-109% -100% 100-110% 95-105%
110%以 -110% 110-120% 105-110%
6、在进行组距式分组时,凡遇到某单位的标志值刚好等于相邻两组上下限的数值时,一般是( )
A、将此值归入上限所在组
B、将此值归入下限所在组
C、将值归入上限所在组或下限所在组均可
D、另行分组
.
.
7、下列分组中,哪个是按品质标志分组( )
8、按人记录的100名工人的日产量资料显示,最高日产量为38件,最低日产量为19件。若要对这100名工人按日产量进行等距分组,组数为5,则组距应为( )
A、企业按生产能力分组 B、产品按品种分组
C、家庭按收入水平分组 D、人口按年龄分组
A、3件 B、4件 C、8件 D、10件
9、简单分组与复合分组的主要区别是( )
A、选择分组标志的性质不同
B、组数的多少不同 C、总体的复杂程度不同上
D、选择分组标志的多少不同
.
.
三、多项选择题(从每小题的五个备选答案中选出二至五个正确答案,并将正确答案的号码分别填写在题干后的括号内)
1、指出下面的数列属于什么类型 ( )( )( )( )( )
50
合 计
15
30
5
企业数
80~90
90~100
100~110
按生产计划完成程度分(%)
A、品质分配数列 B、变量分配数列 C、组距变量分配数列 D、次数分配数列
E、等距变量分配数列
.
.
2、统计分组的作用是 ( )( )( )( )( )
A、划分社会经济类型
B、说明总体的基本情况
C、研究同类总体的结构
D、说明总体单位的特征
E、分析现象之间的依存关系
3、下面哪些属于离散变量 ( )( )( )( )( )
A、进口的粮食数量 B、洗衣机台数
C、人均粮食产量 D、城乡集市个数
E、每千人口医院病床数
.
.
4、在分配数列中 ( )( )( )( )( )
A、各组频数之和等于100
B、各组频率大于0
C、总次数一定,频数和频率成反比 D、频数越小,则该组的标志值所起的作用越小 E、频率表明各组标志值对总体的相对作用程度
5、统计分组( )( )( )( )( )
A、是将总体中性质不同的单位分在不同组
B、是将总体中性质相同的单位分在同一组
C、是在总体内部所进行的一种定量分类 D、是在总体内部所进行的一种定性分类 E、对总体而言是分,对个体而言是合
.
.
6、下列哪些分组是按数量标志分组 ( )( )( )( )( )
A、工人按产量分组
B、人口按地区分组
C、学生按健康状况分组
D、家庭按收入水平分组
E、企业按固定资产原值分组
.
.
四、填空题
1.对于连续变量划分组限时,相邻组的组限必须________。
2.统计表从内容上看包括______和______两部分。
3.次数分配数列是由________和_________两个要素组成。
4.统计表按表的主词是否分组可分为______表、______表和_______表。
.
.
5.统计分组的关键在于_________。
6.对总体只按一个标志进行分组称为______分组,对总体按两个或两个以上标志层叠起来进行分组称为_____分组。
7.将各组标志值的频数由标志值小的组依次向标志值大的组累计,称为_________累计。
8.组距式分组根据其分组的组距是否相等可以分为_______ 分组和_________分组。
.
.
本章学习目的
统计整理是统计工作的中间环节,学习本章的目的在于掌握统计分组的方法,认识分配数量是统计整理的重要表现形式,会编制变量数列,并且会用统计表表现统计资料。
.
.
本章重点、难点
重点:统计分组的作用,分组标志选择的原则,统计分组的种类和方法,组距变量数列的编制,次数分配的主要特征,统计表的结构和种类。
难点:在组距分组中,关于组限的划分方法及应用、组距和组数确定、组中值的计算,单项式数列与组距式数列的不同应用条件。
.
.
本章参考资料
⒈《社会经济统计学原理教科书》编写组编写,第四章,中国统计出版社出版。
⒉庞皓主编《统计学》第三章,西南财经大学出版社出版(“211”工程规划教材)。
⒊杨曾武主编《社会经济统计学原理》第四章,天津科学技术出版社出版。
⒋郭立田、赵长城主编《基础统计学教程》第三章,新华出版社出版。
⒌ 范巧研、鲁勇兵主编《统计学原理》第三章,天津科技出版社出版。
.
.
第四章 综合指标
统 计 学
(多媒体教学课件)
.
.
本章相关内容
.
.
本章教学内容
本章小结
本章思考与练习题
本章学习目的
本章重点、难点
本章参考资料
本章教学内容(10学时)
第一节 总量指标
第二节 相对指标
第三节 平均指标
第四节 变异指标
.
.
第五节 属性(是非标志)总体
的平均数和标准差
第一节 总量指标
一、总量指标的概念和作用
二、总量指标的种类
三、总量指标的计量单位
.
.
一、总量指标的概念和作用
(一)总量指标的概念
(二)总量指标的作用
.
.
(一)总量指标的概念(第36页)
总量指标的数值大小随总体范围的大小而增减。
.
.
总量指标是用绝对数形式表现的反映社会经济现象总体在一定时间、地点条件下总规模、总水平的统计指标。
时期指标
国内生产总值 亿元
工业增加值 亿元
其中:钢产量 万吨
布产量 亿米
年末人口总数 万人
年末居民存款余额 亿元
例如:我国在2004年:
时点指标
见后面时期指标和时点指标
(二)总量指标的作用(第37页)
.
.
1.它是对社会经济现象总体认识的起点,常用来反映国情国力的基本状况;
2.它是制定政策、编制计划、实行经济管理的重要依据;
3.总量指标是计算其他统计指标的基础。
2004年我国人口出生率
= 年出生人数/年平均人口总数
某班学生《统计学》平均考分
= 学生总成绩/学生总人数
例如:
= 1593万人/万人 = ‰
= 4200分/50人 = 84分/人
二、总量指标的种类(第37页)
.
.
总量指标有多种表现形式,从不同角度可对其进行如下分类:
总量指标的种类
(一)按其反映总 体内容不同
总体单位总量
总体标志总量
(二)按其反映时 间状况不同
时期指标
时点指标
另外,总量指标按其所采用的计量单位不同可
以分为实物指标、价值指标和劳动指标。
(一)总体单位总量和总体标志总量(第37页)
.
.
1.总体单位总量(单位总量):
即反映总体单位数多少的总量指标,它是总体单位数之和。
2.总体标志总量(标志总量):
即反映总体各单位某一数量标志值总和的总量指标。
(总量指标按其反映总体内容不同可分为总体单位总量和总体标志总量)
总体单位总量和总体标志总量的划分,也是后面计算平均指标(算术平均数)的重要依据。
.
.
例如:
研究目的:是全国工业企业的生产经营情况时,
总体——全国所有的工业企业
单位——每一个工业企业
工业企业名称: 甲 乙 丙 … X
工业增加值(万元)
700 1500 800 … 300
数量标志
全国工业增加值62815(亿元)
全国工业企业总数
总体单位总量
总体标志总量
全国工业企业职工总数
全国工业企业固定资产总额
.
.
注意:总体单位总量和总体标志总量的地位随着研究目的和研究对象的不同而变化。
如,研究目的:是全国工业企业的职工的工资水平时情况时,
总体——全国工业企业的所有职工
单位——每一个职工
全国工业企业职工总数
单位总量
全国工业企业职工工资总额
标志总量
(二)时期指标与时点指标
即反映社会经济现象在一段时间内发展变化的总量。
.
.
1.时期指标(时期总量):
见前面总量指标的概念
例如:国内生产总值、工业增加值、人口出生数等。
如,2004年全国钢产量为万吨
即时期为一年(1月1日~12月31日)
2.时点指标(时点总量):
即反映社会经济现象在某一时刻的状态总量。
如,2004年末全国人口总数为129988万人
即12月31日这一时刻(或瞬间) •
例如:年末人口总数、年末居民储蓄存款余额等。
3.时期指标和时点指标的特点:
.
.
见第八章时期数列与时点数列的区别
129988
29723
2004年
129227
128453
127627
126783
年末人口数(万人)
22234
18155
15266
12850
钢产量
(万吨)
2003年
2002年
2001年
2000年
年 份
表4-1
时期 指标
时点指标
• • • • •
时期指标的特点:
(1)其数值可连续统计;
(2)其数值可直接相加,相加后表示现象在更长时间内发展变化总量;
(3)其数值大小与其所包括的时期长短直接有关。
时点指标的特点:
(1)其数值不能连续统计;
(2)其数值一般不能直接相加,相加后无意义(会出现同一单位或标志值在不同时点的重复计算);
(3)其数值大小与其所间隔时间长短无直接关系。
请判断下列指标,哪些是时期指标,哪些是时点指标?
.
.
注意:时期指标所属时间有时期长短(如年、季、月、日);时点指标所属时间没有时期长短(如年末、季末、月末)
课堂练习:
1.我国各年大学生毕业人数
2.我国各年大学生在校生人数
5.某银行每天居民储蓄存款余额
3.某地区各年的人口出生数(或人口死亡数)
4.某企业各年末的固定资产原值
7.我国历年旅客周转量
6.某企业各(末)月商品库存额
8.某班学生每天听课人数
三、总量指标的计量单位 (第38页)
(一)实物单位
(二)价值单位
(三)劳动单位
.
.
(一)实物单位
.
.
实物单位是根据事物的自然属性和特点来计量的单位。包括自然单位、度量衡单位、双重单位、复合单位及标准实物计量单位等。
自然单位:
它是根据事物的自然属性来计量的单位。
度量衡单位:
如,人口以“人”为单位,汽车以“辆”为单位,鞋以“双”为单位。
它是按统一的度量衡制度而计量的单位。
如,钢产量以“吨”为单位,布以“米”为单位,距离以“公里”为单位,木材以“立方米”为单位等。
自然单位也是离散型数据的计量单位。
度量衡单位也是连续型数据的计量单位。
.
.
双重单位:
如电动机以台/千瓦计量,船舶以马力/吨位/艘计量。
它是采用两种或多种计量单位来表明事物的数量。
复合单位:
它是两个单位以乘积形式构成的单位。
如发电量以千瓦时计量,货物周转量以吨公里计量等。
标准实物单位:
即按一定标准将用途相同,但规格或含量不同的物品折合成规格或含量相同的数量,
如将含热量不同的煤产量统一折算为7000大卡的标准煤。
用实物单位计量的总量指标,称为实物指标。
见前面实物单位
.
.
实物指标的特点:
该指标的综合性比较差,不同的实物,内容性质不同,计量单位不同,无法进行汇总,因而无法反映国民经济的总规模或总的发展速度。
见前面实物单位
它直接反映产品的使用价值或现象的具体内容,因而能够具体地表明事物的规模和水平。
它的局限性:
(二)价值单位
在于它脱离了物质内容,比较抽象。只有和实物指标结合使用,才能充分发挥其作用。
.
.
价值单位是以货币单位来计量的单位。
如国内生产总值以“元”为单位。
用价值单位计量的总量指标称为价值指标。
它具有广泛的综合汇总性。它可以综合反映不同国家或地区、部门、企业生产不同产品的总成果。
价值指标的特点:
价值指标的局限性:
(三)劳动单位
.
.
劳动单位是反映劳动力资源及其利用状况所采用的一种复合计量单位。如,工时(工日)等。
用劳动单位计量的总量指标,称为劳动量指标。
故,总量指标按其所采用的计量单位不同可以分为实物指标、价值指标和劳动指标。
第二节 相对指标
一、相对指标的概念和作用
二、相对指标的数值表现形式
三、相对指标的种类和计算方法
.
.
四、计算和应用相对指标时应注
意的问题
一、相对指标的概念和作用
(第39页)
(一)相对指标的概念
(二)相对指标的作用
.
.
(一)相对指标的概念(第39页)
.
.
相对指标(相对数),它是两个有联系统计指标(数据)的比率。
其分子与分母可以是总量指标对比,也可以是相对指标或平均指标对比。
如:我国在2004年,
人口出生率
= 年出生人数/年(平均)人口数
= 年钢产量/年(平均)人口总数
=1593万人/129988万人=‰
人均钢产量
=万吨/万人=229公斤/人
(二)相对指标的作用(第39页)
.
.
1.相对指标是制定发展规划,评价经济活动状况的重要指标;
2.相对指标可以使不能直接对比的现象找到共同比较的基础。
例如,某企业2004年工业产值为100万元(总量指标),能否作为评价该企业生产经营好坏的标准?
作用1.
产值计划完成程度
产值发展速度
该企业产值 / 同行业某企业产值 = 100/400 = 25%
.
.
见前面相对指标的作用
作用2.
例如,我国生产的一些主要工农业产品产量(钢产量、原煤产量、棉布产量、水泥产量、彩电产量、电冰箱产量:粮食产量、肉禽产量、等)均占世界第一位。
若计算人均产量(相对指标),在2004年,
因此,在说明两个性质不同、生产条件、规模不同的企业工作质量时,不能直接用产值、利润等总量指标进行对比,而可用产值计划完成程度、资金周转速度等相对指标进行对比。
我国人钢产量:公斤/人,
美国人钢产量:400公斤/人。
二、相对指标的数值表现形式 (第39页)
(一)有名数
(二)无名数
.
.
相对指标的数值表现形式(计量单位)有以下两种表现计量单位,即:
(一)有名数(第39页)
它主要在强度相对指标的计算中采用。
.
.
有名数是在计算相对指标时,保持两个对比指标原来的计量单位。
如:
2004年我国人均钢产量
= 135人/平方公里
2004年我国人口密度
= 公斤/人
(二)无名数(第39页)
包括系数或倍数、成数、百分数和千分数。
.
.
无名数是一种抽象化的、无量纲的数,
(对比基数)
系数或倍数:
即将对比基数抽象为1而计算出来的相对数。如:
2004年产量/1990年产量=500吨/50吨
当分子数值>分母数值很多时
当分子数值与分母标数值相差不大时
倍数
系数
=10
倍
在计算相对指标时,当其分子与分母指标计量单位相同时,其数值表现为无名数。
.
.
即将对比基数抽象为10而计算的相对数。
如:某地区粮食产量2004年比2003年增长2成,即增长2/10
即将对比基数抽象为100而计算的相对数。
成数:
百分数:
如:今年产量/去年产量 = 500吨/400吨
= 125%
千分数:
即将对比基数抽象为1000而计算出来的相对数。
2004年我国人口出生率
= ‰
当分子数值<分母数值很多时
千分数
.
.
即当两个以百分数表示的相对指标,若其对比基数相同时,如果它们相减的结果差距相当于1%,称为一个百分点。
上月末 1日 2日 3日 4日 … 31日 100(%) 2 3 1 6 … 4
如:股市价格指数:
百分点:
三、相对指标的种类和计算方法
(一)结构相对指标
(二)比例相对指标
(三)比较相对指标
(四)强度相对指标
(五)计划完成相对指标
(六)动态相对指标
.
.
相对指标种类
静态相对指标
见后面各种相指标之间的区别
(一)结构相对指标(第39页)
1.结构相对指标的概念和计算公式
2.计算结构相对指标应注意的问题
.
.
1.结构相对指标的概念和计算公式
.
.
结构相对指标就是通常所说的“比重”,它是总体部分数值与总体全部数值对比的结果。
即:
表4-2
23000
50
合 计
15000
8000
30
20
男职工
女职工
工资额(元)
人数
性 别
比重(%)
比重(%)
平均工资(元/人)
60
40
100
500
400
—
见后面比例相对指标
结构相对指标包括单位数结构和标志值结构。
结构相对指标
见前面附2:1975~2000年世界人口增长情况
其计算结果一般是百分数(%)
2.计算结构相对指标应注意的问题
.
.
第一,其计算条件是统计分组;
第二,其分子与分母均为总量指标对比;
第三,其分子与分母不能互换。
结构相对指标在经济研究中具有重要作用。
例如,见前表3-2(统计分组的作用) 。
见前面统计分组的作用
(二)比例相对指标(第40页)
1.比例相对指标的概念和计算公式
2.计算比例相对指标应注意的问题
.
.
1.比例相对指标的概念和计算公式
.
.
比例相对指标是总体中不同部分数量对比的相对指标,用以分析总体范围内各个局部、各个分组之间的比例关系和协调平衡状况。
例如前表4-2 :
见前面计算结构相对指标表4-2
男职工人数/女职工人数
= 30/20
= 150%
男职工平均工资/女职工平均工资
= 500/400
= 125%
比例相对指标
即:
比例相对指标的计算结果一般是用百分数表示,或“多少比1”或“多少比100形式表示。
2.计算比例相对指标应注意的问题
.
.
第一,其计算条件是统计分组;
第二,其分子与分母一般是总量指标对比,但有时也可以用总体各部分的相对数或平均数对比;
第三,其分子与分母可以互换。
注意结构相对指标与比例相对指标的区别和联系。
例如前表4-2 :
(三)比较相对指标(第40页)
1.比较相对指标的概念和计算公式
2.计算比较相对指标应注意的问题
.
.
1.比较相对指标的概念和计算公式
.
.
比较相对指标是将不同空间条件下同类指标对比的结果,用以说明在同一时期内某一现象在不同单位(指总体)之间发展的不平衡程度。
(这里的总体可以是国家或地区或部门或企业等)
如,2004年石家庄市大米价格2元/公斤,北京市大米价格元/公斤。则,
北京市大米价格/石市大米价格
=
= 125%
即:
比较相对指标
比较相对数计算结果通常用百分数或倍数表示。
2.计算比较相对指标应注意的问题
.
.
第一,其分子与分母更多的是采用相对数或平均数对比;
第二,其分子与分母可以互换。
例如:要对比中国与美国教育发展水平时,
= 1500美元/30美元
美国人均教育经费
= 50(倍)
(因为总量指标的数值易受总体范围不同,生产条件不同等影响,它一般不具有可比性)
中国人均教育经费
(2003年)
(四)强度相对指标(第40页)
1.强度相对指标的概念和计算公式
2.强度比较相对指标应注意的问题
.
.
1.强度相对指标的概念和计算公式
.
.
强度相对指标是两个性质不同,但有一定联系的总量指标对比的结果,用以表明现象的强度、密度和普及程度。
即:
强度相对指标
2004年我国人均钢产量
2004年我国人口密度
= 135人/平方公里
= 公斤/人
2.计算强度相对指标应注意的问题
.
.
第一,其分子与分母为两个性质不同而有联系的总量指标对比;
注意:钢产量 /猪的存栏头数这两个性质不同的总量指标在经济上没有联系,对比没有意义。
人口密度以“人/平方公里”为单位
例如,
人均钢产量以“公斤/人”为单位
(有名数形式)
商业网密度以“个/千人”为单位
见后面计算强度相对指标应注意的问题(第三)
第二,其数值表现形式大多数为有名数,少数为无名数形式; .
.
.
2004年人口自然增长率
= ‰
某企业商品流通费用率
= 15%
(无名数)
见前面计算强度相对指标应注意的问题
.
.
第三,某些强度相对指标,分子与分母可互换,形成其正、逆指标。
每百元固定资产提供的产值
= 150%
每百元产值占用的固定资产
= %
注意:有些强度相对指标使用人均字眼,如人均钢产量、人均粮食产量、人均教育经费等,但它们与后面要讲的平均指标在含义上是有区别的。
(正指标)
(逆指标)
见前面计算强度相对指标应注意的问题
(五)计划完成程度相对指标(第40页)
.
.
1.计划完成程度相对指标概念和基本公式
2.计算计划完成程度相对指标应注意的问题
3.当计划指标规定为(动态)相对数时,计
算计划完成程度相对指标的方法
4.长期计划完成情况的检查
1.计划完成程度相对指标的概念和计算公式
.
.
计划完成程度相对指标,又称计划完成百分比。它是现象在某一段时间内的实际完成数值与计划任务数值对比的结果,用以检查计划完成程度。
计划完成程度相对指标
例4-1 ,某企业2004年计划产值应为800万元,2004年实际产值为1000万元,求2004年产值计划完成程度。
解:
2004年产值计划完成程度
= 125%
即:该企业超额25%完成产值计划任务。
见后面计算计划完成相对指标应注意的问题
.
.
例4-2 ,某企业2004年计划某产品单位成本应为20元/件,实际该产品单位成本为18元/件,求本年该产品单位成本计划完成程度。
解:
该产品单位成本计划完成程度
= 90%
即:该企业超额10%完成单位成本降低的计划任务。
计划指标规定为增长率时(如产值、劳动生产率)
计算结果≥100%,
计算结果<100%,
为完成或超额完成
为未完成
计划指标规定为降低率时(单位成本、单耗)
计算结果≤100%,
为完成或超额完成
计算结果>100%,
为未完成
见后面计算计划完成相对指标应注意的问题
.
.
计划执行的检查方法
(1)计划执行结果的检查(计划结束时的检查)
(2)计划执行进度的检查(计划执行中的检查)
计划执行进度
例4-3 某企业2004年全年计划产值为200万元,
各季度实际产值 第一季度 第二季度 第三季度
实际产值(万元) 40 45 60
求累计至第三季度止产值计划执行进度。
解:
产值计划执行进度
= %
即时间过去3/4(75%),计划任务只完成%。
见前例
2.计算计划完成程度相对指标时应注意的问题
.
.
第一,计划完成程度相对指标的分子与分母,可以是绝对数,也可以是相对数或平均数对比;
(如前例4-1 和前例4-2 及后例4-4 ).)
第二,该指标的分子与分母不能互换。
见前例4-1
见前例4-2
见后例4-4
3.当计划指标规定为(动态)相对数时,计算
计划完成程度相对指标的方法
.
.
例4-4 ,某企业2004年计划规定产值要比上年提高10%,实际比上年提高了15%,计算该企业产值计划完成程度。
解:
计划完成程度
计划数:
2004年计划产值/2003年实际产值
= 1+10%
实际数:
2004年实际产值/2003年实际产值
= 1+15%
产值计划完成程度
= %
计算结果表明,该企业产值计划完成%,即超额%完成了计划。
(注意:不能用15%与10%相除)
见前面计算计划完成相对指标应注意的问题
.
.
计划完成程度
例4-6 某企业本年某产品单位成本计划比上年降低10%,实际比上年降低12%,计算该企业某产品单位成本计划完成程度?
计划数:
解:
本年计划单位成本/上年实际单位成本
实际数:
本年实际单位成本/上年实际单位成本
该产品单位成本计划完成程度:
= %
即该产品单位成本实际比计划多降低%,即超额完成成本降低任务。
(注意:不能直接用12%除10%)
4.长期计划完成情况的检查
.
.
计划完成情况的检查,分为中长期计划和短期计划两种。短期计划检查可按前面的公式计算。中长期计划检查,根据制定计划任务性质不同有两种的方法:累计法和水平法。
(1)累计法。
在检查中长期计划执行情况时,如果计划任务是按计划期各年总和规定的,要按累计法检查中长期计划执行情况。
计划完成程度
.
.
例4-7 某地区“九五”计划期间基本建设投资总额计划规定为20亿元,五年内实际累计完成22亿元。
按累计法确定提前完成五年计划的时间,是用计划全部时间减去自计划执行日起至实际累计完成规定数量的日期止的的时间,即为提前完成五年计划的时间。
则五年基本建设投资总额计划完成程度为:
22亿元/20亿元 = 110%
即超额完成五年计划。
(2)水平法。
在中长期计划中,如果只规定在整个计划期的末期(最后一年),现象应达到的水平,则用水平法检查计划执行情况。
.
.
计划完成程度
例4-8我国“九五”(1996-2000年)计划规定某种产品2000年的产量应达到200万吨,实际完成260万吨。
则该产品产量五年计划完成情况为:
260/200 = 130%
即“九五”计划超额30%完成计划。
另外,按水平法检查中长期计划执行情况时,确定提前完成计划的时间是只要在计划期内有连续一年(可以跨日历年度)的数值达到计划规定最后一年的水平,即为五年计划完成,则其余的时间即为提前完成五年计划的时间。
.
.
例4-8 某产品按五年计划规定,最后一年产量应达到45万吨,计划执行情况如下表:
30
第二年
16
四
季
15
三
季
13
二
季
12
一
季
第五年
10
12
四
季
11
三
季
二
季
10
一
季
第四年
19
下半年
上半年
17
第三年
30
第一年
产量
时
间
单位:吨
从上表第四年的二季度起,至第五年的第一季度止的连续一年中,达到了计划所规定的水平,10 + 11 + 12 + 12 = 45万吨。则该产品提前三个季度完成了五年计划。
(六)动态相对指标(第40页)
.
.
动态相对指标(发展速度)是某一事物报告期数值与基期数值对比的结果,用以说明事物在时间上发展的快慢程度。
动态相对指标
其详细内容将在第八章介绍。
在掌握了几种常用相对指标的概念、作用及计算后,要注意区分下面几种不同的相对指标。
结构相对指标与比例相对指标的区别:
结构相对指标是以总体总量为比较标准,计算各组总量占总体总量的比重,来反映总体内部组成情况的综合指标。如:各工种的工人占全部工人的比重。比例相对指标是总体不同部分数量对比的相对数,用以分析总体范围内各个局部之间比例关系和协调平衡状况。如:轻重工业比例。
.
.
见前面相对指标的种类
比例相对指标和比较相对指标的区别:
(1)子项与母项的内容不同,比例相对指标是同一总体内,不同组成部分的指标数值的对比;比较相对指标是同一时间同类指标在不同空间上的对比。
(2)说明问题不同,比例相对指标说明总体内部的比例关系;比较相对指标说明现象发展的不均衡程度。比较相对指标是不同单位的同类指标对比,用以说明同类现象在同一时期内各单位发展的不平衡程度。如:甲地职工平均收入是乙地职工平均收入的倍。
.
.
见前面相对指标的种类
强度相对指标与其它各种相对指标主要区别:
(1)其它各种相对指标都属于同一总体内的数量进行对比,而强度相对指标除此之外,也可以是两种性质不同的但又有联系的属于不同总体的总量指标之间的对比;
(2)计算结果表现形式不同。其它相对指标用无名数表示,而强度相对指标主要是用有名数表示。
(3)当计算强度相对指标时,分子、分母的位置互换后,会产生正指标和逆指标,而其它相对指标不存在正、逆指标之分。
.
.
见前面相对指标的种类
四、计算和应用相对指标应注意的问题 (第40~41页)
1.正确作为选择对比标准的基数
2.保持两个对比指标(分子与分母)的可比性
3.相对数要与总量指标结合运用
4.多种相对指标结合运用
.
.
(略)
1.正确作为选择对比标准的基数
.
.
如果基数的选择不准确,就无法使相对数正确地反映事物之间的数量对比关系。至于选择什么样的基数,必须从现象的性质特点出发,并根据研究目的来确定。如:要反映我国文化教育的普及程度:
教育普及程度
全国识字人口数
全国人口数
(扣除6岁以下的人口数)
=
全国人口数
识字人口数
不识字人口数
6岁以下的人口数
6岁及以上的人口数
2.保持两个对比指标(分子与分母)的可比性
.
.
所谓相对指标的可比性是指两个对比指标在所表明的经济内容、总体范围、计算方法、计量单位、时间长短等方面的一致性。
2004年某企业产值计划完成程度
= 2004年实际产值/2003年计划产值
= 300万元/200万元 = 150%,
而强度相对指标其分子与分母的可比性是指其在经济上的联系性。
例如:
3.必须把相对数和总量指标结合起来运用
.
.
利用相对指标进行分析时,要考虑相对数背后所代表的绝对水平,即要将两者结合起来应用,特别是在动态分析时,要注意到每增长1%的绝对值。
钢产量(吨) 04年 03年 增长量(吨) 增长速度%
甲厂 800 1000 200 25
乙厂 200 300 100 50
甲厂每增长1%的绝对值
=(200吨/25%)×1% = 8吨
200 :25%
= x :1%
乙厂每增长1%的绝对值:
故高速度背后可能隐藏低水平,而低速度背后可能隐藏高水平,分析问题既要看速度,又要看水平。
(100吨/50%)×1%=2吨
第三节 平均指标
一、平均指标概述
二、算术平均数
三、调和平均数
四、几何平均数
五、众数和中位数
六、平均指标的应用
.
.
一、平均指标概述
(一)平均指标的概念
(二)平均指标的特点
(三)平均指标的作用
(四)平均指标的种类
.
.
(一)平均指标的概念(第41页)
.
.
见后面算术平均数的概念和计算条件
平均指标,又称统计平均数是反映总体各单位某一数量标志在一定时间、地点条件下一般水平的综合指标。
例如:
工人总体
工资额(元)
数量标志
460 520 600 700 850
标志值
=(460 + 520 + 600 + 700 + 850)/ 5
平均
工资
= 626(元/人)
工人姓名 甲 乙 丙 丁 戊
(二)平均指标的特点(第42页)
.
.
即它是某一数量标志在各单位之间的数量差异抽象化了的数值。
1.它是一个抽象值;
2.它是一个代表值;
即它用一个数值来代表总体各单位某一数量标志在具体时间地点条件下的一般水平。
表4-4
50
—
合 计
5
15
18
10
2
55
65
75
85
95
50 ~ 60
60 ~ 70
70 ~ 80
80 ~ 90
90 ~ 100
学生数 (人)
组中值(分)
按考分分组(分)
3.它反映了总体(各
单位标志值)分布
的集中趋势。
平均考分
= (分/人)
(三)平均指标的作用(第42页)
.
.
1.平均指标可以消除因总体范围不同而带来的总体数据差异,使不同规模的总体具有可比性;
2.与统计分组结合运用,可以分析现象之间的依存关系;
3.可以反映同一总体在不同时期的发展变化趋势
4.是进行统计推断的重要基础。
(四)平均指标的种类(第42页)
.
.
1.按计算方法不同
2.按反映时间不同
平均指标种类
算术平均数
调和平均数
几何平均数
众数
中位数
动态平均数
静态平均数
数 值 平均数
(位置平均数)
见后面算术平均数
二、算术平均数(第42~45页)
.
.
见前面平均指标的种类
(一)算术平均数的基本公式和计算条件
(二)算术平均数的计算方法
(三)计算加权算术平均数时应注意的问题
(四)算术平均数的数学性质和特点
(一)算术平均数的基本公式和计算条件(第42页)
见后简单算术平均数的计算
.
.
它是总体中各单位标志值的总和除以总体全部单位数。
算术平均数的基本公式。
工人姓名 甲 乙 丙 丁 戊
工人总体
例如:
460 520 600 700 850
工资额(元)
数量标志
标志值
总体标志总量
总体单位总量
平均工资
见后算术平均数计算条件
见前平均指标的概念
= 626(元/人)
.
.
在100名学生组成的学生总体中,
又如,
学生姓名: 甲 乙 丙 丁 … X100
考分(分)
62 77 85 93 … 79
(标志值)
数量标志
总体标志总量
总体单位总量
算术平均数是最常用的一种平均数,它的计算方法符合众多现象中总体各单位标志值的算术和等于其总体标志总量这一客观数量关系。
平均考分
.
.
见前面算术平均数的概念
算术平均数的计算条件:
基本公式的分子(总体标志总量)与分母(总体单位总量)在数量上存在着直接的对应关系,
即其分子(总体标志总量)数值要随着分母(总体单位总量)数值的变动而变动。
算术平均数的这一计算要求也是平均指标与强度相对指标的主要区别之一。
例如:在2004年,
我国人均钢产量 = 年钢产量/年(平均)人口总数
= 万吨/万人= 229公斤/人
(强度指标)
某厂工人平均工资 = 工资总额 / 工人总数 = 3130 / 5
= 626(元/人)
(平均指标)
.
.
故,强度相对指标虽然也是两个总量指标对比,并且有的强度相对指标还带有平均的含义;其计量单位也是双重单位,但两个有联系的一般属于不同总体的总量指标对比,其分子与分母在数量上不存在着直接的对应关系,即其分子指标并不直接依附于分母指标数值。
判断下列指标哪些属于平均指标,哪些属于强度相对指标:
课堂练习:
A.人均粮食产量 B.人均教育经费 C.单位产品成本 D.人均粮食消费量
注意:强度相对指标与平均指标的区别:
① 两者的含义不同;
② 两者的计算方法不同。
(二)算术平均数的计算方法(第42~45页)
.
.
见前面算术平均数的概念和计算条件
见后面加权算术平均数的计算方法
在实际工作中,由于掌握资料的不同,算术平均数有两种计算形式:即简单算术平均数和加权算术平均数 。
如果已知各单位标志值和总体单位数,可用简单算术平均数方法计算。
1.简单算术平均数。
如前例 ,
其公式如下:
注意:简单算术平均数中,各单位标志值出现的次数(频数)均相同,上例中每个标志值出现的次数都是1。
式中: x:各单位标志值;n:总体单位数
(适用于计算未分组数列的平均数)
2.加权算术平均数 (第43页)
.
.
如果已知各组标志值和各组单位数,可采用加权算术平均数方法计算。
例如:某厂工人各级别工资额和相应工人数资料如表4-5:
50
合 计
5
15
18
10
2
工人数(人)
460
520
600
700
850
工资额(元)
工资总额(元)
x
f
试计算工人平均工资。
29600
x f
7800
7000
1700
10800
2300
=
×
各组标志值
各组单位数
各组标志总量
见后面调和平均数应用
见后算术平均数权数选择原则
见前算术平均数计算方法
各组工资额(x)
各组工资总额(x f )
各组工人数( f )
(适用计算分组数列的平均数)
解:
=
.
.
解:
= 592(元/人)
见后面采用加权调和平均数计算的平均工资
式中:
x: 各组标志值;
f:各组单位 数(次数或频数);
f/∑f :各组单位数比重(频率)。
注意:由组距数列计算加权算术平均数,可用组中值代表各组变量值。
.
.
表4-6
100
50
合 计
10
30
36
20
4
工人数比重(%) f/∑ f
5
15
18
10
2
工人数(人) f
460
520
600
700
850
工资额(元) x
试计算工人平均工资。
= 460×10% + 520×30% + 600×36% + 700×20% + 850×4% = 592(元/人)
解:
.
.
(三)在计算加权算术平均数时应注意的问题
.
.
第一,影响加权算术平均数的因素
第二,当各组单位数(频率)相等时,加权
算术平均数等于简单算术平均数
第三,关于加权算术平均数的权数选择原则
第一,影响加权算术平均数的因素(第43页)
.
.
29600
50
合 计
2300
7800
10800
7000
1700
工资总额 x f
5
15
18
10
2
工人数 f
460
520
600
700
850
工资额 x
x:各组标志值
f:各组单位数(次数或频数)
或f/∑f:各组单位数比重(频率)
表4-7
平均数的大小,不仅取决于各组标志值大小,还取决于各组单位数(频数)的多少。
当总体单位数一定时,如果哪一组标志值分配的单位数越多,则该组标志值对平均数的影响程度越大。反之,影响程度越小。
.
.
可见,各组标志值的频数(单位数)的多少对平均数的大小有权衡轻重的作用,所以称各组频数为权数,用权数乘以各组标志值叫加权,由此计算的平均数叫加权算术平均数。
权数
f — 绝对数权数
故,权数对算术平均数大小的影响程度,并不取决于权数本身数值(f)的大小,而是取决于作为权数的各组单位数占总体单位数比重的大小,即频率(f /∑f)的大小。
.
.
100
50
合 计
10
30
36
20
4
工人数比重(%)f/∑ f
5
15
18
10
2
工人数(人) f甲
460
520
600
700
850
工资额(元) x
表4-8
= 592(元/人)
f乙
20
60
72
40
8
200
= 592(元/人)
第二,当各组单位数(频率)相等时,加权算术 平均数等于简单算术平均数(第44页)
.
.
加权算术平均数
简单算术平均数
50
合 计
5
15
18
10
2
工人数(人) f
460
520
600
700
850
工资额(元) x
表4-9
f
10
10
10
10
10
50
= 626(元/人)
第三,关于加权算术平均数的权数选择原则
.
(即三个量之间存在着客观的数量关系),各组单位数(f )才是加权算术平均数的合适权数。
.
被平均的标志值
绝对数 .
相对数 .
平均数 .
权数选择的原则:
各组标志值 × 各组单位数 = 各组标志总量
(x) × (f ) = (x f )
此等式必须有实际经济意义,
见后加调和平均数应用
见权数为平均数
见权数为相对数
见权数为绝对数
各组标志总量(x f )
各组单位数(f )
各组标志值(x)=
分子
分母
(x)
.
.
例如:前表 4-5 计算工人平均工资时,被平均的标志值x(各组工资额) 是绝对数。此时工人数为合适的权数(符合权数选择的原则)。
又如,某工业局所属企业产值计划完成%、企业数、产值资料如下:
1000
15
合 计
100
800
100
计划产值(万元)
5
8
2
企业数
90~100
100~110
110~120
产值计划完成程度(%)
组中值(%)
各组标志值
×
各组单位数
各组标志总量
(权数)
=
试计算该工业局所属企业的平均产值计划完成程度。
x
f
实际产值(万元)
x f
95
840
115
1050
95
105
115
—
表4-10
见后面平均产值计划完成程度的计算过程
见前加权算术平均数权数选择原则
= 105%
解:
各组产值计划完成程度(%)
(x)
(x f)
(f)
各组实际产值
各组计划产值
=
.
.
解:
此例被平均的标志值 x(各组产值计划完成程度)是相对数。
(不正确)
因为本例以企业数(次数)为权数,不符合权数选择原则。即:
各组产值计划完成% × 企业数 = 各组标志总量
(x) × (f) = (x f)
= 103%
95% × 5 = 475%
(无意义)
见前加权算术平均数权数选择原则
各组产值计划完成程度(%)
.
.
本例正确的权数(f)应为各组计划产值,它符合权数选择的原则。
(x)
(x f)
(f)
各组产值计划完成%×各组计划产值 = 各组实际产值
95% × 100(万元) = 95(万元)
(x) × (f) = (x f)
故,平均产值计划完成程度为:
(等式有意义)
= 105%
见前面表4-10
各组平均 单位成本
.
.
再如,某公司所属企业单位成本产量等资料如下表:
表4-11 :
10
6
合 计
5
3
2
产量(万件)
1
2
3
企业数
10~12
12~14
14~16
平均单位成本
(元/件)
组中值
总成本(万元)
f
各组标志值
x
各组单位数
×
=
各组标志总量
11
13
15
—
x f
55
39
30
124
试计算该公司所属企业的平均单位成本。
解:
各组标志值 x(各组平均单位成本) 是平均数。
=
(元/件)
(x)
( x f )
( f )
见前加权算术平均数权数选择原则
.
.
由此可得出以下结论 :
当被平均的标志值是绝对数或相对数或平均数时,要选择构成其绝对数或相对数或平均数的分母数值作为各组单位数,即权数(f);要选择构成其绝对数或相对数或平均数的分子数值作为各组标志总量(x f)。即:
绝对数
相对数
平均数
各组单位数(f)
即权数
各组标志总量(x f)
见前面加权算术平均数权数选择原则
(x)
某企业某月生产三批产品资料如下:试计算产品平均合格率。
.
.
课堂练习:
6000
合 计
1000
2000
3000
产量(件)
90
95
98
合格率(%)
x
解:
合格品数量(件)
f
x f
900
1900
2940
5740
合格率
( x f )
( f )
(x)
各组标志值
×
各组单位数
=
各组标志总量
表4-12
见前面加权算术平均数权数选择原则
(四)算术平均数的数学性质和特点(第46~47页)
.
.
1.算术平均数的数学性质
第一,各个变量值与其算术平均数离差之和为零。
第二,各个变量值与其算术平均数离差的平方和为最小。
第三,如果原变量与新变量之间的关系是:
其中 a 和 b 为常数
y = a + b x
即:
即:
见后算术平均数的特点
见后面平均数差的局限性
.
.
2.算术平均数的特点 :
它易受极端标志值(极大值或极小值)和开口组的影响。
平均工资:
+ 4000
+ 1
三、调和平均数(第45~46页)
.
.
(一) 调和平均数的概念和计算方法
(二)调和平均数的应用(作为算术平
均数的变形形式)
(三)调和平均数与算术平均数的关系
(四)调和平均数特点
(一) 调和平均数的概念和计算方法 (第45页)
1.调和平均数的概念
2.调和平均数的计算方法
.
.
1.调和平均数的概念
.
.
它是分布数列中各单位标志值倒数的算术平均数的倒数,又称“倒数平均数”。
设有三个标志值分别为: x1 x2 x3
其算术平均数为:
其调和平均数为:
2.调和平均数的计算方法
.
.
根据所掌握资料的不同,调和平均数具体计算可分为简单调和平均数和加权调和平均数。
(1)简单调和平均数(适用于未分组数列)。
其计算公式为:
.
.
(2)加权调和平均数(适用于分组数列)。
注意:当 m1 = m2 = … = mn = A 时,
注意:上述简单调和平均数与加权调和平均数本身形式并没有实际意义,在经济统计中,它往往是作为算术平均数的变形形式来应用的。
加权调和平均数
简单调和平均数
(二)调和平均数的应用(算术平均数的变形(第45~46页)
.
.
式中:H:调和平均数;
某企业工人各级别工资额及相对应工资总额资料如表4-13,
例如,
29600
合 计
2300
7800
10800
7000
1700
工资总额(元)
460
520
600
700
850
工资额(元)
计算平均工资。
见前面加权算术平均数的计算方法
x:各组标志值;
m=x f:各组标志总量
各组标志值
各组标志总量
各组单位数
工人数(人)
5
15
18
10
2
50
见前面关于权数选择的原则
.
.
见前面采用加权算术平均数计算的平均工资
(与前面按加权算术平均数计算的结果完全相同)注② :
(三)调和平均数和算术平均数关系
.
.
加权调和平均数
加权算术平均数
(令 m = x f )
从上述关系式可见:在 m = x f 的条件下,根据同一标志值(x)资料,采用加权调和平均数计算平均指标与采用加权算术平均数计算平均指标的结果完全相同,因为两者均符合总体标志总量(∑x f )与总体单位总量(∑f)的对比关系,所以,加权调和平均数是加权算术平均数的变形。
两者不同在于计算平均指标时应用的权数资料不同,加权算术平均数是以各组单位数(f)为权数,加权调和平均数是以各组标志总量(m= x f)为权数。
见后面加权调和平均数的应用
.
.
例:某工业局所属企业产值计划完成%、企业数、产值资料如表4-12。
1050
15
合 计
95
840
115
实际产值(万元)
5
8
2
企业
数
90~100
100~110
110~120
产值计划完成程度(%)
试计算该工业局所属企业的平均产值计划完成程度。
各组标志值
各组标志总量
各组单位数
组中值
x
95
105
115
—
x f
= m
计划产值(万元)
= m/x
f
100
800
100
1000
解:
.
.
.
.
例:某种蔬菜早、午、晚的价格及 购买金额资料如 表4-15:
18
—
合 计
5
6
7
购买金额(元)
价格(元/斤)
早
午
晚
时 间
试计算该种蔬菜的平均价格。
解:
x
= x f
m
购买量(斤)
= m/x
f
20
30
70
120
各组标志值
各组标志总量
各组单位数
.
.
见前面加权调和平均数与加权算术平均数的关系
.
.
调和平均数的应用场合。
第一,在采用算术平均数计算平均指标时,由于资料的限制当我们无法直接得到被平均标志值(x)相对应的各组单位数(f ) 时,可通过调和平均数的形式以求出所需的各组单位数(f )。(如前例,已知各组工人的工资额及各组工人的工资总额,求工人的平均工资 )
第二,在由相对数或平均数计算平均指标时,如果掌握的权数资料是相对数或平均数的母项数值(即各组单位数 f )时,应采用加权算术平均数计算;如果掌握的权数资料是相对数或平均数的子项数值(即各组标志总量 x f )时,应采用加权调和平均数计算。
(四)调和平均数的特点
.
.
1.它易受极端标志值和开口组的影响;
2.当数列中某项标志值为零时,则无法计算调和平均数
四、几何平均数(第47~48页)
.
.
(二)几何平均数的计算方法
(一)几何平均数的概念和应用场合
(三)几何平均数的特点
(四)几何平均数、算术平均数和调和
平均平均数的关系
(一)几何平均数的概念和应用场合(第47页)
它适合于计算现象的平均比率或平均速度。
.
.
1.几何平均数(G)的概念。
它是n个变量值连乘积的n次方根。
设 n个标志值分别为:x1 ,x2, x3 …xn,则几何平均数为:
2.应用场合:
当变量值的连乘积等于总比率或总速度,适合用几何平均法。几何平均数的特征与社会经济现象平均发展速度或平均比率的客观过程一致。
(二)几何平均数的计算方法(第48页)
.
.
几何平均数根据所掌握资料不同,其计算分为简单几何平均数和加权几何平均数 。
1.简单几何平均数
(适用于计算未分组数列的平均比率或平均速度)
其计算公式如下:
式中,G:几何平均数; x :各单位标志值; n:标志值的个数;∏:连乘符号。
我国1996~2000年钢产量各年(环比)发展速度资料如下表4-16 :
见后面加权几何平均数的计算方法
.
.
12850 a5
2000
—
环比发展速度 (%)
12426 a4
11559 a3
10757 a2
10110 a1
9400 a0
钢产量(万吨)
1999
1998
1997
1996
1995
年 份
试计算1996~2000年钢产量年平均发展速度。
解:
某种现象的各个分量的总和
=
该现象的总量
各个分速度之和
≠ 总速度
(算术)
见前面几何平均数的计算方法
.
.
即当标志值的次数不同时,几何平均数的计算需要用加权法。
(计算分组数列的平均比率或速度)
例如:某企业1990~2001年产值发展速度如表4-17
1990年~1993年
1993年~1998年
1998年~1999年
1999年~2001年
时 期
102
104
98
103
环比发展速度(%)
次数 f
3
5
1
2
试计算1990~2001年该产品产量年平均发展速度。
解:
2.加权几何平均数 .
(三)几何平均数的特点
.
.
1.它易受极端标志值的影响。
2.当数列(总体)中某一标志值为零或为负数时,则无法计算几何平均数。
(四)几何平均数、算术平均数和调和平均数 的关系
.
.
三种平均数有其各自的应用条件和特点,但从数量关系上看,存在某些规律性的东西。对同一资料分别用三种方法计算,其结果是算术平均数最大,几何平均数次之,调和平均数最小。只有当所有变量值都相同时,三者结果才相等。三者关系式用不等式表示为:
五、众数和中位数(第48~49页)
(一)众数
(二)中位数
.
.
算术平均数、调和平均数和几何平均数是根据总体各单位标志值计算的,所以称为数值平均数。众数和中位数不是根据总体的全部标志值计算的,而是根据与其所处的特殊位置有关的一部分标志值计算的,故,众数和中位数是两个位置平均数。
(一)众数(第95~98页)
1.众数的概念
2.众数的特点和应用条件
3.确定众数的方法
.
.
1.众数的概念(第49页)
.
.
众数(M0)是总体中出现次数最多的标志值。
例如:某集贸市场某种商品价格及商户资料如表4-18,试确定众数。
25
合 计
1
4
15
3
2
商户数(户)
商品价格 (元/斤)
x
f
表4-18 .
即商品价格为元/斤便是众数。
众数
(注意按算术平均数计算的方法)
总体中最常出现的标志值说明该标志值最具有代表性,因此可以之反映数列的一般水平。
见后面由组距式数列确定众数
2.众数的特点和应用条件(第49页)
所以,当总体出现极端标志值时,众数比算术平均数更能反映总体各单位标志值的一般水平。
.
.
众数的特点:
它是一种位置平均数,不受极端标志值或开口组的影响。
众数的应用条件:
在分配数列中,当标志值的次数有明显集中趋势的情况下,才能确定众数。
x
f甲
25
合 计
1
4
15
3
2
商户数 (户)
商品价格(元/斤)
表4-20
5
6
5
5
4
f乙
f丙
25
25
5
5
5
5
5
故,在分配数列中,当标志值的次数没有明显集中趋势或呈均匀分布的情况下,不存在众数。
3.确定众数的方法
.
.
确定众数的方法
⑴由单项式数列确定众数 (见表4-18 .)
⑵由组距式数列确定众数 (见表4-19 )
.
.
式中:
L:众数所在组的下限;U:众数所在组的下限;
△1:众数组频数与其前一组频数之差;
△2:众数组频数与其后一组频数之差; d:众数所在组的组距。
由组距式数列确定众数先确定众数组,即次数最多的一组,而后运用下面公式计算众数的近似值。见表4-19 .
由组距式数列确定众数 。
见后面表4-19由组距式数列确定众数的资料
.
.
3000
合 计
240
480
1050
600
270
210
120
30
家庭数(户)
1000~1200
1200~1400
1400~1600
1600~1800
1800~2000
2000~2200
2200~2400
2400~2600
农民家庭按年人均纯收入分组(元)
某乡农民家庭有关资料如表4-19 ,试计算众数。.
fm-1
fm
fm+1
L
见前面由组距式数列确定众数的公式
见前面确定众数的方法
(二)中位数(第48~49页)
1.中位数的概念
2.中位数的特点
3.确定中位数的方法
.
.
1.中位数的概念(第48页)
.
.
将总体各单位标志值按其大小顺序排列,位置居中的那个标志值(数据)就是中位数(Me) 。
例如,有7名工人,每人日产零件数从底到高的顺序排列如下:
则中位数为22件/人。这个数字反映了工人总体日产零件数的一般水平。
中位数表明,总体中有一半单位的标志值小于中位数,一半单位的标志值大于中位数。
15、17、19、20、22、23、23、24
15、17、19、20、22、23、23、24
25
中位数
2.中位数的特点(第48页)
.
.
⑴它是一种位置平均数,不受极端标志值或开口组的影响。
因为中位数的确定仅取决于它在数列中的位置,所以它不受少数极端标志值的影响,在这一点上它优于算术平均数。因此某些场合,用中位数来表示现象的一般水平比算术平均数更有代表性。
⑵中位数的数学性质:就是总体各单位标志值与其中位数的绝对离差的总和是一个最小值。
即:∑| x- Me | = 最小值
3.确定中位数的方法
.
.
⑴由未分组数列确定中位数
⑵由组距式数列确定中位数
确定中位数的方法
⑴由未分组数列确定中位数
.
.
中位数根据下列公式确定:
确定中位数时要注意n为奇数和偶数的不同。
如工人日产量(件):
17、19、20、22、23、23、24。
Me = 第(7 + 1)/2个标志值 = 第4个标志值 = 22(件)
中位数
又如工人日产量(件): 17、19、20、22、23、23、24、25。
中位数
Me = 第( 8 + 1)/2个标志值 = 第 个标志值= (件)
⑵由分组数列确定中位数
.
.
第一步,确定中位数所在组:
第二步,根据下列公式确定中为数的近似值:
式中:
L:中位数所在组下限;U:中位数所在组上限;
∑f:数列的频数总和; fm:中位数所在组的频数;
Sm- 1:中位数所在组之前那组的向上累计频数; ∑f/2:中位数的位次。
见后面表4-21由组距式数列确定中位数的资料
(采用向上或向下累计方法)
.
.
表4-21
3000
合 计
240
480
1050
600
270
210
120
30
户数
(户)
1000~1200
1200~1400
1400~1600
1600~1800
1800~2000
2000~2200
2200~2400
2400~2600
农民家庭按年人均纯收入分组(元)
1400
+
-
720
1050
×
= (元)
中位数所在组
fm
向上累计次数(户)
240
720
1770
2370
2640
2850
2970
3000
—
Sm-1
Sm
第1户
第240户
第241户
第720户
第721户
第1770户
第1500户 为中位数的位次
见前面由组距式数列确定中位数的公式
200
.
.
●
Sm- 1 = 720
●
●
●
●
780
第1500户
第1户
第720户
第721户
第1770户
fm =1050
六、平均指标的应用
.
.
1.社会经济现象的同质性。
即各单位在被平均的标志上具有同类性。这是计算平均指标的基本前提,也是应用平均指标首先应遵循的原则。
2.用分配数列补充说明平均数。
用分配数列说明总体具体情况,以显示被平均数抽象掉的各单位差异及其分布。
3.用组平均补充总体平均数。
即用平均数反映总体分布的集中趋势,用变异指标说明总体的离散程度,以得出较全面的认识,同时评价平均指标的代表性高低。
.
.
4.平均指标和变异指标相结合。
即用平均数反映总体分布的集中趋势,用变异指标说明总体的离散程度,以得出较全面的认识,同时评价平均指标的代表性高低。
5.一般和个别相结合。
第四节 变异指标
一、变异指标的概念
二、变异指标的作用
三、变异指标的计算方法
.
.
一、变异指标的概念(第50页)
它是反映总体中各单位标志值差异程度的综合指标。
.
.
变异指标(又称标志变动度),
平均指标说明总体各单位变量值分布的集中趋势;
平均指标是说明总体各单位某一数量标志一般水平的综合指标。但是,平均指标将总体各单位标志值的差异抽象化了,是总体各单位标志值的代表水平,它不能反映总体各单位标志值的差异情况。例如,
变异指标说明总体各单位变量值分布的离中趋势或分散程度。
工人姓名 甲 乙 丙 丁 戊
460 520 600 700 850
工资额(元)
数量标志
标志值(变量值)
平均工资
= 626(元/人)
(3)试问A、C 两组那一组学生的平均考分更有代表性?
.
.
表4-22
例如,
A 组学生考分: 65 70 75 80 85
B 组学生考分: 68 70 76 80 81
79
85
90
95
100
68
70
76
80
81
65
70
75
80
85
甲
乙
丙
丁
戊
xA
考分(分)
375
449
375
合 计
xC
xB
学生
序号
(1)试计算A、B、C三个学生组的平均考分。
(2)试问A、B 两组那一组学生的平均考分更有代表性?
●
●
●
●
●
65
75
85
●
●
●
●
●
B 组
A 组
变异大
变异小
见后面变异系数计算举例
见后面标准差计算举例
见后面平均差计算举例
二、标志变异指标的作用(第51页)
标志变异指标与平均数的代表性成反比,表明总体各单位标志值的分散程度。即标志变异指标数值越大,平均数的代表性越小。
.
.
1.它是衡量平均数代表性的尺度。
2.它可以反映社会经济活动过程的均衡性或稳定性程度。
3.它还是抽样分析和相关分析的重要指标。
注意:标志变异指标的作用是在与平均指标结合中产生的,离开了平均指标,它就失去了意义。而它与平均指标相结合,则可全面反映总体的特征,并对平均指标的代表性做出评价。
三、变异指标的计算方法
(一)全距
(二)平均差
(三)标准差
(四)变异系数
.
.
(一)全距(第51页)
.
.
全距是总体中最大标志值与最小标志值之差,又称“极差”。它说明标志值的变动范围,一般用R 表示。
全距=最大标志值-最小标志值
全距=最高组上限-最低组下限
(未分组数列)
(分组数列)
全距是测定标志变动度的一种粗略方法。其特点是计算简单,含义明确,对于测定对称分布的数列具有特殊优点。但是,它主要取决于极端数值,带有较大的偶然性,往往不能充分反映现象的实际离散程度。全距可用于检查产品质量的稳定性和进行质量控制。
(二)平均差(第51~52页)
1.平均差的概念
2.平均差的计算方法
.
.
1.平均差的概念(第51页)
.
.
平均差是总体各单位标志值与其算术平均数之间的离差绝对值的算术平均数。一般用表示。
2.平均差的计算方法
由于掌握的资料不同,它可分为简单平均差和加权平均差。
平均差的计算方法
简单平均差
加权平均差
(未分组数列)
(分组数列)
见后面平均差的计算方法
.
.
显然,平均差弥补了全距之不足,它考虑了所有的标志值,能较好地反映总体各单位标志值的平均差异(离散)程度。
在计算平均离差时,要保证正、负离差和不至于在计算中相互抵销为零,则需取它们的绝对值。即数学处理上有困难,不符合代数方法演算,具有局限性。
见前面算术平均数的数学性质
.
.
根据表4-23:
试问A、B 两组那一组学生的平均考分更有代表性?
68
70
76
80
81
65
70
75
80
85
甲
乙
丙
丁
戊
xA
考分(分)
375
375
合计
xB
学生
序号
平均数离差
-10
-5
0
5
10
—
解:
离差绝对值
平均数离差
离差绝对值
∵ >
故,B 组学生平均考分比A 组学生平均考分更有代表性。
10
5
0
5
10
30
-7
-5
1
5
6
—
7
5
1
5
6
24
见前面平均差的计算方法
见前面表4-22计算变异指标的资料——问题(2)
(三)标准差(第52~54页)
1.标准差的概念
2.标准差的计算方法
.
.
1.标准差的概念(第52页)
.
.
标准差是总体中各单位标志值与其算术平均数离差平方的平均数的平方根。又叫均方差。用σ表示。而σ2 称为方差。
标准差是测定标志变异最常用的方法,它的意义与平均差基本相同,也是各标志值对其算术平均数的平均离差,只是二者在数学处理方法上不同。
2.标准差的计算方法
.
.
标准差的计算方法
简单标准差
加权标准差
(未分组数列)
(分组数列)
见后面标准差的计算举例
.
.
根据表4-24:
68
70
76
80
81
65
70
75
80
85
甲
乙
丙
丁
戊
xA
考分(分)
375
375
合计
xB
学生
序号
平均数离差
离差平方
平均数离差
离差平方
-10
-5
0
5
10
—
100
25
0
25
100
-7
-5
1
5
6
49
25
1
25
36
—
136
250
试问A、B 两组那一组学生的平均考分更有代表性?
解:
故,B组学生平均考分比A组学生平均考分更有代表性。
∵σA >σB
见前面标准差的计算方法
见前面表4-22计算变异指标的资料——问题(2)
(四)变异系数(第55页)
.
.
全距、平均差和标准差都是以绝对数形式反映标志值的差异程度(即它们是平均以后的绝对数),而且带有计量单位,其数值的大小不但取决于数列各单位标志值的差异程度,而且要受其数列平均水平高低的影响。
如果两个数列平均水平不同,或两个数列标志值的计量单位不同时,要比较其数列的变动度(即比较其数列平均数的代表性大小),怎么办?
注意:这时需消除平均水平不同或计量单位不同的影响,计算标志变异系数。
见前面表4-22计算变异指标的资料—问题(3)
见后面表4-25变异系数计算举例
.
.
是总体中变异指标与其算术平均数之比,以反映标志值差异的相对水平。
变异系数(V):
注意:标准差与标准差系数的不同应用条件:
(常用)
在比较两个不同数列(总体)标志变异程度大小(或说明其平均数代表性大小)时,当其平均水平相同时,可直接计算标准差进行比较;当其平均水平不相同(或其计量单位不同)时,需消除平均水平不同或计量单位不同的影响,计算标准差系数进行比较。
见后面表4-25变异系数计算举例
.
.
根据表4-25:
79
85
90
95
100
65
70
75
80
85
甲
乙
丙
丁
戊
xA
考分(分)
375
449
合计
xC
学生
序号
平均数离差
-10
-5
0
5
10
—
解:
离差平方
平均数离差
离差平方
-11
-5
0
5
10
—
100
25
0
25
100
250
121
25
0
25
100
271
∵ VA>VC
故, C 组平均考分更有代表性。
见前面表4-22计算变异指标的资料——问题(3)
试问A、C 两组那一组学生的平均考分更有代表性?
见前面变异系数概念
.
.
又如,甲、乙两个农场有关资料如 表4-26 :
10000
800
18
乙农场
8000
600
15
甲农场
亩数(亩)
平均亩产量(斤/亩
标准差(斤/亩)
指 标
解:
∵ V甲>V乙
故,乙农场的粮食平均亩产量更有代表性。
第五节 属性(是非标志)总体 的平均数和标准差
一、属性(是非标志)总体的成数
二、属性(是非标志)总体的平均数
三、属性(是非标志)总体的标准差
.
.
.
.
总体按所研究标志不同
变量总体
(研究数量标志)
属性总体
(研究品质标志)
在属性总体中,当所研究的标志,其表现只有两种属性,即“是”或“非”时,将该属性总体称为是非标志总体。
例如:
学生按性别分组
男生
女生
(是)
(非)
企业按经济类型分组
国有企业
集体企业
(是)
个体企业
其它企业
(非)
一、属性(是非标志)总体的成数(第101页)
.
.
在是非标志(属性)总体中,设总体有N个单位,其中有N1个单位具有某种性质或属性(是的属性),有N0个单位不具有某种性质或属性(非的属性),即N1+ N0= N 则,
即总体中具有某一属性的单位数占总体单位数的比重
即总体中不具有某一属性的单位数占总体单位数的比重
二、属性(是非标志)总体的平均数(第101页)
.
.
由于品质标志(是非标志)的表现不能用数值表示,为了研究问题方便,我们可以将品质标志(是非标志)数量化。即用1表示单位标志为“是”的标志值(即具有某种性质的单位的标志值);用0表示单位标志为“非”的标志值(即不具有某种性质的单位的标志值)。
表4-27
属性(是非标志)总体的平均数:
1
N
—
合 计
P =N1/ N
Q = N0/ N
N1
N0
1
0
男(是)
女(非)
频率(概率) F/∑F
单位数F
标志值 X
性 别
三、属性(是非标志)总体的标准差(第101页)
.
.
见后面总体参数和样本统计量
1
N
—
合 计
P =N1/ N
Q = N0/ N
N1
N0
1
0
男(是)
女(非)
频率(概率) F/∑F
单位数F
标志值 X
性 别
属性(是非标志)总体的标准差:
.
.
注意:当 P = 时,
(最大)
见后面总体参数和样本统计量
本章小结
第一节 总量指标
一、总量指标的概念和作用(三个)
二、总量指标的种类
(一)总体单位总量和总体标志总量
(按其反映总体的内容不同)
总体单位总量和总体标志总量的概念及两者的关系
(二)时期指标和时点指标
(按其反映的时间状况不同)
注意时期指标和时点指标的不同特点
.
.
三、总量指标的计量单位
(一)实物单位 (二)货币单位
(三)劳动单位
(总量指标按其所采用的计量单位不同可以分为实物指标、价值指标和劳动指标)
一、相对指标的概念和作用(两个)
二、相对指标的数值表现形式
(一)无名数(系数或倍数、成数、百分数(%)、千分数(‰)
(二)有名数(强度相对指标)
三、相对指标的种类和计算方法
第二节 相对指标
.
.
(一)结构相对指标
1.概念和公式 2.计算中应注意的问题
(二)比例相对指标
1.概念和公式 2.计算中应注意的问题
(三)比较相对指标
1.概念和公式 2.计算中应注意的问题
(四)强度相对指标
1.概念和公式 2.计算中应注意的问题
(五)计划完成程度相对指标
1.概念和公式 2.计算中应注意的问题
3.当计划指标规定为(动态)相对数时,计算计划完成程度相对指标的方法
.
.
4.长期计划完成情况的检查
计划完成情况的检查,可分为中长期计划和短期计划两种
(六)动态相对指标
总体单位总量和总体标志总量的概念及两者的关系
四、计算和应用相对指标时应注意的问题
1.正确作为选择对比标准的基数。
注意时期指标和时点指标的不同特点
2.保持两个对比指标的可比性
3.必须把相对数和总量指标结合起来运用。
4.要将多种相对指标结合运用。
.
.
第三节 平均指标
一、平均指标的概念、作用和种类
(一)平均指标的概念和特点
(二)平均指标的作用
(三)平均指标的种类
1.算术平均数 2.调和平均数
3.几何平均数 4.众数和中位数
二、算术平均数
(一)算术平均数的基本公式
注意算术平均数的计算条件及它与强度相对指标的区别
.
.
(二)算术平均数的计算方法
1.简单算术平均数和的计算及应用条件
2.加权算术平均数及应用条件
(三)在计算加权算术平均数时应注意问题
第一,影响加权算术平均数的因素
第二,当各组单位数(频率)相等时,加权算术平均数等于简单算术平均数
第三,关于加权算术平均数的权数选择原则
(四) 算术平均数的数学性质和特点
三、调和平均数
(一) 调和平均数的概念和计算方法
.
.
(二)调和平均数的应用(作为算术平均数的变形形式)
(三)调和平均数与算术平均数的关系
(四)调和平均数特点
四、几何平均数
(一)几何平均数的概念和应用场合
(二)几何平均数的计算方法
1.简单几何平均数
2.加权几何平均数
(三)几何平均数的特点
(四)几何平均数、算术平均数和调和平均数的关系
.
.
五、众数和中位数
(一)众数(概念、特点和确定方法)
(二)中位数(概念、特点和确定方法)
六、平均指标的应用
(一)社会经济现象的同质性
(二)用分配数列补充说明平均数
(三)用组平均补充总体平均数
(四)平均指标和变异指标相结合
(五)一般和个别相结合
.
.
第四节 变异指标
一、变异指标的概念
二、变异指标的作用
三、变异指标的计算方法
(一)全距
(二)平均差
1.简单平均差
2.加权平均差
(三)标准差
1.简单标准差
2.加权标准差
(四)变异系数
注意标准差与标准差系数的不同应用条件
.
.
一、属性(是非标志)总体的成数
二、属性(是非标志)总体的平均数
三、属性(是非标志)总体的标准差
第五节 属性(是非标志) 总体的平均数和标准差
.
.
本章思考与练习题
一、思考题(简答题)
二、单项选择题
三、多项选择题
四、填空题
五、计算题
.
.
一、思考题
1.什么是总量指标?它有什么特点?它有哪些作用?
2.总体单位总量和总体标志总量、时期指标与时点指标如何区别?
3.结构相对指标、比例相对指标和比较相对指标有什么不同特点?强度相对指标和其它相对指标主要区别何在?
4.平均指标与强度指标有何区别?
.
.
5.如何理解权数的意义?在什么情况下,应用简单算术平均数与加权算术平均数计算结果是一样的?请举例说明。
6.加权算术平均数与加权调和平均数之间的关系如何?
7.什么是众数和中位数?它们有什么特点?
8.什么是标志变动度?它有什么作用?
9.什么计算变异系数?变异系数的应用条件是什么?
.
.
二、单项选择题(在每小题的四个备选答案中选出一个正确的答案,并将正确答案的号码填在题干后的括号内)
1、某企业计划产值比上年提高10%,实际比上年提高15%,则其计划完成程度为( )
A、150% B、5% C、% D、%
2、在分配数列中,当标志值较小而其权数较大时,计算出来的算术平均数( )
A、接近于标志值大的一方 B、接近于标志值小的一方 C、接近于大小合适的标志值 D、不受权数的影响
.
.
3、人均粮食消费量是一个( )
A、强度相对指标 B、结构相对指标
C、比较相对指标 D、平均指标
4、成数方差的特点是,成数( )
A、愈接近于1方差愈大
B、愈接近于0方差愈大
C、愈接近于方差愈大
D、无论如何变化方差均不受影响
5、两个数值对比若分母数值比分子数值大很多时,常用的相对数形式是( )
A、倍数 B、百分数
C、系数 D、千分数
.
.
6、已知两个同类型企业的职工工资水平的标准差分别为5元/人、6元/人,则甲、乙两个企业职工平均工资的代表性是( )
A、一样的 B、甲企业>乙企业
C、甲企业>乙企业 D、无法判断
7、计算变异指标是为了比较 ( )
A、不同数列的相对集中程度
B、不同水平或相同水平的数列的变异程度大小 C、两个数列平均数的绝对差异
D、以上都不对
.
.
8、当总体各单位标志值都不相同时( )
A、众数不存在 B、众数就是中间的数值
C、众数就是最大的数值
D、众数就是最小的数值
9、某厂生产了三批产品,第一批产品的废品率为1%,第二批产品的废品率为%,第三批产品的废品率为2%;第一批产品数量占这三批产品总数的25%,第二批产品数量占这三批产品总数的30%,则这三批产品的废品率为( )
A、% B、%
C、% D、%
.
.
10、权数对算术平均数的影响作用,实质上取决于( )
A、各组标志值占总体标志总量比重的大小 B、作为权数的各组单位数占总体单位数比重的大小 C、标志值本身的大小 D、各组单位数的多少
A、平均指标 B、强度相对指标
C、比较相对指标 D、比例相对指标
11、2003年某地区国内生产总值为1443亿元,全部人口为2954万人,平均每人的内生产总值为4885元。这个指标是( )
.
.
三、多项选择题(从每小题的五个备选答案中选出二至五个正确答案,并将正确答案的号码分别填写在题干后的括号内)
1、下列指标属于强度指标的有 ( )( )( )( )( )
A、某地区平均每人生活费收入
B、某地区平均每人粮食消费量
C、某地区人口出生率
D、植棉专业户
E、某地区平均每人教育经费
.
.
2、在什么条件下,加权算术平均数等于简单算术平均数( )( )( )( )( )
A、各组次数相等
B、各组变量值不等
C、变量数列为组距数列
D、各组次数都为1
E、各组次数占总次数的比重相等
3、下列属于平均指标的有 ( )( )( )( )( )
A、人均粮食产量 B、职工平均工资
C、人均国内生产总值 D、工人劳动生产率 E、产品的单位成本
.
.
4、权数对平均数的影响作用表现在
( )( )( )( )( )
A、当标志值较大的组次数较多时,平均数接近于标志值较大的一方
B、当标志值较小的组次数较少时,平均数接近于标志值较小的一方
C、当标志值较大的组次数较少时,平均数接近于标志值较大的一方
D、当标志值较小的组次数较多时,平均数接近于标志值较小的一方
E、当各组次数相同时,对平均数没有作用
.
.
5、相对指标中,分子与分母可以互换的有 ( )( )( )( )( )
A、结构相对指标 B、强度相对指标
C、比例相对指标 D、动态相对指标
E、比较相对指标
.
.
四、填空题
1.相对指标的数值有_______和______表现形式。
2.积累额与消费额的比例为1 :3,即积累额占国民收入使用额的25%,这里前者为______相对指标,后者为_____相对指标。
3.直接用平均差和标准差比较两个变量数列平均数的代表性的前提条件是两个变量数列的__________相等 。
.
.
4.总量指标按其反映总体内容的不同,可分为_____总量和______总量。
5.平均指标说明分配数列中各变量值分布的______趋势,变异指标说明分配数列中各变量值分布的______趋势。
6.某地区某年的财政收入为320亿元,从反映总体的时间看,该指标为时期指标;从反映总体的内容看,该指标是_______指标。
.
.
五、计算题
1.某供销社所属45个供销点收购计划完成%及计划收购额如下:
计划收购额
(万元)
2
17
11
14
1
供销点
(个)
80—90 90—100
100—110
110—120
120—130
计划完成程度(%)
要求:(1)根据上表资料计算平均收购计划完成程度;(2)如表中给的不是计划收购额,而是实际收购额,则平均收购计划完成程度是多少?
.
.
2.某厂计划规定,某产品单位成本2003年应比2002年降低7%,实际执行结果,该产品单位成本2003年比2002年降低了5%,试计算2003年,该产品单位成本计划完成程度;又知2002年该产品单位成本为600元/件,试确定2003年实际数与计划数。
3.某厂生产了三批产品,第一批产品废品率为1%,第二批产品废品率为%,第三批产品废品率为2%;第一批产品数量占这三批产品总数的25%,第二批产品数量占这三批产品总数的30%,试计算这三批产品的平均废品率。
.
.
年某月份甲、乙两农贸市场某农产品价格和成交量、成交额资料如下:
甲市场成交额
(万元)
4
合 计
2
1
1
乙市场成交量
(万斤)
价格
(元/斤
甲
乙
丙
品种
试通过计算说明哪一个市场农产品的平均价格高?并说明原因。
.
.
5. 某车间有甲、乙两生产小组,甲组平均每个工人的日产量为36件,标准差为件;乙组每个工人日产量资料如下:
15
38
34
13
工人数(人)
15
25
35
45
日产量(件)
要求(1)计算乙组平均每个工人的日产量和标准差;(2)比较甲、乙两生产小组哪个组的工人平均日产量更有代表性?
.
.
本章学习目的
学习本章的目的在于掌握总量指标、相对指标、平均指标、变异指标的概念、特点和它们的计算方法,并能够运用所学的方法分析具体问题。
.
.
本章重点、难点
重点:总量指标的种类、相对指标的数值表现形式、种类和计算方法、平均指标的种类及算术平均数、调和平均数和几何平均数的计算方法、众数和中位数概念和特点变异指标的作用和计算方法。
难点:时期指标和时点指标的区别、强度相对指标与平均指标的区别、各种平均数时的计算及应用,变异指标的应用。
.
.
本章参考资料
⒈《社会经济统计学原理教科书》编写组编写,第五、六、七章,中国统计出版社出版。
⒉庞皓主编《统计学》第四章,西南财经大学出版社出版(“211”工程规划教材)。
⒊杨曾武主编《社会经济统计学原理》第五、六章,天津科学技术出版社出版。
⒋郭立田、赵长城主编《基础统计学教程》第四章,新华出版社出版。
5.范巧研、鲁勇兵主编《统计学原理》第五、六章,天津科技出版社出版。
.
.
第五章 抽样估计
统 计 学
(多媒体教学课件)
.
.
本章相关内容
.
.
本章教学内容
本章小结
本章思考与练习题
本章学习目的
本章重点、难点
本章参考资料
本章教学内容(8学时)
.
.
第一节 抽样估计的一般问题
第二节 抽样误差
第三节 抽样估计的方法
第四节 抽样的组织形式
第一节 抽样估计的一般问题
一、抽样估计的意义和特点
二、有关抽样估计的几个基本概念
三、抽样估计的一般步骤
.
.
一、抽样估计的意义和特点
(一)抽样估计的意义
(二)抽样估计的特点
(三)抽样推断的作用
.
.
见前面第抽样调查的作用
见前面第抽样调查的特点
.
.
综合指标
总量指标
相对指标
平均指标
变异指标
反映总体数量特征
但在实际工作中, 许多场合下我们不可能采用全面调查方法,来计算反映总体数量特征的指标。而只能采用抽样调查(即抽样推断)的方法。
例如,对某厂生产的10000只灯泡进行平均耐用时数的检验,就只能采用抽样推断的方法。
又如,我国2004年粮食总产量 46947万吨,城镇居民人均可支配收入9422元等这些指标数值均属抽样推断的结果。
见后面抽样推断过程图例
(一)抽样估计的概念(第106页)
.
.
抽样估计就是按照随机抽样的原则,从总体中抽出一部分单位作为样本进行调查,并以调查结果(样本指标值),对总体数量特征(总体指标)做出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。
(见前面抽样调查的特点 :)
(三)抽样估计的作用
(见前面抽样调查的作用 :)
(二)抽样估计的特点
见前面抽样调查特点 与作用
见后面抽样估计过程图例
见前面抽样调查概念
.
.
见前面抽样估计的概念
见后面抽样误差的概念
抽样估计过程图例 :
见后面抽样极限的概念
随机原则
样本
n = 100
总体
N =10000
推断
(抽样误差)
(总体指标)
(样本指标)
M个样本
抽样实际误差
抽样平均误差
(可以计算)
(无法计算)
抽样极限误差
概率度
置信度(概率)
当 t = 1
当t = 2
二、有关抽样估计的几个基本概念 (100~106页)
(一)总体与总体指标
(二)样本与样本指标
(三)抽样方法
(四)抽样框
(五)概率抽样与非概率
.
.
(一)总体与总体指标(第100~101页)
总体指标(总体参数)根据变量总体和属性总体的不同,而有不同的形式。
即它是用来反映总体数量特征的指标。
即根据研究目的确定的所要研究的同类事物的全体。
.
.
1.总体:
2.总体指标
总体
变量总体
属性总体
(研究数量标志)
(研究品质标志)
总体单位的总数称为总体容量,一般用“N”表示。
总体
是唯一确定的
见后面总体指标(总体参数)与样本指标(统计量)
由于总体是唯一确定的,所以总体指标也是唯一确定的,但又是未知的。需要用样本指标来估计。
总体指标
注意:
(见表5-1 ).))
(总体参数):
(二)样本与样本指标(102页)
由于抽样的方法不同,以及样本容量的不同,从一个总体中可以抽出许多个样本。
样本指标是随机变量,它会随着样本的不同而有不同的取值。
.
.
注意:
总体
是唯一确定的
即它是从总体中随机抽取出来,用来代表总体的那部分单位的组成集合体。
1.样本:
样本包含的单位数称为样本容量,一般用n表示。
2.样本指标
见后面总体指标(总体参数)与样本指标(统计量)
n≥30为大样本,n<30为小样本
不是唯一确定的
样本
是根据样本资料计算的用于估计和推断相应总体指标的综合指标。
(样本统计量或估计量):
常见的样本指标(见表5-1 ).))
指在一个总体中所有可能被抽取或可能构成的样本数目。
样本个数:
在实际统计中我们只是抽取一个样本,但进行抽样估计时必须要考虑全部的可能样本。
总体参数 和统计量 .
.
.
统计量(样本指标)
总体参数(总体指标)
是唯一确定的
是随机变量,它会随着样本的不同而有不同的取值
总体平均 数
总体标准 差
样本平均 数
样本标准 差
总体平均 数
总体标准 差
样本平均 数
总体成数
样本标准 差
样本成数
见前面属性总体的平均数和标准差
见后面 计算方法
见后面 计算方法
变量
总
体
属性
总
体
性质
变量
样
本
属性
样
本
性质
表5-1.
(三)抽样的方法(第105页)
1.重复抽样
2.不重复抽样
.
.
1.重复抽样(第105页)
(1)在 n 次抽样中,总体每个单位在各次抽样中被抽取的概率都相同(即均为 1/N );
.
.
即指要从总体的N个单位中随机抽取一个单位数为n的样本,每次抽出一个单位记录其特征后,再放回总体中参加下一次抽选。这样连续抽n次即得到所需样本。
例5-1:假设总体有A、B、C、D、E五个单位,现纯随机重复抽取2个单位组成样本,求全部可能样本个数。
第一次抽取:
(抽后放回)
第二次抽取:
则所有可能的样本个数为:
AA AB AC AD AE
BA BB BC BD BE
CA CB CC CD CE
DA DB DC DD DE
EA EB EC ED EE
即:
(N = 5 n = 2)
每个样本在各次抽样中被抽取的概率都相同
重复抽样的特点:
(2)共可组成 k = Nn 个样本,
(即每次抽取是独立的,条件相同)
(即均为1/k) 。
见后面不重复抽样方法
.
.
又例:假设总体有A、B、C、D、E五个单位,现纯随机重复抽取3个单位组成样本,求全部的可能样本个数。
(N = 5 n = 3)
第一次抽取:
则所有可能的样本个数为:
(抽后放回)
第二次抽取:
(抽后放回)
第三次抽取:
2.不重复抽样(第105页)
第一次抽取:
.
.
即每次从总体N个单位中随机抽出一个单位后,就不再放回总体中,下一个样本单位再从余下的总体单位中抽取。这样连续抽n次即得到一个单位数为n的样本。
例5-2:假设总体有A、B、C、D、E五个单位,现纯随机不重复抽取2个单位组成样本,求全部可能样本个数。
第二次抽取:
则所有可能的样本个数为:
— AB AC AD AE
BA — BC BD BE
CA CB — CD CE
DA DB DC — DE
EA EB EC ED —
(抽后不放回)
(N = 5 n = 2)
(1)n次抽样中,总体每个单位在各次抽样中被抽取的概率不相同
每个样本在各次抽样中被抽取的概率都相同
(2)可组成k = N(N-1) (N -2) ······ (N -n + 1)个样本,
不重复抽样的特点:
(即每次抽取不是独立的,条件不同)
(第1次是1/N,第2次是1/N-1, ··· );
(即均为1/k) 。
见前面重复抽样方法
第一次抽取:
.
.
又假设总体有A、B、C、D、E五个单位,现纯随机不重复抽取3个单位组成样本,求全部的可能样本个数。
第二次抽取:
则所有可能的样本个数为:
(抽后不放回)
(抽后不放回)
第三次抽取:
(四)抽样框(103~104页)
.
.
1.抽样框:
(五)概率抽样与非概率抽样(103页)
是指按照随机原则抽取样本单位。
1.概率抽样
即包括全部抽样单位的名单框架,它是实施抽样的基础。
2.抽样框的形式:
名单抽样框:
区域抽样框:
时间表抽样框:
即列出全部单位的名录一览表。
即按地理位置将总体范围划分为若干小的区域,以小区域为抽样单位。
即将总体全部单位按时间顺序排列,把总体的时间过程分为若干小的时间,以此时间单位为抽样单位。
包括名单抽样框、区域抽样框和时间表抽样框。
(随机抽样):
2.概率抽样
是指本单位的抽取样是非随机的。
(非随机抽样):
重点调查、典型调查、方便抽样就属于非随机抽样。
三、抽样估计的一般步骤 (第109~110页)
.
.
(一)设计抽样方案
(二)抽取样本单位
(三)搜集样本资料
(四)整理样本资料
(五)推断总体指标
第二节 抽样误差
一、抽样误差的概念
二、抽样平均误差
三、抽样极限误差
四、抽样误差的概率度
五、抽样估计的置信度
.
.
一、抽样误差的概念(第110页)
抽样误差即由于抽样的随机性而产生的样本指标与总体指标之间的代表性误差。
(可以计算)
(无法计算)
.
.
(或抽样误差是指由于抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起样本指标与总体指标之间的绝对离差。)
如,
抽样误差
抽样实际误差 .
抽样平均误差 .
见前面抽样估计过程图例
.
.
即是指每次抽样所得的样本指标与总体指标之间的离差。
即是指所有可能出现的样本指标与总体指标之间的平均离差,即所有可能出现的样本指标与总体指标的标准差。
注意抽样误差与调查误差的区别。
统计调查误差的种类
登记性误差
代表性误差
系统性误差
随机误差
(抽样误差)
抽样实际误差 :
抽样平均误差 :
对于一个特定的总体来说,它是固定的,而且可以计算。
它随着样本的不同而不同,是一个随机变量。
二、抽样平均误差(第114~117页)
(一)抽样平均误差的定义公式
(二)抽样平均误差的计算方法
(三)影响抽样(平均)误差的因素
.
.
(一)抽样平均误差的定义公式(第114页)
M :全部可能的样本个数
M :全部可能的样本个数
.
.
抽样平均误差是反映所有可能样本的实际抽样误差一般水平的指标,
见后面 的计算方法
见后面 的计算方法
1.样本平均数的抽样平均误差
2.样本成数的抽样平均误差
即所有可能出现的样本指标(统计量)与总体指标(总体参数)的标准差。
(二)抽样平均误差的计算方法 (第115页)
1.样本平均数的抽样平均误差
2.样本成数的抽样平均误差
.
.
1.样本平均数的抽样平均误差(第115页)
.
.
(1)重复抽样:
(2)不重复抽样:
注意:在实际计算抽样平均误差时,当总体标准差σ未知时,可以用样本标准差s来代替。即:
见前 定义公式
见前参数与统计量列表
见后表5-5
(大样本)
(小样本)
见后抽样极限误差
.
.
例5-3:现有A、B、C、D四个工人构成的总体,他们所生产某种产品的日产量分别为22、24、26、28件,若按重复抽样方法,从工人总体中随机抽取两个工人组成一个样本,用其样本平均日产量来估计总体平均日产量。
总体平均数为:
所有可能样本个数:
M = 4×4 = 16
22
24
26
28
22 23 24 25
23 24 25 26
24 25 26 27
25 26 27 28
22 24 26 28
样本
试计算样本平均工资的抽样平均误差。
(N = 5 n = 2)
总体标准差为:
在重复抽样条件下,所有可能的样本及样本平均日产量如表5-2
.
.
重复抽样的样本平均数及其离差(抽样误差)
—
合计
22
23
24
25
23
24
25
26
24
25
26
27
25
26
27
28
AA
AB
AC
AD
BA
BB
BC
BD
CA
CB
CC
CD
DA
DB
DC
DD
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
样本平均数
样本单位
样本序号
表5-2
400
离差
离差平方
0
-3
-2
-1
0
-2
-1
0
1
-1
0
1
2
0
1
2
3
9
4
1
0
4
1
0
1
1
0
1
4
0
1
4
9
40
.
.
样本平均数的抽样平均误差
(用定义公式计算)
(用计算公式计算)
结论:
第一,所有可能样本平均数的平均数等于总体平均数(第112页)
第二,样本平均数的标准差(抽样平均误差)仅为总体标准差σ的
即:
.
.
其所有可能样本及样本平均日产量如下:
在不重复抽样条件下,所有可能样本个数:M = 4×3 = 12
22
24
26
28
— 23 24 25
23 — 25 26
24 25 — 27
25 26 27 —
22 24 26 28
样本
重复抽样的样本平均数及其离差(抽样误差)
表5-3
—
合计
23
24
25
23
25
26
24
25
27
25
26
27
AB
AC
AD
BA
BC
BD
CA
CB
CD
DA
DB
DC
1
2
3
4
5
6
7
8
9
10
11
12
样本平均数
样本单位
样本序号
离差
0
-2
-1
0
-2
0
1
-1
0
2
0
1
2
300
离差平方
4
1
0
4
0
1
1
0
4
0
1
4
20
.
.
样本平均数的抽样平均误差
(用定义公式计算)
(用计算公式计算)
结论:
第一,所有可能样本平均数的平均数等于总体平均数,
第二,样本平均数的标准差(抽样平均误差)仅为总体标准差σ的
即:
(第116页)
2.样本成数的抽样平均误差(第115页)
.
.
见前面 的定义公式
由于总体成数可以表现为是非标志(0,1)分布的平均数,而且它的标准差也可以从总体成数推算出来,
因此,可以从样本平均数的抽样平均误差和总体标准差的关系推出样本成数的抽样平均误差的计算公式。
(1)重复抽样:
(2)不重复抽样:
见前面总体参数与样本统计量列表
注意:在实际计算抽样平均误差时,当总体成数P未知时,可用样本成数 p 来代替。即:
.
.
例5-4:要估计某高校10000名在校生的近视率,现随机从中抽取400名,检查有近视眼的学生320名,试计算样本近视率的抽样平均误差。
(1)在重复抽样条件下,
样本近视率的抽样平均误差为:
解:根据已知条件:
见前面总体参数和样本统计量列表
.
.
(1)在不重复抽样条件下,
样本近视率的抽样平均误差为:
计算结果表明,用样本的近视率来估计总体的近视率其抽样平均误差为2%左右(即用样本的近视率来估计总体的近视率其误差的绝对值平均说来在2%左右)。
(三)影响抽样(平均)误差的因素(第116~117页)
.
.
1.总体标准差σ(总体标志变异程度)。
2.样本单位数。
3.抽样方法。
4.抽样的组织方式。
例如:要使抽样误差减少为原来的一半,则样本容量将为原来的
4倍。
它与μ成正比例变化。
它与μ成反比例变化。
重复抽样的μ总是大于不重复抽样的μ。
抽样的组织方式不同,抽样误差也不同。
三、抽样极限误差(第117~118页)
是指在一定概率下抽样误差的可能范围。
.
.
抽样极限误差
(抽样极限误差):
或抽样极限误差是指在一定概率下样本指标与总体指标之间抽样误差可允许的范围。
见前面抽样估计过程图例
样本平均数的抽样极限误差
样本成数的抽样极限误差
即:
见后面区间估计的概念
抽样极限误差是从另外一个角度来考虑抽样误差的问题。
.
.
抽样极限误差是抽样误差的可能范围而非完全肯定的范围。故这个可能范围的大小,与可能性大小即概率是紧密联系的。
在用样本指标估计总体指标时,由于抽样实际误差无法计算,只能用抽样平均误差来反映抽样误差的大小。而某一次抽样的实际误差可能为正,也可能为负,其绝对值可能大于抽样平均误差,也可能小于抽样平均误差。
一般情况下我们只进行一次具体的抽样。
所以,我们不能只研究抽样平均误差,还必须研究某一次具体抽样的抽样误差的可能范围,即抽样极限误差。
见前面抽样估计过程图例
.
.
又如,要估计某高校10000名在校生的近视率,现随机从中抽取400名,计算的近视率为80%,如果确定允许误差范围为4%,试估计该高校在校生近视率所在的置信区间。
即该校学生近视率的区间将落在80%±4%的范围内,即在76%~84%之间。
粮食总产量在20000×(400±5)公斤,即在790~810万公斤之间。
例如,要估计某乡粮食亩产量和总产量,从该乡2万亩粮食作物中抽取400亩,求得其平均亩产量为400公斤。如果确定抽样极限误差为5公斤, 试估计该乡粮食亩产量和总产量所在的置信区间。
即该乡粮食亩产量的区间落在400±5公斤的范围内,即在395~405公斤之间。
四、抽样误差的概率度(第119页)
.
.
抽样估计时,基于概率估计要求,抽样极限误差
得相对数t,表示误差范围为抽样平均误差的t倍。
t是测量抽样估计可靠程度的一个参数,称为抽样误差的概率度,
通常需要以抽样平均误差
即临界值
.
.
如在上例,已知某乡粮食亩产量的标准差为σ=80公斤,总体单位数N =20000亩,样本单位数 n=400亩,求得其抽样平均误差为。
如果确定抽样极限误差为5公斤,则,我们可以用概率度:
表示抽样极限的误差范围,即用μx 来规定误差范围的大小。
五、抽样估计的置信度(第118页)
.
.
抽样估计的置信度是表明样本指标与总体指标的抽样极限误差的概率保证程度,它一般用 F(t)
总体平均数抽样估计的置信度:
总体成数抽样估计的置信度:
见后面总体平均数抽样估计的置信度图示
又称抽样估计的可靠程度。
.
.
如前所述:
从主观愿望上讲,我们当然希望样本指标的估计值都能够落在允许的误差范围内,但由于样本指标值随着样本的变动而变动,它本身是个随机变量,因而样本指标与总体指标的误差仍然是个随机变量,并不能保证误差不超过一定范围这件事是必然的,而只能给以一定程度的概率保证。
在进行抽样估计时,我们总是既希望抽样估计的误差尽可能小(即抽样估计的精度尽可能高),同时又希望抽样估计的把握程度(置信度)尽可能大。但事实上着两者往往是矛盾的。(见后面分析)
注意(第118页):
提高抽样估计的把
握程度,会增大允许
误差(使抽样估计精
度降低);
%
注意(第118页):
.
.
%
%
(置信区间)
(置信度)
F(t)是t的函数,是概率面积。
当 t = 1
当 t = 2
当 t = 3
见前面总体平均数抽样估计的置信度
缩小允许
误差(提高抽样估计精度),则会降低抽样估计的把握程度。
第三节 抽样估计的方法
一、总体参数的点估计
二、总体参数的区间估计
三、样本容量n的确定
.
.
一、总体参数的点估计(第122~124页)
.
.
(一)点估计的概念(第122页)
即直接用样本指标来估计总体指标。
(二)抽样估计的优良标准(第123页)
衡量一个样本统计量是否是总体参数的优良的估计量标准有无偏性 、一致性 和有效性 。
见后面抽样估计的三个优良标准
所谓抽样估计就是根据样本提供的信息即估计量(样本指标或统计量),对总体的某些数量特征(即总体参数)即进行估计或预测。
总体参数估计可分为点估计和区间估计两种。
如,
即指样本指标的均值应等于被估计总体指标(参数)。
.
.
即当样本容量n→∞时,估计量依概率收敛于总体参数的真值,即随着样本单位数n的增大,样本估计值将在概率意义下越来越接近于总体真实值,
3.一致性 。
即指作为优良的估计量,除满足无偏性外,其方差应比其它估计量的方差小,以保证估计量的取值能集中在被估计的总体参数的附近,对总体参数的推断更可靠。
2.有效性 。
1.无偏性 。
即用样本指标的平均数来估计总体指标是无偏的。
二、总体参数的区间估计 (第124~128页)
(一)区间估计的概念
(二)区间估计的方法
.
.
(一)区间估计的概念(第124页)
.
.
或在统计分析中,我们常常用一个区间及其出现的概率来估计总体参数。这种估计总体参数的方法称为区间估计。
区间估计就是根据样本估计量(样本指标)及抽样分布(即抽样极限误差),以一定的可靠程度(即概率)推断总体参数的可能范围。
这一概率保证程度称为置信度,这种估计区间称为置信区间。
例如:
见前面抽样极限误差
(二)区间估计的方法(第124~125页)
1.总体平均数及相应总量指标的区间估计
2.总体成数及相应总量指标的区间估计
3.总体方差的区间估计
.
.
1.总体平均数及相应总量指标的区间估计 (第125~126页)
.
.
估计值(样本指标)
抽样极限误差
置信度
(概率保证程度)
区间估计要素
总体平均数的置信区间:
总体标志总量的置信区间:
2.总体成数及相应总量指标的区间估计 (第126~127页)
.
.
总体平均数的置信区间:
与总体成数相应的总量指标的置信区间:
2.总体方差(标准差)的区间估计(第127~128页)
.
.
故总体方差 的置信度
为 的置信区间为:
见后总体合格率估计
.
.
例5-5:从某厂生产的5000只灯泡中,随机不重复抽取100只,对其使用寿命进行调查,调查结果如表5-5。
又该厂质量规定使用寿命在3000小时以下为不合格品。
表5-5
100
合 计
2
30
50
18
产品数量(只)
3000以下
3000 — 4000
4000 — 5000
5000以上
使用寿命(小时)
(1)按不重复抽样方法,以%的概率保证程度估计该批灯泡的平均使用寿命;
(2)按不重复抽样方法,以%的置信度估计该批灯泡的合格率。
见抽样平均误差计算方法
见后总体平均耐用时数估计
.
.
见前面例5-5
(1) ∵N = 5000 n = 100 F(t) = % t = 2
53440000
6771200
21168000
1280000
24220800
—
-1480
-840
160
1160
434000
5000
105000
225000
99000
100
2
30
50
18
产量
—
合 计
2500
3500
4500
5500
组中值
3000以下
3000 — 4000
4000 — 5000
5000以上
使用寿命(小时)
解:
总体平均寿命所在的置信区间为:
上限:
下限:
即可以%的概率估计该批灯泡平均使用寿命在~小时之间。
.
.
样本合格率:
(2) .∵ n1 = 98 n = 100 F(t) = % t = 1
样本合格率的抽样平均误差:
总体合格率所在的置信区间为:
上限:
下限:
即可以%的概率保证程度估计该批灯泡的合格率%
~%之间。
见前面例5-5
.
.
例5-6:对某批成品按不重复抽样方法抽选200件检查,其中废品8件,又知样本容量为成品总量的(1/20)。以95%的把握程度估计该批成品的废品率范围。
解:
N = 4000 n = 200 n1 = 8 F(t) = 95% t =
总体成数所在区间的上下限为:
上限:
下限:
即可以95%的把握程度估计该批成品的废品率范围在%~%之间。
三、样本容量n的确定(第177页)
.
.
1.重复抽样的必要样本容量
2.不重复抽样的必要样本容量
.
.
即应抽取625户家庭进行调查。
注意:小数只入不舍,对同一总体进行多项调查时,选n最大者以满足共同需要。
例5-7 某市开展职工家计调查,根据历史资料该市职工家庭平均每人年收入的标准差为250元,而家庭消费的恩格尔系数(即家庭食品支出占消费总支出的比重)为65% 。现在用重复抽样的方法,要求%的概率保证下,平均收入的极限误差不超过20元,恩格尔格系数的极限误差不超过4%,求必要的样本单位数。
解:
t = 2
第四节 抽样的组织方式
一、简单随机抽样
二、类型抽样
三、等距抽样
四、整群抽样
五、多阶段抽样
.
.
一、简单随机抽样
(一)简单随机抽样的概念
(二)简单随机的方法
(三)简单随机抽样的平均误差
.
.
(一)简单随机抽样的概念
.
.
简单随机抽样是不对总体作任何加工整理,直接从总体中随机抽取调查单位的抽样调查方法。简单随机抽样是抽样中最基本的方式,它适用于均匀总体。
(二)简单随机的方法
最基本的方法是抽签法和随机数字表法。
适用于单位数较少的总体。
1.抽签法。
适用于大规模的社会经济调查中,单位数目很大的总体。
2.随机数表法。
(三)简单随机抽样的平均误差
.
.
1.重复抽样。
2.不重复抽样。
二、类型抽样(133~134页)
(一)类型抽样的概念
(二)类型抽样的优点
(三)类型抽样的方法
(四)类型抽样的平均误差
.
.
(一)分层抽样的概念(第132页)
.
.
分层抽样又称类型抽样或分类抽样。它是按与研究目的有关的某个主要标志将总体单位划分为若干层(也称类、组或子总体),然后从各层中按随机原则分别抽取一定数目的单位构成样本。
样本平均数:
见后面类型抽样例5-9
分层抽样是应用于总体内各单位在被研究标志上有明显差别或差别悬殊的总体的抽样。
(二)分层抽样的优点
.
.
1.它提高了样本代表性;
2.降低了影响抽样平均误差的总体方差。
它分为等比例抽样和不等比例抽样。
(三)分层抽样的方法
(四)分层抽样的平均误差(第133页)
.
.
重复抽样的平均误差:
不重复抽样的平均误差:
.
.
例5-9 某乡某种粮食播种面积20000亩,按平原和山区面积等比例抽取400亩组成样本,各组平均亩产和各组方差如下表,求抽样平均亩产和抽样平均误差,并以95%的概率估计该乡全部播种面积平均亩产的置信区间。类型抽样平均误差计算表如下:
11236
497
400
20000
合计
22500
350
120
6000
山区
6400
560
280
14000
平原
亩产方差 (公斤)
样本平均亩产产(公斤)
抽样面积(亩)
播种面积(亩)
类型
解:
见前面类型抽样的概念
N = N1 + N2
n = n1 + n2
20000 = 14000 + 6000
400 = 280 + 120
.
.
即可以95%的概率保证该乡农作物的平均亩产在公斤至公斤之间。
三、等距抽样(第134~137页)
(一)等距抽样的概念
(二)等距抽样的平均误差
.
.
(一)等距抽样的概念(第134页)
• • • • • • • • • • • • • • • • • • • •
.
.
等距抽样又称机械抽样或系统抽样,它是先将总体单位按某一标志排队,计算出抽样间隔,并在第一个抽样间隔内确定一个抽样起点,再按固定的顺序和相同的间隔来抽选样本单位。
等距抽样可分为无关标志排序抽样和有关标志排序抽样两类。
例如:N = 20 n = 4
.
.
无关标志抽样。
是指排序的标志与研究的标志无关。如:观察学生考试成绩,用姓氏笔划排序;观察产品的质量,按生产的先后顺序等。它实质上相当于简单随机抽样。
有关标志抽样。
是指排序的标志与被研究标志相关。如:农产品产量调查时,将地块按过去连续几年的亩产排序;家庭消费水平调查中,按收入额排序等。
(二)等距抽样的平均误差
.
.
等距抽样均为不重复抽样,其平均误差的计算可分为两类:
按无关标志排序时,
按简单随机不重复抽样平均误差公式计算。
按有关标志排序时,
按类型抽样的平均误差公式计算。
例如5-10年终在某储蓄所按定期储蓄存款进行每隔5户的等距抽样,得到如下资料。试以%的概率估计平均定期存款的范围。
484
14
62
200
150
58
户数(户)
合计
800以上
500-800
300-500
100-300
1-100
定期存款 (元)
.
.
484
14
62
200
150
58
户数(户)
合计
800以上
500-800
300-500
100-300
1-100
定期存款 (元)
解:
平均定期存款在~元之间,可靠程度为%。
四、整群抽样(第137~140页)
(一)整群抽样的概念
(二)整群抽样的推断方法
.
.
(一)整群抽样的概念(第137页)
.
.
整群抽样也称分群抽样或集团抽样,它是将总体全部单位分为若干部分(每一部分称为一个群,简称群),然后以群为单位从中随机抽取部分群。对中选群中的所有单位进行全面调查的抽样组织方式。
100
100
100
100
100
100
100
N = 1000
R = 10(群)
r = 3(群)
100
100
100
(二)整群抽样的抽样平均误差(第138页)
.
.
设总体中的全部单位划为 R 群,每群中所包含单位数为m,现从群中随机抽取 r 群组成样本。则,
各群的样本平均数:
全样本平均数:
整群抽样一般为不重复抽样,其抽样误差为:
样本群间方差:
五、多阶段抽样
.
.
将总体进行多层次分组,然后依次在各层中随机抽组,直到抽到总体单位,叫多阶段抽样。
实际中当总体单位很多、且分布广泛、几乎不可能从总体中直接抽取总体单位时,常采用多阶段抽样。
如:我国农产量调查就是采用多阶段抽样调查,即先从省中抽县,然后从中选的县抽乡,乡中抽村,再由中选的村中抽地块,最后从中选的地块中抽取小面积的样本单位。
.
.
一般在初级阶段抽样时多用分层抽样和等距抽样,在次级阶段抽样时多用等距抽样和简单随机抽样。同时,还可根据各阶段不同特点,采用不同的抽样比。如方差大的阶段,抽样比大一些,方差小的阶段,抽样比小一些。而且多阶抽样在简化抽样工作同时,抽样单位的分布较广,具有较强的代表性。
多阶段抽样的平均误差计算比较复杂(略) 。
本章小结
第一节 抽样估计的一般问题
一、抽样估计的意义和特点
(一)抽样估计的概念
(二)抽样估计的特点(见抽样调查的特点)
1.抽样推断的目的是根据样本指标来推断
总体指标
2.抽样调查是按随机原则抽取样本单位
3.抽样推断误差可以事先计算并加以控制
4.抽样推断是运用概率估计的方法,使抽
样推断的结果具有一定的可靠程度
.
.
(三)抽样推断的作用
1.对不可能或不必要进行全面调查的场合,
可采用抽样推断的方法
2.抽样调查和全面调查相结合,可以验证
和补充修正全面调查的资料数据
3.它可以对生产过程中产品质量的进行检
查和控制
4.它可以总体的某些假设进行检验,以判
断这种假设的真伪,决定行动的取舍
二、有关抽样估计的几个基本概念
(一)总体与总体指标
1.总体 2.总体指标
.
.
(二)样本与样本指标
1.样本 2.样本指标
(三)抽样的方法
1.重复抽样 2.不重复抽样
(四)抽样框
(五)概率抽样与非概率抽样
1.概率抽样 2.概率抽样
三、抽样估计的一般步骤
(一)设计抽样方案
(二)抽取样本单位
(三)搜集样本资料
(四)整理样本资料
.
.
一、抽样误差的概念
(一)抽样实际误差(不能计算)
(二)抽样实际误差(可以计算)
注意登记性误差与代表性误差的区别
二、抽样平均误差
(一)抽样平均误差的定义公式
1.样本平均数的抽样平均误差
2.样本成数的抽样平均误差
(二)抽样平均误差的计算方法
1.样本平均数的抽样平均误差
第二节 抽样误差
(五)推断总体指标
.
.
分重复抽样和不重复抽样
2.样本成数的抽样平均误差
分重复抽样和不重复抽样
(三)影响抽样(平均)误差的因素
1.总体标准差
2.样本单位数 3.抽样方法
4.抽样的组织形式
三、抽样极限误差
样本平均数的抽样极限误差
样本成数的抽样极限误差
四、抽样误差的概率度
五、抽样估计的置信度
.
.
提高抽样估计的把握程度,会增大允许误差(使抽样估计精度降低);缩小允许
误差(提高抽样估计精度),则会降低抽样估计的把握程度。
第三节 抽样估计的方法
一、总体参数的点估计
(一)点估计的概念
(二)抽样估计的优良标准
1.无偏性 2.一致性 3.有效性
二、总体参数的区间估计
(一)区间估计的概念
.
.
区间估计的三要素
1. 估计值(样本指标)
2. 抽样极限误差
3. 置信度
(二)区间估计的方法
1.总体平均数及相应总量指标的区间估计
2.总体成数及相应总量指标的区间估计
3.总体方差的区间估计
三、样本容量n的确定
(一)重复抽样的必要样本容量
(二)不重复抽样的必要样本容量
.
.
一、简单随机抽样
(一)简单随机抽样的概念
(二)简单随机抽样的方法
最基本的方法是抽签法和随机数字表法
(三)简单随机抽样的平均误差
二、类型抽样
(一)类型抽样的概念和优点
(二)类型抽样的方法
(等比例抽样和不等比例抽样)
(三)类型抽样的平均误差
.
.
第四节 抽样的组织方式
重复抽样与不重复抽样的平均误差
三、等距抽样
(一)等距抽样的概念
(二)无关标志抽样与有关标志抽样
(三)等距抽样的平均误差
四、整群抽样也叫分群抽样或集团抽样,
(一)整群抽样的概念
(二)整群抽样的推断
五、多阶段抽样(略)
.
.
本章思考与练习题
一、思考题(简答题)
二、单项选择题
三、多项选择题
四、填空题
五、计算题
.
.
一、思考题
1.什么是抽样推断?它有哪些特点和作用?
2.重复抽样和不重复抽样有哪些不同点?为什么重复抽样的误差总是大于不重复抽样的抽样误差?
3.什么是抽样平均误差?
4.影响抽样误差的因素有哪些?
5.什么是抽样极限误差?什么是抽样误差的概率度?
.
.
6.什么是置信度?什么是抽样估计的准确性?他们之间有什么关系?
7.抽样估计的三要素是什么?抽样估计的优良性标准是什么?
8.影响样本容量的因素有哪些?
.
.
二、单项选择题(在每小题的四个备选答案中选出一个正确的答案,并将正确答案的号码填在题干后的括号内)
1.用简单随机抽样方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需要提高到原来的( )。
A、4倍 B、5倍 C 2倍 D、3倍
2.抽样平均误差反映了样本指标与总体指标之间的( )
A、实际误差 B、实际误差的绝对值 C、平均误差程度 D、可能误差范围
.
.
3、在其他条件不变的情况下,提高抽样估计的可靠程度,其抽样估计的准确性将( )
A、保持不变 B、随之扩大
C、随之缩小 D、无法确定
A、重置抽样 B、机械抽样
C、不重置抽样 D、分类抽样
4、从总体中随机抽取样本,当抽出一个单位将其序号和标志值记下后,又将其放回到原来的总体中。此抽样方法称为( )
.
.
三、多项选择题(从每小题的五个备选答案中选出二至五个正确答案,并将正确答案的号码分别填写在题干后的括号内)
1、影响抽样误差的因素有
( )( )( )( )( )
A、是有限总体还是无限总体
B、是变量总体还是属性总体
C、是重复抽样还是不重复抽样
D、抽样单位数的多少
E、总体被研究标志的变异程度
.
.
2、在其他条件不变时,抽样极限误差的大小和
置信度的关系是( )( )( )( )( )
A、抽样极限误差的数值愈大,则置信度愈大 B、抽样极限误差的数值愈小,则置信度愈小 C、抽样极限误差的数值愈小,则置信度愈大 D、成正比关系 E、成反比关系
3、抽样法可应用在( )( )( )( )( )
A、对抽选的单位进行全面调查 B、对电视机使用寿命的检查 C、对产品的质量进行控制 D、对有破坏性产品的质量检验 E、对全面调查的结果进行修正
.
.
4、从一个总体中可以抽出许多个样本,因此,
( )( )( )( )( )
A、抽样指标的数值不是唯一确定的
B、抽样指标是用来估计总体参数的
C、总体指标是一个随机变量 D、样本指标是随机变量
E、样本指标称为统计量
5、在抽样推断中,样本单位数的多少取决于
( )( )( )( )( )
A、总体标准差的大小 B、允许误差的大小
C、抽样估计的把握程度 D、总体参数的大小
E、抽样方法和组织形式
.
.
四、填空题
1.根据取样的方式不同,抽样方法______和_____两种。
2.扩大或缩小抽样误差的倍数称________。
3.抽样误差是由于抽样的________而产生的误差,这种误差不可避免,但可以______。
4.用样本指标估计总体指标时,判断估计的优良标准是 _________、_________和_________。
.
.
5.总体参数的区间估计必须同时具备_____、_______和_______三个要素。
6.在统计调查的的误差中,按照误差的来源不同,一般可分为_______误差和_______误差两种。
7.常用的抽样组织形式有_______、________、________和_________。
.
.
五、计算题
1.高校有5000学生,随机抽取250人调查每周收看电视的时间,资料如下:
250
20
60
92
56
22
学生人数(人)
合计
8-10
6-8
4-6
2-4
2以下
每周看电视时间(小时)
试按不重复抽样方法,以%的把握程度估计该校全部学生每周平均看电视的时间。
2.某地区随机重复抽选100户农民,经调查有36户拥有彩色电视机,又知道抽样户是总户数的千分之一。当把握程度为%时,试估计该地区农民拥有彩色电视机的户数的范围。
.
.
3.对一批成品按不重复抽样方法抽选200件,其中废品8件,又知道抽样单位数是成品量的1/20。当概率为时,可否认为这一批产品的废品率不超过5%?
4.某单位按重复抽样方法抽取40名职工,对其业务考试成绩进行检查,资料如下:
68 89 88 84 86 87 75 73 72 68 75 82 99 58 81 54 79 76 95 76 71 60 91 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 87
.
.
要求:
(1)将上述资料按成绩分成以下几组:60分以下、 60~70分;70~80分、80~90分、90~100分。并根据分组整理成变量分配数列;
(2)根据分组整理后的变量分配数列,以%的概率推断全体职工业务考试成绩的区间范围;
(3)若其他条件不变,将允许误差缩小一半,应抽取多少名职工?
.
.
5.某市进行职工家计调查,据以往资料知该市职工家庭平均每人年收入的标准差为300元,而家庭消费的恩格尔系数(即食品支出占消费总支出的比重为52%。要求在置信度为%的条件下,且人均年收入的极限误差不超过30元,恩格尔系数的极限误差不超过5%,试计算必要的样本单位数。
.
.
本章学习目的
通过本章的学习要求掌握抽样推断的基本概念和一般原理,抽样误差的形成,计算抽样误差及如何估计总体的平均指标和成数指标。
.
.
本章重点、难点
重点:有关抽样推断的基本概念,抽样误差概念的理解、抽样平均误差的计算及影响因素,总体平均数和总体成数的区间估计的方法、必要样本容量的确定。
难点:抽样平均误差的计算、区间估计的方法及样本容量的确定。抽样极限误差、概率度、置信度等指标之间的关系。
.
.
本章参考资料
1.社会经济统计学原理教科书》编写组编写,第八章,中国统计出版社出版。
⒉庞皓主编《统计学》第五章,西南财经大学出版社出版(“211”工程规划教材)。
⒊杨曾武主编《社会经济统计学原理》第七章,天津科学技术出版社出版。
⒋郭立田、赵长城主编《基础统计学教程》第五章,新华出版社出版。
⒌ 范巧研、鲁勇兵主编《统计学原理》第七章,天津科技出版社出版。
.
.
第六章 相关与回归 分析
统 计 学
(多媒体教学课件)
.
.
本章相关内容
.
.
本章教学内容
本章小结
本章思考与练习题
本章学习目的
本章重点、难点
本章参考资料
本章教学内容(6学时)
.
.
第一节 相关分析
第二节 一元线性回归分析
第三节 多元线性回归分析
第一节 相关分析
一、相关关系的概念和种类
二、相关分析的方法
三、相关系数
四、相关分析的特点
.
.
一、相关关系的概念和种类 (第186~188页)
(一)相关关系的概念
(二)相关关系的种类
.
.
(一)相关关系的概念(187页)
.
.
在自然界和社会现象中,客观现象之间的数量关系其通常有两种类型,即:
现象之间的数量关系
函数关系
相关关系
是指现象(变量)之间是一种严格的确定性的数量依存关系。
在这种关系中。当一个或若干个现象(自变量)的数量确定时(即取一定值时),另一个与之有联系的现象(因变量)按照一定规律,总有唯一的值与之相对应,并且用一个数学表达式反映出来。
如:圆面积与半径的关系。
见后面相关关系的概念
(相关分析的对象)
函数关系:
相关关系 :
.
.
是指客观现象(变量)之间确实存在的,但数量上不是严格对应的依存关系。
例如:消费支出与消费收入的关系,学习成绩与学习时间的关系等。
在这种关系中。当一个或若干个现象(自变量)取一定值时,另一个与之有联系的现象(因变量)并不是只有唯一确定的 值与之对应,而是有多个不同的值与之对应。
消费支出 消费收入
学习成绩 学习时间
y
x
y
x
y1 = 150
y2 = 250
y3 = 300
x1 = 200
y2 = 59
y1 = 80
…
yn = 75
x1 = 15
见前面函数关系
.
.
相关分析是研究一个变量(y)与另一个变量(x)或另一组变量(x1 , x2 ,…, x k) 之间 相关方向和相关密切程度的一种统计分析方法。
在相关分析中,若相关现象之间存在着一定的因果关系,通常把起决定作用的变量叫自变量,一般用x表示,把受自变量影响而相应变化的变量作为因变量,一般用y表示。
见后面相关分析的方法
如学习成绩与学习时间之间的关系中,学习时间为自变量(x),学习成绩为因变量(y)。
注意:具有相关关系的现象并不是都表现为因果关系,如人的身高与体重之间的关系、商品的供求和价格之间的关系等。
.
.
相关分析按变量是否是随机变量,可分为固定相关分析和随机相关分析。前者是研究一个随机变量与另一个或另一组非随机变量(可控变量)之间的相关关系。后者是研究一个随机变量与另一个或另一组随机变量之间相关关系。
注意:函数关系与相关关系的区别和联系。
(二)相关关系的种类(第188页)
曲线相关(非线性相关)
.
.
相关关系种类
单相关(一元相关)
复相关(多元相关)
直线相关(线性相关)
正相关
负相关
完全相关(函数关系)
不完全相关
不相关
见后种类(四)
1.按相关关系涉 及的变量多少 .
2.按相关的形式 .
3.按相关的方向
(直线相关) .
4.按相关的程度 .
见后相关(三)
见后种类(二)
见后面相关种类(一)
1.按相关的因素多少可分为单相关和复相关
.
.
单相关(一元相关):
是指两个变量之间的相关关系,
复相关(多元相关):
指三个或三个以上变量之间的相关关系。
例如,研究消费支出与消费收入的相关关系,就属于单相关;而研究亩产量对施肥量、浇水量的相关关系,就属于复相关。
见前面相关关系的种类
即一个自变量与一个因变量之间的相关关系。
即一个因变量与多个自变量之间的相关关系。
2.按相关的形式可分为直线相关和曲线相关
.
.
直线相关
是指当一个变量变动时,另一个变量随之发生大致均等的变动,从图形上看,其观察点的分布近似表现为一条直线。
曲线相关
是指当一个变量变动时,另一个变量也随之发生变动,但这种变动不是均等的,从图形上看,其观察点的分布近似表现为一条曲线。
亩产量
施肥量
● ●
● ● ●
● ●
● ●
●
● ●
● ●
●
●
●
● ● ●
● ●
● ● ●
● ●
●
● ●
● ●
● ● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ●●
● ● ● ●
● ● ● ● ●
● ●
●
● ● ● ●
●●
● ● ●
● ●
● ● ● ● ● ●
● ●
● ●
● ● ● ● ● ● ● ●
● ● ● ● ●
见前面相关关系的种类
见后面相关分析的方法
(线性相关):
(非线性相关):
3.按相关的方向可分为正相关和负相关
.
.
正相关:
当一个变量(x)数值增加(或减少)时,另一个变量(y)的数值也随之增加(或减少),这种相关关系称为正相关。
如随着劳动生产率的提高,产品产量也随之增加。
负相关:
当一个变量(x)数值增加(或减少)时,另一个变量(y)的数值反而减少(或增加),这种相关关系称为负相关。
如商品流转额越大,商品流通费用率越低;又如在一定条件下,随着产量的增加。单位产品成本则下降。
见前面相关关系的种类
4.按相关程度分为完全相关、不完全相关和不相关
.
.
完全相关:
两个变量之间,当自变量改变一定量时,因变量的改变量是一个确定的量,则这两个变量间的关系称为完全相关,此种关系实际上就是函数关系。
不相关:
当变量之间没有任何关系,而是各自独立,互不影响,则称为不相关(零相关)。
不完全相关:
若变量之间的关系介于完全相关与不相关之间,则称为不完全相关。它是相关分析的对象。
见前面相关关系的种类
二、相关分析的方法(191页)
.
.
相关分析的方法
(二) 相关图(第190页)
(一) 相关表(第189页)
(三) 相关系数
见前面相关分析的概念
见前面相关图
见后面相关表
三、相关系数(第190~193页)
(一)相关系数的概念和计算公式
(二)相关系数的取值范围和性质
.
.
见后面样本相关系数
(一)相关系数的概念和计算公式(第190~191页)
.
.
相关系数是用以反映两个变量之间线性相关关系密切程度的统计指标。
(注意:将反映两变量间曲线相关关系的指标称为非线性相关系数;将反映多元线性相关关系的指标称为复相关系数)
总体相关系数:
注意:总体相关系数一般不容易测定,通常只能计算样本相关系数,并用以估计总体相关系数。
见后面总体相关系数推导
见后面样本相关系数
相关系数有总体相关系数和样本相关系数 两种。
.
.
见前面总体相关系数
见后面样本相关系数
.
.
样本相关系数
见前面相关系数
见前面总体相关系数
见后面表6-1(样本)相关系数计算
.
.
见前面样本相关系数
.
.
见前面样本相关系数
(二)相关系数的取值范围和性质(第191页)
.
.
-1≤r≤+1
.
.
.
.
某企业某产品产量与单位成本资料如下:
表6-1(见后表6-1 ).
73
72
71
73
69
68
单位成本(元/件)
2
3
4
3
4
5
产量(千件)
1
2
3
4
5
6
月份
(1)计算相关系数,说明产量与单位成本相关关系的密切程度 。
(2)配合单位成本倚产量的直线回归方程,并解释参数a、b 的经济含义。
(3)当产量为6000件时。试问单位成本为多少元?
(4)计算估计标准误。
见后面产量与单位成本相关系数计算
见前面(样本)相关系数公式
.
.
73
72
71
73
69
68
单位成本(元/件)
2
3
4
3
4
5
产量 (千件)
1
2
3
4
5
6
月份
合计
21
426
4 9 16 9 16 25
5329 5184 5041 5329 4761 4624
146 216 284 219 276 340
30268
79
1481
即:产量与单位成本之间存在着高度负相关。
见后面产量与单位成本回归方程建立
见前面表6-1资料
解:
见前面相关分析方法
四、(直线)相关分析的特点
1.用于相关分析的两个变量是对等的关系,它不分自变量和因变量。
2.用于相关分析的两个变量均为随机变量,
3.相关系数只有一个,
4.相关系数r的取值范围在-1到+1之间。当r大于0时,为正相关,r小于0时为负相关。
.
.
注意:
相关分析
(一)狭义的相关分析
(二)广义的相关分析 .
(相关关系分析)
狭义的相关分析。简称为相关关系分析,
它以现象之间是否相关、相关的方向和相关密切程度等为主要研究内容,它不区别自变量与因变量,对各变量的构成形式也不关心。其主要分析方法有:编制相关表、绘制相关图、计算相关系数。
.
.
相关关系分析
回归分析
(二)广义的相关分析 .
广义的相关分析除包括相关关系分析外,还包括对现象间具体的相关形式的分析,即回归分析。
在回归分析中根据研究的目的,应区分出自变量和因变量,并研究确定自变量和因变量之间的具体关系的方程形式。其主要方法有:建立回归模型、求解回归模型中的参数、对回归模型进行检验等。可见,广义的相关分析包括狭义的相关分析和回归分析两部分内容,也就是本章讲解的主要内容。
.
.
第二节 一元线性回归分析
一、回归分析的概念和种类
二、一元线性回归方程的确定
三、一元线性回归分析的特点
四、回归估计标准差
.
.
一、回归分析的概念和种类 (第194~195页)
(一)回归分析的概念
(二)回归分析的种类
.
.
(一)回归分析的概念(第194页)
.
.
回归分析就是对具有相关关系的多个变量之间的数量变化进行数量测定,配合一定的数学方程(模型),以便由自变量的数值对因变量的可能值进行估计或预测的一种统计方法。
相关分析(相关系数)能够确定变量之间相关方向和相关的密切程度,但它不能指出两个变量之间相互关系的具体形式,也无法从一个变量的数量变化来推测另一个变量的变化情况。
另外,在相关分析中,一般不区分自变量和因变量,它不能说明两个变量是主从关系还是因果关系。
(二)回归分析的种类(第196页)
.
.
回归分析种类
按照回归线的形状
按自变量的个数
多元回归
一元回归
非线性(曲线)回归
线性(直线)回归
根据回归分析的方法,得出的数学表达式称为回归方程(回归模型)它有多种形式,可以是直线方程,也可以是曲线方程。
用回归方程来表明两个变量之间线性相互关系的方程式,称为一元线性回归方程(模型)。这种分析方法称为一元线性回归分析。
.
.
注意:许多现象的非线性变化在较短时间内也近似于线性变化,所以一元线性回归分析是回归分析的基本方法。
二、一元线性回归方程的确定(第195~197页)
.
.
当两个变量呈完全线性相关时,其直线方程为:
不完全线性相关时,直线方程为:
第一式中,X:总体的自变量(非随机变量);
Y:总体因变量(随机变量);A、B是模型的参数;
ε:随机误差,即所有未被考虑因素所形成的总误差。
●
●
●
●
●
●
● ●
● ● ●
● ●
● ●
●
● ●
● ● ●
● ●
● ● ●
●
● ●
(第一式)
(第二式)
见后面简单线性回归方程(样本)
第二式中,E(Y) 是Y的数学期望值,即当自变量X给一确定值
时因变量Y平均与X对应的值。即;
(总体)
.
.
故一元线性回归方程(样本)为:
(样本)
一元线性回归方程(样本):
它表示自变量x每变动一个单位时,因变量y平均变动的数值。
.
.
a:直线起点值,数学上称为直线的纵轴截距;
b:回归系数。
见前面简单线性回归方程(总体)
式中:
(根据“最小平方法”原理)
简单线性回归分析的任务就是 如何根据实际资料(样本资料), 来确定待定参数a、b,即从各个相关点中配合一条合适的直线,使其能代表相关点的变动趋势(即用其表明两变量x与y在线性相关条件下的具体变动关系)。
● ●
● ● ●
● ● ●
● ●
● ●
● ●
● ● ●
● ●
● ● ●
●
● ●
数学证明,符合“离差平方和最小”的直线是最合适的。这种决定直线方程的方法,称为最小二乘法(最小平方法)。
a、b计算及推导过程如下:
.
.
.
.
根据“离差平方和最小”的原则,回归方程中的参数a、b 应满足下列条件:
根据微分学求极值的原理,分别对a、b 求偏导数,并令其等于零。
整理上式可得如下方程组:
.
.
根据方程组可解得:
.
.
见前面产量与单位成本相关系数计算
见后面产量与单位成本回归方程建立
73
72
71
73
69
68
单位成本(元/件)
2
3
4
3
4
5
产量(千件)
1
2
3
4
5
6
月份
(1)计算相关系数,说明产量与单位成本相关关系的密切程度 。
(2)配合单位成本倚产量的直线回归方程,并解释参数a、b的经济含义 。
(3)当产量为6000件时。试问单位成本为多少元 ?
(4)计算估计标准误 。
某企业某产品产量与单位成本资料如下:
表6-1(见前表6-1 ).
.
.
解:
(2)配合单位成本倚产量的直线回归方程为:
见前面表6-1产量与单位成本资料
见前面产量与单位成本相关系数计算
73
72
71
73
69
68
单位成本(元/件)
2
3
4
3
4
5
产量 (千件)
1
2
3
4
5
6
月份
合计
21
426
4 9 16 9 16 25
5329 5184 5041 5329 4761 4624
146 216 284 219 276 340
30268
79
1481
.
.
配合单位成本倚产量的直线回归方程为:
a:直线的起点值,
b:回归系数。
它表示当产量每增加1000件时,单位成本平均降低元/件
(3)当产量为6000件时。则问单位成本为:
见前面表6-1产量与单位成本资料
(元/件)
三、一元线性回归分析的特点
.
.
1.用于回归分析的两个变量不是对等的关系,必须依据研究目的,确定哪个是自变量x,哪个是因变量y。
2.用于回归分析的两个变量中,自变量x是给定的数值(即它是非随机变量),因变量y是随机变量。
3.回归分析的作用在于给出自变量x的数值来估计因变量y的可能值,
.
.
4.对于没有明显因果关系的两个变量x与y,可 求出两个回归方程,计算出两个回归系数。
5.直线回归方程的回归系数有正负号,说明变量变动的方向。
所以,一个回归方程只能作一种推算,即由自变量x推算因变量y,而不能由因变量y推算自变量x(即不能回归方程逆推)。推算的结果表明两个变量之间的因果对应关系。
四、回归估计标准差(第197~198页)
.
.
回归方程的一个重要作用在于根据自变量x的数值来推算因变量y的可能值(理论值),
回归估计标准差是衡量因变量y的实际值和估计值离差一般水平的分析指标。
sy的大小与回归方程代表性大小成反比例变化。
.
.
426
21
合计
73
72
71
73
69
68
单位成本
(元/件) y
2
3
4
3
4
5
产量
(千件) x
1
2
3
4
5
6
月份
解(4)
—
—
见前面表6-1产量与单位成本资料
本章小结
.
.
第一节 相关分析
一、相关分析的概念和种类
(一)相关关系的概念
1.函数关系 2.相关关系
(二)相关分析的种类
1.按相关的因素多少可分为单相关和复相关
2.按相关的形式可分为线性相关和曲线相关
3.按相关的方向可把直线相关分为正相关和
负相关
.
.
4.相关程度可分为完全相关、不完全相关和
不相关
二、相关分析的方法
(一) 相关图
(二) 相关表
(三) 相关系数
三、相关系数
(一)相关系数的概念和计算公式
(二)相关系数的取值范围和性质
四、(直线)相关分析的特点
1.相关分析的两个变量是对等的关系,它不
分自变量和因变量
.
.
2.用于相关分析的两个变量均为随机变量
3.相关系数只有一个
4.相关系数r的取值范围在-1到+1之间。当
r大于零时,为正相关,小于零时为负相关。
第二节 一元线性回归方程
一、回归分析的概念
二、一元线性回归方程的确定
直线回归方程中的参数a和b的几何及经济
含义
参数a和b的求解方法。
.
.
三、回归分析的特点
1.用于回归分析的两个变量不是对等的关系
,必须依据研究目的, 确定哪个是自变量x
,哪个是因变量y
2.用于回归分析的两个变量中,自变量x是
给定的数值(即它是非随机变量),因变量
y是随机变量
3.回归分析的作用在于给出自变量x的数值
来估计因变量y的可能值,
.
.
所以,一个回归方程只能作一种推算,即由自变量x推算因变量y,而不能由因变量y推算自变量x(即不能回归方程逆推)。推算的结果表明两个变量之间的因果对应关系。
4.对于没有明显因果关系的两个变量x与y,可求出两个回归方程,计算出两个回归系数。
5.直线回归方程的回归系数有正负号,说明变量变动的方向。
四、估计标准误
估计标准误的大小与回归方程的代表性大小成反比例变化。
本章思考与练习题
一、思考题(简答题)
二、单项选择题
三、多项选择题
四、填空题
五、计算题
.
.
.
.
一、思考题
1.什么是相关关系?它与函数关系有何区别和联系?
2.相关关系的种类有哪些?
3.简述相关系数的概念及其取值范围。
4.简单直线相关分析有什么特点?
5.与相关分析比较,回归分析有哪些特点?
6.回归直线方程中的参数a和b的几何及经济含义是什么?
7.简述相关分析和回归分析的区别和联系。
8.什么是估计标准误?它有哪些作用?
.
.
二、单项选择题(在每小题的四个备选答案中选出一个正确的答案,并将正确答案的号码填在题干后的括号内)
.
.
A、研究变量之间的变动关系 B、研究变量之间的数量关系
C、研究变量之间相互关系的密切程度 D、研究变量之间的因果关系
A、单相关 B、复相关
C、正相关 D、负相关
2.两个变量之间的相关关系叫( )
1、相关分析是( )
.
.
3.相关分析对资料的要求是( )
A、两变量均是随机变量
B、两变量均不是随机的
C、自变量是随机的,因变量不是随机的
D、两变量均不是随机的
4.相关系数的取值范围是 ( )
A、0≤r≤1 B、-1<r<1
C、-1≤r≤1 D、-1≤r≤0
.
.
5、每一吨铸铁成本(元)倚铸件废品率 (%)变动的回归方程为: y c = 56 + 8 x ,这意味着( )
A、废品率每增加1%,成本每吨增加64元
B、废品率每增加1%,成本每吨增加8% C、废品率每增加1%,成本每吨增加8元 D、如果废品率增加1%,则每吨成本增加56元
三、多项选择题(从每小题的五个备选答案中选出二至五个正确答案,并将正确答案的号码分别填写在题干后的括号内)
.
.
1、相关分析中的负相关是指
( )( )( )( )( )
A、自变量数值增加,因变量数值也增加
B、自变量数值增加,因变量数值相应减少
C、自变量数值减少,因变量数值也减少
D、自变量数值减少,因变量数值相应增加
E、自变量数值增加,因变量数值不变
.
.
2、配合回归方程对资料的要求是
( )( )( )( )( )
A、因变量是给定的数值,自变量是随机的
B、自变量是给定的数值,因变量是随机的 C、自变量和因变量都是随机的
D、自变量和因变量不是对等的关系 E、确定两个变量之间的相关程度
.
.
3、下列断语中正确的有
( )( )( )( )( )
A、具有明显因果关系的两变量不一定是相关关系
B、相关关系的符号可说明两变量相互关系的方向
C、样本相关系数和总体相关系数之间存在着抽样误差
D、不具有因果关系的变量一定不存在相关关系
E、相关系数越大,则回归系数也越大
.
.
4、直线回归方程 yc = a + b x ,中的b称为回归系数其作用是
( )( )( )( )( )
A、可确定两变量之间的因果关系 B、可确定两变量的相关方向 C、可确定两变量相关的密切程度 C、可确定因变量的实际值与估计值的变异程度
D、可确定当自因变量增加一个单位时,因变量的平均增加值
四、填空题
1.工资(元)倚劳动生产率(千元)的回归方程为: yc= 10 + 80x因此当劳动生产率每增加1千元,工资就平均增加________ 。
2.现象之间的相关关系按相关的程度分为______相关、______相关和______相关;按相关的方向分为_______相关和______相关;按相关的形式分为_______相关和______相关;按影响因素的多少分为______相关和______相关。
.
.
3.直线回归方程 yc = a + b x ,中的 a 是_______ ,b 是_______,估计待定参数的方法是_______。
4.用来说明回归方程 yc = a + b x 代表性大小的统计分析指标是_______。
5.相关系数是在_______相关条件下用来说明两个变量相关_______的统计分析指标。
.
.
五、计算题
.
.
1.检查五位学生统计学的学习时间与学习成绩如下表所示:
40
60
50
70
90
4
6
7
10
13
学习成绩(分)
学习时数(小时)
要求:根据上述资料:
(1)计算学习成绩与学习时间的相关系数;
(2)建立学习成绩(y)倚学习时间(x)
的直线回归方程;(3)计算估计标准误。
.
.
2.根据某地区历年人均收入(元)与商品销售额(万元)资料计算的有关数据如下:x代表人均收入,y代表商品销售额)
n= 9 ∑x= 546 ∑y= 260
∑x2= 34362 ∑xy = 16918
根据上述资料,要求:
(1)建立以商品销售额为因变量的直线回归方程,并解释回归系数的含义;
(2)若1996年人均收入为400元,试推算该年商品销售额。
本章学习目的
通过本章的学习要求理解相关分析和回归分析的有关概念,掌握计算相关系数和配合回归方程的方法,并能结合实际资料对变量进行相关和回归分析。
.
.
本章重点难点
重点:相关关系的概念和种类、相关系数的计算及应用、相关分析的特点、回归分析的概念、配合直线回归方程的方法、参数a和b的及经济含义是什么?回归分析的特点。
难点:相关系数的计算、配合直线回归方程的方法、相关分析与回归分析的区别与联系、估计标准误的计算。
.
.
本章参考资料
.
.
⒈《社会经济统计学原理教科书》编写组编写,第九章,中国统计出版社出版。
⒉庞皓主编《统计学》第六章,西南财经大学出版社出版(“211”工程规划教材)。
⒊杨曾武主编《社会经济统计学原理》第八章,天津科学技术出版社出版。
⒋郭立田、赵长城主编《基础统计学教程》第六章,新华出版社出版。
5.范巧研、鲁勇兵主编《统计学原理》第八章,天津科技出版社出版。
《中国2004年国民经济和社会发展统计公报》
资料1-1:
国内生产总值 亿元 比上年增长 %
其中:第一产业 亿元 比重: %
第二产业 亿元 %
第三产业 亿元 %
粮食总产量 万吨 比上年增长 %
工业增加值 亿元 比上年增长 %
建筑业增加值 亿元 比上年增长 %
社会消费品零售额 亿元 比上年增长 %
固定资产投资总额 亿元 比上年增长 %
进出口总额 亿美元 比上年增长 %
全年保险费收入 亿元
年末居民存款余额 亿元
年末人口总数 万人
人口自然增长率 ‰
城镇居民人均可支配收入 元/人
农村人均纯收入 元/人
工业增加值 亿元 比上年增长 %
钢产量 万吨 比上年增长 %
原煤产量 亿吨 比上年增长 %
布产量 亿米 比上年增长 %
汽车产量 万辆 比上年增长 %
彩电产量 万部 比上年增长 .%
冰箱产量 万台 比上年增长 %
发电量 亿千瓦时 比上年增长 %
进出口总额 亿美元 比上年增长 %
其中:出口总额 亿美元
进口总额 亿美元
固定资产投资总额 亿元 比上年增长 %
第一产业投资额 亿元
第二产业投资额 亿元(工业投资额14460.亿元)
第三产业投资额 亿元
全年保险费收入 亿元
支付各类赔款 亿元
年初人口总数 128453 万人
年末人口总数 129227 万人
男性人口数 66556 万人 比重 (%)
女性人口数 62671 万人 比重 (%)
城镇人口数 52376 万人 比重 (%)
农村人口数 76851 万人 比重 (%)
0~14岁 28559 万人 比重 (%)
14~64岁 90976 万人 比重 (%)
65岁及以上 9692 万人 比重 (%)
平均人口数 = 128453万人 + 129227万人/2 = 128840万人
人口自然增长率 ‰ 人口净增加数 774 万人
人口出生率 ‰ 人口出生数 1599 万人
人口死亡率 ‰ 人口死亡数 825 万人
资料1-1:
《中国2003年国民经济和社会发展 统计公报》
国内生产总值 102398 亿元 比上年增长 %
粮食总产量 45711 万吨 比上年增长 %
工业增加值 45935 亿元 比上年增长 %
钢产量 18155 万吨 比上年增长 %
原煤产量 亿吨 比上年增长 %
布产量 322 亿米 比上年增长 %
汽车产量 325 万辆 比上年增长 %
发电量 16540 亿千瓦时 比上年增长 %
社会消费品零售额 40911 亿元 比上年增长 %
固定资产投资总额 43202 亿元 比上年增长 %
进出口总额 6208 亿美元 比上年增长 %
全年保险费收入 3053 亿元 比上年增长 %
支付各类赔款 707 亿元
年末居民存款余额 86911 亿元
年末人口总数 128453 万人
人口自然增长率 ‰
城镇居民人均可 7703 元/人
支配收入
农村人均纯收入 2476 元/人
国内生产总值 102398 亿元 比上年增长 % 比重(%)
其中:第一产业 14883 亿元 比上年增长 %
第二产业 52982 亿元 比上年增长 %
第三产业 34533 亿元 比上年增长 %
年初人口总数 127627 万人
年末人口总数 128453 万人
平均人口数 = 年初人口总数 + 年末人口总数
= 127627万人 + 128453万人 = 128040万人
人口出生数 1647 万人
人口出生率 ‰
人口死亡数 821 万人
人口死亡率 ‰
人口净增加数 826 万人
人口自然增长率 ‰