目 录
1第一章 绪 论
1第一节 统计和统计学
4第二节 统计学的基本概念
8第三节 统计学的研究方法
10第四节 统计学的发展简史
13思考题
14第一章 参考答案
15第二章 统计数据搜集
15第一节 数据的计量与类型
17第二节 原始数据的搜集
23第三节 调查问卷
28第四节 次级信息数据的搜集
30思考题
31第二章 参考答案
32第三章 统计数据的整理与显示
32第一节 数据的预处理
33第二节 品质数据的整理与显示
37第三节 数值型数据的整理与显示
44第四节 统计表
47思考题
49第四章 总量指标和相对指标
49第一节 总量指标
52第二节 相对指标
58思考题
60第四章 参考答案
61第五章 数据分布特征的描述
61第一节 集中趋势——数值平均数
67第二节 集中趋势——位置平均数
72第三节 离中趋势
75第四节 EXCEL描述统计功能
78思考题
80第五章 参考答案
82第六章 抽样调查
82第一节 抽样调查概述
84第二节 抽样推断中几个基本概念
87第三节 抽样推断的理论基础—大数定律与中心极限定理
89第四节 抽样误差
93第五节 全及指标推断
100第六节 样本容量的确定
103第七节 假设检验
108第八节 EXCEL区间估计与假设检验
110思考题
112第六章 参考答案
115第七章 相关与回归分析
115第一节 相关分析
119第二节 一元线性回归分析
122第三节 回归方程的显著性检验
127第四节 可线性化的曲线回归
131第五节 EXCEL在相关与回归分析中的应用
136思考题
138第七章 参考答案
139第八章 时间数列分析
139第一节 时间数列及分析方法概述
141第二节 时间数列的水平指标分析
146第三节 时间数列的速度指标分析
149第四节 时间数列分析(一)——长期趋势测定
159第五节 时间数列分析(二)——季节变动、循环变动的测定
160第六节 EXCEL时间数列分析
165思考题
167第八章 参考答案
169第九章 统计指数
169第一节 统计指数的概念和分类
172第二节 加权指数
177第三节 指数体系和因素分析
183第四节 几种常用的经济指数
189思考题
193第九章 参考答案
195第十章 统计综合分析
195第一节 统计综合分析的概念和种类
196第二节 统计综合分析的程序和方法
199第三节 统计比较
203第四节 统计分析报告
207附:统计分析报告实例
209思考题
210第十章 参考答案
211第十一章 国民经济核算
211第一节 国民经济核算体系发展历程
213第二节 国民经济核算的基本框架
220第三节 SNA的主要综合指标
224思考题
226第十一章 参考答案
227附录:
233参考文献
第一章 绪 论
第一节 统计和统计学
一、统计与统计学的含义
统计作为一种社会实践活动已有悠久的历史。在外语中,“统计”一词与“国家”一词来自同一词源。因此,可以说自从有了国家就有了统计实践活动。最初,统计只是为统治者管理国家的需要而搜集资料,弄清国家的人力、物力和财力,作为国家管理的依据。
今天,“统计”一词已被人们赋予多种含义,因此很难给出一个简单的定义。在不同场合,统计一词可以具有不同的含义。它可以是指统计数据的搜集活动,即统计工作;也可以是指统计活动的结果,即统计数据资料;还可以是指分析统计数据的方法和技术,即统计学。
(一)统计工作
统计工作,是搜集、整理、分析和研究统计数据资料的工作过程。统计工作在人类历史上出现比较早。随着历史的发展,统计工作逐渐发展和完善起来,使统计成为国家、部门、事业和企业、公司和个人及科研单位认识与改造客观世界和主观世界的一种有力工具。统计工作,可以简称为统计。例如,某统计师在回答自己的工种时,会说我是干统计的。这里所说的统计指的就是统计工作。
(二)统计数据资料
统计数据资料,是统计工作活动进行搜集、整理、分析和研究的主体及最终成果。不管是个人、集体和社会,还是国家、部门和事业、企业、公司及科研机构,都离不开统计数据资料。个人要进行学习、工作和家政管理,需要对有关的统计数据资料进行搜集和分析,以指导自己的学习、工作和生活;公司和企业要管理好生产和销售,必须进行市场调研、生产控制、质量管理、人员培训、成本评估等,这就需要对有关的生产资料、市场资料、成本资料、人员资料、质量数据等进行搜集、整理、分析和研究;国家要进行经济建设和社会发展,更离不开有关国民经济和社会发展的统计资料,像我国的十年规划,2010年的GNP比2000年翻一番,就需要我国有关GNP的历史数据资料和相关数据资料,需要有关各国的相关统计数据资料,以此为基础进行分析和决策。还有像国家统计局编辑、中国统计出版社出版的每年一册的《中国统计年鉴》以及国家统计局每年初公布的《国民经济与社会发展统计公报》等即是统计数据资料,也可称为统计。例如,电视台、电台和报刊杂志所说的“据统计:”的统计指的就是统计数据资料。
(三)统计学
一般来说,统计学是对研究对象的数据资料进行搜集、整理、分析和研究,以显示其总体的特征和规律性的学科。统计学的研究对象是客观事物的数量特征和数据资料。统计学是以搜集、整理、分析和研究等统计技术为手段,对所研究对象的总体数量关系和数据资料去伪存真、去粗取精,从而达到显示、描述和推断被研究对象的特征、趋势和规律性的目的。统计学,亦可简称为统计。例如,我们所学的课程——统计课,实际指的是统计学课程。
早期统计学的学派之一,“政治算术学派”的创始人威廉·配第和约翰,格朗特,首先在其著作中使用统计数字和图表等方法来分析研究社会、经济和人口现象,这不仅为人们进一步认识社会提供了一种新的方法和途径,也为统计学的发展奠定了基础。
目前,随着统计方法在各个领域的应用,统计学已发展成为具有多个分支学科的大家族。因此,要给统计学下一个普遍接受的定义是十分困难的。在本书中,我们对统计学做如下解释,统计学是—门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
统计数据的收集是取得统计数据的过程,它是进行统计分析的基础。离开了统计数据,统计方法就失去了用武之地。如何取得所需的统计数据是统计学研究的内容之一。
统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。
统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程。
可见,统计学是一门有关统计数据的科学,统计学与统计数据有着密不可分的关系。在英文中,“statistics”一词有两个含义:当它以单数名词出现时,表示作为一门科学的统计学;当它以复数名词出现时,表示统计数据或统计资料。从中可以看出,统计学与统计数据之间有着密不可分的关系。统计学是由一套收集和处理统计数据的方法所组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。统计数据不用统计方法去分析也仅仅是一堆数据而已,无法得出任何有益的结论。
其次,统计数据不是指单个的数字,而是由多个数据构成的数据集。单个的数据显然用不着统计方法进行分析,仅凭一个数据点,我们也不可能得出事物的规律,只有经过对同一事物进行多次观察或计量得到大量数据,才能利用统计方法探索出内在的规律性。
二、统计学的研究对象
一般来说,统计学的研究对象是自然、社会客观现象总体的数量关系。正是因为统计学的这一研究的特殊矛盾,使它成为了一门万能的科学。不论是自然领域,还是社会经济领域,客观现象总体的数量方面,都是统计学所要分析和研究的。
统计学研究对象的特点有如下几点:
1.数量性。统计学的研究对象是自然、社会经济领域中现象的数量方面,这一特点是统计学(定量分析学科)与其他定性分析学科的分界线。数量性是统计学研究对象的基本特点,因为,数字是统计的语言,数据资料是统计的原料。一切客观事物都有质和量两个方面,事物的质与量总是密切联系、共同规定着事物的性质。没有无量的质,也没有无质的量。一定的质规定着一定的量,一定的量也表现为一定的质。但在认识的角度上,质和量是可以区分的,可以在一定的质的情况下,单独地研究数量方面,通过认识事物的量进而认识事物的质。因此,事物的数量是我们认识客观现实的重要方面,通过分析研究统计数据资料,研究和掌握统计规律性,就可以达到我们统计分析研究的目的。例如,要分析和研究国民生产总值,就要对其数量、构成及数量变化趋势等进行认识,这样才能正确地分析和研究国民生产总值的规律性。
2.总体性。统计学的研究对象是自然、社会经济领域中现象总体的数量方面,即统计的数量研究是对总体普遍存在着的事实进行大量观察和综合分析,得出反映现象总体的数量特征和资料规律性。自然、社会经济现象的数据资料和数量对比关系等一般是在一系列复杂因素的影响下形成的。在这些因素当中,有起着决定和普遍作用的主要因素,也有起着偶然和局部作用的次要因素。由于种种原因,在不同的个体中,它们相互结合的方式和实际发生的作用都不可能完全相同。所以,对于每个个体来说,就具有一定的随机性质,而对于有足够多数个体的总体来说又具有相对稳定的共同趋势,显示出一定的规律性。例如,对工资的统计分析,我们并不是要分析和研究个别人的工资,而是要反映、分析和研究一个地区、一个部门、一个企业事业单位的总体的工资情况和显示出来的规律性。统计研究对象的总体性,是从个体的实际表现的研究过渡到对总体的数量表现的研究的。例如,工资统计分析,要反映、分析和研究一个地区的工资情况,先要从每个职工的工资开始统计,然后再综合汇总得到该地区的工资情况,只有从个体开始,才能对总体进行分析研究。研究总体的统计数据资料,不排除对个别事物的深入调查研究,但它是为了更好地分析研究现象总体的统计规律性。
3.具体性。统计研究对象是自然、社会经济领域中具体现象的数量方面。即它不是纯数量的研究,是具有明确的现实涵义的,这一特点是统计学与数学的分水岭。数学是研究事物的抽象空间和抽象数量的科学,而统计学研究的数量是客观存在的、具体实在的数量表现。统计研究对象的这一特点,也正是统计工作必须遵循的基本原则。正因为统计的数量是客观存在的、具体实在的数量表现,它才能独立于客观世界,不以人们的主观意志为转移。统计资料作为主观对客观的反映,必然是存在第一性,意识第二性,存在决定意识,只有如实地反映具体的已经发生的客观事实,才能为我们进行统计分析研究提供可靠的基础,才能分析、探索和掌握事物的统计规律性。否则,虚假的统计数据资料是不能成为统计数据资料的,因为它违背了统计研究对象的这一特点。
4.变异性。统计研究对象的变异性是指构成统计研究对象的总体各单位,除了在某一方面必须是同质的以外,在其他方面又要有差异,而且这些差异并不是由某种特定的原因事先给定的。就是说,总体各单位除了必须有某一共同标志表现作为它们形成统计总体的客观依据以外,还必须要在所要研究的标志上存在变异的表现。否则,就没有必要进行统计分析研究了。例如,高等院校这个统计对象,除了都是从事高等教育的教学活动这一共同性质之外,各高等院校在隶属主管部门、院校性质、招生规模、专业设置等各方面又有差异。工人作为统计数据资料对象,每个工人在性别、年龄、工龄、工作性质、工资等方面是会有不同表现的。这样,统计分析研究才能对其表现出来的差异探索统计规律性。
三、统计学的分科
统计方法已被应用到自然科学和社会科学的众多领域,统计学也发展成为由若干分支学科组成的学科体系。从统计方法的构成来看,统计学可以分为描述统计学和推断统计学;从统计方法研究和统计方法的应用角度来看,统计学可以分为理论统计学和应用统计学。
(一)描述统计学和推断统计学
描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
推断统计学(1nferential Statistics)则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
图1–1 统计学探索客观现象数量规律性的过程
描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。从图1–1我们可以看出描述统计学和推断统计学在统计方法探索客观现象数量规律性中的地位。
从图1–1可以看到,统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的
推断。
显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。由于在对现实问题的研究中,所获得的数据主要是样本数据,因此,推断统计在现代统计学中地位和作用越来越重要,已成为统计学的核心内容。 当然,这并不等于说描述统计不重要,如果没有描述统计收集可靠的统计数据并提供有效的样本信息,即使再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。
(二)理论统计学和应用统计学
理论统计学(Theoretical Statistics)是指统计学的数学原理,它主要研究统计学的一般理论和统计方法的数学理论。由于现代统计学用到了几乎所有方面的数学知识,从事统计理论和方法研究的人员需要有坚实的数学基础。此外,由于概率论是统计推断的数学和理论基础,因而广义地讲统计学也是应该包括概率论在内的。理论统计学是统计方法的理论基础,没有理论统计学的发展,统计学也不可能发展成为像今天这样一个完善的科学知识体系。
在统计研究领域,从事理论统计学研究的人相对是很少的一部分,而大部分则是从事应用统计学(Applied Statistics)研究的。应用统计学是研究如何应用统计方法去解决实际问题的。统计学是一门收集和分析数据的科学。由于在自然科学及社会科学研究领域中,都需要通过数据分析来解决实际问题,因而,统计方法的应用几乎扩展到了所有的科学研究领域。例如,统计方法在生物学中的应用形成了生物统计学,在医学中的应用形成了医疗卫生统计学,在农业试验、育种等方面的应用形成了农业统计学。统计方法在经济和社会科学研究领域的应用也形成了若干分支学科。例如,统计方法在经济领域的应用形成了经济统计学及其若干分支,在管理领域的应用形成了管理统计学,在社会学研究和社会管理中的应用形成了社会统计学,在人口学中的应用形成了人口统计学,等等。以上这些应用统计学的不同分支所应用的基本统计方法都是一样的,即都是描述统计和推断统计的主要方法。但由于各应用领域都有其特殊性,统计方法在应用中又形成了一些不同的特点。
本教材编写的目的,主要是为高等院校经济学、管理学门类的学生和应用统计工作者提供一本统计学的入门读物,因而侧重于介绍统计方法的应用条件和统计思想,使读者通过本书的学习,能应用统计方法去解决实际中的一些基本问题。当然,要用好这些统计方法,不同领域的读者还必须具备不同学科领域的一些基础知识。
第二节 统计学的基本概念
统计科学和其他科学一样,在论述本门科学的理论与方法时,要运用一些专门的概念,有些是基本的、常用的,有些是属于局部的,在论述专门问题时使用属于局部的,局部的概念在以后章节讲解。本节只就几个基本的、常用的概念加以阐述。
一、统计总体与总体单位
统计总体简称总体,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。构成总体的这些个别单位称为总体单位。例如,所有的工业企业就是一个总体,这是因为在性质上每个工业企业的经济职能是相同的,即都是从事工业生产活动的基本单位,这就是说,它们是同性质的。这些工业企业的集合就构成了统计总体。对于该总体来说,每一个工业企业就是一个总体单位。
总体可以分为有限总体和无限总体。总体所包含的单位数是有限的,称为有限总体,如人口数、企业数、商店数等。总体所包含的单位数是无限的,称为无限总体,如连续生产的某种产品的生产数量、大海里的鱼资源数等。对有限总体可以进行全面调查,也可以进行非全面调查。但对无限总体只能抽取一部分单位进行非全面调查,据以推断总体。
确定总体与总体单位,必须注意两个方面:
1.构成总体的单位必须是同质的,不能把不同质的单位混在总体之中。例如,研究工人的工资水平,就只能将靠工资收入的职工列入统计总体的范围。同时,也只能对职工的工资收入进行考察,对职工由其他方面取得的收入就要加以排除,这样才能正确反映职工的工资水平。
2.总体与总体单位具有相对性,随着研究任务的改变而改变。同一单位可以是总体也可以是总体单位。例如,要了解全国工业企业职工的工资收入情况,那么全部工厂是总体,各个工厂是总体单位。如果旨在了解某个企业职工的工资收入情况,则该企业就成了总体,每位职工的工资就是总体单位了。
二、统计标志
(一)标志和标志表现
统计标志简称标志,是指统计总体各单位所具有的共同特征的名称。从不同角度考察,每个总体单位可以有许多特征。如每个职工可以有性别、年龄、民族、工种等特征。这些都是职工的标志。
标志表现是标志特征在各单位的具体体现。职工的性别是“女”,年龄为32岁,民族为汉族等,这里“女”、“32岁”、“汉族”就是性别、年龄、民族的具体体现,即标志表现。
(二)标志的分类
1.标志按变异情况可分为不变标志和变异标志。当一个标志在各个单位的具体表现都相同时,这个标志称为不变标志;当一个标志在各个单位的具体表现有可能不同时,这个标志称为可变标志或变异标志。如中国第五次人口普查规定:“人口普查的对象是具有中华人民共和国国籍并在中华人民共和国国境内常住的人。”按照这一规定,在作为调查对象的人口总体中,国籍和在国境内居住是不变标志,而性别、年龄、民族、职业等则是变异标志。不变标志是构成统计总体的基础,因为至少必须有一个不变标志将各总体单位联结在一起,才能使它具有“同质性”,从而构成一个总体。变异标志是统计研究的主要内容,因为如果标志在各总体单位之间的表现都相同,那就没有进行统计分析研究的必要了。
2.标志按其性质可以分为品质标志和数量标志。品质标志表示事物的质的特性,是不能用数值表示的,如职工的性别、民族、工种等。数量标志表示事物的量的特性,是可以用数值表示的,如职工年龄、工资、工龄等。品质标志主要用于分组,将性质不相同的总体单位划分开来,便于计算各组的总体单位数,计算结构和比例指标。数量标志既可用于分组,也可用于计算标志总量以及其它各种质量指标。
三、统计指标
(一)统计指标及其构成要素
对统计指标的涵义,一般有两种理解和两种使用方法:
1.统计指标是指反映总体现象数量特征的概念。如人口数、商品销售额、劳动生产率等。它包括三个构成要素:指标名称,计量单位,计算方法。这是统计理论与统计设计上所使用的统计指标涵义。
2.统计指标是反映总体现象数量特征的概念和具体数值。例如,2001年我国国内生产总值为95533亿元。这个概念涵义中包括了指标数值。按照这种理解,统计指标除了包括上述三个构成要素外,还包括时间限制、空间限制、指标数值。这是统计实际工作中经常使用的统计指标的涵义。因此,统计指标包括六个具体的构成因素。
一般认为,对统计指标的这两种理解都是成立的。在做一般性统计设计时,只能设计统计指标的名称、内容、口径、计量单位和方法,这是不包括数值的统计指标。然后经过搜集资料、汇总整理、加工计算可以得到统计指标的具体数值,用来说明总体现象的实际数量状况及其发展变化的情况。从不包括数值的统计指标到包括数值的统计指标,在一定意义上反映了统计工作的过程。
(二)统计指标的特点
1. 数量性。即所有的统计指标都是可以用数值来表现的。这是统计指标最基本的特点。统计指标所反映的就是客观现象的数量特征,这种数量特征,是统计指标存在的形式,没有数量特征的统计指标是不存在的。正因为统计指标具有数量性的特点,它才能对客观总体进行量的描述,才使统计研究运用数学方法和现代计算技术成为可能。
2.综合性。这是指统计指标既是同质总体大量个别单位的总计,又是大量个别单位标志差异的综合,是许多个体现象数量综合的结果。例如,某人的年龄,某人的存款额不能叫做统计指标,一些人的平均年龄,一些人的储蓄总额,人均储蓄才叫做统计指标。统计指标的形成都必须经过从个体到总体的过程,它是通过个别单位数量差异的抽象化来体现总体综合数量的特点的。
3.具体性。统计指标的具体性有两个方面的涵义:一是统计指标不是抽象的概念和数字,而是一定的具体的社会经济现象的量的反映,是在质的基础上的量的集合。这一点使社会经济统计和数理统计、数学相区别。二是统计指标说明的是客观存在的,已经发生的事实,它反映了社会经济现象在具体地点、时间和条件下的数量变化。这一点又和计划指标相区别。统计指标反映的是过去的事实和根据这些事实综合计算出来的实际数量,而计划指标则说明未来所要达到的具体目标。
(三)标志与指标的区别和联系。它们的主要区别是:
第一,标志是说明总体单位特征的,指标是说明总体特征的。例如,一个工人的工资是数量标志,全体工人的工资总额是统计指标。
第二,标志有用文字表示的品质标志和用数值表示的数量标志,指标则都是用数值表示的,没有不能用数值表示的指标。
它们的主要联系是:
第一,统计指标的数值多是由总体单位的数量标志值综合汇总而来的。例如工资总额是各个职工的工资之和,工业总产值是各个工业企业的工业总产值之和。由于指标与标志的这种综合汇总关系,有些统计指标的名称与标志是一样的,如上例中的工业总产值。
第二,标志与指标之间存在着变换关系。如果由于统计研究目的的变化,原来的统计总体变成总体单位了,则相对应的统计指标也就变成了数量标志。反过来,如果原来的总体单位变成总体了,则相对应的数量标志也就变成了统计指标。
(四)统计计指标的种类
1.统计指标按其说明总体内容的不同分为
数量指标——说明总体外延规模的统计指标。例如,人口数、企业数、工资总额、商品销售额等等。数量指标所反映的是总体的绝对数量,具有实物的或货币的计量单位,其数值的大小,随着总体范围的变化而变化,它是认识总体现象的基础指标。
质量指标——说明总体内部数量关系和总体单位水平的统计指标。例如,人口的年龄构成、性比例、农业—一轻工业——重工业比例、平均单产、平均工资等等。它通常是用相对数和平均数的形式表现的,其数值的大小与范围的变化没有直接关系。
2.统计指标按其作用和表现形式的不同,可分为总量指标、相对指标和平均指标。总量指标又分为实物指标、劳动指标和价值指标三种。这些统计指标的涵义、内容、计算方法和作用各不相同,将在以后各章中叙述。
3.统计指标按管理功能作用不同,可分为描述指标、评价指标和预警指标。
描述指标主要是反映社会经济运行的状况、过程和结果,提供对社会经济总体现象的基本认识,是统计信息的主体。例如,反映社会经济条件的土地面积指标、自然资源拥有量指标、社会财富指标、劳动资源指标、科技力量指标,反映生产经营过程和结果的国民生产总值指标、工农业总产值指标、国民收入指标、固定资产指标、流动资金指标、利润指标,反映社会物质文化的娱乐设施指标、医疗床位数指标等等。
评价指标是用于对社会经济运行的结果进行比较、评估和考核,以检查工作质量或其他定额指标的结合使用。包括国民经济评价指标和企业经济活动评价指标。
预警指标一般是用于对宏观经济运行进行监测,对国民经济运行中即将发生的失衡、失控等进行预报、警示。通常选择国民经济运行中的关键性、敏感性经济现象,建立相应的监测指标体系。
例如,针对经济增长、经济周期波动、失业、通货膨胀等,可以建立国民生产总值与国民收入增长率、社会消费率、积累率、失业率、物价水平、汇率、利率等预警指标。
四、统计指标体系
由于现象的复杂多样性,各种现象之间相互联系的性质,只用个别统计指标来反映是不够的,需要采用指标体系来进行描述。统计指标体系就是各种相互联系的统计指标所构成的一个有机整体,用来说明所研究现象各个方面相互依存和相互制约的关系。统计指标体系因各种现象本身联系的多样性和统计研究的目的不同而分为不同的类别。
根据所研究问题的范围大小,可以建立宏观统计指标体系和微观统计指标体系。宏观统计指标体系就是反映整个现象大范围的统计指标体系。如:反映整个国民经济和社会发展的统计指标体系。微观统计指标体系就是反映现象较小范围的统计指标体系。如反映企业或事业单位的统计指标体系。介于这两者之间的可以称为中观统计指标体系。如:反映各地区或各部门的统计指标体系。
根据所反映现象的范围内容不同,统计指标体系可以分为综合性统计指标体系和专题性统计指标体系。综合性统计指标体系是较全面地反映总系统及其各个子系统的综合情况的统计指标体系。如:国民经济和社会发展统计指标体系。专题性统计指标体系则是反映某一个方面或问题的统计指标体系。如:经济效益指标体系就是专题性统计指标体系。
统计指标体系也可以指若干个统计指标之间的联系表现为一个方程关系。例如,工资总额=平均工资×职工人数;商品销售额=商品销售量×商品销售价格;等等。统计指标体系对于统计分析和研究具有重要的意义。通过一个设计科学的统计指标体系,可以描述现象的全貌和发展的全过程,分析和研究现象总体存在的矛盾以及各种因素对现象总体变动结果的方向和程度,也可以对未来的指标进行计算和预测,对未来现象发展变化的趋势进行预测。
五、变异、变量和变量值
统计中的标志和指标都是可变的,如人的性别有男女之分,各时期、各地区、各部门的工业总产值各有不同等,这种差别叫做变异。变异就是有差别的意思,包括质的差别和量的差别。变异是统计的前提条件。
变量就是可以取不同值的量,这是数学上的一个名词。在社会经济统计中,变量包括各种数量标志和全部统计指标,它都是以数值表示的,不包括品质标志。变量就是数量标志的名称或指标的名称,变量的具体数值表现则称为变量值。例如,职工人数是一个变量,因为各个工厂的职工人数不同。某工厂有852人,另一工厂有1686人,第三个工厂有964人等等,都是职工人数这个变量的具体数值,也就是变量值。要注意区分变量和变量值。如上例,852人、1686人、964人三个变量值的平均数,不能说是三个“变量”的平均数,因为这里只有“职工人数”这一个变量,并没有三个变量。以整数值变化的变量,称为离散型变量;也可以有连续数值变化的变量,即可以用小数值表示的变量,称为连续型变量。离散型变量的各变量值之间是以整数位断开的,例如人数、机器台数、工厂数等,都只能按整数计算;连续型变量的数值是接连不断的,相邻的两数值之间可作无限分割,如身高、体重、年龄等。
变量值按是否连续可分为连续变量与离散变量两种。在一定区间内可任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续变量,其数值只能用测量或计量的方法取得。可按一定顺序一一列举其数值的变量叫离散变量,其数值表现为断开的。例如,企业个数、职工人数、设备台数、学校数、医院数等,都只能按计量单位数计数,这种变量的数值一般用计数方法取得。
六、统计总体的特征
在明确了以上一些基本概念之后,将它们联系起来观察,深入地认识总体,可以看出,统计总体具有同质性、大量性和差异性三个主要特点。
1.同质性。它是指总体中的各个单位必须具有某种共同的属性或标志数值。如国有企业总体中每个企业共同标志属性是国家所有。同质性是总体的根本特征,只有个体单位是同质的,统计才能通过对个体特征的观察研究,归纳和揭示出总体的综合特征和规律性。
2.大量性。它是指总体中包括的总体单位有足够多的数量。总体是由许多个体在某一相同性质基础上结合起来的整体,个别或很少几个单位不能构成总体。总体的大量性,可使个别单位某些偶然因素的影响——表现在数量上的偏高、偏低的差异——相互抵消,从而显示出总体的本质和规律性。
3.差异性(或称变异性)。它是指总体的各单位之间有一个或若干个可变的品质标志或数量标志,从而表现出的差异。例如,某领域的职工总体中各单位间有男、女的性别属性差异,有20岁、21岁、22岁、23岁、24岁、25岁、26岁等年龄标志数值的差异。
第三节 统计学的研究方法
统计学根据研究对象的性质和特点,形成了它自己专门的研究方法,这些基本方法是:实验设计法、大量观察法、统计描述法和统计推断法。
一、实验设计
统计是要分析数据的,但首先需要考察的是,数据的来源是否合适,实验采集的数据是否符合分析的目的要求。由于安排不科学,使实验数据不能反映现象的真实情况,或不能用以估计总体的数量特征,那么接着一系列分析工作也就白费工夫了。例如要比较某农作物A品种和B品种的收获率高低,分别在两地段播种A品种和B品种,结果获得A品种单位面积产量高于B品种的数据。如果根据这个数据判断A品种优于B品种,这个结论就太不可靠了。原因是影响收获率高低的因素不但有种籽品种的差异,还有土地区位、肥沃程度等差异,所以我们需要事先做出安排,使实验结果数据的差异中排除可控因素(土地)的差异,而显示不可控因素(品种)的差异。所谓实验的统计设计就是指设计实验的合理程序,使得收集得到的数据符合统计分析方法的要求,以便得出有效的客观的结论。它主要适用于自然科学研究和工程技术领域的统计数据搜集。
实验的统计设计要遵循三个基本原则:
1.重复性原则。即允许在相同条件下重复多次实验。如果只能一次实验所得的数据作为总体的估计量精度就很差,这时实验的误差等于观察的误差,观察误差可能是实验误差的结果,很难用观察的数据来代表总体情况。多次重复实验的好处是显然的,其一可以获得更加精确的效应估计量,其二,可以获得实验误差的估计量。这些都是提高估计精度或缩小误差范围所需要的。
2.随机性原则。随机性是指在实验设计中,对实验对象的分配和实验次序都是按随机安排的。这种安排可以使可控的影响因素作用均匀化,突出不可控影响因素的作用。例如在种籽品种的实验中如果不是将A品种固定在甲地段、B品种固定在乙地段,而是两地段随机地选择不同品种多次重复实验,可以断定这种安排在不同品种收获率的差异中,由于土地因素的影响大大减少了,而品种因素的影响大大提高了。所以随机化原则是实验设计的重要原则。
3.区组化原则。即利用类型分组技术,对实验对象按有关标志顺序排队,然后依次将各单位随机地分配到各处理组,使各处理组组内标志值的差异相对扩大,而处理组组间的差异相对缩小,这种实验设计安排称为随机区组设计。这样就可以提高处理组的估计精度。
二、大量观察法
大量观察法是统计学所特有的方法。所谓大量观察法,是指对所研究的事物的全部或足够数量进行观察的方法。社会现象或自然现象都受各种社会规律或自然规律相互交错作用的影响。在现象总体中,个别单位往往受偶然因素的影响,如果任选其中之一进行观察,其结果不足以代表总体的一般特征;只有观察全部或足够的单位并加以综合,影响个别单位的偶然因素才会相互抵消,现象的一般特征才能显示出来。大量观察的意义在于可使个体与总体之间在数量上的偏误相互抵消。
大量观察法的数学依据是大数定律。大数定律是随机现象的基本规律。大数定律的一般概念是:在观察过程中,每次取得的结果不同,这是由偶然性所致的,但大量、重复观察结果的平均值却几乎接近确定的数值。狭义的大数定律就是指概率论中反映上述规律性的一些定理,表述平均数的规律性与随机现象的概率关系。
大数定律的本质意义在于经过大量观察,把个别的、偶然的差异性相互抵消,而必然的、集体的规律性便显示出来。例如,当我们观察个别家庭或少数家庭的婴儿出生时,生男生女的比例极为参差不齐,有的是生男不生女,有的是生女不生男,有的是女多男少,有的是男多女少,然而经过大量观察,男婴、女婴的出生数则趋向均衡。也就是说,观察的次数愈多,离差的差距就愈小,或者说频率出现了稳定性。这就表明,同质的大量现象是有规律的,尽管个别现象受偶然性因素的影响出现偏差,但观察数量达到一定程度就呈现出规律性,这就是大数定律的作用。
三、统计描述
统计描述是指对由实验或调查而得到的数据进行登记、审核、整理、归类、计算出各种能反映总体数量特征的综合指标,并加以分析从中抽出有用的信息,用表格或图象把它表示出来。统计描述是统计研究的基础,它为统计推断、统计咨询、统计决策提供必要的事实依据。统计描述也是对客观事物认识的不断深化过程。它通过对分散无序的原始资料的整理归纳,运用分组法、综合指标法和统计模型法得到现象总体的数量特征,揭露客观事物内在数量规律性,达到认识的目的。
分组法是研究总体内部差异的重要方法,通过分组可以研究总体中不同类型的性质以及它们的分布情况,如产业的经济类型及其行业分布情况。可以研究总体中的构成和比例关系,如三次产业的构成,生产要素的比例等。可以研究总体中现象之间的相关依存关系,如企业经营规模和利润率之间的关系等等。
综合指标法是指运用各种统计指标来反映和研究客观总体现象的一般数量特征和数量关系的方法。通过综合指标的计算可以显示出现象在具体时间、地点条件下的总量规模、相对水平、集中趋势、变异程度,并进一步从动态上研究现象的发展趋势和变化规律。
统计模型法则是综合指标法的扩展。它是根据一定的理论和假定条件,用数学方程去模拟客观现象相互关系的一种研究方法利用这种方法,可以对客观现象和过程中存在的数量关系进行比较完整和全面的描述,凸显所研究的综合指标之间的关系,从而简化了客观存在的复杂的其他关系,以便利用模型对所关心的现象变化进行评估和预测。
四、统计推断
统计在研究现象的总体数量关系时,需要了解的总体对象的范围往往是很大的,有时甚至是无限的,而由于经费、时间和精力等各种原因,以致有时在客观上只能从中观察部分单位或有限单位进行计算和分析,根据局部观察结果来推断总体。例如,要说明一批灯泡的平均使用寿命,只能从该批灯泡中抽取一小部分进行检验,推断这一批灯泡的平均使用寿命,并给出这种推断的置信程度。这种在一定置信程度下,根据样本资料的特征,对总体的特征做出估计和预测的方法称为统计推断法。统计推断是现代统计学的基本方法,在统计研究中得到了极为广泛的应用,它既可以用于对总体参数的估计,也可以用作对总体某些分布特征的假设检验。从这种意义上来说,统计学是在不确定条件下做出决策或推断的一种方法。
第四节 统计学的发展简史
人类的统计实践是随着记数活动而产生的。因此,对统计发展的历史可追溯到远古的原始社会。但是,使人类的统计实践上升到理论予以总结和概括成为一门系统的科学——统计学,却是近代的事情,距今只有300多年的历史。回顾一下统计科学的渊源及其发展过程,对于我们了解统计学的研究对象和性质,学习统计学的理论和方法,提高我们的统计实践和理论水平,都是十分必要的。
从统计学的产生和发展过程来看,大致可以划分为三个时期:统计学的萌芽期、统计学的近代期和统计学的现代期。
一、统计学的萌芽期
统计学初创于17世纪中叶至18世纪,当时主要有国势学派和政治算术学派。
(一)国势学派
国势学派产生于17世纪的德国,代表人物是康令(H.Conring)、阿坎瓦尔(G.Achenwall),代表作品是《近代欧洲各国国情学概论》,他们在大学中开设了一门新课程,最初叫做“国势学”。他们所做的工作主要是对国家重要事项的记录,因此又被称为记述学派。这些记录记载着关于国家、人口、军队、领土、居民职业以及资源财产等事项,偏重于事件的叙述,而忽视量的分析。严格地说,这一学派的研究对象和研究方法都不符合统计学的要求,只是登记了一些记述性材料,藉以说明管理国家的方法。
当然,国势学派对统计学的创立和发展还是作了不少贡献的:首先,国势学派为统计学这门新兴的学科起了一个至今仍为世界公认的名词“统计学”(statistics),并提出了至今仍为统计学者所采用的一些术语,如“统计数字资料”、“数字对比”等。国势学派建立的最重要的概念就是“显著事项”,它事实上是建立统计指标和使统计对象数量化的重要前提;其次,国势学派在研究各国的显著事项时,主要是系统地运用对比的方法来研究各国实力的强弱,统计图表实际上也是“对比”思想的形象化的产物。
(二)政治算术学派
该学派起源于17世纪的英国,在英国,当时从事统计研究的人被称为政治算术学派。虽然政治算术学派与国势学派的研究,都与各国的国情、国力这一内容有关,但国势学派主要采用文字记述的方法,而政治算术学派则采用数量分析的方法。因此,从严格意义上来说,政治算术学派作为统计学的开端更为合适。主要代表人物是威廉·配第(W.Petty 1623-1687年)和约翰·格朗特( 1620-1674年)。17世纪的英国学者威廉·配第(W.Petty)在他所著的《政治算术》(1676年)一书中,对当时的英国、荷兰、法国之间的“国富和力量”进行数量上的计算和比较,做了前人没有做过的从数量方面来研究社会经济现象的工作。正是在这个意义上,马克思称配第是“政治经济学之父,在某种程度上也可以说是统计学的创始人”。
配第的朋友约翰·格朗特(),通过对伦敦市50多年的人口出生和死亡资料的计算,写出了第一本关于人口统计的著作《对死亡表的自然观察和政治观察》(1662年)。从此,统计的含义从记述转变为专指在“量”的方面来说明国家的重要事项。这就为统计学作为一种从数量方面认识事物的科学方法,开辟了广阔的发展前景。
政治算术学派在统计发展史上有着重要的地位。首先,它并不仅满足于社会经济现象的数量登记、列表、汇总、记述等过程,还要求把这些统计经验加以全面系统地总结,并从中提炼出某些理论原则。这个学派在搜集资料方面,较明确地提出了大量观察法、典型调查、定期调查等思想;在处理资料方面,较为广泛地运用了分类、制表及各种指标来浓缩与显现数量资料的内含信息。其次,政治算术学派第一次运用可度量的方法,力求把自己的论证建立在具体的、有说服力的数字上面,依靠数字来解释与说明社会经济生活。然而,政治算术学派毕竟还处于统计发展的初创阶段,它只是用简单的、粗略的算术方法对社会经济现象进行计量和比较。
二、统计学的近代期
统计学的近代期是18世纪末至19世纪末,这时期的统计学主要有数理统计学派和社会统计学派。
(一)数理统计学派
最初的统计方法是随着社会政治和经济的需要而初步得到发展的,直到概率论被引进之后,才逐渐形成为一门成熟的科学。在统计发展史上,最初把古典概率论引进统计学领域的是法国天文学家、数学家、统计学家拉普拉斯(P.&Laplace)。他发展了对概率论的研究,阐明了统计学的大数法则,并进行了大样本推断的尝试。
随着资本主义经济的发展,统计被应用于社会经济的各个方面,统计学逐步走向昌盛。比利时统计学家、数学家、天文学家凯特勒()完成了统计学和概率论的结合。从此,统计学开始进入更为丰富发展的新阶段。国际统计学界有人称凯特勒为“统计学之父”,就在于他发现了大量现象的统计规律性和开创性地应用了许多统计方法。凯特勒把统计学发展中的三个主要源泉,即德国的国势学派、英国的政治算术派和意大利、法国的古典概率派加以统一、改造并融合成具有近代意义的统计学,促使统计学向新的境界发展。可以说,凯特勒是古典统计学的完成者,又是近代统计学的先驱者,在统计发展史上具有承上启下、继往开来的地位。
同时,凯特勒也是数理统计学派的奠基人,因为数理统计就是在概率论的基础上发展起来的。随着统计学的发展,对概率论的运用逐步增加;同时,自然科学的迅速发展和技术的不断进步,对数理统计方法又提出了进一步的要求。这样,数理统计学就从统计学中分离出来自成一派。由于这一学派主要在英美等国发展起来,故又称英美数理统计学派。
(二)社会统计学派
自凯特勒后,统计学的发展开始变得丰富而复杂起来。由于在社会领域和自然领域统计学被运用的对象不同,统计学的发展呈现出不同的方向和特色。19世纪后半叶,正当致力于自然领域研究的英美数理统计学派刚开始发展的时候,在德国竟异军突起,兴起了与之不同的社会统计学派。这个学派是近代各种统计学派中比较独特的一派。由于它在理论上比政治算术学派更加完善,在时间上比数理统计学派提前成熟,因此它很快占领了“市场”,对国际统计学界影响较大,流传较广。
社会统计学派由德国大学教授尼斯(,)首创,主要代表人物为恩格尔( )和梅尔()。他们认为,统计学的研究对象是社会现象,目的在于明确社会现象内部的联系和相互关系;统计应当包括资料的搜集、整理,以及对其分析研究。他们认为,在社会统计中,全面调查,包括人口普查和工农业调查,居于重要地位;以概率论为理论基础的抽样调查,在一定的范围内具有实际意义和作用。
三、统计学的现代期
统计学的现代期是自20世纪初到现在的数理统计时期。20世纪20年代以来,数理统计学发展的主流从描述统计学转向推断统计学。19世纪末和20世纪初的统计学主要是关于描述统计学中的一些基本概念、资料的搜集、整理、图示和分析等,后来逐步增加概率论和推断统计的内容。直到20世纪30年代,R.费希尔的推断统计学才促使数理统计进入现代范畴。
现在,数理统计学的丰富程度完全可以独立成为一门学科,但它也不可能完全代替一般统计方法论。传统的统计方法虽然比较简单,但在实际统计工作中运用仍然极广,正如四则运算与高等数学的关系一样。不仅如此,数理统计学主要涉及资料的分析和推断方面,而统计学还包括各种统计调查、统计工作制度和核算体系的方法理论、统计学与各专业相结合的一般方法理论等。由于统计学比数理统计在内容上更为广泛,因此,数理统计学相对于统计学来说不是一门并列的学科,而是统计学的重要组成部分。
从世界范围看,自20世纪60年代以后,统计学的发展有几个明显的趋势:第一,随着数学的发展,统计学依赖和吸收的数学方法越来越多;第二,向其他学科领域渗透,或者说,以统计学为基础的边缘学科不断形成;第三,随着统计学应用日益广泛和深入,特别是借助电子计算机后,统计学所发挥的功效日益增强。第四,统计学的作用与功能已从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。它已从一门实质性的社会性学科,发展成为方法论的综合性学科。
思考题
一、单项选择题
1.“统计”一词的基本含义是( )
①统计调查、统计整理、统计分析
②统计设计、统计分组、统计计算
③统计方法、统计分析、统计预测
④统计科学、统计工作、统计资料
2.调查某大学2000名学生学习情况,则总体单位是( )
①2000名学生 ②2000名学生的学习成绩
③每一名学生 ④每一名学生的学习成绩
3.统计指标按其说明的总体现象的内容不同,可以分为( )
①基本指标和派生指标 ②数量指标和质量指标
③实物指标和价值指标 ④绝对数指标,相对数指标和平均数指标
4.统计学的基本方法包括有( )
①调查方法、整理方法、分析方法、预测方法
②调查方法、汇总方法、预测方法、实验设计
③相对数法、平均数法、指数法、汇总法
④实验设计、大量观察、统计描述、统计推断
5.要了解某市国有工业企业生产设备情况,则统计总体是( )
①该市国有的全部工业企业
②该市国有的每一个工业企业
③该市国有的某一台设备
④该市国有制工业企业的全部生产设备
6.变量是( )
①可变的质量指标
②可变的数量指标和标志
③可变的品质标志
④可变的数量标志
7.构成统计总体的个别事物称为( )
①调查单位 ②总体单位
③调查对象 ④填报单位
8.统计总体的基本特征是( )
①同质性、大量性、差异性
②数量性、大量性、差异性
③数量性、综合性、具体性
④同质性、大量性、可比性
9.下列属于品质标志的是( )
①工人年龄 ②工人性别
③工人体重 ④工人工资
10.标志是说明( )
①总体单位的特征的名称
②总体单位量的特征的名称
③总体质的特征的名称
④总体量的特征的名称
二、多项选择题
1.统计指标的特点有( )
①数量性 ②社会性 ③总体性
④综合性 ⑤具体性
2.变量按其是否连续可分为( )
①确定性变量 ②随机性变量 ③连续变量
④离散变量 ⑤常数
3.品质标志表示事物的质的特征,数量标志表示事物的量的特征,所以( )
①数量标志可以用数值表示
②品质标志可以用数值表示
③数量标志不可以用数值表示
④品质标志不可以用数值表示
⑤两者都可以用数值表示
4.某企业是总体单位,数量标志有( )
①所有制 ②职工人数 ③月平均工资
④年工资总额 ⑤产品合格率
5.统计指标的构成要素有( )
①指标名称 ②计量单位 ③计算方法
④时间限制和空间限制 ⑤指标数值
三、简答题
1.简述统计和统计学的涵义。
2.统计研究对象和特点如何?
3.简述统计学的发展历程和发展趋势。
4.简述统计学的研究方法。
四、综合题
要调查某商店销售的全部洗衣机情况,试指出总体、总体单位是什么?试举若干品质标志、数量标志、数量指标、质量指标。
第一章 参考答案
一、单项选择题
1、④ 2、③ 3、② 4、④ 5、④ 6、④ 7、② 8、① 9、② 10、①
二、多项选择题
1、①④⑤ 2、③④ 3、①④ 4、②③④⑤ 5、①②③④⑤
第二章 统计数据搜集
第一节 数据的计量与类型
一、数据的计量
统计研究客观事物的数量方面,离不开统计数据,统计数据是对客观现象进行计量的结果。对统计数据的属性、特征进行分类、标示和计算,称为统计计量或统计量度。例如,对工业企业经济效益的统计,对居民生活水平的统计,也可以说是对工业企业经济效益的计量,对居民生活水平的计量,如此等等。由于客观事物有的比较简单,有的比较复杂,有的特征和属性是可见的(如人的外貌体征),有的则是不可见的(如人的偏好和信仰),有的表现为数量差异,有的表现为品质差异。因此,统计计量也就有定性计量和定量计量的区别,并且可分不同的层次。美国社会学家、统计学家史蒂文斯()1968年按照变量的性质和数学运算的功能特点,将统计计量划分为四个层次或四种计量尺度。
(一)定类尺度
将数字作为现象总体中不同类别或不同组别的代码,这是最低层次的尺度。在这种情况下,不同的数字仅表示不同类(组)别的品质差别,而不表示它们之间量的顺序或量的大小。这种尺度的主要数学特征是“=”或 “≠”。例如将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。并且用(011)代表国有经济中的国有企业,(012)代表国有联营企业;用(021)表示集体经济中集体企业,(022)表示集体联营企业;用(031)表示私营经济中的私营独资企业,(032)表示私人合伙企业,(033)表示私营有限责任公司;用(041)表示个体经济中的个体工商户,(042)表示个人合伙等等。其中两位代码表示经济大类,而三位代码则表示各类中的构成。不同代码反映同一水平的各类(组)别,并不反映其大小顺序。各类中虽然可以计算它的单位数,但不能反映第一类的一个单位可以相当于第二类的几个单位等等。
(二)定序尺度
定序尺度不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。这种尺度的主要数学特征是“>”或“<”。例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。这种尺度虽然也不能表明一个单位一等品等于几个单位二等品,但却明确表示一等品性能高于二等品,而二等品性能又高于三等品等等。定序尺度除了用于分类(组)外,在变量数列分析中还可以确定中位数、四分位数、众数等指标的位置。
(三)定距尺度
定距尺度也称间隔尺度,是对事物类别或次序之间间距的计量,它通常使用自然或度量衡单位作为计量尺度。定距尺度是比定序尺度高一层次的计量尺度。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,其原因是在等级序列中没有固定的、有确定意义的“零”位。例如,学生甲得分90分,学生乙得0分,可以说甲比乙多得90分,却不能说甲的成绩是乙的90倍或无穷大。因为“0”分在这里不是一个绝对的标准,并不意味着乙学生毫无知识。恰如我们不能说40℃比20℃暖和2倍一样。没有确定的标准的“零”位,但有基本的确定的测量单位,如学生成绩的测量单位是1分,质量价差的测量单位量1元,温度的测量单位是1℃等等,这是定距尺度的显著特点。
(四)定比尺度
定比尺度是在定距尺度的基础上,确定可以作为比较的基数,将两种相关的数加以对比,而形成新的相对数,用以反映现象的构成、比重、速度、密度等数量关系。由于它是在比较基数上形成的尺度,所以能够显示更加深刻的意义。定比尺度的主要数学特征是“÷”或“×”。例如将某地区人口数和土地面积对比计算人口密度指标,说明人口相对的密集程度。甲地区人口可能比乙地区多,但甲地区的土地更广阔,用人口密度指标就可以说明相对说来甲地区人口不是多了,而是少了。又如将一个国家(地区)的国内生产总值与该国(地区)居民对比。计算人均国内生产总值,可以反映国家(地区)的综合经济能力。1998年我国国内生产总值约占世界生产总值的12%,排列世界第七位,堪称世界经济大国,但我国人口占世界总人口的%,如果按人均国内生产总值计算,在世界各国中又居于比较落后的位次,说明我国仍属于发展中国家。
上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确逐步递进的。高层次的计量尺度具有低层次计量尺度的全部特性,但不能反过来。显然,我们可以很容易地将高层次计量尺度的测量结果转化为低层次计量尺度的测量结果,比如将考试成绩的百分制转化为五等级分制。在统计分析中,一般要求测量的层次越高越好,因为高层次的计量尺度包含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便,因此应尽可能使用高层次的计量尺度。
二、数据的类型
统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。从上述四种计量尺度计量的结果来看,可以将统计数据分为以下四种类型:
定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。
定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。
定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。
定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。
前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitative data);后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitative data)。由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。
区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。
这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。
第二节 原始数据的搜集
在对实际问题的研究中,往往需要利用统计数据,那么应从哪里获得必要的统计数据呢?从统计数据本身的来源看,统计数据最初都是来源于直接的调查或试验。但从使用者的角度看,统计数据主要来源于两种渠道:一是来源于直接的调查和科学试验,对使用者来说,这是统计数据的直接来源,称为第一手或直接的统计数据;二是来源于别人调查或试验的数据,对使用者来说,这是统计数据的间接来源,称为第二手或间接的统计数据。本节从使用者的角度讲述统计数据的搜集方法。
一、数据调查的组织形式
(一)普查
1.普查的概念
普查是为了某种特定的目的而专门组织的一次性的全面调查,用以搜集重要国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据,如人口普查、科技人员普查、工业普查、物资库存普查等。普查多半是在全国范围内进行的,而且所要搜集的是经常的、定期的统计报表所不能提供的更为详细的资料,特别是诸如人口、物资等时点的数据。
2.普查的方式
普查的组织方式一般有两种:一种是建立专门的普查机构,配备大量的普查人员,对调查单位进行直接的登记,如人口普查等;另一种是利用调查单位的原始记录和核算资料,颁发调查表,由登记单位填报,如物资库存普查等。这种方式比第一种简便,适用于内容比较单一、涉及范围较小的情况,特别是为了满足某种紧迫需要而进行的“快速普查”,就可以采用这种方式,它由登记单位将填报的表格越过中间一些环节直接报送到最高一级机构集中汇总。例如:我国采取第一种方式普查的有:1953年第一次全国人口普查,1995年私营商业及饮食业普查,1964年第二次全国科技售货员普查,1977年全民所有制单位实际用工人数普查,1978年全国科技人员普查,1982年第三次全国人口普查,1990年全国第四次人口普查,2000年第五次人口普查等,采取上述第二种方式普查的有:1954年黑色金属、有色金属和木材库存普查,1954年以后所进行的多次物资库存普查,1985年第二次全国工业普查等。
3.普查特点
普查作为一种特殊的数据搜集方式,具有以下几个特点:
①普查通常是一次性的或周期性的。由于普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间,一般每隔10年进行一次。如我国的人口普查从1953年至2000年共进行了五次。今后,我国的普查将规范化、制度化,即每逢末尾数字为“0”的年份进行人口普查,每逢“3”的年份进行第三产业普查,每逢“5”的年份进行工业普查,每逢“7”的年份进行农业普查,每逢“1”或“6”的年份进行统计基本单位普查。
②规定统一的标准时点。标准时点是指对被调查对象登记时所依据的统一时点。调查资料必须反映调查对象的这一时点上的状况,以避免调查时因情况变动而产生重复登记或遗漏现象。例如,我国第五次人口普查的标准时点为2000年11月1日零时,就是要反映这一时点上我国人口的实际状况;农业普查的标准时点定为普查年份的1月1日0时。
③规定统一的普查期限。在普查范围内各调查单位或调查点尽可能同时进行登记,并在最短的期限内完成,以便在方法和步调上保持一致,保证资料的准确性和时效性。
④规定普查的项目和指标。普查时必须按照统一规定的项目和指标进行登记,不准任意改变或增减,以免影响汇总和综合,降低资料质量。同一种普查,每次调查的项目和指标应力求一致,以便于进行历次调查资料的对比分析和观察社会经济现象发展变化情况。
⑤普查的数据一般比较准确,规范化程度也较高,因此它可以为抽样调查或其他调查提供基本依据。
⑥普查的使用范围比较窄,只能调查一些最基本及特定的现象。
普查既是一项技术性很强的专业工作,又是一项广泛性的群众工作。我国历次人口普查都认真贯彻群众路线,做好宣传和教育工作,得到群众的理解和配合,因而取得令世人瞩目的成果。
(二)抽样调查
抽样调查是实际中应用最广泛的一种调查方法,它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方法。关于抽样调查的理论及应用将在第六章中详细介绍。
(三)统计报表
统计报表是一种以全面调查为主的调查方式,它是由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总上报逐级提供基本统计数据的一种调查方式。它的任务是经常地、定期地搜集反映国民经济和社会发展基本情况的资料,为各级政府和有关部门制定国民经济和社会发展计划,以及检查计划执行情况服务。
统计报表按其性质和要求不同,有如下几种分类。
1.按报表内容和实施范围不同,分为国家统计报表、部门统计报表和地方统计报表。
国家统计报表——国民经济基本统计报表,由国家统计部门统一制发,用以搜集全国性的经济和社会基本情况,包括农业、工业、基建、物资、商业、外贸、劳动工资、财政等方面最基本的统计资料。部门统计报表——为了适应各部门业务管理需要而制定的专业技术报表。地方统计报表——针对地区特点而补充制定的地区性统计报表,是为本地区的计划和管理服务的。
2.按报送周期长短不同,分为日报、旬报、季报、半年报和年报。周期短的,要求资料上报迅速,填报的项目比较少;周期长的,内容要求全面一些;年报具有年末总结的性质,反映当年中央政府的方针、政策和计划贯彻执行情况,内容要求更全面和详尽。
3.按填报单位不同,分为基层统计报表和综合统计报表。基层统计报表是由基层企、事业单位填报的报表,综合统计报表是由主管部门或部门根据基层报表逐级汇总填报的报表。
统计报表主要用于搜集全面的基本情况,此外,也常为重点调查等非全面调查所采用。
统计报表具有以下三个显著的优点。
1.它是根据国民经济和社会发展宏观管理的需要而周密设计的统计信息系统,从基层单位日常业务的原始记录和台账(即原始记录分门别类的系统积累和总结)到包含一系列登记项目和指标,都可以力求规范和完善,使调查资料具有可靠的基础,保证资料的统一性,便于在全国范围内汇总、综合。
2.它是依靠行政手段执行的报表制度,要求严格按照规定的时间和程序上报,因此,具有100%的回收率;而且填报的项目和指标具有相对的稳定性,可以完整地积累形成时间序列资料,便于进行历史对比和社会经济发展变化规律的系统分析。
3.它既可以越级汇总,也可以层层上报、逐级汇总,以便满足各级管理部门对主管系统和区域统计资料的需要。
统计报表是以生产资料公有制为基础,适应政府管理职能的需要而产生和发展起来的,曾经是高度集中的计划经济体制不可分割的组成部分。作为一种全面的基本情况的调查方式,经过调整和改进,同样也是社会主义市场经济体制下国家对国民经济和社会发展进行计划管理和宏观调控的重要工具,是政府统计执行其“信息、咨询和监督”基本职能的主要手段。
统计报表制度是一个庞大的组织系统。它不仅要求各基层单位有完善的原始记录、台账和内部报表等良好的基础,而且要有—支熟悉业务的专业队伍。因此,它占用很大的人力和财力。总结历史的经验教训,要很好地发挥统计报表制度的积极作用,必须严格按照统计法规办事,实行系统内的有效监督和管理;报表要力求精简,既要防止多、乱、滥发报表,又要防止虚报、瞒报和漏报。这样,才能保证统计数字的质量,降低统计的社会成本。
(四)重点调查
1.重点调查的概念和特点
重点调查是专门组织的一种非全面调查,它是在总体中选择个别的或部分重点单位进行调查,以了解总体的基本情况。所谓重点单位,是指在总体中具有举足轻重地位的单位。这些单位虽然少,但它们调查的标志值在总体标志总量中占有绝大比重,通过对这些单位的调查,就能掌握总体的基本情况。例如,鞍钢、武钢、首钢、包钢和宝钢等特大型钢铁企业,虽然在全国钢铁企业中只是少数,但它们的产量却占全国钢铁产量的绝大比重。对这些重大企业进行调查,便能省时省力而且及时地了解全国钢铁生产的基本情况,满足调查任务的要求。
重点调查的优点在于调查单位少,可以调查较多的项目的指标,了解较详细的情况,取得及时的资料,使用较少的人力和时间,取得较好的效果,当调查任务只要求掌握总体的基本情况,而且总体中确实存在重点单位时,采用重点调查是比较适宜的。但必须指出,由于重点单位与一般单位的差别较大,通常不能由重点调查的结果来推算整个调查对象的总体指标。
2.重点单位的选择
重点调查的关键问题是确定重点单位,首先重点多少,要根据调查任务确定。一般来说,选出的单位应尽可能少些,而其标志值在总体中所占比重应尽可能大些,其基本标准是所选出的重点单位的标志必须能够反映研究总体的基本情况。其次选择重点单位时,要注意重点是可以变动的,即要看到,一个单位在某一问题上是重点,而在另一问题上不一定是重点;在某一调查总体上是重点,在另一调查总体中不一定是重点,在这个时期是重点,在另一时期不一定是重点,因此,对不同问题的重点调查,或同一问题不同的重点调查,要随着情况的变化而随时调整重点单位。当然选中的单位应是管理健全、统计基础工作较好的单位,以有利于统计调查的实施。
重点调查主要采取专门调查的组织形式,有时也可以颁发定期统计报表,由调查的重点单位填报,定期观察这些重点单位的主要技术经济指标的完成情况及其变动,重点调查搜集资料的方法,主要指用以企事业单位的原始资料为依据的报告法。
(五)典型调查
典型调查也是专门组织的一种非全面调查,它是根据调查研究的目的和要求,在对总体进行全面分析的基础上,有意识地选择其中有代表性的典型单位进行深入细致的调查,借以认识事物的本质特征、因果关系和发展变化的趋势。所谓有代表性的典型单位,是指那些最充分、最集中地体现总体某方面共性的单位。只要客观地、正确地选择典型单位,通过对典型单位的深入细致的调查,既搜集详细的第一手数字资料,又掌握生动具体的情况,就可以获得对总体本质特征的深刻认识,特别是对一些复杂的社会经济问题的研究,典型调查可以了解得更深入、更具体、更详尽。
典型调查具有以下两个突出的作用。
1.研究尚未充分发展、处于萌芽状况的新生事物或某种倾向性的社会问题。通过对典型单位深入细致的调查,可以及时发现新情况、新问题,探测事物发展变化的趋势,形成科学的预见。
2.分析事物的不同类型,研究它们之间的差别和相互关系。例如,通过调查可以区别先进事物与落后事物,分别总结它们的经验教训,进一步进行对策研究,促进事物的转化与发展。
此外,在总体内部差别不大,或分类后各类型内部差别不大的情况下,典型单位的代表性很显著,也可用典型调查资料来补充和验证全面调查的数字。
典型调查的中心问题是如何正确选择典型单位。选择典型单位必须依据正确的理论进行全面的分析,切忌主观片面性和随意性;它不仅要求调查者有客观的、正确的态度,而且要有科学的方法。根据不同的研究目的和要求,有以下三种选典方法。
1.“解剖麻雀”的方法。这种选典方法适用于总体内各单位差别不太大的情况。通过对个别代表性单位的调查,即可估计总体的一般情况。
2.“划类选典”的方法。总体内部差异明显,但可以划分为若干个类型组,使各类型组内部差异较小。从各类型组中分别抽选一两个具有代表性的单位进行调查,即称为划类选典。这种调查既可用于分析总体内部各类型特征,以及它们的差异和联系,也可综合各种类型对总体情况作出大致的估计。
3.“抓两头”的方法。从社会经济组织管理和指导工作的需要出发,可以分别从先进单位和落后单位中选择典型,以便总结经验和教训,带动中间状态的单位,推动整体的发展。
典型调查通常是为了研究某种特殊问题而专门组织的非全面的一次性调查。但是,有时为了观察事物发展变化的过程和趋势,系统地总结经验,也可对选定的典型单位连续地进行长时间的跟踪调查。例如,对新生事物或处于萌芽状态的事物的研究,就适宜采用这种定点的跟踪调查。
以上调查组织形式还可以从不同的角度进行分类,从调查的时间分为经常性调查和一次性调查,经常性调查是对调查对象进行连续不断的经常性的登记,一次性调查是对调查对象在某一时点的情况进行调查,同类的调查以后在某一时点可以再次进行,也可以不再进行。按调查的范围分为全面调查和非全面调查,全面调查是对调查对象的所有单位毫无例外地逐个进行调查登记,非全面调查则是只对调查对象的一部分单位进行调查登记。按调查的组织形式还可以分为统计报表制度和专门调查等。
二、搜集数据的具体技术
实际中,为研究一些特定的社会经济问题,还需要进行一些特定的调查,如市场调查机构进行的市场调查等。这些调查也是取得直接统计数据的重要手段。特别是随着市场经济的发展,市场调查越来越被人们所重视,一些企业已逐步把市场调查作为取得企业所需生产和经营信息的重要手段。在实际调查中,搜集数据的具体方法主要有以下几种:
(一)访问调查
访问调查又称派员调查,它是调查者与被调查者通过面对面地交谈从而得到所需资料的调查方法。访问调查的方式有标准式访问和非标准式访问两种。标准式访问又称结构式访问,它是按照调查人员事先设计好的、有固定格式的标准化问卷,有顺序地依次提问,并由受访者作出回答;非标准式访问又称非结构式访问,它事先不制作统一的问卷或表格,没有统一的提问顺序,调查人员只是给一个题目或提纲,由调查人员和受访者自由交谈,以获得所需的资料。
(二)邮寄调查
邮寄调查是通过邮寄或其他方式将调查问卷送至被调查者,由被调查者填写,然后将问卷寄回或投放到指定收集点的一种调查方法。邮寄调查是一种标准化调查,其特点是调查人员和被调查者没有直接的语言交流,信息的传递完全依赖于问卷。邮寄调查的问卷发放方式有邮寄、宣传媒介传送、专门场所分发三种。
邮寄调查的基本程序是:在设计好问卷的基础上,先在小范围内进行预调查,以检查问卷设计中是否存在问题,以便纠正,然后选择一定的方式将问卷发放下去,进行正式的调查,再将问卷按预定的方式收回,并对问卷进行处理和分析。
(三)电话调查
电话调查是调查人员利用电话同受访者进行语言交流,从而获得信息的一种调查方式。电话调查具有时效快、费用低等特点。随着电话的普及,电话调查的应用也越来越广泛。电话调查可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访。用于电话调查的问题要明确、问题数量不宜过多。
(四)座谈会
座谈会也称为集体访谈法,它是将一组受访者集中在调查现场,让他们对调查的主题(如一种产品、一项服务或其他话题等)发表意见,从而获取调查资料的一种方法。通过座谈会,研究人员可以从一组受访者那里获得所需的定性资料,这些受访者与研究主题有某种程度上的关系。为获得此类资料,研究人员通过严格的甄别程序选取少数受访者,围绕研究主题以一种非正式的、比较自由的方式进行讨论。这种方法适用于搜集与研究课题有密切关系的少数人员的倾向和意见。
参加座谈会的人数不宜太多,通常有6至10人,并且是有关调查问题的专家或有经验的人。讨论方式主要取决于主持人的习惯和爱好。通过小组讨论,能获取访问调查无法取得的资料。而且,在彼此间交流的环境里,各个受访者之间相互影响、相互启发、相互补充,并在座谈过程中不断修正自己的观点,从而有利于取得较为广泛、深入的想法和意见。座谈会的另一个优点是不会因为问卷过长遭到拒访。当然,这要求主持人一般要受过心理学或行为科学方面的训练,具有很强的组织能力足以控制一群不同背景的陌生人,并尽可能多地引导受访者说出他们的真实意见或想法。
(五)个别深度访问
深度访问是一次只有一名受访者参加的特殊的定性研究。“深访”这一术语也暗示着要不断深入受访者的思想当中,努力发掘他行为的真实动机的意思。深访是一种无结构的个人访问,调查人员运用大量的追问技巧,尽可能让受访者自由发挥,表达他的想法和感受。
深度访问常用于动机研究,如消费者购买某种产品的动机等,以发掘受访者非表面化的深层意见。这一方法最宜于研究较隐秘的问题,如个人隐私问题,或较敏感的问题,如政治性的问题。对于一些不同人之间观点差异极大的问题,采用深度访问法比较合适。
座谈会和个别深访属于定性方法,它通常围绕一个特定的主题取得有关定性资料。在此类研究中,从挑选的少数受访者中取得有关意见。这种方法和定量方法是有区别的,定量方法是从总体中按随机方式抽取样本取得资料,其研究结果或结论可以进行推论。而定性研究着重于问题的性质和未来趋势的把握,不是对研究总体数量特征的推断。
(六)网上调查
1.网上调查的优点
网上调查在20世纪90年代开始热门起来,发展也很迅速,其优点表现在以下几个方面:
(1)速度快。由于省略了印制、邮寄和数据录入后过程,问卷的制作、发放及数据的回收速度均得以提高。可以短时间内完成问卷并统计结果及报表。
(2)费用低。印刷、邮寄、录入及调研员的费用都被节省下来,而调研费用的增加却很有限。因此,进行大规模的调研较其他如邮寄或电话调研方法省下可观的费用。
(3)易获得连续性数据。随着网上固定样本调研的出现,调研员能够通过跟踪受访者的态度、行为和时间进行纵向调研。复杂的跟踪软件能够做到根据上一次的回答情况进行本次问卷的筛选,而且还能填补落选项目。
(4)调研内容设置灵活。打一个电话却只提两三个问题在费用上是不值得的。但在网上,调研内容可以很容易包含在市场、商贸或其他—般站点上。例如,如果一个人上了银行主页,击活“信用卡”连接,在进入正式网页之前,他可以被询问几个有关被认为是最重要的信用卡特性问题。
(5)调研群体大。网上可以接触很多人。目前很难想象还有什么媒体可以提供那么大的调研群体,随着互联网的普及,计算机产品购买者或是互联网使用者,是使用互联网调研的理想对象。利用互联网的企事业单位使用者也是不错的可发展的调研对象。目前估计有40%的企事业单位已上网,这个群体还在日益扩大。
(6)可视性强。网上调查还有一个独一无二的优点,即它们在视觉效果上能够吸引人,互联网的图文及超文本特征可以用来展示产品或介绍服务内容。对于那些有较新版本Neboape及Ⅲ(两个最为流行的网上浏览器)的用户,声音及播放功能还可以加入到问卷中。这是其他调研方式所无法比拟的。
2.网上调查的缺点
(1)代表性问题。网上调查在目前来说还有不少缺点。最大的一点恐怕就是上网的人不能代表所有人口。使用者多为男性,教育水平高、有相关技术,较年轻和较高收入的人。不过,这种情形正有所改变,越来越多的人开始接触互联网。
(2)安全性问题。现在很多使用者为私人信息的安全性担忧,加上媒体的报道及针对使用者的各种欺骗性文章,更使人忧心忡忡。然而,考虑到对互联网的私人信息,诸如信用卡账号之类进行担保的商业目的,提高安全性仍是互联网有待解决的重要问题。
(3)无限制样本问题。这是指网上的任何人都能填写问卷。它完全是自我决定的,很有可能除了网虫外并不代表任何人。如果同一个人重复填写问卷的话,问题就变得复杂了。
3.互联网样本
互联网样本可以分为三类:随意样本、过滤性样本、选择样本。
随意样本在上文已经提到了,即网上任何人都可以成作被调查单位,只要其愿意,没有任何对调查单位的限制条件。过滤性样本是指通过对期望样本特征的配额限制一些自我挑选的未具代表性的样本。这些特征通常是一些统计特征,如性别、收入、地理区域位置或与产品有关的标准,如过去的购买行为、工作责任、现有产品的使用情况等。对于过滤性样本的使用与随意样本基本类似。
过滤性样本通常是以分支或跳问形式安排问卷,以确定被选者是否适宜回答全部问题。有些互联网调研能够根据过滤性问题立即进行市场分类,确定被访者所属类别,然后根据被访者不同的类型提供适当的问卷。
另外一种方式是一些调研者创建了样本收藏室,将填写过分类问卷的被访者进行分类重置。最初问卷的信息用来将被访者进行归类分析,被访者按照专门的要求进行分类,而只有那些符合统计要求的被访者,才能填写适合该类特殊群体的问卷。
互联网选择样本用于互联网中需要对样本进行更多限制的目标群体。被访者均通过电话、邮寄、E—mail或个人访问方式进行补充完善,当认定符合标准后,才向他们发送E—mail问卷或直接到与问卷连接的站点。在站点中,通常使用密码账号来确认已经被认定的样本,因为样本组是已知的,因此可以对问卷的完成情况进行监视或督促未完成问卷以提高回答率。
选择样本对于已建立抽样数据库的情形最为适用,例如,以顾客数据库作为抽样框选择参与顾客满意度调查的样本。
4.进行网上调查的方法
进行互联网调查主要有以下三种基本方法:E—mail、交互式CATI系统和互联网CGI程序。下面我们就每一种进行简要介绍。
(1)E—mail问卷
问卷就是一份简单的E—mail,并按照已知的E—mail地址发出。被访者回答完毕将问卷回复给调研机构,有专门的程序进行问卷准备、编制E—mail地址和收集数据。
E—mail问卷制作方便,分发迅速。由于出现在被访者的私人信箱中,因此能够得到注意。但是,它只限于传输文本,图形虽然也能在E—mail中进行链接但与问卷文本是分开的。
(2)交互式CATI系统
利用一种软件语言程序在CATI上设计问卷结构并在网上进行传输。互联网服务站可以设在调研机构中,也可以租用有CAT装置的单位。互联网服务器直接与数据库连接,收集到的被访者答案直接进行储存。
交互式CATI系统能够对于CATI进行良好抽样及对CATI程序进行管理,他们还能建立良好的跳问模式和修改被访者答案。他们能够当场对数据进行认证,对不合理数据要求重新输入。交互式CATI系统为网上CATI调研的使用者提供了一个方便的工具,而且,支持程序问卷的再使用。
作为不利的一面,网上CATI系统产品是为电话一屏幕访谈设计的。被访者的屏幕格式受到限制,而且CATI语言技术不能显示互联网调研在图片、播放等方面的优势。
(3)网络调查系统
有专门为网络调查设计的问卷链接及传输软件。这种软件设计为无须使用程序的方式,包括整体问卷设计、网络服务器、数据库和数据传输程序。一种典型的用法是:问卷由简易的可视问卷编辑器产生,自动传送到互联网服务器上,通过网站,使用者可以随时在屏幕上对回答数据进行整体统计或图表统计。
平均每次访谈,网络调查系统均比交互式CATI费用低,但对小规模的样本调查(低于500名)的费用都比E—mail调查高。低费用是由于使用了网络专业工具软件,而且,购费用和硬件费用由中心服务系统提供。
第三节 调查问卷
问卷又称调查表或询问表,是以问题的形式系统地记载调查内容的一种印件。问卷可以是表格式、卡片式或簿记式。设计问卷,是询问调查的关键。完美的问卷必须具备两个功能,即能将问题传达给被问的人和使被问者乐于回答。要完成这两个功能,问卷设计时应当遵循一定的原则和程序,运用一定的技巧。
一、问卷设计的原则
1.有明确的主题。根据调查主题,从实际出发拟题,问题目的明确,重点突出,没有可有可无的问题。
2.结构合理、逻辑性强。问题的排列应有一定的逻辑顺序,符合应答者的思维程序。一般是先易后难、先简后繁、先具体后抽象。
3.通俗易懂。问卷应使应答者一目了然,并愿意如实回答。问卷中语气要亲切,符合应答者的理解能力和认识能力,避免使用专业术语。对敏感性问题采取一定的技巧调查,使问卷具有合理性和可答性,避免主观性和暗示性,以免答案失真。
4.控制问卷的长度。回答问卷的时间控制在20分钟左右,问卷中既不浪费一个问句,也不遗漏一个问句。
5.便于资料的校验、整理和统计。
二、问卷设计的程序
1.确定主题和资料范围。根据调查目的的要求,研究调查内容、所需收集的资料及资料来源、调查范围等,酝酿问卷的整体构思,将所需要的资料一一列出,分析哪些是主要资料,哪些是次要资料,哪些是可要可不要的资料,淘汰那些不需要的资料,再分析哪些资料需要通过问卷取得、需要向谁调查等,并确定调查地点、时间及对象。
2.分析样本特征。分析了解各类调查对象的社会阶层、社会环境、行为规范、观念习俗等社会特征;需求动机、潜在欲望等心理特征;理解能力、文化程序、知识水平等学识特征,以便针对其特征来拟题。
3.拟定并编排问题。首先构想每项资料需要用什么样的句型来提问,尽量详尽地列出问题,然后对问题进行检查、筛选,看它有无多余的问题,有无遗漏的问题,有无不适当的问句,以便进行删、补、换。
4.进行试问试答。站在调查者的立场上试行提问,看看问题是否清楚明白,是否便于资料的记录、整理;站在应答者的立场上试行回答,看看是否能答和愿答所有的问题,问题的顺序是否符合思维逻辑。估计回答时间是否合乎要求。有必要在小范围进行实地试答,以检查问卷的质量。
5.修改、付印。根据试答情况,进行修改,再试答,再修改,直到完全合格以后才定稿付印,制成正式问卷。
三、问题的形式
(一)开放式问题
又称无结构的问答题。在采用开放式问题时,应答者可以用自己的语言自由地发表意见,在问卷上没有已拟定的答案。
例如:您抽香烟多久了?您喜欢看哪一类的电视节目?您认为加入WTO对我国政府管理体制有何影响?
显然,应答者可以自由回答以上的问题,并不需要按照问卷上已拟定的答案加以选择,因此应答者可以充分地表达自己的看法和理由,并且比较深入有时还可获得研究者始料未及的答案。通常而言,问卷上的第一个问题采用自由式问题,让应答者有机会尽量发表意见,这样可制造有利的调查气氛,缩短调查者与应答者之间的距离。
然而,开放式问题亦有其缺点。例如调查者的偏见,因记录应答者答案是由调查者执笔,极可能失真,或并非应答者原来的意思。如果调查者按照他自己的理解来记录,就有出现偏见的可能。但这些不足可运用录音机来弥补。开放式问题的第二个主要缺点是资料整理与分析的困难。由于各种应答者的答案可能不同,所用字眼各异,因此在答案分类时难免出现困难,整个过程相当耗费时间,而且免不了夹杂整理者个人的偏见。因此,开放性问题在探索性调研中是很有帮助的,但在大规模的抽样调查中,它就弊大于利了。
(二)封闭式问题
又称有结构的问答题。封闭式问题与开放式问题相反,它规定了一组可供选择的答案和固定的回答格式。
例如:你购买雕牌洗衣粉的主要原因是(选择最主要两种):
1.洗衣较洁白
2.售价较廉
3.任何商店都有出售
4.不伤手
5.价格与已有的牌子相同,但份量较多
6.朋友介绍
封闭式问题的优点包括以下几个方面:
1.答案是标准化的,对答案进行编码和分析都比较容易;
2.回答者易于作答,有利于提高问卷的回收率;
3.问题的含义比较清楚。因为所提供的答案有助于理解题意,这样就可以避免回答者由于不理解题意而拒绝回答。
封闭式问题也存在一些缺点:
1.回答者对题目不正确理解的,难以觉察出来;
2.可能产生“顺序偏差”或“位置偏差”,即被调查者选择答案可能与该答案的排列位置有关。研究表明,对陈述性答案被调查者趋向于选第一个或最后一个答案,特别是第一个答案。而对一组数字(数量或价格)则趋向于取中间位置的。为了减少顺序偏差,可以准备几种形式的问卷,每种形式的问卷答案排列的顺序都不同。
四、问卷调查设计技巧
(一)事实性问题
事实性问题主要是要求应答者回答一些有关事实的问题。例如:你通常什么时候看电视?
事实性问题的主要目的在于求取事实资料,因此问题中的字眼定义必须清楚,让应答者了解后能正确回答。
市场调查中,许多问题均属“事实性问题”,例如应答者个人的资料:职业、收入、家庭状况、居住环境、教育程度等。这些问题又称为“分类性问题”,因为可根据所获得的资料而将应答者分类。在问卷之中,通常将事实性问题放在后边,以免应答者在回答有关个人的问题时有所顾忌,因而影响以后的答案。如果抽样方法是采用配额抽样,则分类性问题应置于问卷之首,否则不知道应答者是否符合样本所规定的条件。
(二)意见性问题
在问卷中,往往会询问应答者一些有关意见或态度的问题。
例如:你是否喜欢××电视节目?
意见性问题事实上即态度调查问题。应答者是否愿意表达他真正的态度,固然要考虑,而态度强度亦有不同,如何从答案中衡量其强弱,显然也是一个需要克服的问题。通常而言,应答者会受到问题所用字眼和问题次序的影响,即不同反应,因而答案也有所不同。对于事实性问题,可将答案与已知资料加以比较。但在意见性问题方面则较难作比较工作,因应答者对同样问题所作的反应各不相同。因此意见性问题的设计远较事实性问题困难。这种问题通常有两种处理方法:其一是对意见性问题的答案只用百分比表示,例如有的应答者同意某一看法等等。另一方法则旨在衡量应答者的态度,故可将答案化成分数。
(三)困窘性问题
困窘性问题是指应答者不愿在调查员面前作答的某些问题,比如关于私人的问题,或不为一般社会道德所接纳的行为、态度,或属有碍声誉的问题。例如:平均说来,每个月你打几次麻将?如果你的汽车是分期购买的,一共分多少期?你是否向银行抵押借款购股票?除了你工作收入外,尚有其他收入吗?
如果一定要想获得困窘性问题的答案,又避免应答作不真实回答,可采用以下方法:
1.间接问题法。不直接询问应答者对某事项的观点,而改问他认为其他该事项的看法如何。
例如:用间接问题旨在套取应答者回答认为是旁人的观点。所以在他回答后,应立即再加上问题:“你同他们的看法是否一样?”
2.卡片整理法。将困窘性问题的答案分为“是”与“否”两类,调查员可暂时走开,让应答者自己取卡片投入箱中,以减低困窘气氛。应答者在无调查员看见的情况下,选取正确答案的可能性会提高不少。
3.随机反应法。根据随机反应法,可估计出回答困窘问题的人数。
4.断定性问题。有些问题是先假定应答者已有该种态度或行为。
例如:你每天抽多少支香烟?
事实上该应答者极可能根本不抽烟,这种问题则为断定性问题。正确处理这种问题的方法是在断定性问题之前加一条“过滤”问题。
例如:你抽烟吗?
如果应答者回答“是”,用断定问题继续问下去才有意义,否则在过滤问题后就应停止。
5.假设性问题。有许多问题是先假定一种情况,然后询问应答者在该种情况下,他会采取什么行动。
例如:如果××晚报涨价至2元,你是否将改看另一种未涨价的晚报?
如果××牌洗衣粉跌价1元,你是否愿意用它?
你是否愿意加薪?
你是否赞成公共汽车公司改善服务?
以上皆属假设性问题,应答者对这种问题多数会答“是”。这种探测应答者未来行为的问题,应答者的答案事实上没有多大意义,因为多数人都愿意尝试一种新东西,或获得一些新经验。
五、问卷的结构
调查问卷一般可以看成是由三大部分组成:卷首语(开场白)正文和结尾。
(一)卷首语
问卷的卷首语或开场白是致被调查者的信或问候语。其内容一般包括下列几个方面:
1.称呼、问候。如“××先生、女士:您好”。
2.调查人员自我说明调查的主办单位和个人的身份。
3.简要地说明调查的内容、目的、填写方法。
4.说明作答的意义或重要性。
5.说明所需时间。
6.保证作答对被调查者无负面作用,并替他保守秘密。
7.表示真诚的感谢,或说明将赠送小礼品。
信的语气应该是亲切、诚恳而礼貌的,简明扼要,切忌罗嗦。问卷的开头是十分重要的。大量的实践表明,几乎所有拒绝合作的人都是在开始接触的前几秒钟内就表示不愿参与的。如果潜在的调查对象在听取介绍调查来意的一开始就愿意参与的话,那么绝大部分都会合作,而且一旦开始回答,就几乎都会继续并完成,除非在非常特殊的情况下才会中止。
(二)正文
问卷的正文实际上也包含了三大部分。
第一部分包括向被调查者了解最一般的问题。这些问题应该是适用于所有的被调查者,并能很快很容易回答的问题。在这一部分不应有任何难答的或敏感的问题,以免吓坏被调查者。
第二部分是主要的内容,包括涉及调查的主题的实质和细节的大量的题目。这一部分的结构组织安排要符合逻辑性并对被调查者来说应是有意义的。
第三部分一般包括两部分的内容,一是敏感性或复杂的问题,以及测量被调查者的态度或特性的问题;二是人口基本状况、经济状况等等。
(三)结尾
问卷的结尾一般可以加上1~2道开放式题目,给被调查者一个自由发表意见的机会。然后,对被调查者的合作表示感谢。在问卷发最后,一般应附上一个“调查情况记录”。这个记录一般包括:
1.调查人员(访问员)姓名、编号
2.受访者的姓名、地址、电话号码等
3.问卷编号
4.访问时间
5.其他,如设计分组等
六、问卷设计应注意的问题
(一)问卷的开场白
问卷的开场白,必须慎重对待,要以亲切的口吻询问,措词应精心切磋,做到言简意明,亲切诚恳,使被查者自愿与之合作,认真填好问卷。
(二)问题的字眼(语言)
由于不同的字眼会对被调查者产生不同的影响,因此往往看起来差不多的相同的问题,会因所用字眼不同,而使应答者作不同的反应,作出不同的回答。故问题所用的字眼必须小心,以免影响答案的准确性。一般来说,在设计问题时应留意以下几个原则:
1.避免一般性问题。如果问题的本来目的是在求取某种特定资料,但由于问题过于一般化,使应答者所提供的答案资料无多大意义。
例如:某酒店想了解旅客对该酒店房租与服务是否满意,因而作以下询问:
你对本酒店是否感到满意?
这样的问题,显然有欠具体。由于所需资料牵涉到房租与服务两个问题,故应分别询问,以免混乱,如:
你对本酒店的房租是否满意?
你对本酒店的服务是否满意?
2.问卷的语言要口语化,符合人们交谈的习惯,避免书面化和文人腔调。
(三)问题的选择及顺序
通常问卷的头几个问题可采用开放式问题,旨在使应答者多多讲话,多发表意见,使应答者感到十分自在,不受拘束,能充分发挥自己的见解。当应答者话题多,其与调查者之间的陌生距离自然缩短。不过要留意,最初安排的开放式问题必须较易回答,不可具有高敏感性如困窘性问题。否则一开始就被拒绝回答的话,以后的问题就难继续了。因此问题应是容易回答且具有趣味性,旨在提高应答者的兴趣。核心问题往往置于问卷中间部分,分类性问题如收入、职业、年龄通常置于问卷之末。
问卷中问题的顺序一般按下列规则排列:
1.容易回答的问题放前面,较难回答的问题放稍后,困窘性问题放后面,个人资料的事实性问题放卷尾。
2.封闭式问题放前面,自由式问题放后面。由于自由式问题往往需要时间来考虑答案和语言的组织,放在前面会引起应答者的厌烦情绪。
3.要注意问题的逻辑顺序,按时间顺序、类别顺序等合理排列。
第四节 次级信息数据的搜集
次级信息数据也称为二手信息数据,是指因为其他目的已经被收集好了的资料。与原始信息数据相比,二手信息数据收集起来更快更容易,所需的费用和时间也相对节约得多。
一、次级信息数据的来源
次级信息数据有两个基本来源:内部信息数据和外部信息数据。
(一)内部信息数据
内部二手信息数据是从被调查单位内部直接获取的与调查有关的信息数据资料,如资产负债表、现金流量表、各种统计台帐、统计报表等等。另外,对于今天的企业来说,面对着21世纪的挑战,尤其是计算机网络的发展,一些企业已经或正在着手建立现在的和潜在的消费者以及内部生产、销售管理的信息数据库,利用已有的企业信息数据库,优秀的调查人员可以调查现有的市场营销活动和预测未来调查销售状况等。
(二)外部信息数据
1.传统的二手信息数据
传统的外部的次级信息数据来源非常广泛,有各级政府、非营利机构、贸易组织和行业机构、商业性出版物等等。其中政府机构所编辑出版的统计资料是宏观、微观信息数据的主要来源。
在我国,国家统计局出版的统计资料汇编刊物主要有:《中国统计年鉴》、《国民收入统计资料汇编》、《中国物价统计年鉴》、《全国城镇居民家庭收支调查》、《中国农村统计年鉴》、《中国劳动工资统计年鉴》、《中国证券期货统计摘要》、《世界经济年鉴》、《中国金融年鉴》、《中国证券期货统计年鉴》、《中国经济年鉴》等等。
除了国内出版的刊物外,也可以利用国际和外国组织机构公开发表的资料汇编,如:《联合国统计年鉴》、《世界发展报告》、《世界经济展望》、《美国统计摘要》、《日本统计月报》等。
随着信息技术的飞速发展,可以获得资料的渠道越来越多,各种年鉴、资料汇编也越来越多,内容越来越丰富,不过,任何已有的资料都是为了某种目的而收集并通过一定的方法整理汇编出来的,不是亲自收集的信息数据,有时难以满足某些特定研究的需要,特别是在所搜集到的次级信息数据资料不配套、不完整、不合要求时,仍然需要进行调整和估算,所以为了得到高质量的信息数据,亲自收集信息数据仍然是十分必要的。
2.二手信息数据的新纪元–––在线信息数据库
收集传统的二手信息数据往往是一项艰苦的工作,它意味着政府部门、行业协会和其他部门联络,然后等待回音;数次往返图书馆寻找有关报告……今天,计算机基础上发展而来的在线信息数据库(On–Line Database),就可以解决这个难题。如果具备了一定的设备,任何人都可以及时地获取在线信息数据(On–Line Data)。
(1)计算机信息数据库的优点
与传统的印刷出版的信息数据相比,计算机信息数据库具有如下的优点:
①信息数据是最近的或是最新的,因为出版商和信息数据收集编辑者现在都已将使用计算机作为最基本的生产技术。
②搜集过程更具综合性、更快、更简单。联网的计算机可以提供几百个信息数据库的信息,使用起来又快又方便。
③费用也相对较低,因为查询的时间很短。
④只要个人计算机与某种通讯设备相连接。例如与Moderm或网络相连,就可以容易地得到所需信息数据。
(2)计算机信息数据库的分类
计算机信息数据库可以分成联网与不联网的两大类。随着高级网络技术的发展,网络信息数据库的比重越来越大。
联网的和不联网的信息数据库都可以进一步分成参考文献、统计数字、全文、名录和其他信息数据库。参考文献信息数据库由刊物、杂志、报纸、市场研究、技术报告、政府文件等方面的引文组成,还常常可以提供资料的摘要或小结。统计数字信息数据库包括各种数字的统计资料。全文信息数据库包括一些文献的全文,如报纸的全文搜索服务。名录信息数据库提供关于个人、机构和服务单位的名单、地址和联系电话等等,如著名的Yahoo。
毫无疑问,国际互联网(Internet)和万维网()的革命正在席卷全球,其运用的范围也越来越广和越来越深入,尤其在营销、管理、公共关系、产品销售、客户支持和电子交换方面,将有无限的潜能。做为调查人员,当然可借助这些现代技术搜集与调查有关的信息数据资料。
二、二手信息数据资料的特点
(一)二手信息数据的优点
二手信息数据可以弥补收集原始信息数据成本高、时间长和不方便的缺点,因此调查人员可以广泛地使用二手信息数据。使用二手信息数据还有如下优点:
1.二手信息数据可以提供必要的背景信息和调查报告的创意。二手信息数据可以为调查人员提供丰富的背景资料,如潜在购买者和非潜在购买者的特征、产业资料、新产品受欢迎的特点、现有产品的优点和缺陷……
2.二手信息数据有可能提供原始信息数据收集的方法。有的项目的原始信息数据调查可以在调查过程中为解决手边的问题而应用,如公开发表的同类调查报告和调查方法、问卷设计方法等,就可以征得有关方面许可而采用。
3.二手信息数据可以警示调查人员注意潜在的问题和困难。二手信息数据可以帮助调查人员辨明在调查过程中可能遇到的问题,如信息数据收集方法问题、样本确定问题或被访者的敌意等。
(二)二手信息数据的缺陷
虽然二手信息数据具有显著的优点,但是它也存在一些缺陷,比如说难以获得、相关性差和不准确等等。
1.难以获得。对一些调查项目来说,其二手信息数据无法提供。如果调查某组织在各地区的形象,那么它只能通过原始信息数据的调查而完成。同样的例子还有对新产品的概念和性能的测试。
2.相关性差。二手信息数据不是为当前的问题所收集的,因此在现实中,调查人员往往因为信息数据抽样单元或测量方法不符,而无法使用该信息数据。而类似统计年鉴的发表往往在时间上也要滞后许多。一般是1~2年左右,信息数据已经过时。
3.不准确。二手信息数据的使用者应该经常质疑信息数据的准确性,在研究者收集、编码、分析和表现信息数据时往往可能潜藏许多错误。没有提及误差和误差范围的报告是值得怀疑的。应该提出以下几个问题:
①谁收集的?信息数据的来源是关系到信息数据准确程度的最关键因素。政府、大的市场调查机构等权威性较高的部门较为值得信赖。
②研究的目的是什么?弄清研究的动机,有助于判断信息数据的质量。为了某一团体的利益而收集的信息数据是令人怀疑的,例如企业自身所作的媒体调查、广告公司对广告效果的自我测量等等。
③什么内容?研究者一定要时时注意辨明信息数据的内容,即使二手信息数据的质量可以让人接受,但也可能难于使用或不能适应需要。
④何时收集的?过时的信息数据是没有什么用处的,在收集二手信息数据时,一方面注意其发表的时间,更重要的是要注意其实施调查时间,因为调查结果发表和信息数据收集的真正时间常常是相隔很长的。
思考题
一、单项选择题
1.重点调查中重点单位是按( )选择的
①这些单位数量占总体全部单位总量的很大比重
②这些单位的标志总量占总体标志总量的很大比重
③这些单位具有典型意义,是工作重点
④这些单位能用以推算总体标志总量
2.有意识地选择三个农村点调查农民收入情况,这种调查方式属于( )
①典型调查 ②重点调查 ③抽样调查 ④普查
3.2000年11月1日零点的第五次全国人口普查是( )
①典型调查 ②重点调查 ③一次性调查 ④经常性调查
4.调查大庆、胜利等几个主要油田来了解我国石油生产的基本情况,这种调查方式属于( )
①普查 ②典型调查 ③重点调查 ④抽样调查
5.某些不能够或不宜用定期统计表搜集的全面统计资料,一般应采取的方法是( )
①普查 ②重点调查 ③典型调查 ④抽样调查
6.统计数据中,最基本的计量尺度是( )
①定类尺度 ②定序尺度 ③定距尺度 ④定比尺度
7.工厂对生产的一批零件进行检查,通常采用( )
①普查 ②抽样调查 ③重点调查 ④典型调查
二、简答题
1.数据的计量尺度分为哪几种?不同计量尺度各有什么特点?
2.定距尺度和定比尺度有何区别?
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?
4.简述普查和抽样调查的特点。
5.统计数据的具体搜集方法有哪些?
6.试指出下列的变量属于哪个测量层次:
(1)性别;(2)籍贯;(3)高校教师的职称;(4)民族;(5)温度;(6)宗教信仰;(7)托福成绩;(8)人的体重;(9)产品等级;(10)每月上课天数。
三、综合题
某家用电器生产厂家想通过市场调查了解以下问题:企业产品的知名度;产品的市场占有率;用户对产品质量的评价及满意程度。
(1)你认为这项调查采取哪种调查方式比较合适?
(2)设计出一份调查问卷。
第二章 参考答案
一、单项选择题
1、② 2、① 3、③ 4、③ 5、① 6、① 7、②
第三章 统计数据的整理与显示
通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。通过整理可以大大简化数据,使我们更容易理解和分析。数据整理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步骤。
第一节 数据的预处理
数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、排序等。
一、数据的审核与筛选
在对统计数据进行整理时,首先要进行审核,以保证数据的质量,为进一步的整理与分析打下基础。从不同渠道取得的统计数据,其审核内容和方法有所不同,不同类型的统计数据在审核内容和方法上也有所差异。
对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。比如中学文化程度的人所填的职业是大学教师,对于这种违背逻辑的项目应予以纠正。逻辑检查主要用于对定类数据和定序数据的审核。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。比如各分项数字之和是否等于相应的合计数,各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同,等等。计算检查主要用于对定距数据和定比数据的审核。
对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应首重审核数据的适用性和时效性。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的,或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,有些时效性较强的问题,如果所取得的数据过于滞后,就失去了研究的意义。一般来说,应尽可能使用最新的统计数据。数据经过审核后,确认适合实际需要,才有必要做进一步的加工整理。
对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查中是十分重要的。
二、数据的排序
数据排序是按一定顺序将数据排列,以便于研究者通过游览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。在某些场合,排序本身就是分析的目的之一。例如,了解究竟谁是中国家电生产的三巨头,对于家电厂商而言是很有用的信息。美国的《财富》杂志每年都要排出世界500强企业,通过这一信息,经营者不仅可以了解自己企业所处的地位,清楚自己的差距,还可了解到竞争对手的状况,从而有效制定企业发展的规划和战略目标。
对于定类数据,如果是字母型数据,排序有升序与降序之分,但习惯上升序使用得更普遍,因为升序与字母的自然排列相同;如果是汉字型数据,排序方式很多,比如按汉字的首位拼音字母排列,这与字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的升序降序之分。交替运用不同方式排序,在汉字型数据的检查纠错过程中十分有用。
定距数据和定比数据的排序只有两种,即递增和递减。设一组数据为X1,X2,…XN,递增排序后可表示为:X(1)<X(2)<…<X(N);递减排序可表示为:X(1)>X(2)>…>X(N)。排序后的数据也称为顺序统计量(Order statistics)。无论是品质数据还是数值型数据,排序均可借助于计算机完成。
第二节 品质数据的整理与显示
数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理时,首先要弄清数据的类型,因为对于不同类型的数据所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。
一、定类数据的整理与显示
定类数据本身就是对事物的一种分类,因此,在整理时除了要列出所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了解。
(一)频数与频数分布
1.频数(Frequency)。频数也称次数,是落在各类别中的数据个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称次数分布(Frequency distribution)。将频数分布用表格的形式表现出来就是频数分布表。
例3–1 为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”
(1)商品广告;(2)服务广告;(3)金融广告;(4)房地产广告;(5)招生招聘广告;(6)其他广告。
这里的变量就是“广告类别”,不同类型的广告就是变量值。调查数据经分类整理后形成频数分布表。见表3–1。
表3-1 某城市居民关注广告类型的频数分布表
广告类型
人数(人)
比例
频率(%)
商品广告
服务广告
金融广告
房地产广告
招生招聘广告
其他广告
112
51
9
16
10
2
合 计
200
1
100
很显然,如果不做分类整理,观察200个人对不同广告的关注情况,既不便于理解,也不便于分析。经分类整理后,可以大大简化数据,很容易看出关注“商品广告”的人数最多,而关注“其他广告”的人数最少。
2.比例(Proportion)。比例是一个总体中各个部分的数量占总体数据的比重,通常用于反映总体的构成或结构。假定总体数量N被分成K个部分,每一部分的数量分别为N1,N2,…NK,则比例定义为。显然,各部分的比例之和等于1,即
比例是将总体中各个部分的数值都变成同一个基数,也就是都以1为基数,这样就可以对不同类别的数值进行比较了。比如,在上面的例子中,关注金融广告和招生招聘广告的人数比例差不多相同。
3.百分比(Percentage)。将比例乘以100就是百分比或百分数,它是将对比的基数抽象化为100而计算出来的,用%表示,它表示每100个分母中拥有多少个分子。比如在上面的例子中,频率一档就是将比例乘以100而得到的百分比。百分比是一个更为标准化的数值,很多相对数都用百分比表示。当分子的数值很小而分母的数值很大时,也可以用千分数(‰)来表示比例,如人口的出生率、死亡率、自然增长率等都可用千分数来表示。
4.比率(Ratio)。比率是各不同类别的数量的比值。它可以是一个总体中各不同部分的数量对比,比如在上面的例子中,关注商品广告的人数与关注服务广告人数的比率是112:51。为便于理解,通常将分母化为1。比如,关注商品广告和关注服务广告人数的比率是:1。
由于比率不是总体中部分与整体之间的对比关系,因而比值可能大于1。为方便起见,比率可以不用1作为基数,而用100或其他便于理解的数作基数。比如,人口的性别比就用每100名女性人口所对应的男性人口来表示,如性别比为105:100,表示每100个女人对应105个男人,说明男性人口数量略多于女性人口。
在经济和社会问题的研究中,经常使用比率。比如经济学中的积累与消费之比,国内生产总值中第一、二、三产业产值之比,等等。比率也可以是同一现象在不同时间或空间上的数量之比,比如将2001年的国内生产总值与2000年的国内生产总值进行对比,可以得到经济增长率;将一个地区的国内生产总值同另一个地区的国内生产总值进行对比,反映两个地区的经济发展水平差异,等等。
(二)定类数据的图示
上面我们是用频数分布表示反映分类数据的频数分布。如果用图形来显示频数分布,就会更加形象和直观。一张好的统计图表,往往胜过冗长的文字表述。统计图的类型有很多,多数统计图除了可以绘制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机来完成。这里首先介绍反映定类数据的图示方法,其中包括条形图和圆形图。如果两个总体或两个样本的分类相同且问题可比时,还可以绘制环形图。
1.条形图(Bar chart)。条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形图。条形图有单式、复式等形式。例如,根据表3–1数据绘制的条形图如图3–1所示。
2.圆形图(Pie chart)。圆形图也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度是按各部分百分比占360°的相应比例确定的。例如,关注服务广告的人数占总人数的百分比为%,那么其扇形的中心角度就应为360°×%=°,其余类推。
根据表3–1数据绘制的圆形图如图3–2所示。
图3–1 某城市居民关注不同类型广告的人数分布
图3–2 某城市居民关注不同类型广告的人数构成
二、定序数据的数理与显示
前面介绍的定类数据的整理与显示方法,如频数、比例、百分比、比率、条形图和圆形图等,也都适用于对定序数据的整理与显示。但有些方法适用于对定序数据的整理与显示,却不适用于定类数据。对于定序数据,除了可使用上面的整理与显示技术外,还可以计算累积频数和累积频率(百分比)。
(一)累积频数和累积频率
1.累积频数(Cumulative frequencies)。就是将各类别的频数逐级累加起来。其方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(定距数据和定比数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数(定距数据和定比数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别(或数值)以上的频数之和。
2.累积频率或百分比(Cumulative percentages)。就是将各类别的百分比逐级累加起来,也有向上累积和向下累积两种方法。
例3–2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”
(1)非常不满意;(2)不满意;(3)一般;(4)满意;(5)非常满意。
调查结果经整理如表3–2和表3–3所示。
表3-2 甲城市家庭对住房状况的评价
回答类别
甲城市
户数
(户)
百分比
(%)
向上累积
向下累积
户数
(户)
百分比
(%)
户数
(户)
百分比
(%)
非常不满意
不满意
一 般
满 意
非常满意
24
108
93
45
30
8
36
31
15
10
24
132
225
270
300
300
276
168
75
30
100
92
56
25
10
合 计
300
100
-
-
-
-
表3-3 乙城市家庭对住房状况的评价
回答类别
乙城市
户数
(户)
百分比
(%)
向上累积
向下累积
户数
(户)
百分比
(%)
户数
(户)
百分比
(%)
非常不满意
不满意
一般
满意
非常满意
21
99
78
64
38
21
120
198
262
300
300
279
180
102
38
合 计
300
-
-
-
-
(二)定序数据的图示
1.累积频数分布图。根据累积频数或累积频率,可以绘制累积频数或频率分布图。例如,根据表3–2数据绘制的累积频数分布图如图3–3所示。
图3-3 甲城市对住房状况评价的累积分布图
2.环形图。环形图与圆形图类似,但又有区别。环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可以显示多个总体各部分所占的相应比例,从而有利于进行比较研究。例如根据表3-2和表3-3数据绘制两个城市家庭对住房状况评价的环形图,如图3-4所示。
图3-4 甲、乙两城市家庭对住房状况的评价
在图3-4中,外边的一个环表示的是乙城市家庭对住房状况评价各等级所占的百分比,里边的一个环则为甲城市家庭对住房状况评价各等级所占的百分比。
第三节 数值型数据的整理与显示
上一节介绍的定类数据和定序数据的整理与图示方法,也都适用于对数值型数据的整理与显示。但数值型数据还有一些特定的整理和图示方法,并不适用于品质数据。
一、数据的分组
数值型数据包括定距数据和定比数据,在整理时通常要进行数据分组,就是根据统计研究的需要,将数据按照某种标准化分成不同的组别。分组后再计算出各组中出现的次数或频数,就形成了一张频数分布表。分组的方法有单变量值分组和组距分组两种。
(一)单变量值分组
单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量值较少的情况。下面结合具体的例子说明分组的过程和频数分布表的编制过程。
例3–3 某生产车间50名工人日加工零件数(单位:个)如下。试采用单变量值对数据进行分组。
117
108
110
112
137
122
131
118
134
114
124
125
123
127
120
129
117
126
123
128
139
122
133
119
124
107
133
134
113
115
117
126
127
120
139
130
122
123
123
128
122
118
118
127
124
125
108
112
135
121
为便于分组,可先对上面的数据进行排序,结果如下:
107
117
122
125
130
108
117
122
125
131
108
118
122
126
133
110
118
123
126
133
112
118
123
127
134
112
119
123
127
134
113
120
123
127
135
114
120
124
128
137
115
121
124
128
139
117
122
124
129
139
采用单变量值分组形成的频数分布表如表3–4所示。
表3-4 某车间50名工人日加工零件数分组表
零件数(个)
频数(人)
零件数(个)
频数(人)
零件数(个)
频数(人)
107
108
110
112
113
114
115
117
118
1
2
1
2
1
1
1
3
3
119
120
121
122
123
124
125
126
127
1
2
1
4
4
3
2
2
3
128
129
130
131
133
134
135
137
139
2
1
1
1
2
2
1
1
2
从表3–4可以看出,在数据较多的情况下,单变量值分组由于组数较多,不便于观察数据分布的特征和规律,而且对于连续变量无法采用这种分组方法。
(二)组距分组
在连续变量或变量值较多的情况下,可采用组距分组,它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限(Low limit),最大值称为上限(Upper limit)。采用组距分组需要经过以下几个步骤:
第一步:确定组数。一组数据分多少个组合适呢?这一般与数据本身的特点及数据的多少有关。由于分组目的之一是为了观察数据分布的特征,因此组数的多少应适中。若组数太少,数据的分布就会过于集中,而组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K:
式中,n为数据的个数,对结果用四舍五入的办法取整数即为组数。例如,对例中的数据有:K=1+lg50÷lg2≈7,即应分为7个组。当然,这只是一个经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数。
第二步:确定各组的组距。组距(Class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。例如,对于例3–3的数据,最大值为139,最小值为107,则组距=(139-107)÷7=。为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取5。
第三步:根据分组整理成频数分布表。比如对上面的数据进行分组,可得到下面的频数分布表。见表3–5。
表3-5 某车间50名工人日加工零件数分组表
按零件数分组(个)
频数(人)
频率(%)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计
50
100
采用组距分组时,一定要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其它组中重复出现;“不漏”是指在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而算在下一组内。例如,在表3-5的分组中,120这一数值不计算在“115~120”这一组内,而计算在“120~125”组中,其余类推。当然,对于离散变量可以采用相邻两组组限间断的办法解决“不重”的问题。例如,可对例的数据做如下的分组,见表3–6。
表3–6 某车间50名工人日加工零件数分组表
按零件数分组(个)
频数(人)
频率(%)
105~109
110~114
115~119
120~124
125~129
130~134
135~139
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计
50
100
对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。例如,对零件尺寸可以分组为10~,12~,14~,等等。
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采用“××以下”及“××以上”这样的开口组,以解决“不漏”问题。例如,在例3–3的50个数据中,假定将最小值改为94,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用开口组,见表3–7。
表3–7 某车间50名工人日加工零件数分组表
按零件数分组(个)
频数(人)
频率(%)
110以下
110~115
115~120
120~125
125~130
130~135
135以上
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计
50
100
在组距分组时,如果各组的组距相等则称为等距分组,如上面的几种分组就是等距分组。有时,对于某些特殊现象或为了特定研究的需要,各组的组距也可以是不相等的,称为不等距分组。比如,对人口年龄的分组,可根据人口成长的生理特点分成0岁~6岁(婴幼儿组)、7岁~17岁(少年儿童组)、18岁~59岁(中青年组)、60岁以上(老年组)等。
等距分组由于各组的组距相等,各组频数的分布不受组距大小的影响。它同消除组距因素影响的频数密度(即单位组距内分布的频数,也称次数密度)的分布是一致的,因此可直接根据绝对频数来观察频数分布的特征和规律。而不等距分组因各组组距不同,各组频数的分布受组距大小不同的影响,因此各组绝对频数的多少并不能反映频数分布的实际状况。为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数÷组距。频数密度能准确反映频数分布的实际状况。
此外,组距分组掩盖了各组内的数据分布状况,为反映各组数据的一般水平,我们通常用组中值(Class midpoint)作为该组数据的一个代表值,即:
组中值=(下限值+上限值)/2
缺上限开口组组中值=上限–邻组组距/2
但这种代表值有一个必要的假定条件,即各组数据的在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。
为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频数或频率之和,因此还可以计算出累积频数或累积频率。
二、定距数据和定比数据的图示
第二节中介绍的条形图、圆形图、环形图及累积分布图等都适用于显示定距数据和定比数据。此外,对定距数据和定比数据还有以下一些图示方法,这些方法并不适用于定类数据和定序数据。
(一)分组数据——直方图和折线图
通过数据分组后形成的频数分布表,可以初步看出数据分布的一些特征和规律。例如,从表3–5可以看出,该车间工人日加工零件数大多数在120个~125个之间,共14人,低于这一水平的共有16人,高于这一水平的共有20人,可见这是一种非对称分布。如果用图形来表示这一分布的结果,会更加形象和直观。显示分组数据频数分布特征的图形有直方图、折线图和曲线图等。
1.直方图(Histogram)。直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。比如,根据表3–5数据绘成的直方图如图3–5所示。
图3–5 某车间工人日加工零件数的直方图
依据直方图可以直观地看出工人日加工零件数及其人数的分布状况。
对于等距分组的数据,可以用矩形的高度直接表示频数的分布。如果是不等距分组数据,用矩形的高度来表示各组频数的分布就不再适用。这时,可以用矩形的面积来表示各组的频数分布,或根据频数密度来绘制直方图,从而准确地表示各组数据分布的特征。实际上,无论是等距分组数据还是不等距分组数据,用矩形的面积或频数密度来表示各组的频数分布都更为合适,因为这样可使直方图下的总面积等于1。比如在等距分组中,矩形的高度与各组的频数成比例,如果取矩形的宽度(各组组距)为一个单位,高度表示比例(即频率),则直方图下的总面积等于1。在直方图中,实际上是用矩形的面积来表示各组的频数分布。
直方图与条形图不同,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义。此外,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
2.折线图。折线图也称频数多边形图(Frequency polygon)。在直方图的基础上,把直方图顶部的中点(即组中值)用直线连续起来,再把原来的直方图抹掉就是折线图。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。例如,在图3–5的基础上绘制的折线图如图3–6所示。
图3–6 某车间工人日加工零件数的折线图
当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。分布曲线在统计学中有着十分广泛的应用,是描述各种统计量和分布规律的有效方法。
(二)未分组数据——茎叶图
通过直方图可以大体上看出一组数据的分布状况,但直方图没有给出具体的数值。下面介绍的茎叶图(Stem-and-leaf display),既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否极端值等等。
绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎。树茎一经确定,树叶就自然地长在相应的树茎上了。下面我们以例3–3的数据做茎叶图,见图3–7。
树茎
树叶
10
7 8 8
3
11
0 2 2 3 4 5 7 7 7 8 8 8 9
13
12
0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
13
0 1 3 3 4 4 5 7 9 9
10
图 3–7 某车间工人日加工零件数的茎叶图
上面的茎叶图显得过于拥挤,我们可以把它扩展。比如可以将图扩展一倍,即每一个树茎重复两次,一次有记号“*”,表示该行叶子上的数为0-4,另一次有记号“·”,表示该行叶子上的数为5-9,于是可得到图3–8。
树茎
树叶
10
10
11
11
12
12
13
13
*
·
*
·
*
·
*
·
7 8 8
0 2 2 3 4
5 7 7 7 8 8 8 9
0 0 1 2 2 2 2 3 3 3 3 4 4 4
5 5 6 6 7 7 7 8 8 9
0 1 3 3 4 4
5 7 9 9
图3–8 某车间工人日加工零件数的茎叶图
茎叶图所表现的数据分布特征与直方图十分类似。
(三)时间序列数据 ——线图
如果定距数据和定比数据是在不同时间上取得的,即时间序列数据,还可以绘制线图。线图是在平面坐标上用折线表现数量变化特征和规律的统计图。线图主要用于显示时间序列数据,以反映事物发展变化的规律和趋势。
例3–4 1991-1998年我国城乡居民家庭的人均收入数据如表3–8,试绘制线图。
表3–8 1991-1998年城乡居民家庭人均收入 单位:元
年 份
城镇居民
农村居民
1991
1992
1993
1994
1995
1996
1997
1998
1
2
2
3
4
4
5
5
1
1
1
2
2
资料来源:《中国统计摘要1999》,78页,北京,中国统计出版社,1999。
根据上表数据绘制的线图如图3–9所示。
从图3–9可以清楚地看出,城乡居民的家庭人均收入逐年提高,而且城镇居民的家庭人均收入高于农村,1993年以后这种差距有扩大的趋势。
绘制线图时应注意以下几点:(1)时间一般绘在横轴,指标数据绘在纵轴。(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。(3)一般情况下,纵轴数据下端应从0开始,以便于比较。数据与0之间的间距过大,可以采取折断的符号将纵轴折断。
三、频数分布的类型
在日常生活和经济管理中,常见的频数分布曲线主要有正态分布、偏态分布、J形分布、U形分布等几种类型,如图3–10。
图3-10 几种常见的频数分布
正态分布是一种对称的钟形分布,有很多现象服从这种分布,如农作物的单位面积产量、零件的公差、纤维强度等都服从正态分布,如图3–10(a)。J形分布有正J形和反J形两种,如经济学中供给曲线,随着价格的提高供给量以更快的速度增加,呈现为正J形;而需求曲线则表现为随着价格的提高需求量以较快的速度减少,呈现为反J形。U形分布的特征是两端的频数分布多,中间的频数分布少,比如,人和动物的死亡率分布就近似服从U形分布,因为人口中婴幼儿和老年人的死亡率较高,而中青年的死亡率则较低;产品的故障率也有类似的分布。
第四节 统计表
一、统计表的作用
统计表是统计用数字说话的一种最常用的形式。把搜集到的数字资料,经过汇总整理后,得出一些系统化的统计资料,将其按一定顺序填列在一定的表格内,这个表格就是统计表。统计表有以下几方面作用:
1.能使大量的统计资料系统化、条理化,因而能更清晰地表述统计资料的内容。
2.利用统计表便于比较各项目(指标)之间的关系,而且也便于计算。
3.采用统计表表述统计资料显得紧凑、简明、醒目,使人一目了然。
4.利用统计表易于检查数字的完整性和正确性。
统计表既是调查整理的工具,又是分析研究的工具,广义的统计表包括统计工作各个阶段中所用的一切表格,如调查表、整理表、计算表等,它们都是用来提供统计资料的重要工具。
二、统计表的构成
统计表的形式多种多样,根据使用者的要求和统计数据本身的特点,可以绘制形式多样的统计表。比如,表3–9就是一种比较常见的统计表。
从表3–9可以看出,统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,必要时可以在统计表的下方加上表外附加。表头应放在表的上方,它所说明的是统计表的主要内容。行标题和列标题通常安排在统计表的第一列和第一行,它所表示的主要是所研究问题的类别名称和指标名称,通常也被称为“类”。如果是时间序列数据,行标题和列标题也可以是时间,当数据较多时,通常将时间放在行标题的位置。表的其余部分是具体的数字资料。表外附加通常放在统计表的下方,主要包括资料来源、指标的注释和必要的说明等内容。
表3–9 1997-1998年城镇居民家庭抽样调查资料*
项 目
单位
1997年
1998年}
列标题
一、调查户数
二、平均每户家庭人口数
三、平均每户就业人口数
四、平均每人全部收入
五、平均每人实际支出
消费性支出
非消费性支出
平均每人居住面积
户
人
人
元
元
元
元
m2
37 890
5
5
4
39 080
5
5
4
数 字 资 料
主词 宾 词
资料来源:《中国统计摘要1999》,79页,北京,中国统计出版社,1999。
* 本表为城市和县城的城镇居民家庭抽样调查材料。 附
** 消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗保健、 加
交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。
从统计表的内容上看,可以分为主词和宾词两个部分,如表3–9表示。主词是统计表所要说明的总体,它可以是各个总体单位的名称,总体的各个组成是总体单位的全部。宾词是说明总体的统计指标,包括指标名称和指标数值。
三、统计表的种类
(一)按主词加工方法不同分为
1.简单表。表的主词未经任何分组的统计表为简单表。简单表的主词一般按时间顺序排列,或按总体各单位名称排列。通常是对调查来的原始资料初步整理所采用的形式,如表3–10,即为按总体各单位名称排列的简单表。
表3–10 1999年国际旅游收入居世界前十名的国家
国 家
位次
旅游收入收入(亿美元)
占世界比重(%)
美国
西班牙
意大利
法国
英国
德国
中国
奥地利
加拿大
墨西哥
1
2
3
4
5
6
7
8
9
10
资料来源:《中国旅游统计年鉴(2000)》
2.分组表。表的主词按照某一标志进行分组的统计表称为分组表。利用分组表可以提示不同类型现象的特征,说明现象内部的结构,分析现象之间的相互关系等,如表3-11所示。
表3–11 1998年某公司所属两企业自行车合格品数量表
厂 别
合格品数量(辆)
甲 厂
乙 厂
5 000
7 000
合 计
12 000
3.复合表。表的主词按照两个或两个以上标志进行复合分组的统计表称为复合表。如表3–12所示。复合表能更深刻更详细地反映客观现象,但使用复合表恰如其分,并不是分组越细越好。因为复合表中多进行一次分组,组数将成倍增加,分组太细反而不利于研究现象的特征。
表3–12 1999年我国人口数及构成
人口数/万人
比例/%
按性别分
男
64 189
女
61 720
按城乡分
市镇
38 892
乡村
87 017
资料来源:《中国统计年鉴(2000)》第95页
(二)按宾词指标设计的不同分类
1.宾词不分组设计
即宾词各指标根据说明问题的主次先后顺序排列,保持各指标之间的一定逻辑关系。如表3–13所示。
表3–13 1997年全国部分省市旅游涉外饭店基本情况
地区
饭店数/座
营业收入/万元
利润总额/万元
客房出租率/%
北京
338
1 447
175
上海
127
699
68
云南
190
102
1
资料来源:《中国旅游统计年鉴(1998)》
2.宾词简单分组设计
即统计指标从不同角度分别按某一标志分组,各种分组平行排列。如表3–14所示。
表3–14 某企业职工性别及文化程度情况
职工总人数/人
性别
文化程度
男
女
小学
中学
大学
一线人员
二线人员
638
334
290
108
348
226
254
118
308
176
76
40
合 计
972
398
574
372
484
116
3.宾词复合分组设计
即统计指标同时有层次地按两个或两个以上标志分组,各种分组重叠在一起。如表3—15 所示。
表3—15 某企业职工性别及文化程度情况
职工人数
小学
中学
大学
男
女
男
女
小计
男
女
小计
男
女
小计
一线人数
二线人数
290
108
348
226
110
28
144
90
254
118
138
64
170
112
308
176
42
16
34
24
76
40
合 计
398
574
138
234
372
202
282
484
58
58
116
四、统计表的设计要求
由于使用者的目的以及统计数据的特点不同,统计表的设计在形式和结构上会有较大差异,但设计上的基本要求则是一致的。总体上看,统计表的设计应符合科学、实用、简练、美观的要求。具体来说,设计统计表时要注意以下几点。
第一,要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。当然,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。
第二,表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。
第三,如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各指标的计量单位不同,则应放在每个指标后或单列出一列标明。
第四,表中的上下两条线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口,列标题之间一般用竖线隔开,而行标题之间通常不必用横线隔开。总之,表中尽量少用横竖线。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字的表格单元,一般用“-”表示,一线填好的统计表不应出现空白单元格。
第五,在使用统计表时,必要时可在表的下方加上注释,特别要注意注明资料来源,以表示对他人劳动成果的尊重,方便读者查阅使用。
思考题
一、简答题
1.数据的预处理包括哪些内容?
2.定类数据和定序数据的整理和图示方法各有哪些?
3.定距数据和定比数据的分组方法有哪些?简述组距分组的步骤。
4.直方图与条形图有何区别?
5.统计表由哪几个主要部分组成?
6.制作统计表应注意哪几个问题?
二、综合题
1.某百货公司连续40天的商品销售额(单位:万元)如表1:
表1
41
46
35
42
25
36
28
36
29
45
46
37
47
37
34
37
38
37
30
49
34
36
37
39
30
45
44
42
38
43
26
32
43
33
38
36
40
44
44
35
要求:根据上面的数据进行适当分组,编制频数分布表,并绘制直方图。
2.已知1990–2001年我国的国内生产总值数据如表2:
表2
年份
国内生产总值(亿元)
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
18548
21618
26638
34634
46759
58478
67884
74463
79553
81911
89404
95533
其中,在1998年的国内生产总值中,第一产业为亿元,第二产业为亿元,第三产业为亿元。
要求:(1)根据1990–2001年的国内生产总值数据,利用Excel软件绘制线图和条形图;
(2)根据1998年的国内生产总值及其构成数据,绘制圆形图和环形图。
3.某年对冶金行业的高炉有效容积调查结果为(单位:立方米):
72,82,65,1900,2100,300,520,400,100,1100,1600,800,320,1200,2600,500,175,1110,660,420,800,720,97,240,200,870,200,100,1760,410,900,700,400,150,250,400,1600,900,200,800
试根据上述数据分成以下几组:100以下,100–200,200–400,400–800,800–1600,1600以上,并绘制频数(率)分布图表。
第四章 总量指标和相对指标
第一节 总量指标
一、总量指标的概念
总量指标是用来反映社会经济现象在一定条件下的总规模、总水平或工作总量的统计指标。总量指标用绝对数表示,也就是用一个绝对数来反映特定现象在一定时间上的总量状况,它是一种最基本的统计指标。例如,2001年3月5日朱镕基同志在九届全国人大四次会议上所作《政府工作报告》中指出:2000年我国国内生产总值达到89404亿元;粮食产量达到9850亿斤;农村居民人均纯收入和城镇居民人均可支配收入分别达到2253元和6280元;进出口总额达4743亿美元;外汇储备达1656亿美元。这些都是总量指标,都是利用绝对数说明我国2000年国民经济发展的总体规模、总体水平和全国人民的生活水平。
二、总量指标的种类
(一)按其说明总体的内容不同分为
总体单位总量——是用来反映统计总体内包含总体单位个数多少的总量指标。它用来表明统计总体的容量大小。例如,研究我国的人口状况时,统计总体是全国所有公民,总体单位是每一位公民,那么我国的人口数表明总体单位的个数,是总体单位总量。再如,研究某市的工业发展状况,统计总体是全市的所有工业企业,若该市现有工业企业2350家,则2350家即为总体单位总量。
总体标志总量——是统计总体各单位某—方面数量标志值的总和。仍举上例,该市的每个工业企业是总体单位,每一工业企业的工业职工人数是该工业企业的—个数量标志,则该市全部工业职工人数就是总体标志总量。另外该市的年工业增加值、工业总产值、工业利税总额等指标也都是总体标志总量。—个已经确定的统计总体,其总体单位总量是唯一确定的,而总体标志总量却不止一个。
某一总量指标是总体单位总量还是标志总量不是完全确定的,而是随着统计总体的改变而改变的。如上例中的全市工业职工人数是总体标志总量,若研究目的改变为认识该市工业企业职工的生活水平时,统计总体是全市的所有工业职工,全市工业职工人数就变成总体单位总量了。
(二)按其反映总体的时间状况不同分为
时期指标——是反映社会经济现象在一段时间上发展变化结果的总量。例如我国2001年实现国内生产总值95533亿元,是指在2001年这一年的时间内,我国国民经济各行业每天所创增加值的总和。再如产品产量、社会零售商品销售额等都是时期指标。时期指标具有如下特点:
1.具有可加性。时间上相邻的时期指标相加能够得到另—更长时期的总量指标。
2.指标数值的大小与所属时期的长短直接相关。—般来讲,时期越长,指标数值就越大。
3.必须连续登记而得。时期指标数值的大小取决于整个时期内所有时间上的发展状况,只有连续登记得到的时期指标才会准确。
时点指标——反映社会经济现象在某一时刻或某一时点上的状况的总量。如我国首次基本单位普查显示1996年底我国共有各类法人单位万个,有产业活动单位万个,这仅能说明我国1996年12月31日这一天的基本单位的数量情况。再如人口数、商品库存额、外汇储备额等也都是时点指标。时点指标具有如下特点:
1.不具有可加性。不同时点上的两个时点指标数值相加不具有实际意义。
2.数值大小与登记时间的间隔长短无关。时点指标仅仅反映社会经济现象在一瞬间上的数量,每隔多长时间登记一次对它没有影响。
3.指标数值是间断计数的。时点指标没有必要进行连续登记,有的也是不可能连续进行登记的,如:一国的总人口数。
三、总量指标的计量单位
总量指标的计量形式都是有名数,都有计量单位。根据总量指标所反映现象的性质不同,其计量单位一般有实物单位、价值单位和劳动单位三种。
(一)实物单位。实物单位是根据事物的外部特征或物理属性而采用的单位。它又分为:
1.自然单位。如鞋以“双”为单位;桌子以“张”为单位;拖拉机以“台”为单位等。
2.度量衡单位。度量衡单位是以已经确定出的标准来计量实物的重量、长度、面积、容积等的单位。如:吨、公里、米等。
3.复合单位。复合单位是两个单位的乘积。如货物周转量用“吨公里”计量;电的度数用“千瓦时”计量等。
4.双重单位。双重单位是用两种或两种以上的单位结合起来进行计量。如起重机的计量单位是“台/吨”;货轮用“艘/马力/吨位”计量。
5.标准实物单位。标准实物单位是按照统一的折算标准来计量事物数量的一种实物单位。它主要用于计量存在差异的工业产品和农产品,为了准确地反映其总量,需要把各产品按照一定的标准折合成标准品再相加。如把含氮量不同的化肥都折合成含氮100%的标准化肥;把各种能源都折合成热量值为7000千卡/公斤的标准煤等。以实物单位计量的总量指标,叫做实物指标。
(二)价值单位。价值单位也叫货币单位,它是以货币作为价值尺度来计量社会财产和劳动成果。例如国内生产总值、城乡居民储蓄额、外汇收入、财政收入都必须用货币单位来计量,常见的货币单位有美元、人民币元、欧元等。用货币单位计量的总量指标叫做价值指标。价值指标具有十分广泛的综合能力,在国民经济管理中起着重要的作用。
(三)劳动单位。劳动单位主要用于企业内部计量工业产品的数量,它是用生产工业产品所必需的劳动时间来计量生产工人的劳动成果。企业首先根据自身的生产状况制定出生产单位产品所需的工时定额,再乘以产品的实物即得以劳动单位计量的产量指标——劳动量指标,也叫做定额工时总产量。
四、总量指标的计算和运用
(一) 总量指标的统计方法
总量指标数值都是通过对总体单位进行全面调查登记,采用直接计数、点数或测量等方法,逐步计算汇总得出的。例如,统计报表中的总量资料,普查中的总量资料,都是采用这种直接计量法取得的。只有在不能直接计算或不必直接计算总体的总量指标的少数情况下,才采用估计推算的方法取得有关的总量资料。
总量指标数值在计算方法上比较简单,但在计算内容上却是相当复杂,这就涉及到如何在质与量的统一中,反映一定历史条件下社会经济现象的规模和水平。因此,总量指标数值的计算并不是一个单纯技术性的加总问题,而必须正确规定总量指标所表示的各种社会经济现象的概念、构成内容和计算范围,确定计算方法,然后才能进行计算汇总,以取得正确反映社会经济现象的总量资料。例如,要正确计算工资总额,必须先明确工资的实质和构成;要计算国民经济各部门职工人数,不仅要明确职工的概念和范围,而且要从理论上先确定国民经济部门的分类,才能得出按部门分类的职工人数。
(二)总和记法及求和规则
计算总量指标数值时,或在统计运算中,涉及一系列变量值或标志值的全部或部分相加,是最常用的一种运算,需要采用简便的记法来表示其总和。代表总和的通用符号就是希腊文大写字母(Sigma),也称连加和号,最常用的形式为,其中代表各个变量值,总和号上下方的标号表明计算总和的的起止点,即从开始加到为止:
为方便起见,常以Σ作为的简写。
以下分别介绍三个求和的规则或公式。
1.设X和Y是两个变量,则两个变量之值的和的总和,等于每个变量之值的总和,即
因为
=
=
同理,可以证明两个变量之值之差的总和,等于每个变量之值的总和之差,即
=
=
依据上述结论可以推广到若干个变量之值的总和,例如:
EMBED
2.某一变量乘以常数a后求的总和,等于该变量值的总和乘以常数a,即
3.假设进行n次观测,每次所得的观测值为同一常数,则n次观测值的总和等于n乘以该常数,即
第二节 相对指标
一、相对指标的概念和作用
(一)相对指标的概念
要分析一种社会经济现象,仅仅利用总量指标是远远不够的。如果要对事物做深入的了解,就需要对总体的组成和其各部分之间的数量关系进行分析、比较,这就必须计算相对指标。
相对指标是用两个有联系的指标进行对比的比值来反映社会经济现象数量特征和数量关系的综合指标。相对指标也称作相对数,其数值有两种表现形式:无名数和复名数。无名数是一种抽象化的数值,多以系数、倍数、成数、百分数或千分数表示。复名数主要用来表示强度的相对指标,以表明事物的密度、强度和普遍程度等。例如,人均粮食产量用“千克/人”表示,人口密度用“人/平方公里”表示等。
(二)相对指标的作用
1.相对指标通过数量之间的对比,可以表明事物相关程度、发展程度,它可以弥补总量指标的不足,使人们清楚了解现象的相对水平和普遍程度。例如,某企业去年实现利润50万元,今年实现55万元,则今年利润增长了10%,这是总量指标不能说明的。
2.把现象的绝对差异抽象化,使原来无法直接对比的指标变为可比。不同的企业由于生产规模条件不同,直接用总产值、利润比较评价意义不大,但如果采用一些相对指标,如资金利润率、资金产值率等进行比较,便可对企业生产经营成果做出合理评价。
3.说明总体内在的结构特征,为深入分析事物的性质提供依据。例如计算一个地区不同经济类型的结构,可以说明该地区经济的性质。又如计算一个地区的第一、二、三产业的比例,可以说明该地区社会经济现代化程度等。
二、相对指标的种类及其计算方法
随着统计分析目的的不同,两个相互联系的指标数值对比,可以采取不同的比较标准(即对比的基础),而对比所起的作用也有所不同,从而形成不同的相对指标。相对指标一般有六种形式,即计划完成程度相对指标、结构相对指标、比例相对指标、比较相对指标、强度相对指标和动态相对指标。
(一)计划完成程度相对指标
计划完成程度相对指标是社会经济现象在某时期内实际完成数值与计划任务数值对比的结果,一般用百分数来表示。基本计算公式为:
(4–1)
由于计划数在实际计算中可以表现为绝对数、相对数、平均数等多种形式,因此计算计划完成程度相对指标的方法也不尽相同。
1.计划数为绝对数和平均数时
使用绝对数和平均数计算计划完成程度相对指标时,可直接用上述计算公式。
例4–1 某企业2000年产品计划产量1000件,实际完成1120件,则产量计划完成程度为:
计划完成程度相对指标=
计算结果表明,该企业超额12%完成产量计划,实际产量比计划产量增加了120件。
例4–2 某企业劳动生产率计划达到8000元/人,某种产品计划单位成本为100元,该企业实际劳动生产率达到9200元/人,该产品实际单位成本为90元,其计划完成程度指标为:
劳动生产率计划完成程度相对指标=
单位成本计划完成程度相对指标=
计算结果表明,该企业劳动生产率实际比计划提高了15%,而某产品单位成本实际比计划降低了10%。这里劳动生产率为正指标,单位成本为逆指标。
在检查中长期计划的完成情况时,根据计划指标的性质不同,计算可分为水平法和累计法。
(1)水平法
用水平法检查计划完成程度就是根据计划末期(最后一年)实际达到的水平与计划规定的同期应达到的水平相比较,来确定全期是否完成计划。其计算公式如下:
(4–2)
例4–3 某企业按五年计划规定的最后一年的产量应达到720万件,实际执行情况如表4–1所示。
表 4–1 某企业五年计划完成情况 单位:万件
年
份
第一年
第二年
第三年
第四年
第五年
一季
二季
三季
四季
一季
二季
三季
四季
产量
300
410
530
150
160
170
170
190
190
210
210
则该企业产量五年计划完成程度相对指标为:
计划完成程度相对指标=
计算结果表明,该企业超额%完成产量五年计划。
采用水平法计算,只要有连续一年时间(可以跨年度)实际完成水平达到最后一年计划水平,就算完成了五年计划,余下的时间就是提前完成计划时间。在例4-3中,该企业实际从五年计划的第四年第三季度到第五年第二季度连续一年时间的产量达到了计划期最后一年计划产量720万件水平,完成了五年计划,那么第五年下半年这半年时间就是提前完成计划的时间。
(2)累计法
累计法就是整个计划期间实际完成的累计数与同期计划数相比较,来确定计划完成程度。计算公式如下:
(4–3)
例4–4 某地区“九五”期间计划五年固定资产投资总额150亿元,实际各年投资情况如表4–2。
表4–2 某地区“九五”期间固定资产投资完成情况 单位:亿元
年 份
1996
1997
1998
1999
2000
固定资产实际投资额
60
则该地区“九五”期间固定资产投资的计划完成程度相对指标为:
计算结果表明,该地区超额40%完成“九五”固定资产投资计划。
采有累计法计算,只要从中长期计划开始至某一时期止,所累计完成数达到计划数,就是完成了计划。例4–4中,前四年投资额已完成五年计划,比计划时间提前一年。
2.计划数为相对数时
计划数为相对数时计划完成程度计算公式为:
(4–4)
例4–5 某企业某产品产量计划要求增长10%,同时该种产品单位成本计划要求下降5%,而实际产量增长了12%,实际单位成本下降了8%,则计划完成程度指标为:
计算结果表明,产量计划完成程度大于100%,说明超额完成计划。而单位成本计划完成程度小于100%,说明实际成本比计划成本有所降低,也超额完成了成本降低计划。
(二)结构相对指标
研究社会经济现象总体时,不仅要掌握其总量,而且要揭示总体内部的组成数量表现,亦即要对总体内部的结构进行数量分析,这就需要计算结构相对指标。
结构相对指标就是在分组的基础上,以各组(或部分)的单位数与总体单位总数对比,或以各组(或部分)的标志总量与总体的标志总量对比求得的比重,借以反映总体内部结构的一种综合指标。一般用百分数、成数或系数表示,可以用公式表述如下:
结构相对数= (4–5)
概括地说,结构相对数就是部分与全体对比得出的比重或比率。由于对比的基础是同一总体的总数值,所以各部分(或组)所占比重之和应当等于100%或1。
在社会经济统计中结构相对数应用广泛,它的主要作用可以概括为以下几个方面:
可以说明在一定的时间、地点和条件下,总体结构的特征。
例如,从表4–3中的资料可以看出,我国工业总产值构成的特点。
表4–3 1996年我国工业总产值构成
项 目
占总数的%
工业总产值
其中:国有企业
集体企业
城乡个体工业
其他经济类型工业
100
资料来源:《中国统计年鉴1997》
2.不同时期结构相对数的变化,可以反映事物性质的发展趋势,分析经济结构的演变规律。
例如,从表4–4的资料中,可以看出不同年份的世界农业人口在总人口中所占的比重呈现出平稳下降的趋势,这也是伴随经济发展、工业化程度提高和社会进步而产生的必然结果。
表4–4 世界人口和农业人口的发展趋势
1950年
1960年
1970年
1980年
1985年
1990年
2000年
2010年
2020年
2025年
世界人口/亿人
其中:
农业人口/亿人
占世界总人口的/%
资料来源:《中国统计》1990年第5期
3.根据各构成部分所占比重大小,可以反映所研究现象总体的质量以及人、财、物的利用情况。
例如,文盲率、入学率、青年受高等教育人口比率等可从文化教育方面表明人口的质量;产品的合格率、优质品率、高新技术品率、商品损耗率等可表明企业的工作质量;出勤或缺勤率、设备利用率等,则可反映企业的人、财、物的利用状况。
4.利用结构相对数,有助于分清主次,确定工作重点。
例如在物资管理工作中,采用ABC分析法,其基本原理就是对影响经济活动的因素进行分析,按各种因素的影响程度的大小分为A、B、C三类,实行分类管理。采用这种方法的依据,就是根据对统计资料的分析,计算结构相对指标,如表4–5。
表4–5 某物资企业物资分类表 单位:%
类 别
占资金的比重
占品种的比重
A
B
C
80
15
5
20
30
50
可见,应重点抓好A类物资的管理,其次要注意B类物资的处理,就可以控制资金的95%,收到较好的经济效果。
(三)比例相对数
比例相对数是反映总体中各个组成部分之间的比例关系和均衡状况的综合指标。它是同一总体中某一部分数值与另一部分数值静态对比的结果,计算公式为:
(4–6)
比例相对指标的数值,一般用百分数或几比几的形式表示。例如,1999年,我国乡村实有劳动力万人,男性万人,女性万人,则男性劳动力对女性劳动力用百分数可表示为%;又如,某学校教学人员为900人,非教学人员100人,则教学人员与非教学人员的比例用几比几形式可表示为9:1。统计分析中,有时还要求用连比形式表示总体中若干个组的比例关系。例如,国内生产总值中,第一、二、三产业的比例。
根据统计资料,计算各种比例相对数,反映有关事物之间的实际比例关系,有助于我们认识客观事物是否符合按比例协调发展的要求,参照有关标准,可以判断比例关系是否合理。在宏观经济管理中,这对于研究分析整个国民经济和社会发展是否协调均衡具有重要的意义。
(四)比较相对数
就是将不同地区、单位或企业之间的同类指标数值作静态对比而得出的综合指标,表明同类事物在不同空间条件下的差异程度或相对状态。比较相对指标可以用百分数、倍数和系数表示。其计算公式可以概括如下:
比较相对数=×100% (4–7)
例4–6 两个类型相同的工业企业,甲企业全员劳动生产率为18542元/人·年,乙企业全员劳动生产率为21560元/人·年,则两个企业全员劳动生产率的比较相对数为:
用来对比的两个性质相同的指标数值,其表现形式不一定仅限于绝对数,也可以是其他的相对数或平均数。在经济管理工作中,广泛应用比较相对数,例如用各种质量指标在企业之间、车间或班组之间进行对比,把各项技术经济指标与国家规定的标准条件对比,与同类企业的先进水平或世界先进水平对比,借以找差距,挖潜力,定措施,为提高企业的经营管理水平提供依据。
计算比较相对数应注意对比指标的可比性。此外,比较基数的选择要根据资料的特点及研究目的而定。如上例是以乙企业的全员劳动生产率作为比较标准,计算结果说明甲企业全员劳动生产率是乙企业的86%;如以甲企业全员劳动生产率作为比较标准,则表明乙企业全员劳动生产率是甲企业的%。这两种计算方法的角度不同,但都能说明问题,具体以哪个指标作为比较的基础,应根据研究目的以及哪种方法能更确切地说明问题的实质而定。
(五)强度相对指标
就是在同一地区或单位内,两个性质不同而有一定联系的总量指标数值对比得出的相对数,是用来分析不同事物之间的数量对比关系,表明现象的强度、密度和普遍程度的综合指标。其计算公式可以概括为:
(4–8)
例4–7 我国土地面积为960万平方公里,第五次人口普查人口总数为129533万人,则:
又如,以铁路(公路)长度与土地面积对比,可以得出铁路(公路)密度。这些强度相对指标都是用来反映现象的密集程度或普遍程度。
利用强度相对数来说明社会经济现象的强弱程度时,广泛采用人均产量指标来反映一个国家的经济实力。例如,按全国人口数计算的人均钢产量、人均粮食产量等,这种强度相对指标的数值越大,表示一个国家的经济发展程度越高,经济实力越强。
由于强度相对数是两个性质不同但有联系的总量指标数值之比,所以在多数情况下,是由分子与分母原有单位组成的复合单位表示的,如人口密度用人/平方公里,人均钢产量用吨/人等等。但有少数的强度相对指标因其分子与分母的计量单位相同,可以用千分数或百分数表示其指标数值。例如:
又如,商品流通费用与商品销售额对比得出的商品流通费用率,则用百分数表示。
有少数反映社会服务行业的负担情况或保证程度的强度相对指标,其分子和分母可以互换,即采用正算法计算正指标,用倒算法计算逆指标。例如:
从强度相对指标数值的表现形式上看,带有“平均”的意义,例如,按人口计算的主要产品产量指标用吨(千克)/人表示;按全国人口分摊的每人平均国民收入用元/人表示。但究其实质,强度相对数与统计平均数有根本的区别。平均数是同一总体中的标志总量与单位总量之比,是将总体的某一数量标志的各个变量值加以平均。如前所述,强度相对数是两个性质不同而有联系的总量指标数值之比,它表明两个不同总体之间的数量对比关系。
(六)动态相对指标
就是将同—现象在不同时期的两个数值进行动态对比而得出的相对数,借以表明现象在时间上发展变动的程度。—般用百分数或倍数表示,也称为发展速度。其计算公式如下:
(4–9)
通常,作为比较标准的时期称为基期,与基期对比的时期称为报告期。例如,2001年我国国内生产总值为95533亿元,2000年为89404亿元,如果2000年选作基期,亦即将2000年国内生产总值作为100,则2001的国内生产总值与2000年的国内生产总值对比,得出动态相对数为%,它说明在2000年基础上2001年国内生产总值的发展速度。
动态相对数在统计分析中应用很广,本书将在第八章时间数列中详加论述。
三、正确运用相对指标的原则
上述六种相对指标从不同的角度出发,运用不同的对比方法,对两个同类指标数值进行静态的或动态的比较,对总体各部分之间的关系进行数量分析,对两个不同总体之间的联系程度和比例作比较,是统计中常用的基本数量分析方法之—。要使相对指标在统计分析中起到应有的作用,在计算和应用相对指标时应该遵循以下的原则:
(一)可比性原则
相对指标是两个有关的指标数值之比,对比结果的正确性,直接按取决于两个指标数值的可比性。如果违反可比性这—基本原则计算相对指标,就会失去其实际意义,导致不正确的结论。对比指标的可比性,是指对比的指标在含义、内容、范围、时间、空间和计算方法等口径方面是否协调一致,相互适应。如果各个时期的统计数字因行政区划、组织机构、隶属关系的变更,或因统计制度方法的改变不能直接对比的,就应以报告期的口径为准,调整基期的数字。许多用金额表示的价值指标,由于价格的变动,各期的数字进行对比,不能反映实际的发展变化程度,一般要按不变价格换算,以消除价格变动的影响。
(二)定性分析与定量分析相结合的原则
计算对比指标数值的方法是简便易行的,但要正确地计算和运用相对数,还要注重定性分析与定量分析相结合的原则。因为事物之间的对比分析,必须是同类型的指标,只有通过统计分组,才能确定被研究现象的同质总体,便于同类现象之间的对比分析。这说明要在确定事物性质的基础上,再进行数量上的比较或分析,而统计分组在一定意义上也是一种统计的定性分类或分析。即使是同一种相对指标在不同地区或不同时间进行比较时,也必须先对现象的性质进行分析,判断是否具有可比性。同时,通过定性分析,可以确定两个指标数值的对比是否合理。例如,将不识字人口数与全部人口数对比来计算文盲率,显然是不合理的,因为其中包括未达学龄的人数和不到接受初中文化教育年龄的人数在内,不能如实反映文盲人数在相应的人口数中所占的比重。通常计算文盲率的公式为:
(三)相对指标和总量指标结合运用的原则
绝大多数的相对量指标都是两个有关的总量指标数值之比,用抽象化的比值来表明事物之间对比关系的程度,而不能反映事物在绝对量方面的差别。因此在一般情况下,相对指标离开了据以形成对比关系的总量指标,就不能深入地说明问题。关于这一点,马克思曾明确指出:“如果一个工人每星期的工资是2 先令,后来他的工资提高到4先令,那么工资水平就提高了100%,……。所以不应当为工资水平提高的动听的百分比所迷惑。我们必须经常这样问:原来的工资数是多少?”
(四)各种相对指标综合应用的原则
各种相对指标的具体作用不同,都是从不同的侧面来说明所研究的问题。为了全面而深入地说明现象及其发展过程的规律性,应该根据统计研究的目的,综合应用各种相对指标。例如,为了研究工业生产情况,既要利用生产计划的完成情况指标,又要计算生产发展的动态相对数和强度相对数。又如,分析生产计划的执行情况,有必要全面分析总产值计划、品种计划、劳动生产率计划和成本计划等完成情况。此外,把几种相对指标结合起来运用,可以比较、分析现象变动中的相互关系,更好地阐明现象之间的发展变化情况。由此可见,综合运用结构相对数、比较相对数、动态相对数等多种相对指标,有助于我们剖析事物变动中的相互关系及其后果。
思考题
一、单项选择题
1.1990年,我国人均粮食产量公斤,人均棉花产量公斤,人均国民生产总值为1558元,它们是( )
①结构相对指标 ②比较相对指标
③比例相对指标 ④强度相对指标
2.2001年我国国内生产总值为95533亿元,这是( )
①时期指标 ②时点指标 ③总量指标 ④平均指标
3.下列指标中属于时点指标的是( )
①国内生产总值 ②流通费用率 ③人均利税额 ④商店总数
4.下列指标属于比例相对指标的是( )
①工人出勤率 ②农轻重的比例关系
③每百元产值利税额 ④净产值占总产值的比重
5.下列指标属于总量指标的是( )
①人均粮食产量 ②资金利税率 ③产品合格率 ④学生人数
6.将不同地区、部门、单位之间同类指标进行对比所得的综合指标称为( )
①动态相对指标 ②结构相对指标
③比例相对指标 ④比较相对指标
7.一个企业产品销售收入计划增长8%,实际增长20%,则计划超额完成程度为( )
①12% ②150% ③% ④%
8.时点指标的数值( )
①与其时间间隔长短无关 ②通常连续登记
③时间间隔越长,指标数值越大 ④具有可加性
9.某产品单位成本计划1997年比1996年降低10%,实际降低15%,则计划完成程度为( )
①150% ②% ③% ④%
10.总体各部分指标数值与总体数值计算求得的结构相对数之和( )
①大于100% ②小于100% ③等于100% ④无法确定
二、多项选择题
1.下列指标属于动态相对指标的有( )
①1981年到1990年我国人口平均增长%
②1990年国民生产总值为1980年的%
③1990年国民生产总值中,第一、二、三产业分别占%、%、%
④1990年国民收入为1952年的%
⑤1990年国民收入使用额中积累和消费分别占%和%
2.下列指标属于总量指标的有( )
①国内生产总值 ②人均利税总额 ③利税总额
④职工人数 ⑤固定资产原值
3.下列指标中,属于强度相对指标的有( )
①人均国内生产总值 ②人口密度 ③人均钢产量
④每千人拥有的商业网点数 ⑤人均粮食产量
4.常用的相对指标有( )
①动态相对指标 ②结构相对指标 ③强度相对指标
④比较与比例相对指标 ⑤计划完成程度相对指标
5.相对指标数值的表现形式有( )
①比例数 ②无名数 ③结构数 ④抽样数 ⑤复名数
三、计算题
1.某集团所属的三家公司2001年工业产值计划和实际资料如表1所示:
表1 单位:万元
公司
名称
2001
2000年实际
产值
2001年
比2000年
增长(%)
计 划
实 际
计划完成(%)
产值
比重(%)
产值
比重(%)
A
B
C
370
31
402
97
111
–
合计
1900
试填入上表所缺的数字,要求写出计算过程。
2.某制冷机公司计划在未来的五年内累计生产压缩机12000台,其中,最后一年产量达到3000台,实际完成情况如下表2所示:
表2 单位:台
时间
第一年
第二年
第三年
第四年
第五年
一季
二季
三季
四季
一季
二季
三季
四季
产量
2000
2300
2600
650
650
700
750
750
800
800
850
试求:(1)该公司五年累计完成计划程度?
(2)该公司提前多少时间完成累计产量计划?
(3)该公司提前多少时间达到最后一年计划产量?
3.现有甲、乙两国钢产量和人口资料如表3:
表3
甲 国
乙 国
2000年
2001年
2000年
2001年
钢产量(万吨)
年平均人口数(万人)
3000
6000
3300
6000
5000
7143
5250
7192
试通过计算动态相对指标、强度相对指标和比较相对指标来简单分析甲、乙两国钢产量的发展情况。
第四章 参考答案
一、单项选择题
1、④ 2、③ 3、④ 4、② 5、④ 6、④ 7、④ 8、① 9、② 10、③
二、多项选择题
1、①②④ 2、①③④⑤ 3、①②③④⑤ 4、①②③④⑤ 5、②⑤
三、计算题
1.
公司
名称
2001
2000年实际
产值
2001年
比2000年
增长(%)
计 划
实 际
计划完成(%)
产值
比重(%)
产值
比重(%)
A
B
C
941
589
370
31
402
97
111
–
合计
1900
100
2.解:(1)五年累计计划完成%;
(2)提前一季度完成累计产量计划;
(3)提前半年达到最后一年计划产量。
3.
甲国
乙国
比较相对指标(甲:乙)
2000年
2001年
发展速度(%)
2000年
2001年
发展速度(%)
2000年
2001年
钢产量
(万吨)
3000
3300
110
5000
5250
105
60%
%
年平均人口数(万人)
6000
6000
100
7143
7192
人均钢产量(吨/人)
110
第五章 数据分布特征的描述
统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平均数;二是分布的离中趋势,反映各数据远离其中心值的程度,如标准差;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面,第一、二方面是主要的。本章重点讨论第一、第二两方面代表值的计算方法、特点及其应用场合。
第一节 集中趋势——数值平均数
集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。取得集中趋势代表值的方法通常有两种:一是从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。二是先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平,把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数、四分位数等形式。
一、算术平均数
算术平均数,是集中趋势测度中最重要的一种,它是所有平均数中应用最广泛的平均数。因为它的计算方法是与许多社会经济现象中个别现象与总体现象之间存在的客观数量关系相符合的。
例如,企业职工的工资总额就是各个职工工资额的总和,职工的平均工资必等于职工的工资总额与职工总人数之比。所以,算术平均数的基本公式应该是:
算术平均数=
算术平均数一般就称为平均数(mean)。其定义是:观察值的总和除以观察值个数的商。在已知研究对象的总体标志总量及总体单位总量时,可直接利用上式计算。例如,某企业某月的工资总额为680000元,职工总数为1000人,则:
该企业职工月平均工资==680(元)
利用上式计算时,要求各变量值必须是同质的,分子与分母必须属于同一总体,即公式的分子是分母具有的标志值,分母是分子的承担者。在实际工作中,就手工计算而言,由于所掌握的统计资料的不同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平均数两种。
(一)简单算术平均数(Simple Arithmetic Mean)
根据未经分组整理的原始数据计算的均值。设一组数据为x1,x1,…xn,则简单算术平均数的计算公式如下:
(5–1)
例5–1 据南方人才服务中心调查,从事IT行业的从业人员年薪在40000-55000元之间,表5–1的数据是IT从业人员年薪的一个样本:
表5–1 24名IT从业人员年薪资料表
49100
49300
48700
48600
51200
50300
49950
51000
49000
48800
49400
49800
47200
51400
48900
49900
51800
48650
51350
49600
51300
54600
53400
51900
计算IT从业人员的平均年薪。
根据公式计算如下:
(二)加权算术平均数(Weighted Arithmetic Mean)
根据分组整理的数据计算的算术平均数。其计算公式为:
(5–2)
式中:f代表各组变量值出现的频数。
例5–2 以表5–2为例,计算人均日产量。计算表见表5–2。
解:
表5–2 某企业50名工人加工零件均值计算表
按零件数分组
组中值x
频数f
xf
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
合 计
––
50
平均日产量=
这种根据已分组整理的数据计算的算术平均数就称为加权算术平均数。这时,算术平均数的大小,不仅取决于研究对象的变量值,而且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,如果某一组的频数或频率较大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就大,反之则小。可见各组频数的多少(或频率的高低)对平均的结果起着一种权衡轻重的作用,因而这一衡量变量值相对重要性的数值称为权数。这里所谓权数的大小,并不是以权数本身值的大小而言的,而是指各组单位数占总体单位数的比重,即权数系数(f/∑f)。权数系数亦称为频率,是一种结构相对数。
当然,利用组中值作为本组平均值计算算术平均数,是在各组内的标志值分布均匀的假定下。计算结果与未分组数列的相应结果可能会有一些偏差,应用时应予以注意。在统计分析过程中,如果搜集到的是经过初步整理的次级数据,或数据要求不很精确的原始数据资料可用此法计算均值。如果要求结果十分精确,那么需用原始数据的全部实际信息,如果计算量很大,可借助计算机的统计功能。
如果是计算相对数的平均数,则应符合所求的相对数本身的公式,将分子视为总体标志总量,分母视为总体单位总量。
例5–3 某季度某工业公司18个工业企业产值计划完成程序资料如表5–3,计算平均产值计划完成程度。
表5–3 某工业公司产值完成情况表
产值计划完成程度(%)
组中值
(%)
x
企业数(个)
计划产值
(万元)
f
实际产值
(万元)
xf
80~90
90~100
100~110
110~120
85
95
105
115
2
3
10
3
800
2500
17200
4400
680
2375
18060
5060
合计
-
18
24900
26175
计划完成相对数的计算公式是实际完成数与计划任务数之比,因此,平均计划完成程度的计算只能是所有企业的实际完成数与其计划任务数之比,不能把各个企业的计划完成百分数简单平均。
(三)算术平均数性质
算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。首先,从统计思想上看,它是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。其次,它具有下面一些重要的数学性质,这些数学性质在实际工作中有着广泛的应用(如在相关性分析和方差分析及建立回归方程中),同时也体现了算术平均数的统计思想。
1.各变量值与其算术平均数的离差之和等于零,即∑=0;
2.各变量值与其算术平均数的离差平方和最小,即∑=min。
(四)利用计算工具求算术平均数
1.利用计算器计算
对于未整理的原始数据或已整理分组的数列,均可利用计算器的统计功能计算算术平均数。需要特别注意的是,当资料为变量数列时,一定要遵循以下输入顺序:先输入变量值,然后输入乘号键,接下来输入频数值,绝对不能颠倒次序。
2.利用计算机计算
运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工作中解脱出来,而且还可能大大提高对统计数据的利用率。虽然功能强大的统计软件包在一般人使用的电脑上没有安装,但使用“office”软件的用户超过90%,而用“office”软件中的“excel”组件足可以及时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均数)等迅速提供给人们。
下面举一个简单的例子说明利用“excel”计算算术平均数的步骤。如,计算某班上学期期末考试各科平均成绩。
方法一:
第一步 打开“excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成绩);
第二步 选择(单击)“工具”下拉菜单;
第三步 选择(单击)“数据分析”选项;
第四步 从弹出的“分析工具”中选择(单击)“描述统计”并单击“确定”;
第五步 在对话框中的“输入区域”框内键入要计算的单元格区域(如果包括字段行,则须选中“标志位于第一行”复选框。若分组方式为逐行,则该复选框选定标志位于第一列);在“输出选项”中选择输出区域;选择“汇总统计”(该选项给出全部描述统计量);单击“确定”。
方法二:
第一步 打开“excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成绩);
第二步 在适当的单元格内输入计算公式(以每行记录一名学生的各科成绩为例,假设第一行依次为姓名及各考试科目名称,最后一名学生第一科的成绩所在单元格为B45,则可在B46单元格输入计算公式“:average(b2:b45)”),然后回车;或者在适当的单元格内插入函数(选择“插入”下拉菜单,然后选择“函数”,接下来从弹出的对话框左边的函数类别中选择“统计”,再从对话框右边的函数名中选择“Average”,最后单击“确定”);
第三步 选定第二步计算结果所在单元格,复制其他考试科目的平均成绩。
二、调和平均数(Harmonic Mean)
(一)调和平均数的计算方法
与算术平均数类似,调和平均数也有简单的和加权的两种形式,其计算公式分别为:
(5–3)
(5–4)
由于调和平均数也可以看成是变量x的倒数的算术平均数的倒数,故有时也被称作“倒数平均数”。
例5–4 假定有A、B两家公司员工的月工资资料如表5–4的前三列。试分别计算其平均工资。
表5–4 两公司员工工资情况表
月工资x (元)
工资总额m(元)
员工人数f=m/x(人)
A公司
B公司
A公司
B公司
800
1000
1600
合计
48000
70000
32000
150000
40000
40000
40000
120000
60
70
20
150
50
40
25
115
在这里,平均工资作为“单位标志平均数”仍然必须是标志总量(工资总额)与单位总数(员工总数)之比。依据给出的月工资水平和工资总额的分组资料,可以首先用前者来除后者,得到各组的员工人数,进而加总得到全公司的员工总数(表中后两列),这样就很容易计算出两个公司各自的平均工资。将这些计算过程归纳起来,就是运用了调和平均数的公式。
现在,我们计算A公司的平均工资,得到:
对于B公司,固然也可以采用加权调和平均数公式来计算其平均工资:
然而在这里,由于各组的权数(工资总额)相同,实际上并没有真正起到加权的作用。我们采用简单调和平均数的公式来计算,可以得到完全相同的结果,而计算过程却大大简化了:
(二)由相对数或平均数计算平均数
例5–5 设有某行业150个企业的有关产值和利润资料如表5–5。
表5–5 某行业产值和利润情况表
产值利润率(%)
一 季 度
二 季 度
企业数(个)
实际产值(万元)
企业数(个)
实际利润(万元)
5-10
10-20
20-30
30
70
50
5700
20500
22500
50
80
20
710
3514
2250
合 计
150
48700
150
6474
表中给出的是按产值利润率分组的企业个数、实际产值和实际利润资料。应该注意,产值利润是一个相对指标,而不是平均指标。为了计算全行业的平均产值利润率,必须以产值利润率的基本公式为依据:
并选择适当的权数资料,适当的平均数形式,对各组企业的产值利润率进行加权平均。容易看出,计算第一季度的平均产值利润率,应该采用实际产值加权,进行算术平均,即有:
而计算第二季度的平均产值利润率,则应该采用实际利润加权,进行调和平均,即有:
由上例可见,对于同一问题的研究,算术平均数和调和平均数的实际意义是相同的,计算公式也可以相互推算,采用哪一种方法完全取决于所掌握的实际资料。一般的做法是,如果掌握的是基本公式中的分母资料,则采用算术平均数,如果掌握的是基本公式中的分子资料,则采用调和平均数的计算公式。
(三)调和平均数特点
1.调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。
2.只要有一个变量值为零,就不能计算调和平均数。
3.当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。
4.调和平均数应用的范围较小。
三、几何平均数(Geometric Mean)
几何平均数也称几何均值,它是n个变量值乘积的n次方根。根据统计资料的不同,几何平均数也有简单几何平均数和加权几何平均数之分。
(一)简单几何平均数(Simple Geometric Mean)
直接将n项变量连乘,然后对其连乘积开n次方根所得的平均数即为简单几何平均数。它是几何平均数的常用形式。计算公式为:
(5–5)
式中:G代表几何平均数,代表连乘符号
例5–6 某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95%、92%、90%、85%、80%,整个流水生产线产品的平均合格率为:
(二)加权几何平均数(Weighted Geometric Mean)
与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。计算公式为:
(5–6)
式中:fi代表各个变量值出现的次数。
例5–7 某工商银行某项投资年利率是按复利计算的。20年的利率分配如表5–6,计算20年的平均年利率。
表5–6 投资年利率分组表
年限
年利率(%)
本利率(%)xi
年数(个)fi
第1年
5
105
1
第2年至第4年
8
108
3
第5年至第15年
15
115
11
第16年至第20年
18
118
5
合 计
—
—
20
按公式计算20年的平均年利率:
即20年的平均年利率为%-1=%
(三)几何平均数特点
1.几何平均数受极端值的影响较算术平均数小。
2.如果变量值有负值,计算出的几何平均数就会成为负数或虚数。
3.它仅适用于具有等比或近似等比关系的数据。
4.几何平均数的对数是各变量值对数的算术平均数。
第二节 集中趋势——位置平均数
位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。常用的众数、中位数。
一、众数(Mode)
(一)众数的含义
某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如表5–7。
表5–7 某商场某季度男皮鞋销售情况
男皮鞋号码/厘米
销售量/双
12
84
118
541
320
104
52
合计
1200
从表5–7可以看到,厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25. 65厘米,而这个号码显然是没有实际意义的,而直接用厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际。
统计上把这种在一组数据中出现次数最多的变量值叫做众数。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。上面的例子中,鞋号25. 5厘米就是众数。
(二)众数计算
由品质数列和单项式变量数列确定众数比较容易,哪个变量值出现的次数最多,它就是众数,如上面的两个例子。
若所掌握的资料是组距式数列,则只能按一定的方法来推算众数的近似值。计算公式为:
(5–7)
式中: L——众数所在组下限;
U——众数所在组上限;
Δ1——众数所在组次数与其下限的邻组次数之差;
Δ2——众数所在组次数与其上限的邻组次数之差;
d——众数所在组组距。
例5–8 根据表5–2的数据,计算50名工人日加工零件数的众数。
解:从表5–2中的数据可以看出,最大的频数值是14,即众数组为120~125这一组,根据公式(5–7)得50名工人日加工零件的众数为:
或:
众数是一种位置平均数,是总体中出现次数最多的变量值,因而在实际工作中有时有它特殊的用途。诸如,要说明一个企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数。但是必须注意,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数。只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。
(三)众数特点
1.众数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,它不受分布数列的极大或极小值的影响,从而增强了众数对分布数列的代表性。
2.当分组数列没有任何一组的次数占多数,也即分布数列中没有明显的集中趋势,而是近似于均匀分布时,则该次数分配数列无众数。若将无众数的分布数列重新分组或各组频数依序合并,又会使分配数列再现出明显的集中趋势。
3.如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,而下一组的次数较少,则众数在众数组内会偏向该组下限;如果与众数组比邻的上一组的次数较少,而下一组的次数较多,则众数在众数组内会偏向该组上限。
4.缺乏敏感性。这是由于众数的计算只利用了众数组的数据信息,不象数值平均数那样利用了全部数据信息。
二、中位数(Median)
(一)中位数的含义
中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。
从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。在统计数据的处理和分析时,可结合使用中位数。
(二)中位数的计算
确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:
1.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:
则中位数就可以按下面的方式确定:
(5–8)
例如,根据例5–2的数据,计算50名工人日加工零件数的中位数。中位数的位置在(50+1)/2 = ,中位数在第25个数值(123)和第26个数值(123)之间,即Me = (123+123)/2=123(件)。
2.由分组资料确定中位数
由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。
(5–9)
式中: Me——中位数;
L——中位数所在组下限;
U——中位数所在组上限;
fm——为中位数所在组的次数;
——总次数;
d——中位数所在组的组距;
Sm–1——中位数所在组以下的累计次数;
Sm+1——中位数所在组以上的累计次数。
例5–9 根据例5–2的数据,计算50名工人日加工零件数的中位数。
解:
表5–8 某企业50名工人加工零件中位数计算表
按零件数分组(个)
频数(人)
向上累计(人)
向下累计(人)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
3
8
16
30
40
46
50
50
47
42
34
20
10
4
由表5–8可知,中位数的位置 = 50/2 = 25,即中位数在120~125这一组,L = 120,Sm–1 = 16,U=125,Sm+1 =20,fm = 14,d = 5,根据中位数公式得:
或
(三)中位数特点
1.中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。
2.有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
3.缺乏敏感性。
三、众数、中位数和算术平均数的比较
(一)众数、中位数和算术平均数的关系
算术平均数、众数和中位数之间的关系与次数分布数列有关。在次数分布完全对称时,算术平均数、众数和中位数都是同一数值,见图5–1;在次数分布非对称时,算术平均数、众数和中位数不再是同一数值了,而具有相对固定的关系。在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大,见图5–2;在尾巴拖在左边的负偏态(或左偏态)分布中,众数最大,中位数适中,算术平均数最小,见图5–3。
图5–1
图5–2
图5–3
在统计实务中,可以利用算术平均数、中位数和众数的数量关系判断次数分布的特征。此外还可利用三者的关系进行相互之间估算。根据经验,在分布偏斜程度不大的情况下,不论右偏或左偏,三者存在一定的比例关系,即众数与中位数的距离约为算术平均数与中位数的距离2倍,用公式表示为:,由此可以得到三个推导公式:
(二)应用
众数、中位数和算术平均数各自具有不同的特点,掌握它们之间的关系和各自的特点,有助于我们在实际应用中选择合理的测度值来描述数据的集中趋势。
众数是一种位置代表值,易理解,不受极端值的影响。任何类型的数据资料都可以计算,但主要适合于作为定类数据的集中趋势测度值;即使资料有开口组仍然能够使用众数。众数不适于进一步代数运算;有的资料众数根本不存在;当资料中包括多个众数时,很难对它进行比较和说明,应用不如算术平均数广泛。
中位数也是一种位置代表值,不受极端值的影响;除了数值型数据,定序数据也可以计算,而且主要适合于作为定序数据的集中趋势测度值,而且开口组资料也不影响计算。中位数不适于进一步代数运算,应用不如算术平均数广泛。
算术平均数的含义通俗易懂,直观清晰;全部数据都要参加运算,因此它是一个可靠的具有代表性的量;任何一组数据都有一个平均数,而且只有一个平均数;用统计方法推断几个样本是否取自同一总体时,必须使用算术平均数;具有优良的数学性质,适合于代数方法的演算。算术平均数是实际中应用最广泛的集中趋势测度值,主要适合于作为定距和定比数据的集中趋势测度值;最容易受极端值的影响;对于偏态分布的数据,算术平均数的代表性较差;资料有开口组时,按相邻组组距计算假定性很大,代表性降低。
第三节 离中趋势
一、离中趋势的测定——变异指标
变异指标是反映总体各单位标志值的差别大小程度的综合指标,又称标志变动度。平均指标反映总体一般数量水平的同时,掩盖了总体各单位标志值的数量差异。变异指标弥补了这方面的不足,它综合反映了总体各单位标志值的差异性,从另一方面说明了总体的数量特征。平均指标说明总体各单位标志值的集中趋势,而变异指标则说明标志值的分散程度或离中趋势。
变异指标是衡量平均指标代表性的尺度。一般来讲,数据分布越分散,变异指标越大,平均指标的代表性越小;数据分布越集中,变异指标越小,平均指标的代表性越大。常用的变异指标有:全距、平均差、方差和标准差、变异系数。
二、全距(Range)
全距也称为极差,是指总体各单位的两个极端标志值之差,即:
R=最大标志值-最小标志值
因此,全距(R)可反映总体标志值的差异范围。
例5–10 有两个学习小组的统计学开始成绩分别为:
第一组:60,70,80,90,100
第二组:78,79,80,81,82
很明显,两个小组的考试成绩平均分都是80分,但是哪一组的分数比较集中呢?
如果用全距指标来衡量,则有
R甲=100-60=40(分)
R乙=82-78=4(分)
这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。
根据组距计算极差,是测定标志变动度的一种简单方法,但受极端值的影响,因而它往往不能充分反映社会经济现象的离散程度。
在实际工作中,全距常用来检查产品质量的稳定性和进行质量控制。在正常生产条件下,全距在一定范围内波动,若全距超过给定的范围,就说明有异常情况出现。因此,利用全距有助于及时发现问题,以便采取措施,保证产品质量。
三、平均差(Mean Deviation)
平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。
在资料未分组的情况下,平均差的计算公式为:
= (5–10)
采用标志值对算术平均数的离差绝对值之和,是因为各标志值对算术平均数的离差之代数和等于零。仍以甲组学生数学成绩为例,计算平均差如下:
=
在资料已分组的情况下,要用加权平均差公式:
=
例5–11 某厂按月收入水平分组的组距数列如表5–9中前两列,计算平均差。
表5–9
职工工资(元)
职工人数(f)
组中值(x)
xf
x-
250-270
270-290
290-310
330-350
15
25
35
65
40
260
280
300
320
340
3900
7000
10500
20800
13600
-50
-30
-10
10
30
750
750
350
650
1200
180
––––
55800
3700
解:根据公式列表计算,得到
=
由于平均差采用了离差的绝对值,不便于运算,这样使其应用受到了很大限制。
四、方差(Variance)与标准差(Standard Deviation)
方差和标准差是测度数据变异程度的最重要、最常用的指标。方差是各个数据与其算术平均数的离差平方的平均数,通常以σ2表示。方差的计量单位和量纲不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根–––标准差来测度统计数据的差异程度。标准差又称均方差,一般用σ表示。方差和标准差的计算也分为简单平均法和加权平均法,另外,对于总体数据和样本数据,公式略有不同。
(一)总体方差和标准差
设总体方差为,对于未经分组整理的原始数据,方差的计算公式为:
(5–12)
对于分组数据,方差的计算公式为:
(5–13)
方差的平方根即为标准差,其相应的计算公式为:
未分组数据: (5–14)
分组数据: (5–15)
(二)样本方差和标准差
样本方差与总体方差在计算上的区别是:总体方差是用数据个数或总频数去除离差平方和,而样本方差则是用样本数据个数或总频数减1去除离差平方和,其中样本数据个数减1即n-1称为自由度。设样本方差为,根据未分组数据和分组数据计算样本方差的公式分别为:
未分组数据: (5–16)
分组数据: (5–17)
未分组数据: (5–18)
分组数据: (5–19)
例5–12 考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:
根据该行业通用法则:如果一个样本中的14个数据项的方差大于,则该机器必须关闭待修。问此时的机器是否必须关闭?
解:根据已知数据,计算
因此,该机器工作正常。
方差和标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确地反映出数据的离散程度。方差和标准差是实际中应用最广泛的离散程度测度值。
五、变异系数(Coefficient of Variation)
上面介绍的各离散程度测度值都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的均值大小有关。变量值绝对水平越高,离散程度的测度值自然也就越大,绝对水平越低,离散程度的测度值自然也就越小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能直接用上述离散程度的测度值直接进行比较的。为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:
(5–20)
Vσ和Vs分别表示总体离散系数和样本离散系数。
离散系数要是用于对不同组别数据的离散程度进行比较,离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度也就小。
例5–13 某管理局抽查了所属的8家企业,其产品销售数据如表5–10所示。试比较产品销售额与销售利润的离散程度。
表5–10 某管理局所属8家企业的产品销售数据
企业编号
产品销售额(万元)X1
销售利润(万元)X2
1
2
3
4
5
6
7
8
170
220
390
430
480
650
950
1000
解:由于销售额与利润额的数据水平不同,不能直接用标准差进行比较,需要计算离散系数。由表中数据计算得
计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度。
第四节 EXCEL描述统计功能
Microsoft EXCEL是一个设计精良、功能齐全的办公软件。它除了具有我们常用的办公功能,如通过电子表格的形式对数字数据进行组织和计算;将数字数据转化为可视化的图表和数据库管理功能外。它还是一个十分强大而且非常易用于使用数据统计和预测工具。EXCEL的统计功能分为基本统计和预测两部分。我们将按照统计顺序逐一介绍。这一节将介绍EXCEL2000的基本描述性统计功能。
描述性统计可通过EXCEL提供的统计函数或加载宏来完成,下面我们分别介绍EXCEL的描述性统计功能。
(一)用EXCEL统计函数进行特征值计算
EXCEL描述性统计函数主要包括一般统计函数,集中趋势函数和变异统计函数:
如图5–4所示,单元格区域B4:B53是第三章第三节为数据分组的例3–3。C4:C19是一些描述性统计量的说明。D4:D19是一般统计结果。其做法有如下两种。
1.在单元格D3中输入公式“=COUNT (B4:B53)”并回车,得到B4:B53区域中非空数值型数据的个数统计;在单元格D4中输入公式“=SUM(B3:B53)”并回车,得到50名工人日加工零件数的总和;同样,在D5:D15单元格中中分别输入MAX、MIN、AVERAGE、MEDIAN、GEOMEAN、HARMEAN、AVEDEV、STDEV、VAR、KURT和SKEW 函数,分别得到50个数据中的最大值、最小值、平均值、中位数、几何平均数和调和平均数及变异统计的平均差、标准差、方差峰度和偏度。
图5–4 统计函数
2.首先在EXCEL2000的系统工具栏中选择“插入”中的函数,其次在函数对话框中选择所计算的函数,然后根据函数向导提示一步步的完成。其具体操作如图5–5(A–C)。
(二)宏程序进行特征值计算
除了利用上述统计函数完成统计数据分析外,EXCEL还在数据分析宏程序中提供了一个描述性统计过程。对于例3–3,我们也可以利用这个“描述性统计”宏过程来计算,其方法更为简单。
我们点击图中的“描述性统计”过程,“描述性统计”过程的菜单如图5–5A,5–5B,5–5C 所示。我们在“输入区域”中输入数据所在单元格区域“B3:B53”,选择输出“汇总统计”和“平均数值信度”,在“K个最大值”和“K个最小值”选择中,选择系统默认值“1”,表示选择输出第1个最大值和第1个最小值。输入“输出区域”为E1单元格,然后按“确定”,即得到图所示特征值计算结果,该结果与图中利用统计函数计算的结果是一致的。
2.首先在EXCEL2000的系统工具栏中选择“插入”中的函数,其次在函数对话框中选择所计算的函数,然后根据函数向导提示一步步的完成。其具体操作如图5–5(A–C)。
(二)宏程序进行特征值计算
除了利用上述统计函数完成统计数据分析外,EXCEL还在数据分析宏程序中提供了一个描述性统计过程。对于例3–3,我们也可以利用这个“描述性统计”宏过程来计算,其方法更为简单。
我们点击图中的“描述性统计”过程,“描述性统计”过程的菜单如图5–5A,5–5B,5–5C 所示。我们在“输入区域”中输入数据所在单元格区域“B3:B53”,选择输出“汇总统计”和“平均数值信度”,在“K个最大值”和“K个最小值”选择中,选择系统默认值“1”,表示选择输出第1个最大值和第1个最小值。输入“输出区域”为E1单元格,然后按“确定”,即得到图所示特征值计算结果,该结果与图中利用统计函数计算的结果是一致的。
图5–5A 数据分析宏程序
图5–5B 描述性统计过程对话框
图5–5C描述性统计结果
思考题
一、单项选择题
1.平均指标反映了( )
①总体次数分布的集中趋势 ②总体分布的特征
③总体单位的集中趋势 ④总体次数分布的离中趋势
2.某单位的生产小组工人工资资料如下:90元、100元、110元、120元、128元、148元、200元,计算结果均值为元,标准差为( )
①σ=33 ②σ=34 ③σ= ④σ=35
3.众数是总体中下列哪项的标志值( )
①位置居中 ②数值最大
③出现次数较多 ④出现次数最多
4.某工厂新工人月工资400元,工资总额为200000元,老工人月工资800元,工资总额80000元,则平均工资为( )
①600元 ②元 ③元 ④500元
5.标志变异指标说明变量的( )
①变动趋势 ②集中趋势 ③离中趋势 ④一般趋势
6.标准差指标数值越小,则反映变量值( )
①越分散,平均数代表性越低 ②越集中,平均数代表性越高
③越分散,平均数代表性越高 ④越集中,平均数代表性越低
7.在抽样推断中应用比较广泛的指标是( )
①全距 ②平均差 ③标准差 ④标准差系数
二、多项选择题
1.根据标志值在总体中所处的特殊位置确定的平均指标有( )
①算术平均数 ②调和平均数 ③几何平均数
④众数 ⑤中位数
2.影响加权算术平均数的因素有( )
①总体标志总量 ②分配数列中各组标志值
③各组标志值出现的次数 ④各组单位数占总体单位数比重
⑤权数
3.标志变异指标有( )
①全距 ②平均差 ③标准差 ④标准差系数 ⑤相关系数
4.在组距数列的条件下,计算中位数的公式为( )
① ②
③ ④
⑤
5.几何平均数的计算公式有( )
① ②
③ ④ ⑤
三、计算题
1.某企业360名工人生产某种产品的资料如表1:
表1
工人按日产量分组(件)
工人数(人)
7月份
8月份
20以下
20~30
30~40
40~50
50~60
60以上
30
78
108
90
42
12
18
30
72
120
90
30
合计
360
360
试分别计算7、8月份平均每人日产量,并简要说明8月份平均每人日产量变化的原因。
2.某地甲乙两个农贸市场三种主要蔬菜价格及销售额资料如表2:
表2
品 种
价 格
(元/千克)
销售额(万元)
甲市场
乙市场
甲
乙
丙
试计算比较该地区哪个农贸市场蔬菜平均价格高?并说明原因。
3.某地区抽样调查职工家庭收入资料如表3:
表3
按平均每人月收入分组(元)
职工户数
100~200
200~300
300~400
400~500
500~600
600~700
700~800
800~900
6
10
20
30
40
240
60
20
试根据上述资料计算(1)职工家庭平均每人月收入(用算术平均数公式);
(2)依下限公式计算确定中位数和众数;
(3)简要说明其分布特征。
4.某工业局全员劳动生产率的标准差为512元,标准差系数为%。试求该工业局全员劳动生产率水平(要求列出公式和算式)。
第五章 参考答案
一、单项选择
1、① 2、③ 3、④ 4、③ 5、③ 6、② 7、③
二、多项选择题
1、④⑤ 2、 ②③④⑤ 3、①②③④ 4、 ③④ 5、 ①④⑤
三、计算题
1.7月份平均每人日产量=37件
8月份平均每人日产量=44件
根据计算结果得知8月份比7月份平均每人日产量多7件。其原因是不同日产量水平的工人所占比重发生变化所致。7月份工人日产量在40件以上的工人只占全部工人数的40%,而8月份这部分工人所占比重则为%。
2.甲市场平均价格=(元/千克)
乙市场平均价格=(元/千克)
经计算得知,乙市场蔬菜平均价格高,其原因是乙市场价格较高的蔬菜销售量比重大于甲市场,也可以说,乙市场蔬菜平均价格高的蔬菜销售额比重大于甲市场。
3.(1)该地区职工家庭平均每人月收入=(元)
(2)依下限公式计算确定中位数=(元)
依下限公式计算确定众数=(元)
(3) 分布特征是左偏态分布,即高收入的较多。
4.
即该工业局全员劳动生产率为元。
第六章 抽样调查
第一节 抽样调查概述
一、抽样调查
(一)抽样调查的概念
抽样调查的概念可以有广义和狭义两种理解。按照广义的理解,凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查,其中又可分为非随机抽样和随机抽样两种。非随机抽样就是由调查者根据自己的认识和判断,选取若干个有代表性的单位,根据这些单位进行观察的结果来推断全体,如民意测验等。随机抽样则是根据大数定律的要求,在抽取调查单位时,应保证总体中各个单位都有同样的机会被抽中。一般所讲的抽样调查,大多数是指这种随机抽样而言,即狭义的抽样调查。所以,严格意义上的抽样调查就是:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体做出数量上的推断分析。
(二)抽样调查的特点
1.和全面调查相比较,抽样调查能节省人力、费用和时间,而且比较灵活
抽样调查的调查单位比全面调查少得多,因而既能节约人力、费用和时间,又能比较快地得到调查的结果,这对许多工作都是很有利的。例如,农产量全面调查的统计数字要等收割完毕以后一段时间才能得到,而抽样调查的统计数字在收获的同时就可以得到,一般能早得到两个月左右,这对于安排农产品的收购、储存、运输等都是很有利的。
由于调查单位少,有时可以增加调查内容。因此,有的国家在人口普查的同时也进行人口抽样调查,一般项目通过普查取得资料,另一些项目则通过抽样调查取得资料。这样既可以节省调查费用和时间,又丰富了调查内容。
2.有些情况下,抽样调查的结果比全面调查要准确
统计数字与客观实际数量之间是会有差别的,这种差别通常称为误差。统计误差有两种:一是登记误差,也叫调查误差或工作误差,是指在调查登记、汇总计算过程中发生的误差,这种误差应该设法避免的;二是代表性误差,这是指用部分单位的统计数字为代表,去推算总体的全面数字时所产生的误差,这种误差一定会发生,是不可避免的。
全面调查只有登记误差而没有代表性误差,而抽样调查则两种误差全有。因此,人们往往认为抽样调查不如全面调查准确,种看法忽略了两种误差的大小。全面调查的调查单位多,涉及面广,参加调查汇总的人员也多,水平不齐,因而发生登记误差的可能性就大。抽样调查的调查单位少,参加调查汇总的人员也少,可以进行严格的培训,因而发生登记误差的可能性就少。在这种情况下,抽样调查的结果会比全面凋查的结果更为准确。
3.抽选部分单位时要遵循随机原则
其他非全面调查,如典型调查和重点调查等,一般是要根据统计调查任务的要求,有意识地选取若干个调查单位进行调查,而抽样调查不同,从总体中抽取部分单位时,必须非常客观,毫无偏见,也就是严格按照随机原则抽取调查单位,不受调查人员任何主观意图的影响,否则会带上个人偏见,挑中那部分单位的标志值可能偏高或偏低,失去对总体数量特征的代表性。
4.抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制
在非全面调查方式中,典型调查固然也有可能用它所取得的部分单位的数量特征去推算全体的数量特征,但这种推算误差范围和保证程度,是无法事先计算并加以控制的。而抽样调查则是在于对一部分单位的统计调查,在实际观察标志值的基础上,去推断总体的综合数量特征。例如,某村种有晚稻3000亩,在稻子成熟后随机抽取 50个单位的田块为样本,每个单位为10平方市尺,进行实割实测,求得其平均亩产为410千克,从而推算该村的晚稻总产量为410×3000=1230000千克。当然这种推断也会存在一定的误差,但它与其他统计估算不同,抽样误差的范围可以事先加以计算,并控制这个误差范围,以保证抽样推断的结果达到一定的可靠程度。
抽样调查是必不可少的一种调查方法,但是,抽样调查也有它的弱点。例如,它只能提供说明整个总体情况的统计资料,而不能提供说明各级状况的详细的统计资料,这就难以满足各级领导和管理部门的要求。抽样调查也很难提供各种详细分类的统计资料。因此,抽样调查和全面调查是不能互相代替的。
(三)抽样调查的适用范围
抽样调查适用的范围是广泛的,从原则上讲,为取得大量社会经济现象的数量方面的统计资料,在许多场合都可以运用抽样调查方法取得;在某些特殊场合,甚至还必须应用抽样调查的方法取得。
1.有些事物在测量或试验时有破坏性,不可能进行全面调查
例如,灯泡耐用时间试验,电视机抗震能力试验,罐头食品的卫生检查,人体白血球数量的化验等等,都是有破坏性的,不可能进行全面调查,只能使用抽样调查。
2.有些总体从理论上讲可以进行全面调查,但实际上办不到
例如,了解某森林区有多少棵树,职工家庭生活状况如何等等。从理论上讲这是有限总体,可以进行全面调查,但实际上办不到,也不必要。对这类情况的了解一般采取抽样调查方法。
3.抽样调查方法可以用于工业生产过程中的质量控制
抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,检查生产过程是否正常,及时提供有关信息,便于采取措施,预防废品的发生。
4.利用抽样推断的方法,可以对于某种总体的假设进行检验,来判断这种假设的真伪,以决定取舍
例如,新教学法的采用、新工艺新技术的改革、新医疗方法的使用等等是否收到明显效果,须对未知的或不完全知道的总体做出一些假设,然后利用抽样调查的方法,根据实验材料对所作的假设进行检验,做出判断。
随着抽样理论的发展,抽样技术的进步,抽样方法的完善和统计队伍业务水平的提高,抽样调查方法将在社会经济生活中得到愈加广泛的运用。
二、关于抽样方法
在实际应用中,抽样方法主要有两种:概率抽样和非概率抽样。
(一)概率抽样
这一方法是根据一个已知的概率选取被调查者,无须调查人员在选样中判断或抽选。从理论上讲,概率抽样是最理想、最科学的抽样方法,它能保证样本数据对总体参数的代表性,而且它能够将调查误差中的抽样误差限制在一定范围之内。但相对于非概率抽样来说,概率抽样也是花费较大的抽样方法。概率抽样有以下几种形式。
1.简单随机抽样(Simple random sampling)。是最基本的抽样形式,它是完全随机地选择样本。此法要求有一个完美的抽样框,或者总体中有一个个体的详尽名单。
2.分层抽样(Reduced sampling)。分两个步骤:首先将总体分成不同的“层”,然后在每一层内进行抽样。分层抽样可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。
3.整群抽样(Cluster sampling)。首先将全部总体分为若干部分,每一部分称为一个群,把每一群做为一个抽样单位,在群地进行抽样;然后,在被抽中的群中做全面调查。例如,在市场调查的入户调查中,可以对被选作抽样单位的某个大院的每家每户进行调查。
4.等距抽样。又称系统抽样(Systematic sampling),是在样本框中每隔一定距离抽选一个被调查者。这一方法也比较常用,有时还可与整群抽样法和分层抽样法结合使用。例如,可采用系统抽样去抽取选择“群”或个体,也可在某一“层”的范围内进行系统采样。
(二)非概率抽样
不是完全按随机原则选取样本。非概率抽样有三种形式。
1.主要是由调查人员自由选择被调查者的非随机选样。例如在购物中心采访100位妇女,这100位被调查者可以随机选择。
2.通过某些条件过滤选择某些被调查者参与调查的判断抽样法。在许多情况下,由于研究对象可能仅限于一部分居民,因而有时采用这种方法能节省大量经费。
3.大多数种类的研究––––产品测试、街访、座谈会,只要不是属于要进行总体推论的大多数项目都可使用非概率抽样法。
第二节 抽样推断中几个基本概念
一、全及总体和抽样总体
在抽样调查中,有两种不同的总体即全及总体和抽样总体。
(一)全及总体
全及总体简称总体,是指所要认识对象的全体,总体是由具有某种共同性质的许多单位组成的,因此,总体也就是具有同一性质的许多单位的集合体。例如,我们要研究某城市职工的生活水平,则该城市全部职工即构成全及总体。我们要研究某乡粮食亩产水平,则该乡的全部粮食播种面积即是全及总体。
全及总体按其各单位标志性质不同,可以分为变量总体和属性总体两类。构成变量总体的各个单位可以用一定的数量标志加以计量,例如,研究居民的收入水平,每户居民的收人就是它的数量标志,反映各户的数量特征。但并非所有标志都是可以计量的,有的标志只能用一定的文字加以描述。例如,要研究织布厂l000台织布机的完好情况,这时只能用“完好”和“不完好”等文字作为品质标志来描述各台设备的属性特征,这种用文字描写属性特征的总体称为属性总体。区分变量总体和属性总体是很重要的,由于总体不同,认识这一总体的方法也就不同。
对于变量总体可分为无限总体和有限总体两类。无限总体所包含的单位为无限多,因而各单位的变量也就有无限多的取值。这种无限变量又有两种情况:一种是可列的无限变量,即变量值的大小可以按照顺序一一列举直至无穷;另一种情况则是不可列的无限变量,它是一种连续变量,在任何一个区间内都有无限多的变量,不可能按顺序加以一一列举。我们所说的无限总体主要是指后一种情况来说的。有限总体所包含的单位数则是有限的,因而它的变量值也是有限的,当然可以按顺序加以一一列举。
通常全及总体的单位数用大写的英文字母N来表示。作为全及总体,单位数N即使有限,但总是很大,大到几千,几万,几十万,几百万。例如,人口总体,棉花纤维总体,粮食产量总体等等。对无限总体的认识只能采用抽样的方法,而对于有限总体的认识,理论上虽可以应用全面调查来搜集资料,但实际上往往由于不可能或不经济而借助抽样的方法以求得对有限总体的认识。
(二)抽样总体
抽样总体简称样本,是从全及总体中随机抽取出来,代表全及总体部分单位的集合体。抽样总体的单位数通常用小写英文字母n表示。对于全及总体单位数N来说,n是个很小的数,它可以是N的几十分之一,几百分之一,几千分之一,几万分之一。一般说来,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本。而自然实验观察则多取小样本。以很小的样本来推断很大的总体,这是抽样调查的一个特点。
如果说全及总体是唯一确定的,那么,抽样样本就完全不是这样,一个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样本的可能数目也有很大的差别,抽样本身是一种手段,目的在于对总体做出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少,它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以认真的研究。
二、全及指标和抽样指标
(一)全及指标
根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总体计算的全及指标也是唯一确定的。
不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各单位的标志可以用数量来表示,所以可以计算总体平均数。
对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定的文字加以描述,所以,就应该计算结构相对指标,称为总体成数。用大写英文字母P表示,它说明总体中具有某种标志的单位数在总体中所占的比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上或以下的比重,视同具有或不具有某种属性的单位数比重。
设总体N个单位中,有N1个单位具有某种属性,N0个单位不具有某种属性, N1 + N0 =N,P为总体中具有某种属性的单位数所占的比重,Q为不具有某种属性的单位数所占的比重,则总体成数为
P=
Q=
此外,全及指标还有总体方差和总体标准差,它们都是测量总体标志值分散程度的指标。
(二)抽样指标
由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标。和全及指标相对应还有抽样平均数、抽样成数p、样本标准差S和样本方差S2等等。和p用小写英文字母表示,以示区别。
设样本n个单位中有n1个单位具有某种属性,n0个单位不具有某种属性,n1+ n0 =n,p为样本中具有某种属性的单位数所占的比重,q为不具有某种属性的单位数所占的比重,则抽样成数为
样本的方差和样本标准差分别为
由于一个全及总体可以抽取许多个样本,样本不同,抽样指标的数值也就不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本变量的函数,它本身也是随机变量。
三、重置抽样与不重置抽样
(一)重置抽样
重置抽样,又称有放回的抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总体中重新参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次试验,连续进行n次试验就构成了一个样本。因此,重置抽样的样本是经n次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照随机原则进行的。
(二)不重置抽样
不重置抽样,又称无放回的抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位登录其有关标志表现后不再放回总体中参加下一次的抽选。经过连续n次不重置抽选单位构成样本,实质上相当于一次性同时从总体中抽中n个单位构成样本。上一次的抽选结果会直接影响到下一次抽选,因此,不重置抽样的样本是经n次相互联系的连续试验形成的。
四、抽样框与样本数
(一)抽样框
抽样框,又称抽样结构,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
(二)样本数
样本数,又称样本的可能数目,是指从总体N个单位中随机抽选n个单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是n个总体单位的一种排列组合,一种排列组合便构成一个可能的样本,n个总体单位的排列组合总数,称为样本的可能数目。
第三节 抽样推断的理论基础—大数定律与中心极限定理
抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极限定理。
一、大数定律
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。
大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律:
(一)切贝雪夫大数定理
设x1,x2 …是一列两两相互独立的随机变量,服从同一分布,且存在有限的数学期望a和方差σ2,则对任意小的正数ε,有:
该定律的含义是:当n很大,服从同一分布的随机变量x1,x2 …,xn 的算术平均数将依概率接近于这些随机变量的数学期望。
将该定律应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
(二)贝努里大数定律
设是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,有:
该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。
二、中心极限定理
大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这里仅介绍其中四个常用定理。
(一)辛钦中心极限定理
设随机变量x1,x2 …,xn 相互独立,服从同一分布且有有限的数学期望a和方差σ2,则随机变量,在n无限增大时,服从参数为a和的正态分布即n→∞时,
将该定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学期望a和方差σ2是有限的,无论总体服从什么分布,从中抽取容量为n的样本时,只要n足够大,其样本平均数的分布就趋于数学期望为a,方差为σ2/n的正态分布。
(二)德莫佛——拉普拉斯中心极限定理
设是n次独立试验中事件A发生的次数,事件A在每次试验中发生的概率为P,则当n无限大时,频率设/ n趋于服从参数为的正态分布。即:
该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什么分布,只要n充分大,那么频率就近似服从正态分布。
(三)李亚普洛夫中心极限定理
设x1,x2,…,xn,…是一个相互独立的随机变量序列,它们具有有限的数学期望和方差:。
记,如果能选择这一个正数δ>0,使当n→∞时,,则对任意的x有:
该定理的含义是:如果一个量是由大量相互独立的随机因素影响所造成的,而每一个别因素在总影响中所起的作用不很大,则这个量服从或近似服从正态分布。
(四)林德贝尔格定理
设x1,x2,…,xn,…是一个相对独立的随机变量序列,它们具有有限的数学期望和方差满足林德贝尔格条件,则当n→∞时,对任意的x,有。
第四节 抽样误差
一、抽样误差的概念
当总体指标未知时,往往要安排一次抽样调查,然后用抽样调查所获得的抽样指标的观察值作为总体指标的估计值。这种处理方法是存在一定误差的,我们把抽样指标与所要估计的总体指标之间的差值称为抽样误差。抽样误差的大小能够说明抽样指标估计总体指标是否可行,抽样效果是否理想等调查性问题。常见的抽样误差有:抽样平均数与总体平均数之差),抽样成数与总体成数之差(p- P)。
比如某年级100名同学的平均体重=55kg,现随机地抽取10名同学为样本,其平均体重=52kg。若用52kg估计55kg,则误差为52-55=-3 kg,如果重新抽10名同学,若测得=57kg,则其误差为2kg。这种只抽取部分样本而产生的误差,都被称