本资料来源
第十章 调查资料的统计分析
• 第一节 统计分析概述
• 第二节 单变量统计分析
• 第三节 双变量统计分析
• 第四节 推论统计
第一节 统计分析概述
一、统计分析的含义与作用
二、统计分析的特点
一、统计分析的含义与作用
• 统计分析,就是指运用统计学的方法,对调
查所得资料的数量特征进行描述,并用各种
数学模型揭示调查资料中所隐含的关系、规
律及发展趋势。
• 统计分析就是从量的方面来分析事物之间的
相互关系和相互作用,并通过对事物量的规
定性的分析,来把握和认识事物质的规定性。
• 事实说明,正确恰当的统计分析,已成为现
代社会调查研究中不可缺少的一个环节,成
为人们认识社会现象的一种重要分析手段。
• 统计分析的作用:
1.统计分析能为社会调查研究提供一套精
确的形式化语言。
2.统计分析使抽样调查成为可能。
3、统计分析有助于揭示社会现象的规律。
4、统计分析有助于我们较为精确地预测社
会现象的发展趋势。
二、统计分析的特点
1.统计分析要以定性分析为基础。
2.统计分析必须与理论分析方法相结合。
• 统计分析的内容可分为两个大的方面,即描
述统计和推论统计。
–描述统计的主要目的在于用最简单的概括形式反
映出大量数据资料所容纳的基本信息。它的基本
方法包括集中趋势分析、离散趋势分析、相关分
析、回归分析等。
–而推论统计的主要目的,则是要用从样本调查中
所得的数据资料来推断总体的情况。它的基本内
容包括区间估计和假设检验两部分。
第二节 单变量描述统计
一、频数分布与频率分布
二、集中趋势分析
三、离散趋势分析
一、频数分布与频率分布
• 所谓频数分布,就是指一组数据中取不同
值的个案的次数分布情况,它一般以频数
表的形式表达。
• 例如,某班有25名学生,其年龄情况如下:
20, 19,18, 19,18,20, 21, 17, 18
, 18, 19,19, 20,19,19, 17, 18,
20, 19, 19,21,21,19,20, 19。则该
班学生的年龄分布则为下表(见表1)
• 频数分布表的作用主要有两方面:
–一是简化资料,即将调查所得到的一长串原始数
据,以一个十分简洁的统计表反映出来;
–二是从频数分布表中,我们可以更清楚地了解调
查数据的众多信息。
• 所谓频率分布,则是指一组数据中不同取值的
频数相对于总数的比率分布情况,这种比率通
常以百分比的形式表达,而频率分布情况同样
以频率表的形式出现。下表2就是上例对应的
频率分布表。
• 频率分布表除具备频数分布表的优点外,还能
反映各类所占的比重,便于不同总体或不同类
别之间的比较。这种分布的应用更为普遍。
二、集中趋势分析
• 所谓集中趋势分析,指的是用一个典型
值或代表值来反映一组数据的一般水平,
或向这个典型值集中的情况。
• 最常见的集中趋势统计量有平均数、众
数和中位数三种。
1.平均数(算术平均数)
是用总体各单位数值之和除以总体单位总
数的商。平均数又称为均值或均数。
以下是计算公式及应用举例。
–①由原始数据计算平均数。设总体单位总数为n,
总体各单位的数值为xi(i=1, 2, … , n),则计算公
式为:
–②由单值分组资料计算平均数。首先要将每一个
组的量值乘以所对应的频数(得出各组的数值之
和);然后将各组的数之和全部相加,最后除以
单位总数(也即各组频数之和∑f)得出平均数。
其计算公式为:
–③由组距分组资料求平均数。先计算出各组的组中
值Xm ,然后再按照单值分组资料计算平均数的公
式计算。也就是说,用组距分组资料求平均数的公
式与用单值分组资料求平均数的公式基本相同,只
是需要事先将组距转化成单值。
计算公式为:
• 例题
–例1 某班10名学生的年龄分别为20岁、21岁、19岁、
19岁、20岁、20岁、21岁、22岁、18岁、20岁,求
他们的平均年龄。
–例2 调查某年级150名学生的年龄,得到下列结果
(左表),求平均年龄。()
–例3 调查某厂100名职工的收入情况如下(右表),
求他们的平均收入。(212)
2.众数
众数是一组数据中出现次数最多(即频数最高
)的那个数值。通常用M。表示。
众数与平均数一样,也可用来概括反映总体
的一般水平或典型情况。
根据不同资料,众数的求法分为以下两种形式:
–①由单值分组资料求众数。由于单值分组资料中
已将各标志值及其所对应的频数都一一列出,故
我们只需采用直接观察的方法就可求得众数。具
体做法是,首先在频数一栏中找出最大的频数,
假定为 fm;然后根据fm找到它所对应的标志值
Xm,则众数即为 Xm。
–②由组距分组资料求众数。由组距分组资料求众
数的方法有两种:一种是组中值法,另一种是摘
补法。前者比较简单,后者较为复杂。由于众数
在社会调查研究中的使用远不象平均数那样广泛。
故我们只需了解组中值法即可。
用组中值法求众数分为三步:首先也是通过直接观
察找出最高的频数;然后根据最高的频数找到它
所对应的组;最后求出该组的组中值即是众数。
• 需要说明的是,求众数往往要求数据具备一定
的条件,即只有当总体单位数目较多且其数据
有明显的集中趋势时才能计算众数。而当总体
数目较少,或总体数目虽多但无明显集中趋势
时,不宜计算众数。
• 举例:
—以前面例2为例,首先我们在人数(频数)一
栏中找出最大的频数50,再从50找到所对应
的年龄19岁。则例2资料中的众数为19岁。
• 需要注意的是,众数是最大的频数所对应的
那个标志值,而不是最大的频数本身。
—又,若以前面例3为例来求众值,我们首先在
职工数(即额数)一栏中,找到最大的频数
40;然后找到40所对应的组:180~220;最
后计算该组的组中值,计算结果为200元。
因此,该例中的众数为200元。
3.中位数
• 什么是中位数呢?当我们把一组数据按值
的大小顺序排列起来,处于中央位置的那
个数值就叫中位数。中位数通常用Md表示,
它将整个数据资料一分为二,其中一半的
数值比它大,而另一半的数值比它小。当
数据为偶数个时,取中间两数的平均数。
• 需要注意的是,计算中位数时常常要求数
据是定距以上的变量。而对定序的或定类
的变量通常不用来计算中位数。
• 关于计算方法(参见教材)
三、离散趋势分析
• 与集中趋势分析相反,离散趋势(又称离中
趋势)分析指的是用一个特定的数值来反映
一组数据相互之间的离散程度。
• 作用:它与集中趋势一起,分别从两个不同
的侧面描述和揭示一组数据的分布状况,共
同反映出资料分布的全面特征;同时,它还
对集中趋势的统计量(如平均数、众数、中
位数)的代表性作出补充说明。
• 为了理解离散趋势分析的这两种作用,我们
先来看看下面的例子。
• 例4 某校三个系各选5名同学,参加智力竞赛,
他们的成绩分别如下:
中文系: 78 79 80 81 82 X=80
数学系: 65 72 80 88 95 X=80
政治系: 35 78 89 98 100 X=80
–无论是从团体总分来看,还是从平均得分来看,
这三个系代表队的成绩都是相同的。因此,如果
仅以集中趋势统计量(平均数)来衡量,那么,
三个系代表队的水平一样高,不存在什么差别。
但从直观上我们不难发现,三个代表队中五名队
员的成绩相互之间的差跟程度(离散程度)很不
一样。中文系成绩十分接近;数学系成绩比较分
散;而政治系队成绩则相差十分悬殊。
–不难理解,这个80分对中文系队同学的代表性最
高,而对政治系队同学的代表性最低。
• 因此,离散趋势的各种统计量,一方面揭示出
数据相互分离的程度;另一方面又对相应的集
中趋势统计量的代表性作出判断。
• 结论:集中趋势统计量的代表性与所对应的离
散趋势统计量是反比关系,即离散趋势统计量
越大,则所对应的集中趋势统计量的代表性就
越小;反之,则越大。
• 离散趋势统计量有全距、标准差、异众比率、
四分位差、离散系数等。其中,标准差、异众
比率、四分位差分别与平均数、众数、中位数
相对应。
1.全距
• 也叫极距,它是一组数据中最大值与最小值
之差。
• 全距是离散趋势统计量中最简单的一种。
–在原始数据资料条件下,只需将全部数据按大小
颀序排列,然后用最大值减去最小值即可。如上
面所举例6,三个代表队成绩的全距分别为:
中文系:82-78=4(分)
数学系:95 - 65=30(分)
政治系:100 - 25=65(分)
–在组距分组资料的条件下,只需将最大组的上限
减去最小组的下限即可。如前面例3中的全距九
300-100=200(元)
• 全距的意义在于,一组数据的全距越大,在一
定程度上说明这组数据的离散趋势越大,而集
中趋势统计量的代表性越低。反之,一组数据
的全距越小,则说明这组数据的离散趋势越小,
集中趋势统计量的代表性就越高。从上面三个
代表队的例子中,我们不难认识到这一点。
• 应该注意到,由于全距仅仅依靠两个极端值,
因而带有很大的偶然性,它对于大量的处于两
个极端值之间的数值分布情况.以及在中心点
周围的集中情况,都无法提供任何信息。
• 比较粗糙。
2.标准差
• 标准差的定义是:一组数据对其平均数的偏
差平方的算术平均数的平方根。它是用得最
多、也是最重要的离散趋势统计量。通常用
符号S来表示,其计算公式根据资料的形式不
同而稍有差别。
–①由原始数据计算标准差。公式为:
例4的结果:S中文=,S数学=,S政治=。
由此可见,标准差大,离散程度就大,反之,就
小。
–②由单值分组资料计算标准差。公式为:
这里f为X所对应的频数。
–③由组距分组资料计算标准差。其方法与上述单
值分组资料计算标准差的方法相似,唯一不同的
是需要先计算出各组的组中值,然后采用下述公
式:
3.异众比率
• 所谓异众比率,指的是一组数据中非众数的次
数与总体全部单位数的比率。公式为:
这里fmo为众数的次数。
在例2中,众数的次数为50,总体单位的总数为150
,故异众比率为:VR=(150-50)/150=67%
• 异众比率的意义是指众数所不能代表的其他数
值(即非众数的数值)在总体中的比重。因此,
异众比率越大,即众数所不能代表的其他数值
的比重越大,则众数在总体中所占的比重自然
就越小,这样众数的代表性也就越小。
4、四分位差
• 四分位差是先将一组数据按大小排列成序,
然后将其四等分,去掉序列中最高的四分之
一和最低的四分之一,仅就中间的一半数值
来测定序列的全距。
• 四分位差的符号通常用Q表示。
Q=Q3—Q1
而Q1 、Q3分别表示第一个四分位点和第三个
四分位点。如下图所示:
5.离散系数
• 上述各种离散趋势统计量都属于绝对量测量,
其单位与原资料的单位相同。这种特征对调查
研究中进行比较带来了一定的困难。离散系数
则是一种相对的离散趋势统计量,它使我们能
够对两种不同单位的离散趋势统计量,或者对
两个不同总体的离散程度进行比较。
• 离散系数的定义是:标准差与平均数的比值,
用百分比表示。其计算公式为:
• 在平均数不为零的条件下,离散系数越大,表
明数据的离散程度越大,而所对应的集中趋势
统计量的代表性就越小;反之,则数据的离散
程度越小,集中趋势统计量的代表性就越大。
• 应用举例:
1)一项调查得到下列结果,某市人均月收入为92元,
标准差为17元;人均住房面积7.5米’,标准差为1
.8米’。试比较该市人均收入和住房情况哪一个差
异程度比较大。
计算结果:人均收入的离散系数为%,人均住
房面积的离散系数为24%
可见人均住房面积的差异情况比人均收入的差异情
况要大。
–以上是同一总体不同指标间的比较,下列则是同
一指标不同总体间的比较。
2)某校学生的平均年龄为20岁,标准差为2岁;该
校教师的平均年龄为28岁,标准差为岁。试比
校学生年龄与教师年龄哪一个差异程度更大。
–计算结果:学生年龄的离散系数为10%,教师年龄
的离散系数为%
可见教师年龄间的差异程度更大一些。
第三节 双变量统计分析
• 前节所介绍的单变量描述统计。
• 在社会调查研究中,我们常常要讨论两
个甚至多个因素或现象之间的关系问题,
因此,本节介绍两个变量统计分析的基
本内容。
一、交互分类
二、相关与回归
一、交互分类
1.交互分类的定义与作用
所谓交互分类,简单地说,就是将一组数据
按照两个不同变量的类型进行综合的分类。交
互分类的结果通常以交互分类表(又称列联表)
的形式反映出来。下面是一个例子:
• 上表是对总数为300人的调查对象按照年龄和
文化程度两个变量的标准进行交互分类的结
果。每一个被调查者按这两种标准被划分到
某一个格内。即格内数字就是分类的结果。
• 作用:
通过对各种不同类型格内的频数或相对额数
(即百分比)的分析,来研究和探讨变量之
间是否存在关系。比如说从上表中我们可以
看出,老年人中文化程度低的比重很大,中
年人次之,年轻人比重最小;而在高中及大
专以上颇高文化程度中,年轻人比重最大,
中年人次之,老年人最低。
结论:即被调查者的文化程度与他们的年龄有
关,并呈现出年龄越低,总体文化程度越高
的状况。
• 交互分类方法的适用对象主要是定类与定序
层次的变量,而在社会调查研究中的绝大部
分变量正好又是这两个层次的。因此,交互
分类的方法对于大量社会调查资料的相关分
析有着十分重要的作用,我们应该熟悉这种
方法。
2、χ2检验
通过实例讨论何为χ2检验。
–表中显示,年龄与对待老年人再婚问题的态度存
在关系,随着年龄的下降,较多的人反对老年再
婚。
• 上述结论通常只是在所调查的样本范围内成
立。而我们进行调查的目的常常又不仅仅是
描述或说明样本的情况,更重要的是要通过
样本的情况来反映和说明总体的情况。因此,
要保证我们从样本中得出的结果具有统计意
义,保证样本中所体现的变量间关系也反映
了总体的情况,我们必须有一个保证的办法。
这就是要对它们进行χ2检验(卡方检验)。
• Χ2检验的原理及公式的证明略去。
• 下面我们主要介绍χ2检验的计算公式及检验
步骤。
• χ2检验的计算公式
– f0为交互分类表中每一格的观察频数;
– fe为交互分类表中f0所对应的期望频数。具体的计
算方法是用每一个f0所在的行总数乘以所在的列总
数,再除以全部总体数。
• Χ2值的计算。
f11=120*80/260=37 f12 =46 f13= 37
f21 =43 f22=54 f23=43
χ2=(60-37)2/37+……=
χ2检验的具体步骤(以上表为例):
–①建立两变量间无关系的假设,即设年龄及对某
事件的态度两变量相互独立,互不相关。
–②计算出χ2值。
–③根据自由度 df=(r一1)(c-1)和给出的显著性水
平,即 P值,查χ2分布表,得到一临界值。(自由
度计算公式中的r和c分别为交互分类表的行数和列
数,因此,本例的自由度为:df=(2-1)(3-1)=2
;显著性水平通常为P=;χ2分布表可查得临
界值为)
–④比较χ2值与临界值
–⑤判断:a)若χ2值≥临界值,拒绝两变量无关系的假设。
b)若χ2值<临界值,接受两变量无关系的假设。
3、关系强度的测量
以上讨论的是两个变量间是否存在关系
的问题。当χ2检验表明,两变量间存在
关系时,是否就意味着这种关系是一种
强关系,或重要关系呢?这不一定,因
为变量关系的强弱和变量间是否存在关
系是两个完全不同的问题。
• 关系强度的测量方法(参见教材)
二、相关与回归
• 交互分类主要处理的是定类(或定序)变
量问的关系问题,对于定距及定比变量
来说,则有另一些方法来探讨。
• 这里主要简单介绍一下相关系数的计算
方法及一元线性回归模型。
1、相关系数
例子:调查10名工人的工龄与工资情况如下表:
–这10名工人的工龄与工资是否相关?可通过定量
计算说明,称为相关系数。计算公式为:
• 即相关系数r是表明两个定距或定比变量间关
系程度的量数,其取值范围在-1到+1之间。
• 当 r为负值时,说明变量 X与变量Y的变化方
向相反。即当X增大时,Y减少;X减少时,
Y增大。
• 当 r为正值时,说明两变量的变化方向相同。
• |r|=1时,称 X与 Y完全相关; r= 0时,则称
二者完全不相关。
• 越接近|r|= 1,说明关系强度越大,越接近0
,则说明关系强度越小。
–上一例子中, r =,有较强的正相关关系。
2、回归分析
• 相关分析的目的在于了解两个变量之间的关系
强度,即用相关系数r来描述X和Y两个变量之
间的共变特征。它并不指出X和Y哪个是原因,
哪个是结果,或者说,它并不涉及两变量之间
有无因果关系。
• 回归分析则是对有相关关系的现象,根据其关
系的形态找出一个合适的数学模型,即建立回
归方程,来近似地表达变量间的平均变化关系,
以使依据回归方程对未知的情况进行估计。
• 即回归分析增加了因果性,并具有了预测的功
能,因此,它比相关分析作用更大。
• 回归分析的中心问题是建立回归方程,一元
线性回归方程的建立使用最小二乘法。
–首先,依据理论分析或根据研究的需要确定两变
量中何为自变量,何为因变量。在本例中,我们
确定工龄为自变量(X),工资为因变量(Y)。
–其次,以自变量为X轴,因变量为Y轴作出表中资
料的散点图,以判明是否为线性相关。
–给一组数据(X,Y),称为样本数据。
–计算公式:设y=a+bx
第四节 推论统计
• 由于在社会调查中我们经常地是作抽样调查,
所以,在对调查结果进行描述、对变量关系进
行探讨时,往往都是使用样本的资料,直接得
到的也都是有关样本的结果。
• 然而,抽样调查(从总体中抽取一部分对象进
行调查)的目的,并不是为了描述这个样本的
情况,而是希望通过样本来了解总体的特征和
状况。推论统计所要解决的正是这方面的问题。
• 推论统计就是利用样本的统计值对总体的参数
值进行估计的方法。推论统计的内容主要包括
两个方面:一是区间估计,一是假设检验。
第四节 推论统计
• 由于在社会调查中我们经常地是作抽样调查,
所以,在对调查结果进行描述、对变量关系进
行探讨时,往往都是使用样本的资料,直接得
到的也都是有关样本的结果。
• 然而,抽样调查(从总体中抽取一部分对象进
行调查)的目的,并不是为了描述这个样本的
情况,而是希望通过样本来了解总体的特征和
状况。推论统计所要解决的正是这方面的问题。
• 推论统计就是利用样本的统计值对总体的参数
值进行估计的方法。推论统计的内容主要包括
两个方面:一是区间估计,一是假设检验。
一、区间估计
• 区间估计的思想:
–区间估计的实质就是在一定的可信度(置信度)下,
用样本统计值的某个范围(置信区间)来“框”住总
体的参数值。换句话说,估计总体参数时,用的是
一个范围,而不一个点值,称为“区间”,也称为置
信区间。这样较为科学。
–同时,给出一个数值来说明这个“区间”框住参数值
有多大的可靠程度,称为“置信度”(可信度)。
• 区间的大小反映的是这种估计的精确性问题,
而可信度高低反映的则是这种估计的可靠性或
把握性问题。
• 区间估计的结果通常可以采取下述方式来表述:
“我们有95%的把握认为:全市职工的月平均工
资收入在182元至218元之间。” 或者“全省人口
中,女性占50%至 52 %的可能性为99%”。
• 下列表述是不妥的。“全市职工的月平均工资收
入在200元”(假如抽样100人计算出的平均月工
资为200元的话)。
• 置信度表明(即可信度,把握性,可靠性)推断成
功的可能性有多大(用百分数表示1-a,a是允许的
误差);总体的平均数变成了区间(范围),表示若
重复抽样,能有多少次落入这个“置信区间”。
• 置信区间:总体参数值落入的范围,根据样本统
计量算出。
1、总体均值的区间估计。
• 公式:
– x是样本均值,s是标准差,Z(1-a)是置信度为1-a的Z
值,n是样本规模。
–例:900名工人,月平均工资186元,标准差为42元,
在95%的置信度下,全行业月平均工资的置信区间是
多少?(, );99%置信度时(,)
• 区间的大小体现精确性,置信度是可靠程度。二
者相互制约,提高精确度,则降低可靠性。
2、总体百公比的区间估计
• 公式:
这里,P为样本中的百分比,其他同上。
二、假设检验
• 假设检验是推论统计的又一基本内容,它是先
对总体的某一参数作出假设,然后用样本的统
计量去进行验证。
• 以下通过一个例子说明假设检验的基本思路。
–某单位职工上月平均收入为210元,这个月的情况
与上月没有什么变化,我们设想平均收入还是210
元。为了验证这一假设是否可靠,我们抽取了100
人作调查,结果得出月平均收入为220元,标准差
为15元。显然样本的结果与总体结果之间出现了误
差。这个误差是由于我们假设错误引起的呢?还是
由于抽样误差引起的呢?如果是抽样误差引起的,
那么我们就应该承认原来的假设;而如果是假设错
误所引起的,显然我们就应该否定原假设。
–研究时可将原假设作为虚无假设,用H0表示,而
将与之完全对立的假设作为研究假设,用H1表示;
然后用样本的数据计算统计量,并与临界值比较,
当临界值大于统计值时,则接受虚无假设,否定
研究假设;当临界值小于、等于统计值时,则拒
绝虚无假设,接受研究假设。具体步骤是:
– 1、建立虚无假设和研究假设,通常是将原假设作
为虚无假设;
– 2、根据需要选择适当的显著性水平a(即小概率
的大小),通常a=,等;
– 3、根据样本数据计算出统计值,并根据显著性水
平查出对应的临界值;
– 4、将临界值与统计值进行比较,若临界值大于统
计值,则接受虚无假设;反之,则接受研究假设。