第五章 抽样估计
教学目的:通过对本章的学习,了解
抽样估计的基本原理,掌握抽样估计
的基本方法。
kongx@
教学设计:对主要的知识点进行讲解,通过在线
学习平台的“教学辅导”与“参考资料”栏目获
取相关知识,从而对重要的知识点有进一步的认
识,在此基础上通过练习来加深对相关问题的理
解,同时通过网上实时与非实时的答疑解决疑难
问题。
kongx@
kongx@
重难点讲解:抽样误差的概念及计算;抽样估计
的方法
kongx@
第五章 抽样估计
第一节 抽样推断的一般问题
第二节 抽样误差
第三节 抽样估计的方法
第四节 抽样组织设计
kongx@
统计调查方法
全面调查 非全面调查
普
查
抽
样
调
查
重
点
调
查
典
型
调
查
相关知识回顾:
统
计
报
表
kongx@
抽样调查:按照随机原则,从总体中抽取一部
分样本单位,根据对样本单位的调查结果来推
断总体的数量特征。
kongx@
一、抽样推断的意义
1、概念:
抽样推断是在抽样调查的基础上,利用样
本的实际资料计算样本指标,并据以推算总体
相应数量特征的一种统计分析方法。
第一节 抽样推断的一般问题
样样 本本总总 体体
推断
kongx@
2、特点
(1)由部分推算整体的一种方法;
(2)抽样推断建立在随机抽样的基础上;
(3)抽样推断是运用概率估计的方法;
(4)抽样推断的误差可以计算并加以控制。
样样 本本
(非唯一)(非唯一)
总总 体体
(唯一)(唯一)
推断
kongx@
二、抽样推断的内容
(一)参数估计
用样本的观察资料来估计所研究现象总体的
水平、结构、规模等数量特征,这种推断方法称
为参数估计。
(二)假设检验
对总体的状况作出某种假设,然后根据样本
所提供的信息来判断总体未知参数事先所作的假
设是否成立的统计分析方法称为假设检验。
kongx@
三、抽样的几个基本概念
1、总体
也称全及总体,指所要认识的研究对象全
体,由具有某种共同性质许多单位组成的集合
体,一般用N表示。
无限总体、有限总体
2、样本
又称子样,是从全及总体中随机抽取出来,
作为代表这一总体的那部分单位组成的集合体,
一般用n表示。
总总 体体 样样 本本
kongx@
3、随机抽样
按随机原则从总体中抽取样本单位。
4、非随机抽样
根据市场调查者的主观分析判断来选取样本
单位。包括偶遇抽样、主观抽样、定额抽样。
kongx@
5、参数
根据总体各单位的标志值或标志特征计算
的,反映总体数量特征的综合指标,称为全及
指标,由总体各单位的标志值或标志特征所决
定,全及指标的指标值是确定的,唯一的,称
为参数。
kongx@
对于总体中的品质标志:
由于不能用数量来表示,总体参数通常用成数P表示。
成数:总体中具有某种性质的单位数在总体全部单位数
中的比重,用P表示。总体中不具有某种性质的单位数在
总体中所占的比重,用Q表示。有P+Q=1
X:表示总体变量,有N个单位,所以可以表示为
kongx@
当某种标志,它的标志表现只有是非两种,可
以用“1”表示标志表现为“是”的标志的标
志表现,“0”表示标志表现为“非”的标志
的标志表现,在此情况下:
kongx@
6、统计量
根据样本各单位标志值或标志属性计算的综
合指标称为统计量。样本统计量是用来估计总体
参数的。反映样本的数量特征。
kongx@
参数 总总 体体
统计量 样样 本本
kongx@
例题:某批产品共500件,合格品480件,
不合格品20件,要求计算成数合格品率、
kongx@
7、样本容量
指一个样本所包含的单位数。
8、样本个数
又称样本可能数目,是指从一个总体中可能
抽取的样本个数。
9、重复抽样
从总体N个单位中随机抽取样本容量为n的样
本,每次从总体中抽取一个,连续进行n次实验
构成抽样样本。每次抽出一个单位把结果登记下
来又放回,重新参加下一次的抽选。共可抽取容
量为n的样本 个。
kongx@
10、不重复抽样
从总体N个单位中随机抽取容量为n的样本,
每次从总体中抽取一个,连续进行n次实验构
成抽样样本。但每次抽选出的单位就不再放回
参加下一次抽选。共可抽取容量为n的样本N(N
-1)(N-2)….(N-n+1)个。
结论:总体单位数一致,在相同样本容量的情
况下,重复抽样的样本个数大于不重复抽样的
样本个数。
kongx@
第二节 抽样误差
一、抽样误差的概念
概念: 指由于随机抽样的偶然因素使样本各单
位的结构不足以代表总体各单位的结构,而引起
抽样指标和全及指标之间的绝对离差。
系统偏误与登记性误差可以防止或避免,抽样
误差不可避免,只能加以控制。
kongx@
影响抽样误差大小的因素:
(1)总体各单位标志值的差异程度;
(2)样本单位数;
(3)抽样方法;
(4)抽样组织形式。
二、抽样平均误差(抽样指标的标准差)
反映抽样误差一般水平的指标。是所有可能
出现的样本指标和总体指标的平均离差。
kongx@
1、抽样平均数的平均误差,也可称为抽样平均
数的标准差(表明各样本均值与总体均值离差
的一般水平)
(1)重复抽样情况下
kongx@
例:设有三个数8、10、12,这一总体的均值、标
准差分别为:
用重复抽样的方法,从8、10、12三个数中抽两个数
构成样本,求样本的平均值,用以代表三个数的一
般水平,所有可能的样本以及样本的平均值列表如
下:
kongx@
样本个数 样本变量 样本均值 平均数离差 离差平方
1
2
3
4
5
6
7
8
9
8 8
8 10
8 12
10 10
10 12
10 8
12 12
12 8
12 10
8
9
10
10
11
9
12
10
11
-2
-1
0
0
1
2
0
1
-1
4
1
0
0
1
4
0
1
1
合 计 90 0 12
kongx@
抽样平均数的标准差:
现在按重复抽样误差公式计算抽样平均误差
kongx@
几个基本关系:
a.样本平均数的平均数等于总体平均数;
b.抽样平均误差实质上就是抽样平均数的标准
差,也称为抽样标准误差;
c.抽样平均数的标准差(抽样平均误差)比总体标
准差小很多,仅为总体标准差的 。
d.可以通过调整样本单位数n来控制抽样平均误差。
kongx@
(2)在不重复抽样的情况下
样本个数 样本变量 样本均值 平均数离差 离差平方
1
2
3
4
5
6
8 10
8 12
10 12
10 8
12 8
12 10
9
10
11
9
10
11
-1
0
1
-1
0
1
1
0
1
1
0
1
合 计 60 0 4
kongx@
按不重复抽样误差公式计算抽样平均误差
kongx@
kongx@
某工厂有1500个工人,用简单随机重复抽样
的方法抽取50个工人作为样本,调查其工资水平,
资料如下:
月平均工资
(元)
524 534 540 550 560 580 600 660
工人数 (人) 4 6 9 10 8 6 4 3
计算样本平均数和抽样平均误差。
kongx@
2、抽样成数的平均误差(表明各样本成数与总
体成数绝对离差的一般水平)
(1)在重复抽样下
P:总体成数
n:样本单位数
kongx@
(2)在不重复抽样下
在实际计算中,用样本成数p代替总体成数P
kongx@
从2000件产品中抽查200件,其中合格品190件,
要求:计算样本合格率及其抽样平均误差。
解:在重复抽样下:
在不重复抽样下:
kongx@
某电子产品使用寿命在3000小时以下为不合格
品。现在用简单随机抽样方法从5000个产品中抽取
100个对其使用寿命进行调查,结果如下表所示
使用寿命(小时) 产品数量(个)
3000以下
3000~4000
4000~5000
5000以上
2
30
50
18
合计 100
kongx@
要求:
(1)按重复抽样和不重复抽样计算该产品平均
寿命的抽样平均误差;
(2)按重复抽样和不重复抽样计算该产品合格
率的抽样平均误差。
kongx@
解:根据资料可算出
使用寿命(小时) 组中值 产品数量(个) xf
3000以下
3000~4000
4000~5000
5000以上
2500
3500
4500
5500
2
30
50
18
5000
105000
225000
99000
合计 100 434000
kongx@
kongx@
kongx@
三、抽样极限误差
指变动的抽样指标与确定的总体指标之间
离差的可能范围,统计上称为抽样极限误差。
设
kongx@
四、抽样误差的概率度
kongx@
对某市居民进行生活水平调查,现随机抽取100户,结
果户月均收入为482元,标准差为50元,要求该市居民户月
均收入在472~492元的范围内,试求抽样极限误差和抽样
概率度。
kongx@
第三节 抽样估计的方法
一、总体参数的点估计
根据总体指标的结构形式设计样本指标作为总体参数
的估计量,并以样本指标的实际值直接作为相应总体参数
的估计值,即直接以样本平均数、成数推断总体的平均数
和成数。
kongx@
优良估计的标准:
1、无偏性:以抽样指标估计总体指标要求抽样指
标值的平均数等于被估计的总体指标值本身。
2、一致性:以抽样指标估计总体指标要求当样
本容量增大时,抽样指标也充分地靠近总体指标。
3、有效性:以抽样指标值估计总体指标要求作为
优良估计量的方差应该比其他估计量的方差小。
kongx@
二、抽样估计的精度
估计精度=1-误差率
三、抽样估计的置信度
表明抽样指标和总体指标的误差不超过一定范
围的概率保证程度。
kongx@
样本平均数 700 800 900 1000 1100 1200 1300 1400 1500
频数 f 1 2 1 2 4 2 1 2 1
频率
根据以上分布写出平均工资落在各种区间范围内的概率P:
kongx@
已经证明,当样本单位数大于或等于30的条
件下,抽样平均数的分布接近与正态分布。
kongx@
该分布的特点是:
(1)抽样平均数以总体平均数为中心,它大于或小于
总体平均数的概率分布完全呈对称分布;抽样平均
数的正误差和负误差的可能性完全相等。
(2)抽样平均数越接近总体平均数,其出现的概率越
大;越远离总体平均数,其出现的概率越小。
kongx@
概率度与概率保证程度之间是函数关系,概
率保证程度是概率度的函数,即:
kongx@
t与F(t)之间的关系可以查正态分布概率表,
附录三
kongx@
四、总体参数的区间估计
对于总体的被估计值(总体参数)X,找出两个
数值 使被估计指标X落在区间
内的概率 为已知的。(用一个具有一
定可靠程度的区间范围来估计总体参数)
kongx@
区间估计的两种方法:
1、根据已知的抽样误差范围(抽样极限误差)求
概率保证程度(置信度)。
并给出相应的概率保证程度
kongx@
耐用时间 组中值 灯泡数 耐用时间 组中值 灯泡数
800~850 825 35 950~1000 975 103
850~900 875 127 1000~1050 1025 42
900~950 925 185 1050~1100 1075 8
(1)样本平均数及抽样平均误差
kongx@
以%的可靠程度推断这批灯泡的耐用时间在(919
小时,小时)的范围内。
kongx@
若已知样本灯泡的合格率为95%,要求合格率的误
差范围不超过%,估计该批灯泡的合格率,并给出
相应的概率保证程度。
kongx@
2、给出置信度,求抽样极限误差的可能范围
以%的概率保证程度估计该批灯泡的合格
率在(%,%)范围内。
kongx@
某城市某街道所管辖的10000户居民中,用
单纯随机重复抽样方法抽取200户,对某种商品
的平均需求量和需求倾向进行调查,调查结
果表明,每户居民对该商品的月平均需求量为
500克,标准差为100克,表示一年内不选择其
他替代商品,继续消费该商品的居民户为90%,
试对总体平均数,总体成数进行区间估计。
kongx@
(1)当置信度=85%时
kongx@
该街道10000户居民表示继续消费该商品的居民
户占87%~93%,估计的置信度为85%
kongx@
(2)当置信度=95%时,
该街道10000户居民对该商品需求量为~
克,置信度为95%
kongx@
总体参数的区间估计的三要素是:估计值、
抽样误差范围、概率保证程度。
该街道10000户居民表示继续消费该商品的居
民户占%~%,置信度为95%.
kongx@
例1:某工厂生产一种新型灯泡5000只,随机
抽取100只作耐用时间实验,测试结果平均寿
命为4500小时,标准差为300小时,试在
%概率保证下,估计该新式灯泡平均寿命区
间。
kongx@
例2:某乡有5000农户,按随机原则重复抽取
100户调查,得平均每户年纯收入12000元,标
准差2000元,要求:(1)以95%的概率估计全乡
平均每户年纯收入的区间;(2)以同样概率估
计全乡农户年纯收入总额的区间范围。
kongx@
kongx@
例3:某学校进行一次英语测验,为了了解学生的
考试情况,随机抽选部分学生进行调查,所得资
料如下:
考试成绩 60以下 60-70 70-80 80-90 90-100
学生人数 10 20 22 40 8
试以%的可靠性估计该学校英语考试的平
均成绩的范围及该校学生成绩在80分以上的学生
所占的比重的范围。
kongx@
解:该校学生英语考试的平均成绩
标准差为
kongx@
平均成绩的抽样平均误差为
平均成绩的抽样极限误差为
该校学生考试的平均成绩的区间范围是
kongx@
样本中考试成绩在80分以上的学生比重
考试成绩在80分以上的学生比重
在%概率保证程度下,该校学生成绩在80分以
上的学生所占比重的范围在%~%之间
kongx@
例4:外贸公司出口一种茶叶,规定每包毛重不低于
100克,现用不重复抽样的方法抽取其中的1%进行
检验,其结果如下:
每包重量(克) 包数
98~99
99~100
100~101
101~102
10
20
50
20
合计 100
试以%(t=3)的概率保证程度估计这批茶叶
合格率范围。
kongx@
解:样本合格率为
以%的概率保证程度保证这批茶叶包装合格率在%
~%之间。
kongx@
第四节 抽样组织设计
一、抽样组织设计的基本原则
1、保证随机性原则的实现
(1)要有合适的抽样框
抽样框:指编制抽样单位的目录。
(2)取样的实施问题
2、考虑样本容量问题
3、关于抽样的组织形式
4、必须重视调查经费
kongx@
二、几种常用的抽样组织形式
1、简单随机抽样(最基本、最简单的抽样组织形式)
直接从总体N个单位中随机抽取n个单位作为样本,
适用于均匀总体。
类型 (1)抽签法
(2)随机数表法
简单随机抽样样本单位数的确定:
kongx@
a.在重复抽样下,由于样本平均数的抽样极限误差公式为:
b.在不重复抽样下,由于样本平均数的抽样极限误差公式为:
kongx@
c.在重复抽样下,由于样本成数的抽样极限误差公式为
d.在不重复抽样下,由于样本成数的抽样极限误差公式为
kongx@
调查一批机械零件合格率,根据过去的资料,合格品率
曾有过99%、97%、95%三种情况,现在要求误差不超过1
%,要求估计的把握程度为95%,问需要抽查多少个零件
?
kongx@
2、类型抽样(分层抽样)
设总体由N个单位组成,把总体划分为K组,每
组有 个单位,
然后从每组的 个单位中抽取 个单位构成
样本容量为n的样本,使
, 这种抽
样方法称为类型抽样。
各组应抽样本单位数的确定:
由各组的总体单位数在全部总体单位数中的比重
来确定。
kongx@
从250家百货公司中抽取50家进行本季度销售额的调查
分 层
各层商店数 各层应抽样
本单位数
各层销售额
的样本均值
各层销售额
的样本方差
大型商店
中型商店
小型商店
25
75
150
5
15
30
1700
800
120
2800
6985
10850
合 计 250 1 50
kongx@
kongx@
以上题为例,求样本平均销售额和抽样平均
误差。
kongx@
类型抽样的抽样平均误差只取决于组内方差的
平均水平,不受组间方差的影响。它小于简单随机
抽样的抽样平均误差,因此在对总体进行分组时,
应尽量扩大组间方差,缩小组内方差。(总方差=
组内方差+组间方差)
3、整群抽样
将总体各单位划分为许多群,然后随机抽取部
分群,对中选群的所有单位进行全面调查的抽样组
织形式。
kongx@
将总体的全部单位N划分成R群,每群包括M个单
位(假设每群的单位数是相等的),有RM=N,从总体
R群中随机抽取r群组成样本,并对中选的r群的所
有M单位进行调查。
第i群样本平均数
kongx@
整群抽样对群而言是非全面调查,对被抽中的群内单位
而言是全面调查,因此,整群抽样的误差取决于群间差异,
不受群内单位之间差异的影响,这就要求总体N个单位所形
成的各个群,尽量有相同或相近的群内结构;也就是说要尽
量把总体方程转化为群内方差,缩小群间方差。
kongx@
例:某工厂生产某种灯泡,在连续生产720小
时中,每隔24小时抽取1小时的全部产品加以
检查,根据抽样资料计算结果,灯泡平均使用
寿命1200小时,群间方差为60小时,计算样本
平均数的抽样误差,并以95%的可靠程度推算
该批灯泡的平均使用寿命。
kongx@
即该批灯泡的平均使用寿命在~
小时之间。
kongx@
4、等距抽样
也称机械抽样或系统抽样。将总体各单位按某一标志进
行排队,然后依一定顺序和间隔抽取样本单位的一种抽样组
织形式。
在总体N个单位按某一标志排队后,从头到尾编上1至N的
号码,并等分成n断,每段含K个单位,N=nK,然后在第一段
的K个单位中随机抽取一个单位(设为第i号, )
以后每隔k抽取下一个单位(如i+K号,i+2K号,直至i+(n-
1)K号), 共n个单位构成样本。一共可抽取K套样本。
kongx@
无关标志:和单位标志值的大小无关或不起主要的
影响作用。如职工家计调查按其姓氏笔划、家庭门
牌号等顺序排队。
有关标志:和单位标志值的大小有密切的关系。如
职工家计调查以职工的工资标志作为排队标志。
等距抽样的具体方式:(针对按有关标志排队)
(1)半距中点取样
如将总体分为n段后,每段有K个单位,第1段
从1….到K,那么就取第K/2个单位,第2段取
kongx@
段取 个单位,第3段取 个单位….第n段取
个单位,每单位的间隔都是K,共有n个
单位构成样本。
优点:最能代表总体的一般水平(每一个数值都能
反映该段标志值的一般水平)。
缺点:缺少随机性,只能抽一套样本。
(2)对称等距抽样
第一部分随机取第i个单位,第二部分则取这部分
最终倒数第i个单位,如此反复使两组保持对称等距。
其基本思路是使低标志值的单位与高标志值的单位在
样本中对等出现。
kongx@
优点:实现随机原则,可以取得比较有代表性
的样本,可抽取K套样本。
需注意的问题:
抽样间隔不能与现象本身的周期性规律重
合,以免造成系统性偏差。
5、抽样方案的检查
主要是准确性检查和代表性检查两个方面
kongx@
(一)准确性检查
用已掌握的资料检查其在一定概率保证下,实
际的极限误差是否超过方案所允许的误差范围。
kongx@
(二)代表性检查
用方案中的样本指标与过去已掌握的总体
同一指标 进行对比,看其比率是否超过规
定的要求,如果符合要求,即认为代表性充足;
如果不符合要求,就认为代表性不充足。
我国规定农产量的比率不超过 ,居民
收入的比率不超过 即
kongx@
本章重点及难点:
根据一个具体样本的观察资料计算如下样
本指标:样本平均数、样本平均数的方差、样
本成数、样本成数的方差;抽样误差、抽样平
均误差的含义和计算公式,影响抽样误差大小
的因素,抽样平均误差、抽样极限误差与概率
度的关系,在重复和不重复抽样条件下抽样平
均误差、抽样极限误差的计算方法;对总体参
数的区间估计;在简单随机抽样中抽样单位数
的计算方法。
kongx@