第四章 概率分布与抽样
从这一章开始便进入推断统计学的内容,它会节省
人们的时间和财物最佳限度地认识研究对象。
现实世界包含的素材集合非常庞大,从中提取需要
的信息非常困难。如:
•选民人数:每个候选人的支持率是多少?
•产品:不合格率是多少?
•环境:污染程度如何?
•市场:品种、价格、质量、购买力等情况的了解。
在这一章里,你将会了解到样本是怎样抽取的,样
本统计量是怎样分布的,如何根据样本统计量对总体参
数做估计。
8/9/2022 1
主要内容
抽样的一般问题
三种不同性质的分布
一个总体参数推断时样本统计量
的抽样分布
两个总体参数推断时样本统计量
的抽样分布
其他抽样方法
██
8/9/2022 2
抽样的一般问题
一个例子
统计抽样的几个基本概念
简单随机抽样
8/9/2022 3
一个例子
本例中存栏肉猪10000头组成的集合,则称为总体,它是指
在统计抽样中所要了解的研究对象全体,又称为母体,当确定
了研究目标时,它具有惟一性。一般总体的单位总数用N表示,
称作总体容量。本例中所抽出的100头肉猪组成的集合,则称为
样本,它是指在统计抽样中按照“随机原则” 从总体N(10000)
中抽出的部分单位(每个单位称作样本单位)所组成的整体,又
称子样。一般样本的单位总数用n(100)表示,称作样本容量。
样本不具惟一性,它的可能个数与N、n及抽样方法有关。通常
n<30称为小样本,n≥30称为大样本,在抽样调查中取大或小样
本会直接影响到抽样分布的特征。
[例] 某养猪厂共有存栏肉猪10000头,现欲了解这批肉猪平均
每头毛重(设为 ),如果将每头肉猪过称去获取数据将是不
合算的。我们可以按照“随机原则” 从中抽出100头称重量,
计算这100头的平均每头毛重,以达到我们期望的目的。
8/9/2022 4
1、总体和样本
总体:研究对象全体,又称母体。容量用N表示。
具备惟一性。
样本:按随机原则从总体中抽出的部分单位的全体,
被抽出的每个单位称样本单位。样本容量用n表示。
样本不具惟一性。
当n<30时,为小样本。
当n≥30时,为大样本。
统计抽样的几个基本概念
8/9/2022 5
2、总体参数和样本统计量
根据全及总体各单位变量值计算的反映全及总体
某数量特征的综合指标,由于总体唯一确定,故称总
体参数。
如上例中的
根据样本各单位变量值计算的反映样本某方面数
量特征的综合指标,由于样本不具惟一性,故称为样
本统计量,它是一个随机变量。
如上例中的抽出100头肉猪的平均每头毛重
统计抽样的几个基本概念
8/9/2022 6
3、重复抽样与不重复抽样
从总体中抽取样本有两种方法:重复抽样和不重复抽样。
重复抽样,抽样安排---对每次被抽到的单位经登记后再放回
总体,重新参与下一次抽选的抽样方法。在每次的抽取中样
本单位被抽中的概率都相等,统计中称这样的抽样为相互独
立的试验。
不重复抽样,抽样安排---对被抽到的单位登记后不再放回总
体的抽样方法。不重复抽样与重复抽样比较,每次抽样的条
件是不同的,前一次的抽取结果会对后一次的抽取产生影响,
统计中称这样的抽样为相互不独立的试验。
统计抽样的几个基本概念
8/9/2022 7
简单随机抽样
简单随机抽样也称为纯随机抽样。它是对总体单位
不做任何分类或排队,直接从总体中按“随机原则”抽
取样本单位的调查方式。
为了便于抽取样本单位,一般在明确抽样框的条件
下,对总体的每个单位都要编号,然后用抽签式或利用
《随机数字表》进行抽取。
例如:N=500 n=10 编码从1-500号
在随机数表中随意选取二个数字,假如得到4行,43
列。则选取的号码从这个被选中的数开始,由于500是
个三位数,则小于500的连续三位数即为中选号码,见
表中所示。
8/9/2022 8
简单随机抽样
██8/9/2022 9
三种不同性质的分布
几种常见分布
总体分布
样本分布
抽样分布
样本推断总体的理论依据
这些内容与前面内容
有什么关系?
8/9/2022 10
一、随机变量的概率分布
(一)概率分布的含义
1、在随机试验中,若X随着试验结果的不同而
随机地取各种不同的数值,并且对取每一个数
值或某一范围内的值都有相应的概率,则称X为
一个随机变量,按其取值特点可分为离散型随
机变量和连续型随机变量。
2、随机变量在其取值范围内,取值与取值概率
间一一对应的关系,称为随机变量的概率分布
(probability distribution,简称分布)。
3、概率分布可以用各种图表来表示,一些也可
以用公式来表示。意义:描述随机变量变化的
统计规律;方便地计算某一事件发生的概率。
几种常见分布
8/9/2022 11
(二) 离散型随机变量的概率分布
离散型随机变量概率分布的两种表现形式
1.分布列(律)
2.概率函数
8/9/2022 12
概率函数p(xi)的数学性质
8/9/2022 13
(三) 连续型随机变量的概率分布(1/3)
1. 连续型随机变量的表现方式--密度函数
8/9/2022 14
(三) 连续型随机变量的概率分布(2/3)
2.密度函数 的数学性质
3.事件“ a≤ X<b ”发生的概率 的计算方法
8/9/2022 15
(三) 连续型随机变量的概率分布(3/3)
4.事件“ a≤ X<b ”发生的概率的几何意义
5.连续型随机变量的期望值和方差分别为
8/9/2022 16
(四) 随机变量的分布函数
1.分布函数的来源
如前所述,离散型随机变量的分布用概率函数来描述,连续型
随机变量的分布用密度函数来描述,两者形式不同,表现各异。
为了更方便地表现随机变量的分布,下面引入分布函数。
2.分布函数的定义
8/9/2022 17
3.分布函数的几何意义及数学性质
1)几何意义
2)数学性质
8/9/2022 18
4.随机变量分布函数的具体表现
8/9/2022 19
二、正态分布
几种常见分布
1.定义
8/9/2022 20
正态分布的密度函数图形是一条以均值为中心
的对称钟型曲线
二、正态分布
几种常见分布
8/9/2022 21
2.正态分布密度函数 的数学性质
二、正态分布
几种常见分布
8/9/2022 22
3.标准正态分布及其重要意义
二、正态分布
几种常见分布
8/9/2022 23
4.标准化法
二、正态分布
几种常见分布
8/9/2022 24
标准化法的几何意义
标准化变换实质上是作了一个坐标轴的平移和
尺度变换,使正态分布的平均数 ,标准
差 。
二、正态分布
几种常见分布
8/9/2022 25
5.正态分布表及上侧分位数
二、正态分布
几种常见分布
8/9/2022 26
6. 3σ准则
二、正态分布
几种常见分布
8/9/2022 27
3σ准则示意图
二、正态分布
几种常见分布
8/9/2022 28
7.正态分布的重要意义
在随机理论中,正态分布是最重要的一种分布,
理由如下:
⑴ 它是最常见的一种分布,现实中许多随机变
量服从或近似服从正态分布。
⑵ 在一定的条件下,正态分布是其他分布的近
似分布。
⑶ 许多有用的分布,特别是小样本的精确分布
是由正态分布推导出来的。
二、正态分布
几种常见分布
8/9/2022 29
三、小样本(n<30)的精确分布
1、2分布
2、t分布
3、F分布
均由正态分布导出的分布
几种常见分布
8/9/2022 30
1、2分布(2 distribution)
(1)推导说明
①由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特
(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年
和1900年推导出来。
②设 ,则
③构造 ,则 Yi 服从自由度为1的2分布,
即
④当总体 ,从中抽取容量为n的样本,则
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 31
1、2分布
(2)性质和特点
①由于2 分布变量为正态变量的平方和,故分布的变量值
始终为正。
②可加性:若U和V为两个独立的服从2分布的随机变量,
U~2(n1),V~2(n2),则U+V这一随机变量服从自由
度为n1+n2的2分布。
③ n个独立正态变量平方和称为有n个自由度的2-分布,记
为2(n)。2-分布为一族分布, 成员由自由度区分。
④分布的形状取决于其自由度n的大小,通常为不对称的正
偏分布,但随着自由度的增大逐渐趋于对称。
⑤期望为E(2)=n,方差为D(2)=2n(n为自由度)
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 32
1、2分布
(3)图示
选择容量为n 的
简单随机样本
计算样本方差s2
计算卡方值
2 = (n-1)s2/σ2
计算出所有的
2值
不同容量样本的抽样分布不同容量样本的抽样分布
22
nn=1=1
nn=4=4
nn=10=10
nn=20=20
总体
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 33
1、2分布
(4)2分布的上分位点
分位点 设X ~ 2(n),若对于:0<<1,
存在 , 满足
则称 为 分布的上分位点。
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 34
①①由统计学家哥赛特()于1908年提出,并以其笔名命名。
2、t-分布(t-distribution)
(1)t分布的构造及性质
几种常见分布
三、小样本(n<30)的精确分布
②②构造:构造: 若~N(0, 1), ~2(n), 与独立,则
t(n) t(n)称为自由度为称为自由度为nn的的tt分布。分布。
③③基本性质:基本性质:
(1)(1) f(t)f(t)关于关于t=0(t=0(纵轴纵轴))对称。对称。
(2) (2) f(t)f(t)的极限为的极限为N(0N(0,,1)1)的密度函数,即的密度函数,即
8/9/2022 35
t(n)分布的图形为
2、t-分布(t-distribution)
(2)t分布的图示
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 36
对于给定的:0<<1,称满足条件
P(t>t)=的点t为t(n)分布的上分位点。
2、t-分布(t-distribution)
(3)t分布的上分位点
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 37
• ①由统计学家费希尔() 提出的,以其姓
氏的第一个字母来命名
• ②构造:设若U为服从自由度为n1的2分布,即
U~2(n1), V为服从自由度为 n2的 2分布,即
V~2(n2),且U和V相互独立,则
称F为服从自由度n1和n2的F分布,记为
3、F分布(F distribution)
(1)F分布的构造
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 38
F分布
(图示)
不同自由度的F分布
FF
((1,10)1,10)
(5,10)(5,10)
(10,10)(10,10)
3、F分布(F distribution)
(2)F分布的图示
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 39
F分布的分位点:
对于:0<<1,
若满足条件:
P{FF(n1, n2)}=
, 则称F(n1, n2)为
F(n1, n2)的
上分位点
3、F分布(F distribution)
(3)F分布的上分位点
几种常见分布
三、小样本(n<30)的精确分布
8/9/2022 40
1)总体中各元素的观察值所形成的相对频数
(频率)分布
2)分布通常是未知的(因为几乎得不到总图
所有观察值)
3)可以根据理论分析假定它服从某种分布
总体总体
总体分布
8/9/2022 41
1)一个样本中各观察值形成的相对频数
(频率)分布
2)也称经验分布
3)当样本容量n逐渐增大时,样本分布逐
渐接近总体的分布
样样
本本
样本分布
8/9/2022 42
1、统计量与参数
1)在抽样推断中,无论是总体还是样本,都可以用均
值、比例(或成数)、标准差和方差等指标来描述它
们的特征。当它们用来描述样本的特征时,称为样
本统计量;当它们用来描述总体特征时,称为总体
参数。
2)样本统计量是样本的函数,依据不同的样本计算出
来的值是不同的,所以统计量是随机变量,如样本
均值, 样本比例,样本方差等。
抽样分布
8/9/2022 43
2、抽样分布的含义
1)含义:样本统计量的概率分布,是一种理论分布,
在重复选取容量为n的样本时,由该统计量的所有可能
取值形成的相对频数分布。
2)构造抽样分布包括以下几个步骤:
(1)从容量为N的有限总体中随机抽出容量为n的
所有可能样本;
(2)算出每个样本的统计量数值;
(3)算出与每个样本统计量数值相对应的概率,
作频数分布表。
抽样分布
8/9/2022 44
3、总体分布、样本均值的抽样分布(例题分析
)
【例】设一个总体,含有4个元素(个体) ,即总体
单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,
x4=4 。总体分布、总体均值、总体方差如下。
总体分布总体分布
11 4422 33
00
.
.
.
总体均值和方差总体均值和方差
抽样分布
8/9/2022 45
现从总体中抽取n=2的简单随机样本,在重复抽样
条件下,共有42=16个样本。所有样本的结果为
3,43,33,23,13
2,42,32,22,12
4,44,34,24,14
1,4
4
1,3
321
1,21,11
第二个观察值第一个
观察值
所有可能的n = 2 的样本(共16个)
抽样分布
8/9/2022 46
xx
样本均值的抽样分布样本均值的抽样分布
00
PP ( ( x x
))
计算出各样本的均值,如下表,并给出样
本均值的抽样分布
4
321
第二个观察值
第一个
观察值
16个样本的均值 ( x )
抽样分布
8/9/2022 47
样本均值的分布与总体分布的比较 (例题分析)
=
σ2 =
的分布形式与原有的分布形式与原有总体的分布总体的分布和和样本容量样本容量nn
的大小的大小等因素有关等因素有关
总体分布总体分布 抽样分布抽样分布
11 4422 33
00
.
.
.
P P ( ( x x ))
00
.
.
.
xx
抽样分布
8/9/2022 48
4、抽样分布的意义
因为样本均值因为样本均值 是一个是一个随机变量随机变量,因此,与其他,因此,与其他
随机变量一样,随机变量一样, 具有平均数(期望)、方差和概率具有平均数(期望)、方差和概率
分布分布。因为。因为 的各种可能取值是多次简单随机抽样的的各种可能取值是多次简单随机抽样的
结果,所以结果,所以 的概率分布称为的概率分布称为 的抽样分布。对于这的抽样分布。对于这
个个抽样分布抽样分布及其特征的了解,可以使我们能够及其特征的了解,可以使我们能够对样本对样本
均 值均 值 与总体均值与总体均值 的接近程度进行概率描述的接近程度进行概率描述。。
抽样分布
意义:抽样分布一方面描述了样本的随机性,提
供了样本统计量长远而稳定的信息即变化规律;另一
方面建立了样本与总体的联系,是进行推断的理论基
础,也是抽样推断科学性的重要依据。
8/9/2022 49
一、大数定律
1、是关于均值具有稳定性的一类定律。
2、以切比雪夫大数定律为例。
设随机变量 相互独立,且具有相同的有限数学期望
和方差:
则对于任意正数 ,都有
3、若把( )看作是来自期望为 μ 、方差为σ2 总体的一
个容量为n的样本,随着n的充分增大,样本均值依概率收敛于总体
均值。
4、大数定律为统计量估计参数提供了理论上的依据。即统计量推断
参数是可行的。但大数定律没有提供统计量推断参数时误差的计算
方法。
样本推断总体的理论依据
8/9/2022 50
二、中心极限定理 (central limit theorem)
当样本容量足够
大时(n 30) ,
样本均值的抽样
分布逐渐趋于正
态分布
.中中心心极极限限定定理理::从均值为,方差为2的一个任意总体
中重复抽取容量为n的样本,当n充分大时,样本均值的
抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
一个任意分一个任意分
布的总体布的总体
xx
样本推断总体的理论依据
8/9/2022 51
.x x 的分的分
布趋于正布趋于正
态分布的态分布的
过程过程
样本推断总体的理论依据
8/9/2022 52
3.中心极限定理的重要意义
1)确定了正态分布在各种分布中的首要地位。
也回答了正态分布是最重要、最常见的分布。
2)揭示了正态分布的形成机制。如果某一个
量的变化受到许多种随机因素的影响,这种影
响的总后果是各个因素的迭加,而且,这些因
素中没有任何一个是起主导作用的,那么,这
个量就是一个服从正态分布的随机变量。
3)提供了推断误差的计算思想方法,特别是
大样本处理方法。但没有提供小样本下推断误
差的计算方法。
样本推断总体的理论依据
██
8/9/2022 53
一个总体参数推断时样本统计量
的抽样分布
样本均值的抽样分布
样本比例的抽样分布
样本方差的抽样分布
8/9/2022 54
1、样本均值抽样分布的含义
1)在重复选取容量为n的样本时,由样本均值
的所有可能取值形成的相对频数分布
2)一种理论概率分布
3)是推断总体均值的理论基础
样本均值的抽样分布
8/9/2022 55
2、样本均值抽样分布的形式
(1)总体分布为正态分布
= 50= 50
=10=10
XX
总体分布总体分布
nn = 4 = 4
抽样分布抽样分布
x
nn =16 =16
当总体服从正态分布N(μ,σ2)时,来自该总体的所
有容量为n的样本的均值x也服从正态分布,x 的
数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
样本均值的抽样分布
8/9/2022 56
2、样本均值抽样分布的形式
(2)总体分布为非正态分布( n≥30,大样本情形)
当样本容量足够
大时(n 30) ,
样本均值的抽样
分布逐渐趋于正
态分布
从均值为,方差为 2的一个非正态分布总体中抽取
容量为n的样本,当n充分大时,样本均值的抽样分布
近似服从均值为μ、方差为σ2/n的正态分布
一个任意分一个任意分
布的总体布的总体
xx
样本均值的抽样分布
8/9/2022 57
1)总体分布为非正态分布且为小样本
(n<30)
2)样本均值的分布为非正态分布
2、样本均值抽样分布的形式
(3)总体分布为非正态分布( n<30,小样本情形)
样本均值的抽样分布
8/9/2022 58
总体分布总体分布
正态分布 非正态分布
大样本大样本 小样本小样本
正态分布正态分布 非正态分布
2、样本均值抽样分布的形式
(4)小结
样本均值的抽样分布
8/9/2022 59
1) 样本均值的数学期望
2) 样本均值的方差(方差的概率意义在于刻画了
随机变量取值的分散程度。方差越小,随机变
量的取值越集中在期望值附近。)
重复抽样
不重复抽样
3、样本均值抽样分布的特征
设总体共有N个元素,其均值为μ,方差为σ2 ,从
中抽取容量为n的样本,则
样本均值的抽样分布
8/9/2022 60
1)总体(或样本)中具有某种属性的单位数与
全部单位总数之比
①不同性别的人与全部人数之比
②合格品(或不合格品) 与全部产品总数之比
2)总体比例可表示为
3)样本比例可表示为
样本比例(成数)的抽样分布
1、比例(成数)的含义
8/9/2022 61
1) 在重复选取容量为n的样本时,由样本比例的
所有可能取值形成的相对频数分布。
2) 一种理论概率分布。
3) 当样本容量很大时(np≥5和n(1-p)≥5),样本
比例的抽样分布可用正态分布近似。
4) 推断总体比例的理论基础。
样本比例的抽样分布
2、样本比例抽样分布的含义及形式
8/9/2022 62
1) 样本比例的数学期望
2) 样本比例的方差
– 重复抽样
– 不重复抽样
样本比例的抽样分布
3、样本比例抽样分布的特征
8/9/2022 63
调
查
误
差
调
查
误
差
登记性误差登记性误差
代表性误差代表性误差
系统性误差(偏差)系统性误差(偏差)
抽样平均误差
实际误差实际误差
抽样误差抽样误差主要是指在用样本数据进行推断时所产生主要是指在用样本数据进行推断时所产生
的随机误差。统计推断中的抽样误差通常是指的随机误差。统计推断中的抽样误差通常是指抽样平均
误差,它是抽样调查所固有的,是对抽样推断精确度的,它是抽样调查所固有的,是对抽样推断精确度的
量度。量度。
样本比例的抽样分布
4、抽样误差
(1)调查误差的分类
抽样极限误差抽样极限误差
抽样误差
(随机误差)(随机误差)
8/9/2022 64
样本比例的抽样分布
(2)统计量的标准误( )
定义:样本统计量的抽样分布的样本统计量的抽样分布的
标准差,测度所有样本统计量标准差,测度所有样本统计量
的离散程度,也称的离散程度,也称标准误差标准误差或或
抽样平均误差。抽样平均误差。
A:样本均值 的抽样误差
B:样本成数P的抽样误差
4、抽样误差
8/9/2022 65
样本平均数 的抽样平均误差
A、重复抽样
4、抽样误差
(3)标准误差的计算
样本比例的抽样分布
8/9/2022 66
B、不重复抽样
4、抽样误差
(3)标准误差的计算
样本比例的抽样分布
8/9/2022 67
不重复抽样有限总体 重复抽样或无限总体
有限总体中 为校正因子,一般可简写为
一般当抽样比小于等于一般当抽样比小于等于55%时,校正因子可忽略不计。%时,校正因子可忽略不计。
标准误差就是样本统计量的抽样分布的标准差,标准误差就是样本统计量的抽样分布的标准差,
也称抽样平均误差,其也称抽样平均误差,其计算公式计算公式如下:如下:
样本比例的抽样分布
4、抽样误差
(3)标准误差的计算
8/9/2022 68
①当计算标准误时涉及的总体参数未知时,用样本
统计量代替计算的标准误,称为估计的标准误。
②以样本均值的抽样分布为例,当总体标准差未
知时,可用样本标准差s代替,则在重复抽样条
件下,样本均值的估计标准误为:
标准差=标准误=估计标准误=抽样误差?
样本比例的抽样分布
4、抽样误差
(4)估计的标准误 (standard error of
estimation)
8/9/2022 69
总体各单位的差异程度(即标准差
的大小): 越大,抽样误差越大;
样本单位数的多少: 越大,抽样误
差越小;
抽样方法:不重复抽样的抽样误差
比重复抽样的抽样误差小;
抽样组织方式:简单随机抽样的误
差最大。
样本比例的抽样分布
4、抽样误差
(5)影响抽样误差的因素
8/9/2022 70
1. 在重复选取容量为n的样本时,由样本方差的
所有可能取值形成的相对频数分布
2. 对于来自正态总体的简单随机样本,则比值
的抽样分布服从自由度为 (n -1) 的2分布,即
样本方差的抽样分布
██
8/9/2022 71
两个总体参数推断时样本统计量
的抽样分布
两个样本均值之差的抽样分布
两个样本比例之差的抽样分布
两个样本方差比的抽样分布
8/9/2022 72
1. 两个总体都为正态分布,即两个总体都为正态分布,即 ,,
2. 两两个个样样本本均均值值之之差差 的的抽抽样样分分布布服服从从正正
态态分分布布,,其其分分布布的的数数学学期期望望为为两两个个总总体体均均值值
之差之差
3. 方差为各自的方差之和方差为各自的方差之和
两个样本均值之差的抽样分布
即:
8/9/2022 73
1. 两个总体都服从二项分布
2. 分别从两个总体中抽取容量为n1和n2的独立样
本,当两个样本都为大样本时,两个样本比例
之差的抽样分布可用正态分布来近似
3. 分布的数学期望为
4. 方差为各自的方差之和
两个样本比例之差的抽样分布
即:
8/9/2022 74
1. 两两个个总总体体都都为为正正态态分分布布,,即即XX11~~NN((μμ1 1 ,,σσ1122)),,XX22~~NN
((μμ2 2 ,,σσ222 2 ))
2. 从从两两个个总总体体中中分分别别抽抽取取容容量量为为nn11和和nn22的的独独立立样样
本本
3. 两两个个样样本本方方差差比比的的抽抽样样分分布布,,服服从从分分子子自自由由度度
为为((nn11-1)-1),分母自由度为,分母自由度为((nn22-1) -1) 的的FF分布,即分布,即
两个样本方差比的抽样分布
██
8/9/2022 75
其他抽样方法
概率抽样
1、分层抽样
2、系统抽样
3、整群抽样
4、多阶段抽样
非概率抽样
1、方便抽样
2、判断抽样
3、自愿样本
4、滚雪球抽样
5、配额抽样
概率抽样和非概率抽样的比较
抽样调查实例
8/9/2022 76
1. 根据一个已知的概率来抽取样本单位,也称随
机抽样,概率抽样有简单随机抽样、分层抽样、
系统抽样、整群抽样、多阶段抽样等。
2. 特点
– 按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会被
抽中
– 每个单位被抽中的概率是已知的,或是可以
计算出来的
– 当用样本对总体目标量进行估计时,要考虑
到每个样本单位被抽中的概率
概率抽样
8/9/2022 77
1.分层抽样(stratified sampling)
1、定义:将总体单位按某种特征或某种规则划分为
不同的层,然后从不同的层中独立、随机地抽取
样本单位的方法,又称类型抽样或分类抽样。
2、特点:先分层(对总体),后抽样(对层)
3、分层要求:层间差别大,层内差别小
4、抽样方法:(见下张幻灯片)
5、适用:总体单位在总体内部分布不均匀且变异程
度大的总体。
6、优点:保证样本的结构与总体的结构比较相近,
从而提高估计的精度;组织实施调查方便;既可
以对总体参数进行估计,也可以对各层的目标量
进行估计。
8/9/2022 78
总体
N
样本
n
等额
等比例
不等
比例
··· ···
1.分层抽样(stratified sampling)
8/9/2022 79
[例]10人年龄资料如下。N=10 n=3,推断总体平均年龄。
人: A B CA B C D E F GD E F G H I JH I J
年龄: 5 8 115 8 11 39 42 45 4839 42 45 48 70 73 7670 73 76
[简单随机抽样]
( BB 、 HH、、 I I ),( C C、、 DD 、、 EE ),( FF 、 GG 、 I I )
结论:总体变异较大时分层抽样分层抽样。
[分层抽样]
( BB 、 EE、、 I I ),( C C、、 DD 、、 HH ),( AA 、 GG 、 J J)
1.分层抽样(stratified sampling)
8/9/2022 80
······
随机起点随机起点 半距起点半距起点 对称起点对称起点
(总体单位按某一标志排序)
按按无关无关标志排序标志排序,,其抽样效果相当于其抽样效果相当于简单随机抽样简单随机抽样;按;按
有关标志排序,其抽样效果相当于有关标志排序,其抽样效果相当于分层抽样分层抽样。。
2、系统抽样(机械抽样或等距抽样)
(systematic sampling)
——将总体中的所有单位(抽样单位)按一定
顺序排列,在规定的范围内随机地抽取一个
单位作为初始单位,然后按事先规定好的规
则确定其他样本单位。
8/9/2022 81
系统抽样可以分为无关标志排序抽样和有关标志排序抽样两类。
无关标志排序抽样是指排序的标志与被研究的标志无关。如:
观察学生考试成绩用姓氏笔划;观察产品质量按生产的先后顺序等。
无关标志排序可以保证抽样的随机性,它实质上相当于简单随机抽
样。
有关标志排序抽样是指排序的标志与被研究标志相关。在对总
体各单位的变异情况有所了解的情况下,也可以采用有关标志进行
总体单位排列,使各单位的排列顺序和它的变量数值大小保持密切
的关系。如:农产量抽样调查,可利用各县或各乡当年估计亩产或
最近三年平均亩产标志排队,抽取调查单位。由此可见,按有关标
志排序实质上是运用系统抽样的一些特点,有利于提高样本的代表
性,它实质上相当于分层抽样。
但也必须注意到,系统抽样在排序时,第一个样本单位的位置
确定后,其余单位也随之确定,因此要避免抽样间隔和现象本身的
周期性节奏相重合,引起系统性的影响。
2、系统抽样 (systematic sampling)
8/9/2022 82
3、整群抽样
(cluster sampling)
1、定义:将总体中各单位按一定标准分成若干
群(组),再从总体中随机抽取一定数量的
群,对抽中群的所有单位全部实施调查。
2、特点:先分群(对总体),后抽样(对总体)
3、群的类型:自然形成的群;人为划分的群
4、分群原则:群间差别小,群内差别大
5、抽样方法:(见下张幻灯片)
6、适用:在大规模的抽样调查中,如果总体单
位多且分布区域广,缺少进行抽样的抽样框,
或者在按经济效益原则不宜编制这种抽样框
的情况下,宜采用整群抽样方式。
8/9/2022 83
例:总体群数R=16 样本群数r=4
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
L
H
P
D
样本容量
简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财
力和时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差
3、整群抽样 (cluster sampling)
8/9/2022 84
例:在某省100多万农户抽取1000户调查
农户生产性投资情况。
第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取55个县个县
第二阶段:从被抽中的第二阶段:从被抽中的55个县中各抽个县中各抽44个乡个乡
第三阶段:从被抽中的第三阶段:从被抽中的2020个乡中各抽个乡中各抽55个村个村
第四阶段:从被抽中的第四阶段:从被抽中的100100个村中各抽个村中各抽1010户户
样本样本n=100×10=1000(n=100×10=1000(户户))
——又称多级抽样,它是将抽取样本单位
的过程划分为几个阶段,然后逐阶段抽取
样本单位的抽样组织方式。
4、多阶段抽样
8/9/2022 85
其优点在于:
首先,便于组织抽样。它可以按现有的行政区划或地理区域
划分各阶段的抽样单元,从而简化抽样框的编制。
其次,可以获得各阶段单元的调查资料,即根据最初级资料
可进行逐级抽样推断,得到各级的调查资料。如农产量调查,
可根据样本推断地块资料,根据地块资料可推断村的资料,然
后依次推断乡、县等。
第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式
可以前述四种为依据进行选择。一般在初级阶段抽样时多用类
型抽样和等距抽样,在次级阶段抽样时多用等距抽样和简单随
机抽样。同时,还可以根据各阶段的不同特点,采用不同的抽
样比。如方差大的阶段,抽样比大一些;方差小的阶段,抽样
比小一些。而且多阶段抽样在简化抽样工作的同时,抽样单位
的分布较广,具有较强的代表性。
4、多阶段抽样
8/9/2022 86
非概率抽样
(non-probability sampling)
1. 相对于概率抽样而言
2. 抽取样本时不是依据随机原则,而是根据研
究目的对数据的要求,采用某种方式从总体
中抽出部分单位对其实施调查
3. 有方便抽样、判断抽样、自愿样本、滚雪球
抽样、配额抽样等方式
8/9/2022 87
1、方便抽样
1. 调查过程中由调查员依据方便的原则,自行
确定抽取样本的单位
调查员在街头、公园、商店等公共场所进行拦
截调查
厂家在出售产品柜台前对路过顾客进行的调查
2. 优点:容易实施,调查的成本低
3. 缺点:样本单位的确定带有随意性,样本无
法代表有明确定义的总体,调查结果不宜推
断总体
8/9/2022 88
2、判断抽样
1. 研究人员根据经验、判断和对研究对象的了
解,有目的选择一些单位作为样本
有重点抽样,典型抽样,代表抽样等方式
2. 判断抽样是主观的,样本选择的好坏取决于
调研者的判断、经验、专业程度和创造性
3. 抽样成本比较低,容易操作
4. 样本是人为确定的,没有依据随机的原则,
调查结果不能用于推断总体
8/9/2022 89
3、自愿样本
1. 被调查者自愿参加,成为样本中的一份
子,向调查人员提供有关信息
例如,参与报刊上和互联网上刊登的调查
问卷活动,向某类节目拨打热线电话等,
都属于自愿样本
2. 自愿样本与抽样的随机性无关
样本是有偏的
不能依据样本的信息推断总体
8/9/2022 90
4、滚雪球抽样
1. 先选择一组调查单位,对其实施调查之后,
再请他们提供另外一些属于研究总体的调查
对象,调查人员根据所提供的线索,进行此
后的调查。这个过程持续下去,就会形成滚
雪球效应。
2. 适合于对稀少群体和特定群体研究
3. 优点:容易找到那些属于特定群体的被调查
者,调查的成本也比较低
8/9/2022 91
5、配额抽样
1. 先将总体中的所有单位按一定的标志(变
量)分为若干类,然后在每个类中采用方
便抽样或判断抽样的方式选取样本单位
2. 操作简单,可以保证总体中不同类别的
单位都能包括在所抽的样本之中,使得
样本的结构和总体的结构类似
3. 抽取具体样本单位时,不是依据随机原
则,属于非概率抽样
8/9/2022 92
概率抽样与非概率抽样的比较
1. 概率抽样
依据随机原则抽选样本
样本统计量的理论分布存在
可根据调查的结果推断总体
2. 非概率抽样
不是依据随机原则抽选样本
样本统计量的分布是不确定的
无法使用样本的结果推断总体
8/9/2022 93
抽样抽查实例
The Literary Digest民意测验
1936年,Franklin Delano Roosevelt任美国总统
的第一任期届满。共和党的候选人是Kansas州州长
Alfred Landon。《文学摘要》杂志根据约240万人
参加的一次民意测验预测,Landon会以57%对43%
的压倒优势获胜。但是Roosevelt以62%对38%的一
边倒优势赢得了1936年的选举。(此后不久《文学
摘要》就垮了。)
8/9/2022 94
若想找出《摘要》在哪一点上出了差错,你
必须查一下他们是怎样抽取样本的。《摘要》
的程序是将问卷邮寄给1000万人,这1000万人
的名字和地址摘自诸如电话簿或俱乐部会员名
册。这导致筛选掉那些不属于俱乐部成员或没
有安装电话的穷人。抽样程序将这一类或那一
类人排除在样本 之外所表现的系统倾向称为选
择偏性。在确定那些人应选入样本后,调查机
构还需要去获得他们的想法。若被选入样本的
大多数人实际上不回答问卷或询问,那将产生
严重的扭曲,称为不回答偏倚。
抽样抽查实例
██
8/9/2022 95
本章小结
1. 概率抽样方法
2. 总体分布、样本分布、抽样分布
3. 单总体参数推断时样本统计量(样本均
值、样本比例、样本方差)的抽样分布
4. (统计研究中常用到Z变量、t变量、 变
量、F变量,由这四种变量计算出来的值,
对于将从样本中得到的信息推广到总体
中有重要的作用。)
4. 双总体参数推断时样本统计量的分布
8/9/2022 96