調查分析預測
MRAF
第10章
抽样估计与样本量确定
1
調查分析預測
MRAF 七、抽样误差
• 调查结果的准确性无疑是调查组织者十分
重视的问题。其准确性通常用抽样误差的
高低来反映,在抽样方式和总体既定的前
提下,抽样误差的大小主要取决于抽样数
目的多少。对抽样误差的控制主要是通过
控制抽样数目来实现的。因此,抽样误差
与抽样数目的确定,是随机抽样市场调查
中两个重要的问题。
2
調查分析預測
MRAF• (一)抽样误差的估算方法
• 1.抽样误差大小的影响因素
• (1)总体各单位之间的差异程度。总体变量存在
变异是客观的,差异程度愈大,其分布就愈分散,
抽样误差就愈大;反之,愈小。这种差异程度,
在统计上叫做标志变异度,通常用方差或标准差
来表示。
• (2)样本数目,即样本容量有多少。当样本容量
达到与总体容量一样时,抽样调查就变成全面市
场调查了,抽样误差随即消失。
• (3)抽样方式。一般地说,等距随机抽样和分层
随机抽样的抽样误差要小于简单随机抽样和分群
随机抽样的误差。不重复抽样的误差要小于重复
抽样的误差。因此,要根据不同的抽样方式分别
估算抽样误差。
3
調查分析預測
MRAF
4
調查分析預測
MRAF
5
調查分析預測
MRAF
6
調查分析預測
MRAF 样本量的确定
• (二)必要抽样数目的确定
• 抽样数目过多,使得抽样调查所需成本费
用提高,从而带来不经济;抽样数目过少,
又会使调查结果存在较大误差,达不到要
求的精度。
• 所谓必要抽样数目,就是在事先给定的抽
样误差范围内所确定的、能够达到对调查
结果精确度要求的样本单位数。
7
調查分析預測
MRAF 样本量的确定
• 1.影响合理的必要抽样数目的因素
• (1)总体各单位之间的标志差异程度。总体单位
之间的差异越小,一定数目的总体单位对总体的
代表性就越高。当总体单位的标志值都相等时,
一个总体单位的标志值就足以代表总体的平均水
平。
• (2)允许误差的大小。一般来说,调查的准确度
要求高、调查力强、调查经费充足,允许误差就
可以定得小一些。
• (3)不同的抽样方式和方法。一般情况下,简单
随机抽样和分群随机抽样比等距随机抽样和分层
随机抽样所需的样本单位数要多,重复抽样比不
重复抽样的样本单位数要多。
8
調查分析預測
MRAF
9
調查分析預測
MRAF
10
調查分析預測
MRAF
11
調查分析預測
MRAF
12
調查分析預測
MRAF
13
調查分析預測
MRAF
14
調查分析預測
MRAF
15
調查分析預測
MRAF 总体参数的点估计
• 点估计就是用样本的估计量直接作为总体
参数的估计值。例如,用样本均值直接作
为总体均值的估计,或者用两个样本均值
之差直接作为总体均值之差的估计。
• 点估计是容易做到的,但是,点估计没有
给出估计值接近总体参数程度的信息。
• 当样本均值与总体均值不完全相同时,样
本均值与实际总体均值就存在着差距,形
成抽样误差。
16
調查分析預測
MRAF 总体参数的区间估计
• 区间估计:在点估计的基础上,对总体参数的区
间或范围进行估计。
• 区间估计不仅要说明区间大小,还要说明点估计
值在区间内的概率,即置信度。置信度是一个百
分比,用来说明结果正确的长期概率。被估计的
区间则被称为置信区间。
• 根据样本统计量的抽样分布理论,总体参数的区
间范围是在一定的概率度下,由样本统计量加减
抽样误差而得到。
17
調查分析預測
MRAF 训练题
• (P237—238)
• 4.假设某快餐馆想要为一个新的菜单项目估计平
均销售量,这个餐馆观察了一个类似地点的销量,
连续观测到如下结果:样本容量为25,样本标准
差为100,每日平均销售量为500。试估计这个餐
馆启用新菜单后每天在95%的时间内销售量的范
围。
18
調查分析預測
MRAF 训练题
• 5.一家电器连锁商店正在进行空调的季节性降价促销。被抽取的10个
样本商店销售出的空调数量如下(单位:台):82,113,2,41,
71,83,99,52,84,30。那么,根据这些数据能否说明这次促销
期间每家商店平均销售空调数量多于50台(95%)?
19
調查分析預測
MRAF 训练题
• 6.假设你正计划对某市养狗的家庭进行抽样,
以确定他们每月购买的狗食的平均数量。
已经制定了下面的标准:95%的置信度,
小于5个单位的误差。以前的调研说明了标
准差应该是6个单位。那么,该项调查需要
多大的样本容量?
20
調查分析預測
MRAF 训练题
• 7.在一项涉及400人的调查中,60%的人都对一个
问题持积极态度。试在95%的置信度下确定比例
的区间估计。
• 8.在一个全国性的调查中,调研人员期望总体中
有30%的人将会同意某个态度陈述,要求误差小
于2个百分点,并且具有95%的把握性,那么,需
要多大的样本容量?假设调查总体为12000人,
事先预计调查的回答率约为55%,那么,样本容
量又应该为多少?
21
調查分析預測
MRAF
22
調查分析預測
MRAF
开篇案例
“百脑汇”调研中的样本计划问题
• “百脑汇”在中国华北几个省市经营连锁电脑超市,它希
望获得更多关于其现有客户特点方面的信息。接受调研委
托的李文博士指派班上的王洪同学为样本计划小组的负责
人。
• 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了
解到调研的一个主要目的是分别按人口和心理因素来估计
“百脑汇”的客户构成和比例。此外,确认总体估计值不
超过实际值的±5.0%,可靠度为95%。
• 为了达到这些要求,王洪和他的小组正努力寻找计算所需
样本容量的方法。
23
調查分析預測
MRAF 10.1 引言
• 估计就是根据从样本中收集的信息对
总体未知量进行推断的过程。
• 抽样估计涉及的重要问题:
– 一个样本单元的设计权数设计权数问题。
–– 抽样估计抽样估计,包括总体总量、均值和比例以及抽
样误差的估计。
–– 样本量的确定样本量的确定构成抽样设计程序的重要步骤和
内容。同时,样本量的确定与样本估计值的精
度密不可分。
24
調查分析預測
MRAF 10.2 加权及权数调整
• 设计权数设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元
数,它是由抽样设计所决定的,通常以wd表示。确定
设计权数是估计的第一步。
• 加权估计加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如
入样概率是1/10,那么每个入选样本代表总体中的10
个单元,此时设计权数即为10。
– 不同样本单元的设计权数可能不同,这取决于抽样设
计。因此,加权估计应区分等概率抽样的加权和不等
概率抽样的加权。
25
調查分析預測
MRAF 等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样
本单元的设计权数都相同,这种抽样就是自自
加权设计加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分
层抽样也是自加权设计。
– 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整,
则在计算比例、均值等估计量时可将其忽略,
对总值估计也仅需将样本总值乘上某个倍数。
(例P215)
26
調查分析預測
MRAF 不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行
一个全国调查时,可能需要采用纽曼分层。
• 当所采用的抽样设计不是等概率时,正确地使用设计权
数就显得尤为重要。
• [例10.2] 有关各层总体数和样本数资料见表10-1。对
于这项调查,被调查者的设计权数是多少呢?
收入层次 各层单位数 样本数量 设计权数
高收入层 2000 wd,1=N1/n1=2000/=
中收入层 12000 wd,2=N2/n2=12000/=
低收入层 6000 wd,3=N3/n3=6000/=
27
調查分析預測
MRAF 设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的
加权都是加权的基本形式。
• 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整;
– 考虑来自其他渠道的、更具权威性的某些辅助
信息,将它们合并到权数中。
28
調查分析預測
MRAF 对无回答的权数调整
•• 单元无回答单元无回答是指一个样本单元几乎所有的数据都缺失。
简单的处理办法是忽略它。然而,如果发现忽略单元
无回答是不适当的,则应该对权数进行调整。即,
–设计权数×无回答调整因子=无回答的调整权数
•• 无回答调整因子无回答调整因子是原样本单元的权数和与给出回答的
单元的权数和的比值。对于自加权设计,该比值可用
原样本的单元数与给出回答的单元数的比值来表示。
• 无回答权数调整应区分两种不同情况:
– 等概率抽样
– 不等概率抽样
29
調查分析預測
MRAF 对无回答的权数调整(SRS)
• [例10.3] 从一个
N=100人的总体中
抽取一个n=25人
的简单随机样本。
记回答单元的数量
为nr,结果显示只
有20个人提供了所
需的信息。那么,
此时无回答的调整
权数是多少?
步骤1:计算设计权数。
入样概率p为:P=n/N=25/100=1/4
故,每个样本单元的设计权数为4。
步骤2:计算无回答调整因子。
由于在n=25人中只有nr=20人提供了
所需的信息,最终样本量应为20。假定回
答单元不仅能代表回答单元且能代表无回
答单元,计算无回答调整因子为:
n / nr = 25/20 =
步骤3:计算无回答的调整权数。
无回答的调整权数wnr等于设计权数
与无回答调整因子的乘积:
30
調查分析預測
MRAF 对无回答的权数调整(STR)
• [例10.4] 对于一项公共交通
系统调查,总体由1100人组成,
并按城乡分为两个层。分层及
样本数据如表10-2所示。那么,
回答者的权数是多少?
表10-2 公交系统调查的分层数据
层 总体大小 样本量 回答者数量
城市 N1=1000 n1=200 nr,1=150
农村 N2=100 n2=50 nr,2=40
步骤1:各层的设计权数为:
城市层 wd,1=N1/n1==5
农村层 wd,2=N2/n2==2
步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:
城市层:n1 / nr,1==200/150==
农村层:n2 / nr,2==50/40==
步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
城市层:
农村层:
31
調查分析預測
MRAF 使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如,
使用最新的人口普查数据来调整估计值,以确保这些
估计值(如年龄、性别分布等)的一致性。
– 二是为了提高估计值的精度。将辅助信息与抽样设计
相结合,将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都
必须具备这个辅助信息。否则,就只能在数据收集上来后,
在估计阶段利用辅助信息提高估计值的精度。
32
調查分析預測
MRAF 使用辅助信息调整权数
• [例10.5] 为得到某公司职员是否
有吸烟习惯的信息,进行了一项调
查。从N=780人的名录中抽出了一
个n=100人的简单随机样本。
• 在收集有关吸烟习惯信息时,收集
了每个回答者的年龄和性别情况,
且100人都做出了回答,由此得到
样本数据的分布如表10-3所示:
事后分层
估计值
男性 女性 总计
吸烟人数 164 47 211
总人数 360 420 780
吸烟者比例
回答者数量 男性 女性 总计
吸烟人数 25 5 30
总人数 55 45 100 (nr)
调查的估计值 男性 女性 总计
吸烟人数 195 39 234
总人数 429 351 780
吸烟者的比例
表10-5 利用辅助信息对抽样调查估计值的调整
表10-3 某公司吸烟习惯抽样调查数据
表10-4 根据某公司吸烟习惯抽样计算的估计值
33
調查分析預測
MRAF 10.3 抽样分布与抽样误差
• 抽样调查的目的是要对总体做出推断。
• 了解统计推断的理论基础,首先注意区分三
种不同性质的分布:
– 总体分布
– 样本分布
– 抽样分布
• 同时,特别注意总体分布与抽样分布的关系。
34
調查分析預測
MRAF 三种不同性质的分布
•• 总体分布总体分布:总体各单位的观察值所形成的频数分布,总
体分布通常是未知的。
•• 样本分布样本分布:一个样本中各个观察值所形成的频数分布就
叫做。当样本容量n逐渐增大时,样本分布逐渐接近总
体的分布。
•• 抽样分布抽样分布:样本统计量的抽样分布,是指在重复选取容
量为n的样本时,由该统计量的所有可能取值形成的相
对频数分布。抽样分布是一种理论分布。
• 抽样分布提供了样本统计量长远而稳定的信息,是进行
推断的理论基础。
分布类型 均值 比例 标准差
总体分布
样本分布
抽样分布
X
P
S
表10-6 各种分布的均值、比例和标准差的符号表示
35
調查分析預測
MRAF 样本均值的抽样分布
• 样本均值的抽样分布,是
指在重复选取容量为n的
样本时,由样本均值的所
有可能取值形成的相对频
数分布。
• [例10.6]设一个总体,含
有4个元素,即总体单位数
N =4。4个个体分别为
x1=1, x2=2, x3=3, x4=4。
则总体分布如图10-1。
• 现在从总体中有放回地抽
取n=2的简单随机样本,
则样本均值的抽样分布如
图10-2。
36
調查分析預測
MRAF 均值抽样分布的规律
比较样本均值的分布与总体分布,得出如下结论:
(1)样本均值的数学期望 等于总体均值,即E( )=μ。
(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说,
样本均值的标准误 。
(3)如果总体服从正态分布,即x~N(μ,σ2),那么样本均值也服从正
态分布,即 ~N(μ,σ2/n)。
(4)如果总体不服从正态分布,那么当样本量足够大时,样本均值
也服从正态分布。
中心极限定理,概括为:
设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本,
当n足够大(n 30)时,样本均值的抽样分布近似服从均值为μ、方差
为σ2/n的正态分布。
37
調查分析預測
MRAF 样本比例的抽样分布
•• 样本比例的抽样分布样本比例的抽样分布,是在重复抽取容量为n的样本时,
由样本比例的所有可能取值形成的相对频数分布。
• 比较样本比例的分布与总体分布,得出如下结论:
– 当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,
样本比例的数学期望等于总体比例,即E(p)=π;在重复抽样条件
下,样本比例的方差为总体方差的1/n,即
•• 样本比例的中心极限定理样本比例的中心极限定理
– 设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样
本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为
π、方差为(1-)/n的正态分布。
样本比例
的方差:
样本比例
的标准误:
38
調查分析預測
MRAF 正态分布及标准值Z
• 正态分布有以下几个重要特征:
– 正态曲线呈钟形,曲线下的面积等于1,表明它
包括了所有的调查结果。
– 在正态曲线下任意两个变量值之间的面积,等于
在这一范围内随机抽取一个观察对象的概率。例
如,任意抽取一个样本单元,IQ分数落在55-145
之间的概率是%,即图10-3中正态曲线下
55-145之间的面积。
– 所有的正态分布在平均数±1个标准差之间的面积
相同,都占曲线下方面积的68.26%。这是正态
分布的比例性,为统计推断提供了基础。
– 一个正态分布的特殊性由其平均数和标准差决定。
39
調查分析預測
MRAF 标准正态分布
• 标准正态分布是一种平均值等于0、标准差
等于1的正态分布(如图10-4)。
• 研究者可以将任何正态变量X转换为标准正
态变量值(标准值)Z。计算方法就是,用将
要进行转换的值中减去均值,然后再除以标
准差。即
• 求出标准值Z之后,就可以查阅正态分布表
(附录B-2),得到Z值的标准正态分布曲线下
的面积(概率)。
式中,x ——变量值;
μ——平均数的假设或预期值;
σ——变量的标准差。
40
調查分析預測
MRAF 10.4 参数估计
• 参数估计就是根据从样本中收集的信息对总体参数
进行推断的过程。
• 样本估计量 (如样本均值、比例等)都是随机变量,
在具有特定概率(抽样)分布的样本之间有所变化。
参数估计就是根据推断理论所阐明的抽样分布与总
体分布之间的关系,由样本统计量的具体值估计总
体参数(如总体均值、比例和方差等)。
• 参数估计有两种估计方法:
– 点估计
– 区间估计
41
調查分析預測
MRAF 总体参数的点估计
• 点估计就是用样本的估计量直接作为总体参数的
估计值。例如,用样本均值直接作为总体均值的
估计,或者用两个样本均值之差直接作为总体均
值之差的估计。
• 点估计是容易做到的,但是,点估计没有给出估
计值接近总体参数程度的信息。
• 当样本均值与总体均值不完全相同时,样本均值
与实际总体均值就存在着差距,形成抽样误差。
42
調查分析預測
MRAF 总体参数的区间估计
• 区间估计:在点估计的基础上,对总体参数的
区间或范围进行估计。
• 区间估计不仅要说明区间大小,还要说明点估
计值在区间内的概率,即置信度。置信度是一
个百分比,用来说明结果正确的长期概率。被
估计的区间则被称为置信区间。
• 根据样本统计量的抽样分布理论,总体参数的
区间范围是在一定的概率度下,由样本统计量
加减抽样误差而得到。
43
調查分析預測
MRAF 总体均值的区间估计
• 在SRS抽样情况下,样本统计量
的抽样分布均服从正态分布。可
使用正态分布统计量Z来描述总
体均值的区间估计,将总体均值
区间估计表达为:
μ= ±
在上式中, 代表一定置信度下的Z值。注意,α应除以2,
以便确定均值的每一边所包含曲线下区域的百分比。
代表样本均值的标准误,
当σ未知,用S来估计σ,样本均值的标准误:
当σ已知,样本均值的标准误的估计公式:
44
調查分析預測
MRAF 总体均值的区间估计
• t-t-分布分布
– 若调查从总体中随机抽取一个很小样本(n < 30),则样
本均值的抽样分布服从自由度为(n-1)的t-分布(较正态
分布平坦和分散) 。随着自由度增大,t分布也逐渐趋
于正态分布。在上述假设条件下,使用 t 分布统计量
(附录B-3)来估计总体均值的置信区间。
t分布条件下总体均值置信区间的估计方法与正态分布条件
下非常类似,只是查t分布表需要考虑自由度为(n-1)。
统计量 ~t(n-1)
总体置信区间 μ= ±
45
調查分析預測
MRAF 总体均值的区间估计例题
• [例10.7] 某银行收集到由
36信用卡用户组成的随机样
本,得到各用户年龄(周岁)
数据如下
– 23,35,39,27,36,44;36
,42,46,43,31,33,42,
53,45,54,47,24,34,28
,39,36,44,40,39,49,
38,34,48,50,34,39,45
,48,45,32。
• 试建立信用卡用户年龄90%
的置信区间。
已知n=36,1- = 90%,Z/2=。
根据样本数据计算得:
=,s=
则,信用卡用户总体平均年龄在
90%置信水平下的置信区间为:
=±×
=±
=(,)
结论是:在90%的置信度下,信用卡
用户的平均年龄为~岁。
μ= ±
46
調查分析預測
MRAF 总体比例的区间估计
• 总体比例的区间估计假定总体服从二项分布。二项分布是
指重复进行 n 次试验,出现“成功”的次数的概率分布。
总体比例的抽样分布仍然可以由正态分布来近似,即适用
中心极限定理。使用正态分布统计量Z来描述总体比例的
区间估计,将总体比例区间估计表达如下:
π= p ±
在上式中, 代表一定置信度下的Z值。注意,α应除以2,
以便确定比例的每一边所包含曲线下区域的百分比。
代表样本比例的标准误,
当π未知,样本比例的标准误的估计式:
当π已知,样本比例的标准误的估计式:
47
調查分析預測
MRAF 总体比例的区间估计例题
• [例10.8] 某商业公
司想要估计经常光顾
其大型购物中心中女
性所占的比例,随机
地抽取了400名经常
性顾客,发现其中
260名为女性。
• 试以95%的置信水平
估计经常光顾该大型
购物中心中女性比例
的置信区间。
解:已知 n=400,p=65%=,
1- = 95%,Z/2 =
则,总体比例π在95%置信水平下
的置信区间为:
=±×
=±
=(,)
结论:在95%的置信度下,经常光顾
该大型购物中心中女性比例的置信区
间为%~%。
π= p ±
48
調查分析預測
MRAF 总体方差的区间估计
• 在重复选取容量为n的样本时,由样本方
差的所有可能取值形成的相对频数分布,
构成样本方差的抽样分布。
• 对于来自正态总体的简单随机样本,则(n
-1)倍的样本方差与总体方差的比值的抽样
分布服从自由度为 (n -1) 的2分布,即
~2(n -1)
2分布的特性总体方差的区间估计提供了理论依据。当总体服从正态
分布时,总体方差 2 的点估计量为s2。借助2分布表(附录B-4)可
以查得χ21-α/2和χ2α/2分布曲线下的面积(概率)。然后,可以给出总体
方差在1- 置信水平下的区间估计:
49
調查分析預測
MRAF 10.5 样本量的确定
• 样本量的确定问题,首先涉及对总体参数估计值
的精度要求,同时也涉及与各种运作限制(如可
获得的预算、资源和时间)之间的平衡问题。
• 理论上,总体参数估计的精度取决于抽样误差和
非抽样误差两类误差的大小。但是,确定样本量
是为控制抽样误差,而不是对非抽样误差进行控
制,进而提高对总体估计的精度。
50
調查分析預測
MRAF 估计精度与样本量的关系
• 总体参数的置信区间可以描述为:
– 总体参数=总体参数的估计值±抽样误差的范围
• 显然,估计精度取决于抽样误差大小。假设用E来定义抽
样误差范围,则当简单随机选择一个容量足够大(n 30)
的样本时,样本均值的抽样误差范围可以表示为:
– 抽样误差的范围是估计量标准误的倍数,乘数因子取决于在调查
估计中所希望达到的置信水平。
• 在放回(重复)的SRS抽样条件下,假设回答率为100%,
则样本均值的标准误公式可用来解释估计精度与样本量之
间的基本关系:
E=
51
調查分析預測
MRAF 估计精度与样本量
• 无论是重复抽样还是不重复抽样,抽样误差的大
小(即估计精度)与样本量紧密相关:
– 随着样本量的增加,对应估计量的抽样标准差就会不
断减小,调查估计的精度则会不断提高。
– 同理,当要求不断提高调查估计值的精度要求时,所
需样本量也会不断增加。
• 样本量要根据估计所要求的精度来计算和确定。
下面的讨论分为两部分:
– 对初始样本量的确定及考虑
– 复杂情况的考虑及对初始样本量的调整
52
調查分析預測
MRAF 初始样本量的确定
• 11.给定总体均值估计精度下确定初始样本量.给定总体均值估计精度下确定初始样本量
– 初始样本量基于以下假定:抽样采用放回的SRS抽样,
并且调查回答率为100%。
样本均值的标准误表示为:
抽样误差范围表示为:E =
从上式中解得样本量n:
从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。
为确定样本量n,需要知道允许的抽样误差范围E、与给定置信水平相对应的
标准值Z、总体方差估计σ2。
53
調查分析預測
MRAF 初始样本量的确定
• 22.给定比例估计精度下确定初始样本量.给定比例估计精度下确定初始样本量
– 初始样本量基于以下假定:抽样采用放回的SRS抽样,
并且调查回答率为100%。
样本比例的标准误表示为:
抽样误差范围表示为:E =
从上式中解得样本量n:
从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。
为确定样本量n,需要知道允许的抽样误差范围E、与给定置信水平相对应的
标准值Z、总体比例π 。
54
調查分析預測
MRAF 对样本量基本公式的应用考虑
• 在确定初始样本量的公式中,抽样误差范围假定
已知。但在实践中,如何确定调查估计的精度水
平(抽样误差范围),却是一个值得思考的问题。
– 1.多大的抽样误差对调研目标而言可以接受
• 常用95%的置信度、±6%的抽样误差范围对客户的调查目标
是否适宜,估计值是否需要更高或者更低的精度?
– 2.是否需要对调查总体中的子总体(域)进行估计
• 例如,对一项全国性抽样调查而言,主办者可能要求对全国估
计的抽样误差范围为±3%;但是对于省级估计值,抽样误差范
围可能确定为±5%;而对于地市的估计值,±10%的抽样误差
范围就足够了。
55
調查分析預測
MRAF 对样本量基本公式的应用考虑
• 3.相对于调查估计值的抽样误差应该多大为宜
– 例如,政府要决定是否执行为某种使用人数较少的语种提供服务
的新政策,假定做出决定的前提,是至少有5%的人群对这一语
种存在需求。在这里,p=0.05就是要确定的最小估计值。相对
于该估计值,必须规定更小的抽样误差范围,如≤±0.01(即,置
信区间为0.05±0.01)。
• 4.精度要求的实际含义是什么
– 随着样本量的增加,估计值的精度也将提高。然而,精度的得益
并不与样本量的增加成正比。如表10-10中描述的例子。
样本量 抽样误差范围
50
100
500
1000
0.1386
0.0980
0.0438
0.0310
表10-10 简单随机抽样估计比例P的样本量与抽样误差范围(当P=0.5)
56
調查分析預測
MRAF
关于确定样本量的
现实复杂考虑
• 在确定样本量基本公式之外,又有一些
现实因素影响调查估计量的精度,进而
影响样本量。这些因素主要包括
– 总体指标的变异程度
– 总体大小,
– 样本设计和所用的估计量
– 以及回答率
57
調查分析預測
MRAF 关于确定样本量的现实复杂考虑
• 11.总体的变异程度.总体的变异程度
– 随着调查总体中所研究指标的实际变异程度的增加,
样本量也必须随之增大,以满足估计的精度要求。
– 为确保达到调查要求的精度,在计算样本量时,建议
对某一指标的总体变异程度采取保守估计,即假定研
究指标具有最大的变异程度。例如,对于二元变量,
应该假定总体中该变量的变异程度为50%-50%对半平
分,即假定p=0.5。
– 为确保样本量对所有的研究指标都足够大,应该根据
最大变异程度或被认为最重要的指标来确定样本量。
58
調查分析預測
MRAF 关于确定样本量的现实复杂考虑
•• 22.总体大小.总体大小
– 在基本公式中,样本量的
确定似乎与总体大小没有
关系。因为当时假定在大
总体中进行有放回的重复
抽样,抽样总体的影响被
忽略掉了。然而,在调研
实践中,总体单元数量可
能是有限的,而且可能采
取非重复抽样,这时总体
大小对样本容量的影响就
应该被考虑进来了。
在样本不放回的非重复抽样条件下
样本均值的标准误表示为:
抽样误差范围表示为:E =
从上式中解得样本量:
在样本不放回的非重复抽样条件下
样本比例的标准误:
抽样误差范围表示为:E =
从上式中解得样本量:
59
調查分析預測
MRAF 关于确定样本量的现实复杂考虑
•• 33.样本设计和估计量.样本设计和估计量
– 当使用复杂的样本设计时,估计值可能比SRS精确。当估计值更
精确时,称所采用的样本设计更为有效。因此,实际抽样时必须
考虑实际所用抽样设计的效率,并对初始样本量做出调整。即,
在SRS抽样的样本量计算公式基础上乘以一个设计效应因子。
– 设计效应(Deff)是指在给定抽样设计下估计值的抽样方差,与相
等样本量下的简单随机抽样的估计值的抽样方差之比。
设某一抽样设计样本估计值的方差为 ,同等样本量的SRS设计的
样本估计值的方差为 ,则抽样设计效应: Deff =
显然,对于简单随机抽样设计,Deff=1;若Deff<1,表明实际使用的
抽样设计的效率高于简单随机抽样;若Deff>1,表明实际使用的抽样
设计的效率低于简单随机抽样。
特定抽样设计所需的样本量(n1)调整为:n1=n0·Deff
60
調查分析預測
MRAF 关于确定样本量的现实复杂考虑
• 44.调查的回答率.调查的回答率
– 调查回答率是指调查回收的有效问卷数占计划访问的
样本数量的百分比。在执行抽样过程中,会出现无效
问卷,这意味着计划样本量中的一部分无法产生有效
数据,并导致估计精度的降低。为达到估计精度的要
求,调研机构需要根据预计的回答率调整样本量的大
小,根据预计的回答率确定一个较大的样本。
– 预计的回答率是依据对同一总体的小范围的试点调查
或者过去类似的调查得到的。
– 假设理论上确定的样本量为nt,预计回答率为r,则调
整后的样本量n1就表示为: n1=nt/r
61
調查分析預測
MRAF
基于现实考虑的
样本量的计算
以比例估计为例说明计算样本量的详细步骤如下:以比例估计为例说明计算样本量的详细步骤如下:
第1步:计算初始样本量
设允许的抽样误差范围为E,与给定置信水平相对应的标准值为Z,总体比例为
π。则初始样本量n0计算为:
第2步:根据总体大小对初始样本量进行调整(两种方法)
一是在方差估计中直接考虑总体大小的调整因子:
二是在初始样本量基础上乘上一个调整因子:
第3步:对样本量进行设计效应调整
在第2步基础上,根据实际使用的抽样设计(SRS以外的其他方法)效应对样本量
进行调整:
其中,对分层抽样设计,Deff<1;对整群或多阶抽样设计,Deff>1。
第4步:根据预计回答率r再次进行调整,以确定最终样本量n3:
62
調查分析預測
MRAF 样本量计算的综合例题
• [例10.9] 某杂志社准备启动一项调研活动,
以得到读者对该杂志综合满意度的估计值。订
阅该杂志的读者总体主要由城市读者、乡村读
者和海外读者三部分构成(分层数据见表10-12)。
通过从三部分读者中各抽取一个SRS样本,得
到一个分层随机样本。
• 假定该杂志社希望真实的总体比例落在样本估
计值的±0.05范围内,并且调查估计值的置信
度为95%。同时,预计回答率为65%。请问每
一层应确定访问多少个订户?
• 再假定对每一层都要求样本估计值在95%的置
信度下抽样误差范围为±0.05的估计结果,城
市、乡村和海外三层读者的预计回答率分别为
65%、65%和50%。则所需样本量为多少?
层数i 层次名 读者数(N
i
)
1 城市 500000
2 乡村 200000
3 海外 60000
合 计 760000
63
調查分析預測
MRAF
各种运作限制
对样本量影响的考虑
• 上述讨论仅涉及确定样本量问题中最重要的指标估计值
的精度要求。然而实际上,不考虑时间和费用个因素是
不可思议的。最终确定的样本量必须与可获得的经费预
算和允许的时限保持一致。
• 其它一些现场操作因素,如数据收集的方法,有否合适
的现场调查人员、数据编码和审核人员,以及处理数据
的设备等等,都会对样本量的确定产生一定的影响,甚
至有时可能是决定性的。
• 最终样本量的确定需要在精度、费用、时限和操作的可
行性等相互冲突的限制条件之间进行协调。
64
調查分析預測
MRAF 本章小结
• 1)加权的含义和加权的基本形式
• 2)熟悉加权调整的方法
• 3)理解平均数的抽样分布与抽样误差
• 4)理解样本比例的抽样分布与抽样误差
• 5)了解正态分布及标准值的含义
• 6)均值和比例问题参数估计的思想和方法
• 7)了解估计精度与样本量的关系
• 8)初始样本量的计算及应用考虑
• 9)现实复杂情况下样本量的考虑和计算
65