MBA智库文档管理 MRAF-C10 抽样估计与样本量确定.ppt

MRAF-C10 抽样估计与样本量确定.ppt

下载

Dwward

65页 | 4.29MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

調查分析預測 MRAF 第10章抽样估计与样本量确定 1 調查分析預測 MRAF 七、抽样误差 • 调查结果的准确性无疑是调查组织者十分重视的问题。其准确性通常用抽样误差的高低来反映，在抽样方式和总体既定的前提下，抽样误差的大小主要取决于抽样数目的多少。对抽样误差的控制主要是通过控制抽样数目来实现的。因此，抽样误差与抽样数目的确定，是随机抽样市场调查中两个重要的问题。 2 調查分析預測 MRAF• （一）抽样误差的估算方法 • 1.抽样误差大小的影响因素 • （1）总体各单位之间的差异程度。总体变量存在变异是客观的，差异程度愈大，其分布就愈分散，抽样误差就愈大；反之，愈小。这种差异程度，在统计上叫做标志变异度，通常用方差或标准差来表示。 • （2）样本数目，即样本容量有多少。当样本容量达到与总体容量一样时，抽样调查就变成全面市场调查了，抽样误差随即消失。 • （3）抽样方式。一般地说，等距随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分群随机抽样的误差。不重复抽样的误差要小于重复抽样的误差。因此，要根据不同的抽样方式分别估算抽样误差。 3 調查分析預測 MRAF 4 調查分析預測 MRAF 5 調查分析預測 MRAF 6 調查分析預測 MRAF 样本量的确定 • （二）必要抽样数目的确定 • 抽样数目过多，使得抽样调查所需成本费用提高，从而带来不经济；抽样数目过少，又会使调查结果存在较大误差，达不到要求的精度。 • 所谓必要抽样数目，就是在事先给定的抽样误差范围内所确定的、能够达到对调查结果精确度要求的样本单位数。 7 調查分析預測 MRAF 样本量的确定 • 1.影响合理的必要抽样数目的因素 • （1）总体各单位之间的标志差异程度。总体单位之间的差异越小，一定数目的总体单位对总体的代表性就越高。当总体单位的标志值都相等时，一个总体单位的标志值就足以代表总体的平均水平。 • （2）允许误差的大小。一般来说，调查的准确度要求高、调查力强、调查经费充足，允许误差就可以定得小一些。 • （3）不同的抽样方式和方法。一般情况下，简单随机抽样和分群随机抽样比等距随机抽样和分层随机抽样所需的样本单位数要多，重复抽样比不重复抽样的样本单位数要多。 8 調查分析預測 MRAF 9 調查分析預測 MRAF 10 調查分析預測 MRAF 11 調查分析預測 MRAF 12 調查分析預測 MRAF 13 調查分析預測 MRAF 14 調查分析預測 MRAF 15 調查分析預測 MRAF 总体参数的点估计 • 点估计就是用样本的估计量直接作为总体参数的估计值。例如，用样本均值直接作为总体均值的估计，或者用两个样本均值之差直接作为总体均值之差的估计。 • 点估计是容易做到的，但是，点估计没有给出估计值接近总体参数程度的信息。 • 当样本均值与总体均值不完全相同时，样本均值与实际总体均值就存在着差距，形成抽样误差。 16 調查分析預測 MRAF 总体参数的区间估计 • 区间估计：在点估计的基础上，对总体参数的区间或范围进行估计。 • 区间估计不仅要说明区间大小，还要说明点估计值在区间内的概率，即置信度。置信度是一个百分比，用来说明结果正确的长期概率。被估计的区间则被称为置信区间。 • 根据样本统计量的抽样分布理论，总体参数的区间范围是在一定的概率度下，由样本统计量加减抽样误差而得到。 17 調查分析預測 MRAF 训练题 • （P237—238） • 4.假设某快餐馆想要为一个新的菜单项目估计平均销售量，这个餐馆观察了一个类似地点的销量，连续观测到如下结果：样本容量为25，样本标准差为100，每日平均销售量为500。试估计这个餐馆启用新菜单后每天在95%的时间内销售量的范围。 18 調查分析預測 MRAF 训练题 • 5.一家电器连锁商店正在进行空调的季节性降价促销。被抽取的10个样本商店销售出的空调数量如下（单位：台）：82，113，2，41， 71，83，99，52，84，30。那么，根据这些数据能否说明这次促销期间每家商店平均销售空调数量多于50台（95%）？ 19 調查分析預測 MRAF 训练题 • 6.假设你正计划对某市养狗的家庭进行抽样，以确定他们每月购买的狗食的平均数量。已经制定了下面的标准：95%的置信度，小于5个单位的误差。以前的调研说明了标准差应该是6个单位。那么，该项调查需要多大的样本容量？ 20 調查分析預測 MRAF 训练题 • 7.在一项涉及400人的调查中，60%的人都对一个问题持积极态度。试在95%的置信度下确定比例的区间估计。 • 8.在一个全国性的调查中，调研人员期望总体中有30%的人将会同意某个态度陈述，要求误差小于2个百分点，并且具有95%的把握性，那么，需要多大的样本容量？假设调查总体为12000人，事先预计调查的回答率约为55%，那么，样本容量又应该为多少？ 21 調查分析預測 MRAF 22 調查分析預測 MRAF 开篇案例 “百脑汇”调研中的样本计划问题 • “百脑汇”在中国华北几个省市经营连锁电脑超市，它希望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈，王洪了解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外，确认总体估计值不超过实际值的±5．0％，可靠度为95％。 • 为了达到这些要求，王洪和他的小组正努力寻找计算所需样本容量的方法。 23 調查分析預測 MRAF 10．1 引言 • 估计就是根据从样本中收集的信息对总体未知量进行推断的过程。 • 抽样估计涉及的重要问题： – 一个样本单元的设计权数设计权数问题。 –– 抽样估计抽样估计，包括总体总量、均值和比例以及抽样误差的估计。 –– 样本量的确定样本量的确定构成抽样设计程序的重要步骤和内容。同时，样本量的确定与样本估计值的精度密不可分。 24 調查分析預測 MRAF 10．2 加权及权数调整 • 设计权数设计权数 – 设计权数是指每个样本单元所代表的调查总体的单元数，它是由抽样设计所决定的，通常以wd表示。确定设计权数是估计的第一步。 • 加权估计加权估计 – 设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10，那么每个入选样本代表总体中的10 个单元，此时设计权数即为10。 – 不同样本单元的设计权数可能不同，这取决于抽样设计。因此，加权估计应区分等概率抽样的加权和不等概率抽样的加权。 25 調查分析預測 MRAF 等概率抽样的加权 • 当每个单元都有相同的入样概率时，所有样本单元的设计权数都相同，这种抽样就是自自加权设计加权设计。 – SRS抽样和SYS抽样都属于自加权设计，比例分层抽样也是自加权设计。 – 另外， PPS等也可以设计为一个自加权抽样。 • 对于自加权抽样设计，如果无需对权数调整，则在计算比例、均值等估计量时可将其忽略，对总值估计也仅需将样本总值乘上某个倍数。 (例P215) 26 調查分析預測 MRAF 不等概率抽样的加权 • 自加权设计并不总是可行的。如，在使用分层抽样进行一个全国调查时，可能需要采用纽曼分层。 • 当所采用的抽样设计不是等概率时，正确地使用设计权数就显得尤为重要。 • [例10．2] 有关各层总体数和样本数资料见表10-1。对于这项调查，被调查者的设计权数是多少呢？收入层次各层单位数样本数量设计权数高收入层 2000 wd,1＝N1/n1=2000/= 中收入层 12000 wd,2＝N2/n2=12000/= 低收入层 6000 wd,3＝N3/n3=6000/= 27 調查分析預測 MRAF 设计权数的调整 • 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况： – 考虑无回答的情况，然后对权数做出调整； – 考虑来自其他渠道的、更具权威性的某些辅助信息，将它们合并到权数中。 28 調查分析預測 MRAF 对无回答的权数调整 •• 单元无回答单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而，如果发现忽略单元无回答是不适当的，则应该对权数进行调整。即， –设计权数×无回答调整因子=无回答的调整权数 •• 无回答调整因子无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计，该比值可用原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况： – 等概率抽样 – 不等概率抽样 29 調查分析預測 MRAF 对无回答的权数调整(SRS) • [例10．3] 从一个 N=100人的总体中抽取一个n＝25人的简单随机样本。记回答单元的数量为nr，结果显示只有20个人提供了所需的信息。那么，此时无回答的调整权数是多少？步骤1：计算设计权数。入样概率p为：P=n/N=25/100=1/4 故，每个样本单元的设计权数为4。步骤2：计算无回答调整因子。由于在n＝25人中只有nr=20人提供了所需的信息，最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元，计算无回答调整因子为： n / nr = 25/20 = 步骤3：计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积： 30 調查分析預測 MRAF 对无回答的权数调整(STR) • [例10．4] 对于一项公共交通系统调查，总体由1100人组成，并按城乡分为两个层。分层及样本数据如表10-2所示。那么，回答者的权数是多少？表10-2 公交系统调查的分层数据层总体大小样本量回答者数量城市 N1＝1000 n1＝200 nr,1＝150 农村 N2＝100 n2＝50 nr,2＝40 步骤1：各层的设计权数为：城市层 wd,1＝N1/n1==5 农村层 wd,2＝N2/n2==2 步骤2：调整以弥补无回答。各层的无回答调整因子计算如下：城市层：n1 / nr,1==200/150== 农村层：n2 / nr,2==50/40== 步骤3：无回答的调整权数等于设计权数与无回答调整因子的乘积：城市层：农村层： 31 調查分析預測 MRAF 使用辅助信息调整权数 • 为什么要使用辅助信息来调整权数呢？ – 首先，使调查的估计值与已知总体总值相匹配。例如，使用最新的人口普查数据来调整估计值，以确保这些估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计相结合，将有助于提高估计的精度。 • 要想在调查设计阶段使用辅助信息，抽样框中的所有单元都必须具备这个辅助信息。否则，就只能在数据收集上来后，在估计阶段利用辅助信息提高估计值的精度。 32 調查分析預測 MRAF 使用辅助信息调整权数 • [例10．5] 为得到某公司职员是否有吸烟习惯的信息，进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。 • 在收集有关吸烟习惯信息时，收集了每个回答者的年龄和性别情况，且100人都做出了回答，由此得到样本数据的分布如表10-3所示：事后分层估计值男性女性总计吸烟人数 164 47 211 总人数 360 420 780 吸烟者比例回答者数量男性女性总计吸烟人数 25 5 30 总人数 55 45 100 (nr) 调查的估计值男性女性总计吸烟人数 195 39 234 总人数 429 351 780 吸烟者的比例表10-5 利用辅助信息对抽样调查估计值的调整表10-3 某公司吸烟习惯抽样调查数据表10-4 根据某公司吸烟习惯抽样计算的估计值 33 調查分析預測 MRAF 10．3 抽样分布与抽样误差 • 抽样调查的目的是要对总体做出推断。 • 了解统计推断的理论基础，首先注意区分三种不同性质的分布： – 总体分布 – 样本分布 – 抽样分布 • 同时，特别注意总体分布与抽样分布的关系。 34 調查分析預測 MRAF 三种不同性质的分布 •• 总体分布总体分布：总体各单位的观察值所形成的频数分布，总体分布通常是未知的。 •• 样本分布样本分布：一个样本中各个观察值所形成的频数分布就叫做。当样本容量n逐渐增大时，样本分布逐渐接近总体的分布。 •• 抽样分布抽样分布：样本统计量的抽样分布，是指在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。 • 抽样分布提供了样本统计量长远而稳定的信息，是进行推断的理论基础。分布类型均值比例标准差总体分布样本分布抽样分布  X  P  S 表10-6 各种分布的均值、比例和标准差的符号表示 35 調查分析預測 MRAF 样本均值的抽样分布 • 样本均值的抽样分布，是指在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布。 • [例10．6]设一个总体，含有4个元素，即总体单位数 N =4。4个个体分别为 x1=1, x2=2, x3=3, x4=4。则总体分布如图10-1。 • 现在从总体中有放回地抽取n＝2的简单随机样本，则样本均值的抽样分布如图10-2。 36 調查分析預測 MRAF 均值抽样分布的规律比较样本均值的分布与总体分布，得出如下结论： (1)样本均值的数学期望等于总体均值，即E( )=μ。 (2)在重复抽样条件下，样本均值的方差等于总体方差的1/n，或者说，样本均值的标准误。 (3)如果总体服从正态分布，即x～N(μ,σ2)，那么样本均值也服从正态分布，即～N(μ,σ2/n)。 (4)如果总体不服从正态分布，那么当样本量足够大时，样本均值也服从正态分布。中心极限定理，概括为：设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本，当n足够大(n  30)时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。 37 調查分析預測 MRAF 样本比例的抽样分布 •• 样本比例的抽样分布样本比例的抽样分布，是在重复抽取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布。 • 比较样本比例的分布与总体分布，得出如下结论： – 当样本容量足够大时，样本比例的抽样分布近似地服从正态分布，样本比例的数学期望等于总体比例，即E(p)=π；在重复抽样条件下，样本比例的方差为总体方差的1/n，即 •• 样本比例的中心极限定理样本比例的中心极限定理 – 设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样本，当n足够大(n  30)时，样本比例的抽样分布近似服从比例为 π、方差为(1-)/n的正态分布。样本比例的方差：样本比例的标准误： 38 調查分析預測 MRAF 正态分布及标准值Z • 正态分布有以下几个重要特征： – 正态曲线呈钟形，曲线下的面积等于1，表明它包括了所有的调查结果。 – 在正态曲线下任意两个变量值之间的面积，等于在这一范围内随机抽取一个观察对象的概率。例如，任意抽取一个样本单元，IQ分数落在55-145 之间的概率是%，即图10-3中正态曲线下 55-145之间的面积。 – 所有的正态分布在平均数±1个标准差之间的面积相同，都占曲线下方面积的68．26％。这是正态分布的比例性，为统计推断提供了基础。 – 一个正态分布的特殊性由其平均数和标准差决定。 39 調查分析預測 MRAF 标准正态分布 • 标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。 • 研究者可以将任何正态变量X转换为标准正态变量值(标准值)Z。计算方法就是，用将要进行转换的值中减去均值，然后再除以标准差。即 • 求出标准值Z之后，就可以查阅正态分布表 (附录B-2)，得到Z值的标准正态分布曲线下的面积(概率)。式中，x ——变量值； μ——平均数的假设或预期值； σ——变量的标准差。 40 調查分析預測 MRAF 10．4 参数估计 • 参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。 • 样本估计量 (如样本均值、比例等)都是随机变量，在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系，由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。 • 参数估计有两种估计方法： – 点估计 – 区间估计 41 調查分析預測 MRAF 总体参数的点估计 • 点估计就是用样本的估计量直接作为总体参数的估计值。例如，用样本均值直接作为总体均值的估计，或者用两个样本均值之差直接作为总体均值之差的估计。 • 点估计是容易做到的，但是，点估计没有给出估计值接近总体参数程度的信息。 • 当样本均值与总体均值不完全相同时，样本均值与实际总体均值就存在着差距，形成抽样误差。 42 調查分析預測 MRAF 总体参数的区间估计 • 区间估计：在点估计的基础上，对总体参数的区间或范围进行估计。 • 区间估计不仅要说明区间大小，还要说明点估计值在区间内的概率，即置信度。置信度是一个百分比，用来说明结果正确的长期概率。被估计的区间则被称为置信区间。 • 根据样本统计量的抽样分布理论，总体参数的区间范围是在一定的概率度下，由样本统计量加减抽样误差而得到。 43 調查分析預測 MRAF 总体均值的区间估计 • 在SRS抽样情况下，样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计，将总体均值区间估计表达为： μ= ± 在上式中，代表一定置信度下的Z值。注意，α应除以2，以便确定均值的每一边所包含曲线下区域的百分比。代表样本均值的标准误，当σ未知，用S来估计σ，样本均值的标准误：当σ已知，样本均值的标准误的估计公式： 44 調查分析預測 MRAF 总体均值的区间估计 • t-t-分布分布 – 若调查从总体中随机抽取一个很小样本(n < 30)，则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散) 。随着自由度增大，t分布也逐渐趋于正态分布。在上述假设条件下，使用 t 分布统计量 (附录B-3)来估计总体均值的置信区间。 t分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似，只是查t分布表需要考虑自由度为(n-1)。统计量～t(n-1) 总体置信区间 μ= ± 45 調查分析預測 MRAF 总体均值的区间估计例题 • [例10．7] 某银行收集到由 36信用卡用户组成的随机样本，得到各用户年龄(周岁) 数据如下 – 23，35，39，27，36，44；36 ，42，46，43，31，33，42， 53，45，54，47，24，34，28 ，39，36，44，40，39，49， 38，34，48，50，34，39，45 ，48，45，32。 • 试建立信用卡用户年龄90% 的置信区间。已知n=36，1- = 90%，Z/2=。根据样本数据计算得： =，s= 则，信用卡用户总体平均年龄在 90%置信水平下的置信区间为： =±× =± =（，）结论是：在90%的置信度下，信用卡用户的平均年龄为～岁。 μ= ± 46 調查分析預測 MRAF 总体比例的区间估计 • 总体比例的区间估计假定总体服从二项分布。二项分布是指重复进行 n 次试验，出现“成功”的次数的概率分布。总体比例的抽样分布仍然可以由正态分布来近似，即适用中心极限定理。使用正态分布统计量Z来描述总体比例的区间估计，将总体比例区间估计表达如下： π= p ± 在上式中，代表一定置信度下的Z值。注意，α应除以2，以便确定比例的每一边所包含曲线下区域的百分比。代表样本比例的标准误，当π未知，样本比例的标准误的估计式：当π已知，样本比例的标准误的估计式： 47 調查分析預測 MRAF 总体比例的区间估计例题 • [例10．8] 某商业公司想要估计经常光顾其大型购物中心中女性所占的比例，随机地抽取了400名经常性顾客，发现其中 260名为女性。 • 试以95%的置信水平估计经常光顾该大型购物中心中女性比例的置信区间。解：已知 n=400，p＝65%=， 1- = 95%，Z/2 = 则，总体比例π在95%置信水平下的置信区间为： =±× =± =（，）结论：在95%的置信度下，经常光顾该大型购物中心中女性比例的置信区间为%～%。 π= p ± 48 調查分析預測 MRAF 总体方差的区间估计 • 在重复选取容量为n的样本时，由样本方差的所有可能取值形成的相对频数分布，构成样本方差的抽样分布。 • 对于来自正态总体的简单随机样本，则(n -1)倍的样本方差与总体方差的比值的抽样分布服从自由度为 (n -1) 的2分布，即～2(n -1) 2分布的特性总体方差的区间估计提供了理论依据。当总体服从正态分布时，总体方差  2 的点估计量为s2。借助2分布表(附录B-4)可以查得χ21-α/2和χ2α/2分布曲线下的面积(概率)。然后，可以给出总体方差在1- 置信水平下的区间估计： 49 調查分析預測 MRAF 10．5 样本量的确定 • 样本量的确定问题，首先涉及对总体参数估计值的精度要求，同时也涉及与各种运作限制(如可获得的预算、资源和时间)之间的平衡问题。 • 理论上，总体参数估计的精度取决于抽样误差和非抽样误差两类误差的大小。但是，确定样本量是为控制抽样误差，而不是对非抽样误差进行控制，进而提高对总体估计的精度。 50 調查分析預測 MRAF 估计精度与样本量的关系 • 总体参数的置信区间可以描述为： – 总体参数=总体参数的估计值±抽样误差的范围 • 显然，估计精度取决于抽样误差大小。假设用E来定义抽样误差范围，则当简单随机选择一个容量足够大(n  30) 的样本时，样本均值的抽样误差范围可以表示为： – 抽样误差的范围是估计量标准误的倍数，乘数因子取决于在调查估计中所希望达到的置信水平。 • 在放回(重复)的SRS抽样条件下，假设回答率为100%，则样本均值的标准误公式可用来解释估计精度与样本量之间的基本关系： E＝ 51 調查分析預測 MRAF 估计精度与样本量 • 无论是重复抽样还是不重复抽样，抽样误差的大小(即估计精度)与样本量紧密相关： – 随着样本量的增加，对应估计量的抽样标准差就会不断减小，调查估计的精度则会不断提高。 – 同理，当要求不断提高调查估计值的精度要求时，所需样本量也会不断增加。 • 样本量要根据估计所要求的精度来计算和确定。下面的讨论分为两部分： – 对初始样本量的确定及考虑 – 复杂情况的考虑及对初始样本量的调整 52 調查分析預測 MRAF 初始样本量的确定 • 11．给定总体均值估计精度下确定初始样本量．给定总体均值估计精度下确定初始样本量 – 初始样本量基于以下假定：抽样采用放回的SRS抽样，并且调查回答率为100%。样本均值的标准误表示为：抽样误差范围表示为：E ＝从上式中解得样本量n：从公式看出，样本容量n与置信系数和总体方差成正比，与边际误差成反比。为确定样本量n，需要知道允许的抽样误差范围E、与给定置信水平相对应的标准值Z、总体方差估计σ2。 53 調查分析預測 MRAF 初始样本量的确定 • 22．给定比例估计精度下确定初始样本量．给定比例估计精度下确定初始样本量 – 初始样本量基于以下假定：抽样采用放回的SRS抽样，并且调查回答率为100%。样本比例的标准误表示为：抽样误差范围表示为：E ＝从上式中解得样本量n：从公式看出，样本容量n与置信系数和总体方差成正比，与边际误差成反比。为确定样本量n，需要知道允许的抽样误差范围E、与给定置信水平相对应的标准值Z、总体比例π 。 54 調查分析預測 MRAF 对样本量基本公式的应用考虑 • 在确定初始样本量的公式中，抽样误差范围假定已知。但在实践中，如何确定调查估计的精度水平(抽样误差范围)，却是一个值得思考的问题。 – 1．多大的抽样误差对调研目标而言可以接受 • 常用95％的置信度、±6％的抽样误差范围对客户的调查目标是否适宜，估计值是否需要更高或者更低的精度？ – 2．是否需要对调查总体中的子总体(域)进行估计 • 例如，对一项全国性抽样调查而言，主办者可能要求对全国估计的抽样误差范围为±3％；但是对于省级估计值，抽样误差范围可能确定为±5％；而对于地市的估计值，±10％的抽样误差范围就足够了。 55 調查分析預測 MRAF 对样本量基本公式的应用考虑 • 3．相对于调查估计值的抽样误差应该多大为宜 – 例如，政府要决定是否执行为某种使用人数较少的语种提供服务的新政策，假定做出决定的前提，是至少有5%的人群对这一语种存在需求。在这里，p＝0．05就是要确定的最小估计值。相对于该估计值，必须规定更小的抽样误差范围，如≤±0．01(即，置信区间为0．05±0．01)。 • 4．精度要求的实际含义是什么 – 随着样本量的增加，估计值的精度也将提高。然而，精度的得益并不与样本量的增加成正比。如表10-10中描述的例子。样本量抽样误差范围 50 100 500 1000 0．1386 0．0980 0．0438 0．0310 表10-10 简单随机抽样估计比例P的样本量与抽样误差范围(当P=0．5) 56 調查分析預測 MRAF 关于确定样本量的现实复杂考虑 • 在确定样本量基本公式之外，又有一些现实因素影响调查估计量的精度，进而影响样本量。这些因素主要包括 – 总体指标的变异程度 – 总体大小， – 样本设计和所用的估计量 – 以及回答率 57 調查分析預測 MRAF 关于确定样本量的现实复杂考虑 • 11．总体的变异程度．总体的变异程度 – 随着调查总体中所研究指标的实际变异程度的增加，样本量也必须随之增大，以满足估计的精度要求。 – 为确保达到调查要求的精度，在计算样本量时，建议对某一指标的总体变异程度采取保守估计，即假定研究指标具有最大的变异程度。例如，对于二元变量，应该假定总体中该变量的变异程度为50％-50％对半平分，即假定p=0．5。 – 为确保样本量对所有的研究指标都足够大，应该根据最大变异程度或被认为最重要的指标来确定样本量。 58 調查分析預測 MRAF 关于确定样本量的现实复杂考虑 •• 22．总体大小．总体大小 – 在基本公式中，样本量的确定似乎与总体大小没有关系。因为当时假定在大总体中进行有放回的重复抽样，抽样总体的影响被忽略掉了。然而，在调研实践中，总体单元数量可能是有限的，而且可能采取非重复抽样，这时总体大小对样本容量的影响就应该被考虑进来了。在样本不放回的非重复抽样条件下样本均值的标准误表示为：抽样误差范围表示为：E ＝从上式中解得样本量：在样本不放回的非重复抽样条件下样本比例的标准误：抽样误差范围表示为：E ＝从上式中解得样本量： 59 調查分析預測 MRAF 关于确定样本量的现实复杂考虑 •• 33．样本设计和估计量．样本设计和估计量 – 当使用复杂的样本设计时，估计值可能比SRS精确。当估计值更精确时，称所采用的样本设计更为有效。因此，实际抽样时必须考虑实际所用抽样设计的效率，并对初始样本量做出调整。即，在SRS抽样的样本量计算公式基础上乘以一个设计效应因子。 – 设计效应(Deff)是指在给定抽样设计下估计值的抽样方差，与相等样本量下的简单随机抽样的估计值的抽样方差之比。设某一抽样设计样本估计值的方差为，同等样本量的SRS设计的样本估计值的方差为，则抽样设计效应： Deff = 显然，对于简单随机抽样设计，Deff=1；若Deff＜1，表明实际使用的抽样设计的效率高于简单随机抽样；若Deff＞1，表明实际使用的抽样设计的效率低于简单随机抽样。特定抽样设计所需的样本量（n1）调整为：n1=n0·Deff 60 調查分析預測 MRAF 关于确定样本量的现实复杂考虑 • 44．调查的回答率．调查的回答率 – 调查回答率是指调查回收的有效问卷数占计划访问的样本数量的百分比。在执行抽样过程中，会出现无效问卷，这意味着计划样本量中的一部分无法产生有效数据，并导致估计精度的降低。为达到估计精度的要求，调研机构需要根据预计的回答率调整样本量的大小，根据预计的回答率确定一个较大的样本。 – 预计的回答率是依据对同一总体的小范围的试点调查或者过去类似的调查得到的。 – 假设理论上确定的样本量为nt，预计回答率为r，则调整后的样本量n1就表示为： n1＝nt/r 61 調查分析預測 MRAF 基于现实考虑的样本量的计算以比例估计为例说明计算样本量的详细步骤如下：以比例估计为例说明计算样本量的详细步骤如下：第1步：计算初始样本量设允许的抽样误差范围为E，与给定置信水平相对应的标准值为Z，总体比例为 π。则初始样本量n0计算为：第2步：根据总体大小对初始样本量进行调整(两种方法) 一是在方差估计中直接考虑总体大小的调整因子：二是在初始样本量基础上乘上一个调整因子：第3步：对样本量进行设计效应调整在第2步基础上，根据实际使用的抽样设计(SRS以外的其他方法)效应对样本量进行调整：其中，对分层抽样设计，Deff＜1；对整群或多阶抽样设计，Deff＞1。第4步：根据预计回答率r再次进行调整，以确定最终样本量n3： 62 調查分析預測 MRAF 样本量计算的综合例题 • [例10．9] 某杂志社准备启动一项调研活动，以得到读者对该杂志综合满意度的估计值。订阅该杂志的读者总体主要由城市读者、乡村读者和海外读者三部分构成(分层数据见表10-12)。通过从三部分读者中各抽取一个SRS样本，得到一个分层随机样本。 • 假定该杂志社希望真实的总体比例落在样本估计值的±0．05范围内，并且调查估计值的置信度为95％。同时，预计回答率为65％。请问每一层应确定访问多少个订户？ • 再假定对每一层都要求样本估计值在95％的置信度下抽样误差范围为±0．05的估计结果，城市、乡村和海外三层读者的预计回答率分别为 65%、65%和50%。则所需样本量为多少？层数i 层次名读者数(N i ) 1 城市 500000 2 乡村 200000 3 海外 60000 合计 760000 63 調查分析預測 MRAF 各种运作限制对样本量影响的考虑 • 上述讨论仅涉及确定样本量问题中最重要的指标估计值的精度要求。然而实际上，不考虑时间和费用个因素是不可思议的。最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。 • 其它一些现场操作因素，如数据收集的方法，有否合适的现场调查人员、数据编码和审核人员，以及处理数据的设备等等，都会对样本量的确定产生一定的影响，甚至有时可能是决定性的。 • 最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。 64 調查分析預測 MRAF 本章小结 • 1）加权的含义和加权的基本形式 • 2）熟悉加权调整的方法 • 3）理解平均数的抽样分布与抽样误差 • 4）理解样本比例的抽样分布与抽样误差 • 5）了解正态分布及标准值的含义 • 6）均值和比例问题参数估计的思想和方法 • 7）了解估计精度与样本量的关系 • 8）初始样本量的计算及应用考虑 • 9）现实复杂情况下样本量的考虑和计算 65

联系我们

智库文档公众号

客服微信

MRAF-C10 抽样估计与样本量确定.ppt

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多