如何合理选择抽样样本数
一、研究介绍:
研究背景:众所周知,抽样样本数的大小对调查结果的准确度有很大的影响,从统计上可
以计算出每个抽样样本数所对应的抽样误差有多少。但大多数客户对抽样误差缺乏直观的感
觉,无法清晰了解应该选择多大的抽样误差才能满足自己的实际需求,因此也就无从有效控
制成本。另外,对于定性研究来说,也需要采用另外的指标来衡量多大的样本量才能满足定
性研究的需求。
研究课题:1. 定性研究应该采用多大的样本量才能有效解决问题?
2. 定量研究中,采用不同数量的抽样样本,可达到怎样的研究效果?
研究方法:我们以过往某个调查项目的总样本数(4450 样本)为母体样本,从中分别随机
抽取 5 样本,10 样本,20 样本,30 样本,50 样本,80 样本,100 样本,200 样本,300 样
本来比较其结果,为了充分了解每种样本量的抽样结果,每种样本量重复抽取 30 次。对比
的问题指标为:不提示品牌知名度。
二、研究的主要结论:
样本量 特点
5
l 只能获得一半的答案。
l 保证得到前 2 个主要的答案。
10
l 答案获得率达到 70%。
l 保证得到前 5 个主要的答案。
15
l 答案获得率达到 80%。
l 保证得到前 8 个主要的答案。
建议作为定性研究的最低样本量。
20
l 答案获得率达到 85%。
l 保证获得前 10 个主要的答案。
30
l 答案获得率达到 90%。
l 保证获得前 12 个主要的答案。
l 可粗略量化分辨出高、中、低结果
建议作为定量研究中一个细分配额的最低样本数。
50 l 答案获得率,精确度比 30 样本量要高一些。
100
l 答案获得率接近 100%。
l 抽样误差约为+10%,调查结果可以反映市场的大体情况,但数据排名仍
然有一定的误差。
建议用于项目中各分城市的最低样本数。
150 l 抽样误差比 100 样本量略佳,调查结果更接近现实,不过差别不会太大
200
l 答案获得率稳定为 100%。
l 抽样误差缩小至约为+7%,结果很接近真实值,但多次抽样结果仍然有结
果不稳定的情况。
建议用于市场描述性或问题诊断性研究项目,但不适合用于连续跟踪性
的研究
300
l 抽样误差为+%,调查结果基本上与现实一致,数据准确度和稳定性都
很好。
建议作为 U&A 研究和各类跟踪性研究的基础样本。
三、详细研究分析
(一)定性样本需求分析
1、答案获得率分析
概念:答案获得率是指在调查中的答案个数与实际总体答案个数的比例。 定性
研究是属于探测性研究,因此不太在乎量化的数据,而会更关注能否获得足够的
答案数以供进一步的定量研究,也就是说答案获得率是否足够。
在本次研究中,采用的 4450 个母体样本中,果汁品牌共有 17 个,也就是说
实际总体答案个数就是 17 个。因此,我们只需要对比每种抽样样本量下的平均
答案个数,就可以知道该抽样样本量的答案获得率。
统计结果如下表:
从上面图表可得出,5 样本的调查仅能拿到一半的答案,10 样本获得七成的答案,
15 样本可得到 80%的答案,而 30 样本是拐点,再得到 90%的答案后,再增加样
本量对答案获得率的帮助不大。
2、主要答案获得率
进一步分析,我们需要了解各种抽样样本是否能得到主要的答案。下面是 17
个果汁品牌的不提示知名度,不提示知名度的高低代表了这个品牌的广泛性。以
下是每种样本量下的各答案获得率。从图中可以看到,5 样本量只能保证获得知
名度最高的两个品牌,而 10 样本量可以保证获得不提示知名度在 20%以上的 5
个品牌,而 15 样本量及 30 样本量可以保证获得不提示知名度在 10%以上的品牌。
3、小结
综合前面两点分析,我们可得出结论:定性研究最低需要 15 样本或 2 组座谈会
的量,才能获得大部分的答案并覆盖到主要的答案。如果需要对比研究细分群体,
则每个细分群体也应该最少是 2 组座谈会放可保证效果。
(二)定量样本需求分析
(1)抽样误差分析
抽样误差是评估样本量的一个常用指标,我们的研究人员计算出了在 95%
的置信程度下各样本量的抽样误差,具体结果如下图:
(2)实际的调查结果分析
知道了抽样误差,大多数客户仍然很难知道应该如何根据实际情况选择抽
样样本数。因此,我们在这部分会用图像来展示各种抽样样本量的调查结果,去
更好地了解不同样本量可达到的研究效果。
1、20 样本: 调查结果与真实值相差很大,基本不能反映统计意义
2、30 样本:调查结果基本可以分出高、中、低的区别,但多数值与真实值有一
定的误差
3、50 样本:调查结果同样可以分出高、中、低的区别,但有 2-3 个数值会与真
实值有较大背离
4. 、100 样本:调查结果开始接近现实,能反映市场大致情况,但数据排名的稳
定性不够,不能作为跟踪对比的依据
5、150 样本量 :调查结果更接近现实,误差明显减少,但仍然不够稳定。
6、200 样本量 :调查结果相当接近真实情况,30 次可能会有一次与真实的排名
有误差。
7、300 样本量:调查结果基本上与现实一致,是非常优秀的定量研究调查样本
量
(3)小结
30-50 样本可作为量化分辨高、中、低结果的基本样本。当样本量达到 100
的时候,抽样的调查情况可以反映市场的大体情况,但作为排名的结果依据仍然
不充分。而样本量上升至 200 的时候,结果很接近真实值,但多次抽样结果仍然
有不稳定的情况,用于跟踪研究并不太妥当。300 的样本量在准确性及稳定性都
相当好,是优秀的定量研究样本量。
总结
综合以上所述,下表整理了我们所研究的各个样本量的特点以及可以达到
的研究效果:
样本量 特点
5
l 只能获得一半的答案。
l 保证得到前 2 个主要的答案。
10
l 答案获得率达到 70%。
l 保证得到前 5 个主要的答案。
15
l 答案获得率达到 80%。
l 保证得到前 8 个主要的答案。
建议作为定性研究的最低样本量。
20
l 答案获得率达到 85%。
l 保证获得前 10 个主要的答案。
30
l 答案获得率达到 90%。
l 保证获得前 12 个主要的答案。
l 可粗略量化分辨出高、中、低结果
建议作为定量研究中一个细分配额的最低样本数。
50 l 答案获得率,精确度比 30 样本量要高一些。
100
l 答案获得率接近 100%。
l 抽样误差约为+10%,调查结果可以反映市场的大体情况,但数据
排名仍然有一定的误差。
建议用于项目中各分城市的最低样本数。
150
l 抽样误差比 100 样本量略佳,调查结果更接近现实,不过差别不
会太大
200
l 答案获得率稳定为 100%。
l 抽样误差缩小至约为+7%,结果很接近真实值,但多次抽样结果
仍然有结果不稳定的情况。
建议用于市场描述性或问题诊断性研究项目,但不适合用于连续
跟踪性的研究
300
l 抽样误差为+%,调查结果基本上与现实一致,数据准确度和稳
定性都很好。
建议作为 U&A 研究和各类跟踪性研究的基础样本。