来自 www. 中国最大的资料库下载
抽样设计和样本量的确定
本章主要内容
一、定义总体
二、确定抽样框架
三、选择抽样技术
四、确定样本容量
五、执行抽样过程
抽
样
设
计
过
程
来自 www. 中国最大的资料库下载
一、定义总体
定义目标总体
• 目标总体:是指拥有研究人员所要寻找的信息的个
体或物体的集合。
• 目标总体必须被精确的定义,不精确的定义总体将会导
致研究无效,甚至误解;
• 目标总体应该根据个体、抽样单位、范围和时间来定义;
• 个体是这样一个物体,关于它的信息或者来自它的信息是我们
想要的;
• 抽样单位是指在抽样过程中的某一阶段可供选择的个体,或者
包括这个个体的单位;
• 范围指的是地理边界;
• 时间因素是指的调研的时间周期。
统计推断过程
总体总体
样本样本
样本统计量样本统计量
((XX))
总体参数估计总体参数估计
来自 www. 中国最大的资料库下载
二、确定抽样框架
确定抽样框架
• 抽样框架指的是目标总体中的个体的表示法,它
由一份或一组用于识别目标总体的指示说明组成
• 电话本、公司名的协会目录、邮寄名单、姓名地址录或
者地图
• 可能造成抽样框架误差。
• 有三种办法处理抽样框架误差:
• 根据抽样框架重新定义总体;
• 通过数据收集阶段的筛选被访者来考虑抽样框架误差;
• 通过加权的方案来调整所收集的数据,弥补抽样框架误差。
来自 www. 中国最大的资料库下载
三、选择一种抽样技术
抽样技术的分类
• 抽样技术可以被宽泛地分为非概率抽样和概率抽
样
• 非概率抽样依赖于研究人员的个人判断而非随机选择样
本个体;
• 可以对总体的特征很好的估计;
• 无法对样本结果的精确度作出客观的评价。
• 概率抽样随机选择样本单位,选择每个样本的概率相等
• 每个样本不一定有相同的选择概率,但可以指定选择任一给定
大小的特定样本的概率;
• 可以确定样本估计值的精确度;
• 可以根据个体抽样对整群抽样、相等单位概率对不等概率、非
分层抽样对分层抽样、随机选择对系统选择、单阶段技术对多
阶段技术,这5个方面所有的可能组和分成32种不同的抽样技
术。
抽样技术的分类
抽样技术
非概率抽样 概率抽样
便利抽样 判断抽样 配额抽样 滚雪球抽样 简单随机抽样
系统抽样
分层抽样
整群抽样
便利抽样
• 以研究者或访问者方便来选择被访者,通常被访
者由于碰巧在恰当的时间正处在恰当的地点而被
选中
• 使用学生以及社会组织成员;
• 商场拦截购物者;
• 使用费用帐目清单确定的百货商店;
• “街上的行人”访谈。
• 便利抽样在所有抽样技术中成本最低、耗时最少,
抽样单位易于接近;
• 不能代表总体。
判断抽样
• 判断抽样是便利抽样的一种形式,根据研究人员
的判断选出总体中的个体
• 进行判断的研究人员或专家选出要被包括进样本的个体
• 是主观的判断,其价值完全取决于研究人员的判断、专
业知识以及创造力
• 缺点是不支持特定总体的直接推断
• 优点是成本低、便利且快速
配额抽样
• 配额抽样可以被看成两阶段有约束的判断抽样
• 第一阶段,由确定总体中的个体的控制类别或者配额组
成,配额确保了样本的组成与总体的组成在特定特征方
面相同;
• 第二阶段,样本个体在便利或者判断的基础上被选择出
来
• 缺点是缺乏对总体的代表性,无法计算抽样误差
• 优点是低成本,并且为每个配额选择个体对访谈
人员而言较为容易
滚雪球抽样
• 通常是先选出一组最初的调查对象,通常是随机
选出的,在访谈之后,要求这些被访者推荐一些
属于目标总体的其他人,根据这些推选出后面的
被访者。
• 与随机的方式相比,被推举的人将具备与推荐人更为翔
实的人口及心理特征。
• 主要目的是估计总体中非常稀少的某些特征。
• 缺点是这种方式非常耗时。
简单随机抽样
• 在简单随机抽样中,总体中每一个个体都有一个
已知且相等的抽中概率
• 首先确定一个抽样框架,其中的每一个个体被分配了一
个唯一的号码
• 然后产生出随机的数字来确定那些个体被包括进样本中
• 盲选 Blind Draw
• 随机数表 the table of random number
• 优点是易于理解,样本结果可以推断总体,大多
数统计推论方法都假定数据是由简单随机抽样法
法获得的
• 局限性:抽样框难以构建;数据收集时间和成本
高;比其他概率抽样精确度低,标准差较大。
系统抽样
• 在系统抽样中,通过选择一个随机的起点,然后
从抽样框架中连续地每隔i个个体选出一个个体,
从而选出样本。
• 这种方法成本较低,因为只需要做一次随机抽样
• 可以在不了解抽样框的组成的情况下进行
分层抽样
• 分层抽样是一个两阶段过程,总体被分割为子总
体,或称为“层”后,再用随机方法,从每一层
中选出个体。
• 各层间应相互独立,并且全体上没有遗漏;
• 与配额抽样法法的不同是自总体的样本选取是随机的;
• 分成抽样可以确保子总体在样本中都得以体现。
整群抽样
• 首先将目标总体分为相互排斥且没有遗漏的子总
体,或称群,然后根据一种概率抽样技术,选出
各群的一个随机样本
• 可分为单阶段整群抽样与二阶段整群抽样;
• 与分层抽样的关键差别在于,在整群抽样中,只有一个
子总体的样本被选出,而在分层抽样中,为了进一步的
抽样,所有的子总体都被选出来了;
• 整群抽样的目的是通过降低成本来增加抽样效率,分层
抽样的目的是增加精确度。
• 在每个群的中的各体,应尽可能的异质性,但各群本身
应尽可能的同质。
在概率抽样与非概率抽样间作抉择
决择考虑方面
有利于使用的条件
非概率抽样 概率抽样
研究的性质 探索性 描述性
抽样误差与非抽样误差的相对大小 非抽样误差较大 抽样误差较大
总体的变异程度 同质(低) 异质(高)
统计上的考虑 不利 有利
操作上的考虑 有利 不利
来自 www. 中国最大的资料库下载
四、确定样本量
确定样本容量的方法
• 样本容量的确定通常是介于理论上的完善方案与
实际的可行方案之间的一个折中方案。
• 教条式方法
• 成本基本法
• 统计分析法
• 置信区间法
教条主义方法
• 任意方法也许基于经验,如5%规则
• 具有主观性
• 优点:容易确定,简单易行
• 缺点:无效率、不经济
研究类型 最小量 典型范围
问题鉴别研究 500 1000-2000
问题解决研究 200 300-500
产品测试 200 300-500
试销研究 200 300-500
广告研究 150 200-300
成本基础法
• 将成本作为确定样本容量的基础
• 对于成本基础法的区别很大;
• 通常会忽视调查结果对管理决策的价值;
• 确定样本容量一个好的办法是考虑成本与调研对于经历
的价值之间的关系;
统计分析法
• 一些统计分析方法对最小样本容量有要求
• 如果要讨论分类变量的影响,那么每一分类变量的样本
数应符合统计分析数的需要
• 要将每一类样本或子集看成一个总体
置信区间法
• 运用差异性置信区间、样本分布以及平均数标准
误差或百分比标准误差等概念来创建一个由小样
本
• 差异性是指受访者对某一特定问题的答案在相异性(或
相似性)方面的总括。
• 如果多数回答都接近同一个数字,而且大多数的回答都集中
在某一小范围内,则差异性小;反之,则差异性大。
• 数据的差异性可以用标准差来度量,即差异的平均程度。
置信区间法
• 置信区间的概念,是一个范围,其终点指定了对于一个
问题的某一应答百分率。
• 正态曲线的属性是,标准分布的倍从理论上表示95%的分布
点,标准分布的倍表明了99%的分布终点;
• 95%置信区间=[平均值标准差,平均值+标准差]
• 标准差越大置信区间就越大
• 抽样分布
置信区间法
• 平均数标准误或百分比标准误差的概念
• 标准误差表示实际总体值与所预期的典型样本结果的差距。
• 平均数标准误差公式
• 百分比标准误差公式
• 样本容量越大,则标准差越小;反之亦然。
用置信区间的方法计算样本容量
• 在计算样本容量时,我们要考虑三个因素:
• 可确信的总体差异性大小
• 期望精确度
• 估计总体值所需要的置信度
• 用百分率确定样本容量
• 最大的差异性是50%,
• e为可接受的精确度,精确度高则百分率小,如 2%。
用置信区间的方法计算样本容量
• 用平均数确定样本容量
来自 www. 中国最大的资料库下载
五、执行抽样过程