练习
• 人群总数10000(男4000人,女6000)
• 分层抽样,男性抽100人,女性抽1000人,共1100人
• 样本中共105人抽烟,其中男性55人,女性50人
问:人群总吸烟率是多少?
练习
• 人群总数10000(男4000人,女6000),抽取样本男
100人(55人抽烟), 女1000人(50人抽烟)。
• 问:人群总吸烟率是多少?
–直接算法:总吸烟率 = (55+50)/(100+1000) = %
–正确算法:男4000抽100,每人代表40人(W=40)
女6000抽1000,每人代表6人(W=6)
总吸烟率 = (55*40+50*6)/(100*40+1000*6) = 25%
调查的分类
• 普查(全面调查)
• 典型调查(案例调查)
• 抽样调查
普查 Census
• 人群中每个人都调查
• 没有抽样误差
• 人群很小时可以使用
• 人群数很大时耗费人、财、物力,质量不易控制,
非抽样误差大
• 不适于患病率低和诊断技术比较复杂的疾病
• 无应答率常常较高
典型调查(案例调查)
有目的地选定典型的人、单位进行调查,对事物
特征作深入了解。
没有随机原则,不能估计总体参数,只能对总体
特征作经验推论,不属于统计推断的范畴
抽样调查
抽样调查:从总体中抽取一定
数量的观察单位组成样本,根据
样本信息来了解总体特征。
基本概念
• 总体:根据研究目的确定的同质观察单位的全体
• 样本:从总体中随机抽取的部分观察单位的总和
• 抽样的目的:用样本信息推断总体特征
• 抽样误差: 由抽样造成的样本信息偏离总体参数
• 可计算总体参数的95%可信区间
• 95%可信区间:以样本信息推论总体时,计算出
的可信区间有95%的概率覆盖总体参数。
高血压患病率为20%(15%-28%)
高血压患病率为18%(4%-51%)
• X市居民甲状腺结节患病情况调查:在沿海地区、山区、平
原地区各随机抽取1个村庄,每个村中再随机抽取100户家
庭,每个家庭的全部成员作为调查对象。
• 在某地区的医院进行医院感染情况的抽样调查,抽中40所
医院。实施过程中,有些医院不配合。可根据医院特征
(如同级、同类、病床数)替换愿意配合的医院。
• 调查某地区腹泻患病率,采用多阶段抽样方法。第1阶段:
兼顾地理位置、经济水平、人口数量、工作基础和意愿,
选择A县、B县,C区和D县作为调查点;第2阶段……
• 在某地区进行某病患病率调查,将乡镇按收入水平分层3
层(高中低三层分别有150、120、100个乡镇),在每层
各抽取10个乡镇,每个乡镇再各随机抽取2个村庄,抽中
村庄内居民全部调查。
• 抽样方法设计如何?
• 每个村庄约60人,共调查到2400人,其中240人患病,患
病率为多少?
两类抽样方法
• 非概率抽样:无法确定被调查对象的概率,无法
推断总体,常用于探索性研究
– 碰巧抽样或方便抽样:超市里走出的前10个人
– 意图抽样:调查者有意的抽取某些对象,认为能代表
某类人群。如:选择一个大城市,一个城镇,一个乡
村地区
– 滚雪球抽样
• 概率抽样:每个个体有一个可计算的非零概率,
可计算抽样误差,可推断总体
概率抽样调查 Sample surveys
• 按一定的概率,在人群中抽取一部分人来调查
• 以样本统计量估计总体参数
• 节省时间、人力、物力,调查可以做得更细致
• 不适用于患病率很低疾病
常用概率抽样的方法
• 简单随机抽样
• 系统抽样(等距抽样、机械抽样)
• 分层抽样(分类抽样)
• 整群抽样
单纯随机抽样 Simple random sampling (SRS)
将总体的全部观察单位编号,再用随机数字等方法
随机抽取部分观察单位组成样本
例:某中学2100名学生,随机抽200人估计近视率
• 先将所有学生编号:1,2,3,4…,2100
• 查随机数字表 6394 0710 6376 3587 0304 7988……
94 710 76 1487 304 1688……
注意:8400以上的数字不要
• 产生随机数字: =rand() =randbetween()
随机数字发生器 (练习)
1, 2, 3, 4,……
2100
2101,2102,2103,2104,
……4200
4201,4202,4203,4204,
……6300
6301,6302,6303,6304,
……8400
8401,8402,8403,8404,
…9999…10500
1600个数
2100个数
1600个数 500个数
单纯随机抽样
• 优点:均数(或率)及标准误的计算简单
• 缺点:总体例数多时,需有全部名单,编号
系统抽样
将全部观察单位根据某一顺序编号,计算抽样间隔,随机
抽第k号(小于抽样间隔)观察单位,然后依次用相等间
隔抽取观察单位组成样本
• 先将所有学生编号:1,2,3,4…,2100
• 确定抽样间隔:2100/200=(人),取10
• 在1-10之间随机找一个数字,例如4
• 依次机械抽取:14,24,34,… ,1994,2004
系统抽样
• 优点:
– 易于理解,易行
– 样本是均匀分布的,抽样误差小于单纯随机抽样,对
样本进行方差估计时,可以将它看成是SRS
• 缺点:
– 当抽样单位的排列有周期趋势时,抽样结果可能有偏
差
根据样本量估算,需要抽取该社区1/10的儿童采血检测;
每个家庭有门牌号,从1-2000号,单号一排,双号一排。调
查者首先用随机数字表从1-10中选一个数字,然后用系统随机
方法抽取该街道的1/10有儿童的家庭。
•这一抽样方法有什么潜在问题?
在农村某地区开展儿童维生素D缺乏调查
分层抽样
按影响较大的某种特征将总体分成若干组(统计上
叫做”层”),再从每一层内随机抽取一定数量的
观
察单位
• 分层变量最好是层间差别大,层内差别小
• 层内样本量分配
– 按比例分配
– 等额分配
– 最优分配
• 按照性别分层,男生和女生
• 每层中随机抽取100名学生
层1 层2 层3
总体
层1 层2 层3
总体
分层抽样
• 优点:
– 减少抽样误差,分层后增加层内同质性
– 便于对不同的层采取不同的抽样方法,如城乡分层
– 还可对不同层独立进行分析(各层要满足样本量)
整群抽样
先将总体分成若干个群,每个群包括若干观察单位,
再随机抽取k个群,每个群的全部观察单位组成样
本
Population of L strata, stratum l contains
nl units
Population of C clusters
Take SRS in every stratum Take SRS of clusters, sample
every unit in chosen clusters
整群抽样
群间差异越小、抽取的“群”越多,精度越高,样
本量确定后,宜增加“群”数而减少群内的观察数
• 学校共有70个班(各个班级情况相似时比较好)
• 随机抽取20个班(各班人数越少,抽班级数越多越好)
• 20个班级的所有学生都调查
整群抽样
• 优点:
–便于组织、节省经费,容易控制调
查质量
• 缺点:
–当样本例数一定时,抽样误差大于
单纯随机抽样的误差
– 抽取的群数应尽量多(>15个),群数太少抽
样误差大
各种抽样方法的方差
分层抽样 < 系统抽样 < 单纯随机抽样 < 整群抽样
设计效力(Design Effect):样本
量不变时,实际抽样方法的方差
与单纯随机抽样的方差的比值
Ratio of actual variance to
variance assuming SRS, given
same n
DE一般为-3
多阶段抽样
• 单阶段抽样:四种基本抽样方法都是通过一次抽样产生一个
完整的样本
• 多阶段抽样:总体大,情况复杂,分布广,可分若干阶段进
行抽样,每个阶段可用上述四种方法中任意一种进行抽样
• 例:在某省进行某项调查:
o 第一阶段:用系统抽样法随机抽取30个县
o 第二阶段:用SRS法每县抽取10个自然村
o 第三阶段:用SRS法每村抽取10名村民
– 第1阶段为初级抽样单位PSU(primary sampling unit)
– 第2阶段为二级抽样单位SSU(second sampling unit)
– 第3阶段为三级抽样单位TSU(tertiary sampling unit)
初级抽样单位多,调查结果抽样误差小,精度高
建议不少于10-15个
• 第1阶段:50个班级中随机抽取20个班级
• 第2阶段:每个抽中班级中随机抽取3个小组
• 第3阶段:每个小组中随机抽取4名学生
初级抽样单位:班级
二级抽样单位:班级里的小组
三级抽样单位:学生
阜阳市各级医疗机构治
疗发热
儿童用药现况调查
• 2008年安徽省阜阳市发生EV71手足口病疫情
– 3月1日至5月9日共报告6049病例
– 99%的为14岁以下儿童
– 大多数病例以急性发热起病
• EV71重症危险因素研究发现
– 首诊在村级医疗机构
– 氨基比林和激素类药物
调查目的
• 了解阜阳市各级医疗机构治疗发热儿童的用药现
状
• 发现存在的问题及影响因素
• 为规范发热儿童用药提供依据
调查对象和内容
• 各级医疗机构的儿科医生:访谈用药习惯
• 各级医疗机构发热儿童的治疗处方:各种药物的
使用情况
样本量计算
• 根据简单随机抽样计算公式,以氨基比林使用比
例为p,σ=5%,设计效率
• 根据预调查获得各级医疗机构氨基比林使用比例
计算样本量
• 市级和县级共8家医院
• 乡镇卫生院171所
• 村诊所:每个乡镇有20-40所左
右
• 调查3-6月份的各级医院的处方
用药情况,如何抽样?
处方:分层多阶段抽样
• 抽取市(县)、乡镇及村级医疗机构
市、县级医院:8所全部调查
乡镇医院:171所中随机抽取30所
村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机
抽取1-2个村卫生室,共40所
• 抽取各医院2008年3-6月治疗发热儿童的用药处方
市、县级医院:每月随机抽取8张,共32张
乡镇医院:每月随机抽取4张,共16张
村卫生室:每月随机抽取2张,共8张
医生:分层多阶段抽样
• 抽取市(县)、乡镇及村级医疗机构
市、县级医院:8所全部调查
乡镇医院:171所中随机抽取30所
村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机
抽取1-2个村卫生室,共40所
• 抽取到医院的儿科医生全部调查
某市医务人员甲型H1N1
流感疫苗接种意愿调查
背 景
• 2009年甲型H1N1流感大流行,防控工作再次成为
全球关注焦点
• 流感疫苗----有效防控流感的手段
WHO和我国准备为医务人员优先接
种甲型H1N1疫苗
• 医务人员是特殊群体,非常重要:
–救治病人的中坚力量
–暴露的高风险人群
–感染后易传给患者,医院内传播
• 文献显示医务人员流感疫苗接种
率较低
目的
• 了解该市医护人员接种甲型H1N1疫苗的意愿,分
析不愿接种的原因,为政府制定流感疫苗接种策
略提供科学依据
研究人群:该市医护人员
如何抽样?
采用分层二阶段抽样方法
• 第一阶段:先抽医院
• 第二阶段:再抽取医护人员
第一阶段抽取多少医院合适?
• 抽取5家?
• 抽取10家?
• 抽取20家?
• 抽取30家?
• 抽取50家?
抽取的Cluster越少,抽样误差越大
• 数理统计推理和中心极限定理表明,从正态总体中随机抽取例数为n的样本,
样本均数服从正态分布
• 对样本均数这个正态变量采用u=(样本均数-总体均数)/σ变换,变换为标准
正态分布N(),即u分布。
• 实际工作中σ往往是s来估计的,这时就是t变换了,其结果就是t分布
• 可信区间估计时,因为σ未知,一般按照t分布的原理,
95%CI=Xbar± SE
ν=1, t=
ν=2, t=
ν=3, t= , (ν=10) (ν=20) (ν=30)
(ν=infinite)
随着cluster增加,95%CI越精确
•假设医院疫苗接种意愿率≈50%
,
•抽4家,95%CI:44%-56%
•抽8家,95%CI:%%
•抽13家,95%CI:%%
•抽18家,95%CI:%%
采用分层二阶段抽样方法
• 第一阶段:共随机抽取30家医院,其中:
三级医院抽取5家
二级医院抽取10家
一级医院抽取15家
• 第二阶段:抽取医护人员
每家医院中随机抽取若干名医护人员
每家医院中抽取多少名医护人员?
估计总体率的样本量(按简单随机抽样计算)
α=,Uα=, p=估计总体率,
δ =容许误差,一般取总体率95%可信区间宽度的一半
医护人员甲流疫苗愿意接种率50%,α=,δ=±5%
如果p=,则 n= ××()/ ≈400 人2
2
两阶段抽样,样本量需要乘以设计效力
• 两阶段抽样的抽样误差大于单纯随机抽样
• 本次抽样方法需要乘以设计效力,2
共需约800名医护人员
• 失访率10%,约900人
900名样本的分配
900名样本的分配:等额分配
• 什么是PSU?
• 什么是分层变量?
假如是单纯随机抽样,总体率的计算
该市医护人员中,接种意愿率为:%
95%CI:%%
900名医护人员中,449名愿意接种,
意愿接种率点值估计:
95%CI估计:
练习计算
权重调整
• 权重的大小:weight=1/抽样概率
• 每名个体抽样概率不等时,需要按照权重进行调
整
• 权重调整的目的:使调整后样本人群的特征与总
体人群特征一致
如:总体为3000人,男女比例1:1
样本中男生抽100人,女生抽200人
男生
100 女生
200
女生=1500男生=1500
男生抽样概率=100/1500= 1/15
女生抽样概率=200/1500= 2/15
男生权重=1/(1/15)=15
女生权重=1/(200/1500)=
• 复杂抽样方差与SRS不同,需用特殊软件计算
oEpiInfo有三个模块,可以进行复杂抽样的一些基本分析
Complex Sample Frequencies
Complex Sample Tables
Complex Sample Means
o更为复杂的计算需要用其他软件
o SAS, SUDAAN, SPSS, STATA
区间(方差)估计
计算时需要PSU和权重!
三级医院共抽取5家(共18家),每家被抽中概率
p1=
二级医院共抽取10家(共25家),每家被抽中概率p1=
一级医院共抽取15家(共45家),每家被抽中概率p1=
三级医院共抽取5家,每家被抽中概率p1=
二级医院共抽取10家,每家被抽中概率p1=
一级医院共抽取15家,每家被抽中概率p1=
按权重调整的意愿接种率
权重调整的意愿接种率:%
95%CI:41%—%
两个率的比较
• 医生和护士的接种意愿率是否有差别?
• 看医生和护士的接种意愿率95%CI是否互相包含
– 互相包含:无差别,互相不包含:有差别
– 使用Epi info复杂抽样模块
医生接种意愿44%(38%-51%)
护士接种意愿 45%(41%-50%)
三个率的比较
• 不同级别医院医护人员的接种意愿率是否有差别
?
• 看不同级别医院的医护人员接种意愿的95%CI是
否互相包含
三级医院接种意愿 41%(37%-45%)
二级医院接种意愿47 %(35%-58%)
一级医院接种意愿60 %(56%-64%)
学到了什么?
• 加权后的统计量与不加权的统计量一般是
不同的
• 不用加权可能会得出错误的统计推论!
• 记住!复杂抽样设计需用复杂抽样方法来
分析!
• 95%可信区间:以样本信息推论总体时,计算出
的可信区间有95%的概率覆盖总体参数。
• 容许误差:在抽样调查时,调查者所要求的精确
度不是百分之百,而是在设定总体参数上下各多
少百分点作为误差容许范围,称为容许误差。
• 对正态变量采用u=(X-μ)/σ变换,则将一般的正太分布
N(μ ,σ2 )变换为标准正态分布N(0,1)
• 数理统计推理和中心极限定理标明,从正态总体中随机抽
取例数为n的样本,样本均数Xbar服从正态分布
• 标准误= σ/根号n
• 实际工作中标准误往往是用sxbar来估计的,这是对正态
变量Xbar采用的不是u变换而是t变换了
• t分布的峰部较矮尾部翘得较高,说明远侧的t值个数较多,
自由度ν越小越明显, ν逐渐增大时,t分布逼近标准正态
分布
•有限总体校正公式Square root
(N-n)/(N-1)
Epi info中估计总体率的样本量——
Utilities菜单的StatCalc模块
要求输入三个参数
目标人群数
估计总体率
容许误差δ