第三章
抽样误差与t分布
如:总体均数
总体标准差
如:样本均数
样本标准差S
总体 样本样本
抽取部分观察单位
统计量统计量参参 数数
统计推断
统计推断
在医疗卫生实践和医学研究中,往往难以对所要
研究的总体进行全部观察,通常从总体中随机抽
取样本进行观察,然后由样本的信息去推断总体
特征,这种研究方法叫做抽样研究方法。
用样本的信息去推断总体特征,这种分析方法称
为统计推断。
基本手段
直接推断(参数估计)
间接推断(假设检验)
总体参数的估计
• 均数的抽样误差
• t分布
• 总体均数的估计
抽样误差的定义
• 假如事先知道某地七岁男童的平均身高为。为了
估计七岁男童的平均身高(总体均数),研究者从所有符
合要求的七岁男童中每次抽取100人,共计抽取了三次。
μ=
σ=
三次抽样得到了不同的结果!!!!
原因何在????
如果没有个体变异……
No Variation!
No Sampling Error!
No Random
sampling!
No Sampling Error!
如果没有抽样研究……
• 三次抽样得到了不同的结果,原因何在?
个体变异 随机抽样
不同男童的
身高不同
每次抽到的
人几乎不同
抽样误差
【定义】由于个体变异的存在,在抽
样研究中产生样本统计量和总体参数
之间的差异,称为抽样误差
(sampling error)。
各种参数估计都有抽样误差,这里我们以均
数为研究对象
抽样误差产生的条件
• 抽样研究
• 个体变异
抽
样
误
差
的
表
现
样本均数和
总体均数间
的差别
样本均数和
样本均数间
的差别
抽样误差是不可避免的,可以通过保证总体
的同质性及增大样本含量来缩小抽样误差。
从正态分布总体N(,)中,每
次随机抽取样本含量n=5,并计算其均数与标
准差;重复抽取1000次,获得1000份样本;计
算1000份样本的均数与标准差,并对1000份样
本的均数作直方图。
按上述方法再做样本含量n=10、样本含
量n=30的抽样实验;比较计算结果。
抽样误差的规律性
—正态分布抽样正态分布抽样
抽样试验(n=5)
抽样试验(n=10)
抽样试验(n=30)
1000份样本抽样计算结果
总体的
均数
总体标
准差
均数的
均数
均数标准差
n=5
n=10
n=30
3个抽样实验结果图示
非正态分布抽样
• 分别从各总体中抽取10000个样本含量为
n的样本,计算每个样本的均数,并绘制
频数分布图。
• n分别取2、4、10、25。
偏三角分布抽样
均匀分布
指数分布
双峰分布
• 从正态总体中随机抽样,其样本均数服从正
态分布;
• 从任意总体中随机抽样,当样本含量足够大
时,其样本均数的分布逐渐逼近正态分布;
• 样本均数之均数的位置始终在总体均数的附
近;
• 随着样本含量的增加,样本均数的离散程度
越来越小,表现为样本均数的分布范围越来
越窄,其高峰越来越尖。
中心极限定理
从正态总体中随机抽取例数为n的样本,样
本均数x也服从正态分布,即使从偏态总体
中抽样,只要样本例数足够大,如n>50,
样本均数x也近似正态分布。
从均数为 ,标准差为的正态总体中随机
抽取例数为n的样本,样本均数的总体均数
为 ,标准差为x
中心极限定理
标准误的定义
样本统计量(如均数)也服从一定的分布。
与描述观测值离散趋势的指标类似,样本统
计量的标准差就反映了从某个总体中随机抽
样所得样本之均数分布的离散程度。
用样本统计量的标准差来反映抽样误差的大
小。又称标准误(standard error)。
x 标准误
x = / n
sx = s / n
标准误的意义
反映了样本统计量(样本均数,样本率)分布的
离散程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率)
的离散程度越大,即用样本统计量来直接估计总体
参数越不可靠。反之亦然。
标准误的大小与标准差有关,在例数n一定时,从
标准差大的总体中抽样,标准误较大;而当总体一
定时,样本例数越多,标准误越小。说明我们可以
通过增加样本含量来减少抽样误差的大小。
用途:用途:
(1)衡量样本均值的可靠性
(2)估计总体均值的可信区间
(3)用于均数的假设检验
t分布
随机变量X
N(,s2)
标准正态分布
N(0,12)u变换
标准正态分布
N(0,12)
均数
Student t分布
自由度ν=n-1
t变换
由. Gosset提出
t= x-
s/ n
对于不同的n,有不同的t分布曲线。
(n-1)称为
t分布的自由度
f(t) =∞(标准正态曲线)
=5
=1
-4 -3 -2 -1 0 1 2 3 4
自由度分别为1、5、 ∞时的 t 分布
t分布的特征:
①t分布为一簇单峰分布曲线。
②t分布以0为中心,左右对称。
③t分布与自由度ν有关,自由度越小,t分布的
峰越低,而两尾越高;自由度逐渐增大时,t分
布逐渐逼近标准正态分布;当自由度为无穷大
时,t分布就是标准正态分布。
t分布曲线下面积规律
• t分布曲线下总面积仍为1或100%
• t分布曲线下面积以0为中心左右对称
• 由于t分布是一簇曲线,故t分布曲线下面积固定
面积(如95%或99%)的界值不是一个常量,而是
随自由度的大小而变化
• 其通式为
单侧:P(t≤-t,)=或P(t≥t,)=
双侧:P(t≤-t/2,)+P(t≥t/2,)=
• 图中非阴影部分面积的概率为,
P(-t/2,<t<t/2,)=1-
t分布的界值
t,
检验水准
(尾端概率)
自由度
在t 检验中很重要
t 界值表
横标目:自由度, υ
纵标目:尾端概率, p, 即曲线下阴影部分的面积;
表中的数字:相应的 |t | 界值。
附表2,t分布表的特点
• 附表2的横标目为自由度,纵标目为概率P,表
中数值为其相应的t界值,记作t, 。
• 附表2只列出正值,若计算的t值为负值时,可用
其绝对值查表 。
• 附表2右上附图的阴影部分表示t,以外尾部面积
的概率 。
单侧,30=,表示ν=30时,t≥的
概率或t≤的概率为,记作P(t ≤-
)=或P(t ≥)=;
双侧,30=,表示ν=30时, t≥的
概率和t≤的概率之和为,记作P(t
≤)+ P(t ≥)=
图中非阴影部分面积的概率为:
P(-α/2,ν<t< tα/2,ν)=1-α
从附表2中还可以看出,双侧概率P为单侧
概率的两倍,如双侧
,30=
标准误与标准差的关系
区别 标准差 s 标准误 sx
意义 个体变异 统计量的抽样误差
用途 正常值范围 总体均数的可信区间
(x±) ( x±t , s x)
与n关系 n s趋于稳定 n sx趋于 0
联系 1.两者都是变异指标,说明个体
之间的变异用标准差,说明统计量之
间的变异用标准误。
2.当样本含量不变时,标准差大,
标准误亦大,均数的标准差与标准误
成正比。