流行病与卫生统计学教研室
金英良
本章主要内容:
第一节 均数的抽样误差与标准误差
第二节 总体均数的估计
第三节 假设检验的意义和步骤
第一节 均数的抽样误差与标准误差
假定某年某地所有13岁女学生身高服从总体
均数μ=,总体标准差σ=的正态分布
N(, )。随机抽取 30人为一个样本
(n=30),并计算样本的均数和标准差,共抽取
100次,可以得到100份样本,每份样本可以计算
相应的均数和标准差。
1.
2.
3.
4.
5. 99.
6. 100.
μ=
σ=
X S
一
百
个
样
本
抽样误差(smpling error)
这种由抽样造成的样本统计量与总体参数之间的差
异成为抽样误差.
总体 样本
随机抽样
统计量统计量
参参 数数
只要有个体变异和随机抽样研究,
抽样误差就是不可避免的。
若从正态总体N(μ, σ 2)中,反复多次随机抽取样本
含量固定为n的样本,那么这些样本均数 也服从正态
分布。样本均数 的总体均数仍为μ,样本均数的标准
差为 ,其计算公式为:
中心极限定理
SAMPLE 1:x11 x12 x13 x14...x1n
SAMPLE 2:x21 x22 x23 x24...x2n
SAMPLE k:xk1 xk2 xk3 xk4...xkn
原始
总体
μ
k个样本均数的频数分布图
标准误(standard error,SE)
样本均数的标准差。
它反映了来自同一总体的样本均数之间的离散程度以
及样本均数和总体均数的差异程度,即均数的抽样误差
的大小。
统计上用标准误来衡量抽样误差的大小!
由于在实际工作中,总体标准差σ往往未知,而是用样
本标准差S来代替σ,故只能求得样本均数标准误的估计
值S X ,其计算公式为:
估计
例 某市随机抽查成年男子140人,得
红细胞均数×1012/L,标准差
×1012/L,计算其标准误。
第二节 总体均数的估计
1.统计推断(statistical inference)在总体中随机抽取
一定数量观察单位作为样本进行抽样研究,然后由样本
信息推断总体特征,这一过程称为统计推断。
一、可信区间的概念
统计推断
参数估计
假设检验
点估计
区间估计(可信区间)
2.参数估计(parameter estimation)是指由样本统计量
估计总体参数,是统计推断的一个重要内容。
(1)点估计(point estimation)
用样本统计量直接作为总体参数的估计值。
(2)区间估计(interval estimation)又称可信区间
(置信区间,CI)
按预先给定的概率,计算出一个区间,使它能够包含未
知的总体均数。
μ= 身高(cm)
总体均数的95%可信区间,平
均有95个可信区间包括了总体
均数μ,只有5个可信区间不包
括μ,即估计错误。
进行100次抽样,每次样本量为n=30,利用样本均数
和标准差估计总体均数范围。
3.可信区间有两个要素:
(1)准确度(accuracy)可信度的大小,即可信区间
包容μ的概率大小(1-α)。
(2)精密度(precision)反映在区间的长度,区间长
度越小精密度越高。
一般情况下,95%的可信区间更为常用。
在可信度确定的情况下,增加样本量,可减少区间长
度,提高精密度。
t分布是t检验的基础,亦称 student t检验,是计量资
料中最常用的假设检验方法。
戈塞特
(William Sealey Gosset)
英国著名统计学家。出生
于英国肯特郡坎特伯雷市,求
学于曼彻斯特学院和牛津大学,
主要学习化学和数学。
二、总体均数可信区间的计算
1899年作为一名酿酒师进入爱尔兰的都柏林一家
啤酒厂工作,在那里他涉及到有关酿造过程的数据处
理问题。
由于酿酒厂的规定禁止戈塞特发表关于酿酒过程
变化性的研究成果,因此戈塞特不得不于1908年,首
次以“学生” (Student)为笔名,在《生物计量学》
杂志上发表了“平均数的概率误差”。Gosset在文章
中使用Z统计量来检验常态分配母群的平均数。由于
这篇文章提供了“学生t检验”的基础,为此,许多统
计学家把1908年看作是统计推断理论发展史上的里程
碑。
随机变量X
N(m,s2)
标准正态分布
N(0,12)
u变换
当总体均数与标
准差未知时
均数 标准正态分布
N(0,12)
在实际工作中, 往往未知,常用 代替进行
变换,即
不服从标准正态分布!
而服从自由度υ=n-1的t分布
f(t) =∞(标准正态曲线)
=5
=1
-4 -3 -2 -1 0 1 2 3 4
t分布
1、以0为中心,左右对称的单峰分布。
2、t分布曲线是一簇曲线,其形态变化与自由
度ν的大小有关系( ν =n-1)。
t分布的特征:
自由度越小,t分布的峰越低,而两
侧尾部翘得越高;
自由度逐渐增大时,t分布逐渐逼近
标准正态分布,当自由度为无穷大时,
t分布就是标准正态分布。
为便于使用,统计学家编制了不同自由度ν对
应的t界值表。
t分布的用途:
主要用于总体均数的区间估计及t检验。
s未知 且 n较小 (n<50) 按t分布
但n足够大(n>50) 按u分布
s已知 按u分布
总体均数可信区间的计算方法,随总体标准差
s是否已知,以及样本含量n的大小而异。
通常有t分布和u分布两类方法:
(一)σ已知
u变换公式:
+
% %
95%
(二)σ未知
较小(n<50)
-t t0
较大(n>50)
例 某医生测得25名动脉粥样硬化患者血浆
纤维蛋白原含量的均数为
总体均数的95%可信区间。
该种病人血浆纤维蛋白原含量总体均数的
95%可信区间为
例 试计算例中该地成年男子红
细胞总体均数的95%可信区间。
该地成年男子红细胞总体均数的95%可信
区间为×1012/L~ ×1012/L
第三节 假设检验的意义和步骤
一、假设检验的基本思想
“反证法”的思想
先根据研究目的建立假设,从H0假设出发,先假设它
是正确的,再分析样本提供的信息是否与H0有较大矛
盾,即是否支持H0,若样本信息不支持H0,便拒绝之
并接受H1,否则不拒绝H0 。
例 以往通过大规模调查已知某地新生
儿出生体重为. 从该地难产儿中随机
抽取35名新生儿作为研究样本,平均出生
体重为, 标准差为。
问该地难产儿出生体重是否
与一般新生儿体重不同?
μ0=
次/分
μ
已知总体 未知总体
n=35,
=
S=
与μ0之间的差异(不相等),有两种可能:
1、 μ= μ0,仅因为用 去估计μ时存在抽样误差,
所以导致了 与μ0之间的差异。
2、 μ与μ0本身就不相等,所以导致了 与μ之间的
差异。
假设检验的基本原理:
抽样误差所致 P>
(来自同一总体)
? 假设检验回答
本身存在差别 P<
(来自不同总体)
两
均
数
两
率
不
等
二、假设检验的基本步骤
1.建立假设检验和确定检验水准
H0(无效假设):μ=μ0
H1(备择假设 ):μ≠μ0(双侧检验)
检验水准:在实际工作中一般取。
它确定了小概率事件的标准,即规定
了概率不超过α就是小概率事件。
μ>μ0(单侧检验) μ<μ0 (单侧检验)
α=
例如:要比较经常参加体育锻炼的中学男生心
率是否低于一般中学男生的心率,就属于单侧
检验。
H1: μ≠μ0,双侧,μ<μ0与μ>μ0都有可能
H1: μ>μ0,单侧
H1: μ<μ0,单侧
单、双侧检验
单双侧问题要由专业知识
确定
2.选择检验方法和计算统计量
根据资料的类型和分析目的选择适当的检验方法,
并根据选择的方法计算相应的统计量。
3.确定概率P值和作出统计推断
样本统计量
值的概率P
样本统计量
值的概率P
用P值与检验水准α进行比较,根据比较结果作出统
计推断。
检验水
准α确
定的P
值
样本统计量值的
概率P
检验水准α确定的
P值
样本统计量值的
概率P
P≤ α,则拒绝H0,接受H1 P> α,则接受H0,拒绝H1
检验水准α确定的
P值
1. 对于H0只能说拒绝与不拒绝,而对H1只能说接
受。
2. P≤α,则拒绝H0 ,接受H1 ,差异有统计学意
义,可认为……不同或不等。
3. P>α,则不拒绝H0 ,差异无统计学意义,尚
不能认为……不同或不等。
4. 应事先确定α。选α=只是一种习惯,而
不是绝对的标准。
关于假设检验的几个观点