卡方检验
概述:卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量
两个或多个样本率的比较
两组构成比资料的比较
分类资料的相关分析
1.卡方分布
定义:设随机变量X1,X2,...,Xn相互独立,且Xi(i=1,2,...,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的 2 分布。
特征:
(1)χ2分布的图形形状取决于自由度的大小,当n≤2时,曲线呈L型,随着n的增加,曲线逐渐趋于对称;当n→∞时,2 分布趋于正态分布。(如图1)
n=1
n=4
n=6
n=9
图1. 不同自由度下卡方分布曲线
(2)分布的可加性:
如果两个独立的随机变量X1和X2分别服从自由度n1 和n2 的 2 分布那么它们的和(X1+X2)服从自由度为n1+n2的 2 分布。
(3) 2 分布的数学期望和方差
E(2 ) =n D(2 )= 2n
2 检验法
设总体X~N (μ,σ² ),μ,σ²均未知,
X1,X2,X3…Xn是来自X的样本,
要求检验假设
H0:σ²= σ02 ,
H1:σ² ≠σ02 ,σ02 为已知常数
2 =(n-1)s2/σ02
作为检验统计量,拒绝域形式
(n-1)s2/σ02 ≤ 21-a/2(n-1),或
(n-1)s2/σ02 ≥ 2a/2 (n-1)
例题:某厂生产的某种型号的电池,其寿命(以h计)长期以来服从方差 =5000的正态分布
。现有一批电池,从它的生产情况来看,寿命的波动性有所改变,现在随机抽取26只电池,测出其样本方差为9200,问根据这一数据能否推断这批电池的寿命的波动性较以往有显著的变化(a=)?
解:在水平a=下检验假设
H0: =5000 H1; 5000,现在 n = 26
拒绝域为
由观察值:
所以拒绝H0,认为这批电池寿命的波动性较以往的有显著的变化
χ2 值的意义:
卡方值反映了实际频数与理论频数的吻合程度。
如果Ho成立,则实际频数和理论频数之差一般不会很大
如果Ho不成立,则实际频数和理论频数之差就很大
当n不够大,且T<5时,需对χ2值进行校正;
2检验的用途广泛,常用的有以下几种:
(1)拟合优度检验
(2)独立性检验
(3)四格表资料卡方检验
(4)R×C列联表的χ2检验
(5)配对设计资料的χ2检验
一.拟合优度检验
定义:
拟合优度检验是根据样本的频率分布检验其总体分布是否等于某个给定的理论分布。
χ2值的计算公式:
f0 表示观察值频数 fe 表示期望值频数
例1:某集团公司进行一项改革,从所属的分公司中随机抽取了420名员工,了解他们对改革的态度(如下表),以a=的显著水平检验四个分公司对改革方案的看法是否存在差异。
141
31
33
45
32
反对该方案
279
79
57
75
68
赞成该方案
合计
四分公司
三分公司
二分公司
一分公司
解:如果不存在差异,四个分公司赞成改革方案的比例应该一致,于是原假设和备择假设分别为;
Ho:π1= π2 =π3= π4 =
H1: π1 ,π2 ,π3 ,π4 不全相等
自由度=(R-1)(C-1)=(2-1)(4-1)=3
a= 所以
由于2 < 2a,故不拒绝原假设,即认为四个分公司对改革方案的赞成比例是一致的。
二.独立性检验
判断2组或多组的分类资料是否相关联,如果不互相关联,就称独立,这类问题的处理称为独立性检验
例题、一种原料来自三个不同的地区,原料质量被分为三个不同的等级。从这批原料中随机抽取500件进行检验,结果如下表:
要求检验各地区和原料质量之间是否存在依赖关系
500
150
188
162
合计
189
74
65
50
丙地区
171
52
59
60
乙地区
140
24
64
52
甲地区
合计
三级
二级
一级
解:
H0:地区与原材料之间不存在依赖关系
H1:地区与原材料之间存在依赖关系
自由度=(R-1)(C-1)=4
取a=,则
由于 故拒绝H0,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响
三、四格表资料卡方检验
n
b + d
a + c
合计
c + d
d
c
乙组
a + b
b
a
甲组
合计
A-
A+
分组
四格表资料卡方检验的专用公式:
用基本公式计算卡方值时,需先求出各理论频数,运算时很不方便。经过简单的数学推导,可得四格表中计算卡方值得专用公式:
四格表资料卡方检验校正公式:
⑴ 当n≥40,T>5时,可用四格表卡方检验基本公式或专用公式;
⑵ 当n≥40,5>T>1时,需对卡方值进行校正;
⑶ 当n<40或T<1时,不能用卡方检验,改用四格表确切概率计算法。
例1. 用某种药物鼻注组与某种药物鼻注加肌注维生素B12两种处理方法,观察大白鼠鼻咽癌发病率的比较如表所示
H0:药物鼻注组与某种药物鼻注加肌注维生素 B12 两种处理方法疗效水平相等
H1: 药物鼻注组与某种药物鼻注加肌注维生素 B12 两种处理方法疗效 水平不相等
2. 计算 2 值
3. 计算 自由度,查界值
自由度n=1, (1)=
4. 结论
因为 2 = > (1), 故 拒绝原假设
某种药物鼻注加肌注维生素B12的未发癌鼠率为:18/71=% ,
某种药物鼻注组的未发癌鼠率为:3/41=% ,
可以认为增加肌注维生素B12可减少鼻咽癌的发生率
四、R×C列联表的χ2检验
1、计算公式:
此式还可用于不须校正的四格表资料的卡方检验
例. 为了解新型农村合作医疗对于农村贫困居民住院服务利用的影响,某研究在经济条件相似的甲、乙两个国家级贫困县(其中甲县2006年已开展新型农村合作医疗,乙县2006年尚未开展)分别进行抽样调查,得到2006年应住院未住院原因,见表。问甲、乙两县应住院未住院原因构成是否不同?
表 甲、乙两县应住院未住院原因构成
县 别 经济困难 没有必要 没有时间 其他 合计
甲 293 10 17 13 333
乙 282 9 9 6 306合 计 575 19 26 19 639
解:(1)建立假设:
Ho:甲、乙两县应住院未住院原因的总体构成相同
H1:甲、乙两县应住院未住院原因的总体构成不同
α=
(2)计算统计量:
χ2=
(3)υ=(2-1)(4-1)=3, χ(3)=
χ2<χ(3)
(4)作推断结论:
按α=, χ2<χ(3),不拒绝Ho,尚不能认为甲、乙两县应住院未住院原因的总体构成不同。
配对分类资料是把两种处理分别施于条件相似的两个受试对象,或先后施于同一受试对象,逐对记录实验结果。
五、 配对资料的χ2检验
例题:
例. 某研究者欲比较心电图和生化测定诊断低血钾的价值,分别采用两种方法对79名临床确诊的低血钾患者进行诊断,结果见表。问两种方法的检测结果有无差别?
表 两种方法诊断低血钾的结果
生化测定 合计
+ -
+ 45(a) 25(b) 70
- 4(c) 5(d) 9
合计 49 30 79
心电图
3、计算公式
(适用于b+c>40)
(适用于b+c<40)
解:
1、建立假设
H0:两种方法的检测结果相同 (B=C)
H1:两种方法的检测结果不同 (B≠C)
α=
2、计算统计量:(b + c)=(25+4)=29<40,需校正。
χ2=(|25-4|-1)2/(25+4)=
3、υ=1,χ(1)=,
χ2 >χ(1)
4、作出推断结论:按α=水准, χ2 >χ(1) ,拒绝Ho,接受H1,可以认为两种方法的检测结果不同,心电图的阳性率高于生化测定方法。
χ2检验应注意的事项
1、计算χ2值时,必须用绝对数,而不能用相对数,因为χ2值的大小与频数大小有关。
2、 R×C列联表χ2检验条件:理论数必须>1 ,且理论数<5的格子数不能超过总格子数的1/5。
3、 四格表中如有一个实际数为0,首先求最小理论数,若T>5或 5>T>1,且n>40时,方可用检验;
4、 用专用公式进行四格表资料卡方检验,首先要计算最小理论数。如大于5,方可将实际数直接代入,如果出现小于5、大于1,且n>40,需计算校正卡方值;