分类变量与列联表 独立性
检验
激趣诱思 知识点拨
有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语,那么吸
烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟
引起的吗?“如果你认为健康问题不一定是由吸烟引起的,那么可以
吸烟”的说法对吗?要回答这个问题,我们先一起来学习本课时的知
识吧!
激趣诱思 知识点拨
一、分类变量与列联表
1.分类变量:为了表述方便,我们经常会使用一种特殊的随机变量,
以区别不同的现象或性质,这类随机变量称为分类变量.
2.列联表:在实践中,由于保存原始数据的成本较高,人们经常按研
究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的
数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据
的交叉分类频数.
激趣诱思 知识点拨
名师点析制作2×2列联表的基本步骤
第一步,合理选取两个变量,且每一个变量都可以取两个值;
第二步,抽取样本,整理数据;
第三步,画出2×2列联表.
激趣诱思 知识点拨
微练习
在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到
以下数据:对150只动物服用药物,其中132只动物存活,18只动物死
亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.
请根据以上数据建立一个2×2列联表.
解:2×2列联表如下:
类别 存活数 死亡数 合计
药物治疗 132 18 150
常规治疗 114 36 150
合计 246 54 300
激趣诱思 知识点拨
二、独立性检验
×2列联表
X
Y
合计Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前
两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分
别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件
{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是样本容量.
激趣诱思 知识点拨
2.χ2统计量的计算公式
3.独立性的判断方法
α
xα
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错
误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
激趣诱思 知识点拨
4.独立性检验
利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检
验,读作“卡方独立性检验”,简称独立性检验.
激趣诱思 知识点拨
微练习
某大型企业人力资源部为了研究企业员工工作积极性和对待企业
改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表
所示:
态度 积极支持企业改革不太赞成企业改革 合计
工作积极 54 40 94
工作一般 32 63 95
合计 86 103 189
对于人力资源部的研究项目,依据小概率α=的独立性检验,分
析企业员工工作积极性和对待企业改革态度是否有关联.
激趣诱思 知识点拨
解:零假设为H0:企业的员工工作积极性和对待企业改革的态度无
关联.
从题表中的数据可知:
a=54,b=40,c=32,d=63,
a+b=94,c+d=95,a+c=86,b+d=103,
n=189,
代入公式得
依据小概率值α=的独立性检验,我们推断H0不成立,即认为员
工工作积极性与对待企业改革的态度有关联.
探究一 探究二 素养形成 当堂检测
独立性检验
例1某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中
进行了抽样调查,调查结果如下表所示:
类型 喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
试根据小概率值α=的独立性检验,分析南方学生和北方学生在
选用甜品的饮食习惯方面是否有差异.
探究一 探究二 素养形成 当堂检测
解:零假设为H0:南方学生和北方学生在选用甜品的饮食习惯方面
无差异.将2×2列联表中的数据代入公式计算,得
依据小概率值α=的独立性检验,我们推断H0不成立,即认为南
方学生和北方学生在选用甜品的饮食习惯方面有差异.
探究一 探究二 素养形成 当堂检测
反思感悟 独立性检验的具体做法
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X
和Y间的影响规律.
探究一 探究二 素养形成 当堂检测
变式训某省市进行高中新课程改革已经四年了,为了解教师对新课
程教学模式的使用情况,某一教育机构对某学校的教师关于新课程
教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教
师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不
赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同
的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)试根据小概率值α=的独立性检验,分析对新课程教学模式的
赞同情况与教师年龄是否有关联.
探究一 探究二 素养形成 当堂检测
解:(1)2×2列联表如下:
教师类型 赞同 不赞同 合计
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
(2)零假设为H0:对新课程教学模式的赞同情况与教师年龄无关联.
依据小概率值α=的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为对新课程教学模式的赞同情况与教师
年龄无关联.
探究一 探究二 素养形成 当堂检测
独立性检验的综合应用
例2海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,
收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),
其频率分布直方图如下:
探究一 探究二 素养形成 当堂检测
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的
箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计事件A的概
率;
(2)填写下面列联表,并依据α=的独立性检验,分析箱产量与养
殖方法是否有关联;
类型 箱产量<50 kg 箱产量≥50 kg 合计
旧养殖法
新养殖法
合计
探究一 探究二 素养形成 当堂检测
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估
计值(精确到).
附:
α
xα
探究一 探究二 素养形成 当堂检测
解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新
养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(++++)×5=,
故P(B)的估计值为.
新养殖法的箱产量不低于50 kg的频率为
(+++)×5=.
故P(C)的估计值为.
因此,事件A的概率估计值为×= 2.
探究一 探究二 素养形成 当堂检测
(2)零假设为H0:箱产量与养殖方法无关联.根据箱产量的频率分布
直方图得如下列联表:
类型 箱产量<50 kg 箱产量≥50 kg 合计
旧养殖法 62 38 100
新养殖法 34 66 100
合计 96 104 200
根据列联表中的数据,经计算得到
依据α=的独立性检验,我们推断H0不成立,即认为箱产量与养
殖方法有关联.
探究一 探究二 素养形成 当堂检测
(3)因为在新养殖法的箱产量频率分布直方图中,箱产量低于50 kg
的直方图面积为
(++)×5=<,
箱产量低于55 kg的直方图面积为
(+++)×5=>,
故新养殖法箱产量的中位数的估计值为
反思感悟 两个分类变量相关关系的判断
通过2×2列联表,先计算χ2的值,再借助χ2的取值判断两个分类变量
是否有关联.
探究一 探究二 素养形成 当堂检测
变式训练2为了解某班学生喜爱打篮球是否与性别有关,对本班48
人进行了问卷调查,并得到了如下的2×2列联表:
性别 喜爱打篮球 不喜爱打篮球 合计
男生 6
女生 10
合计 48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为
探究一 探究二 素养形成 当堂检测
(1)请将上面的2×2列联表补充完整(不用写计算过程).
(2)依据α=的独立性检验,能否认为喜爱打篮球与性别有关联?
说明你的理由.
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数
为X,求X的分布列与均值.
探究一 探究二 素养形成 当堂检测
解:(1)列联表补充如下:
性别 喜爱打篮球 不喜爱打篮球 合计
男生 22 6 28
女生 10 10 20
合计 32 16 48
(2)零假设为H0:喜爱打篮球与性别无关联.根据列联表中的数据,经
依据α=的独立性检验,我们推断H0不成立,即认为喜爱打篮球
与性别有关联.
探究一 探究二 素养形成 当堂检测
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
故X的分布列为
探究一 探究二 素养形成 当堂检测
独立性检验与统计的综合应用
典例某校为了探索一种新的教学模式,进行了一项课题实验,乙班
为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行
测试,成绩如下表(总分:150分):
甲班
成绩 [80,90) [90,100) [100,110) [110,120) [120,130)
人数 4 20 15 10 1
乙班
成绩 [80,90) [90,100) [100,110) [110,120) [120,130)
人数 1 11 23 13 2
探究一 探究二 素养形成 当堂检测
(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,请
问用什么抽样方法更合理,并写出最后的抽样结果.
(2)根据所给数据可估计在这次测试中,甲班的平均分是分,请
你估计乙班的平均分,并计算两班平均分的差距.
(3)完成下面2×2列联表,并依据α=的独立性检验,分析这两个班
在这次测试中成绩的差异与实施课题实验是否有关联,并请说明理
由.
班别 成绩小于100分 成绩不小于100分 合计
甲班 a= 26 50
乙班 12 d= 50
合计 36 64 100
探究一 探究二 素养形成 当堂检测
解:(1)用分层随机抽样的方法更合理.甲班成绩位于[90,120)内的试
探究一 探究二 素养形成 当堂检测
(3)补全列联表如下:
班别 成绩小于100分 成绩不小于100分 合计
甲班 a=24 26 50
乙班 12 d=38 50
合计 36 64 100
零假设为H0:这两个班在这次测试中成绩的差异与实施课题实验无
关联.由表中的数据,
依据α=的独立性检验,我们推断H0不成立,即认为这两个班在
这次测试中成绩的差异与实施课题实验有关联.
探究一 探究二 素养形成 当堂检测
方法点睛 1.由[90,120)内的三组数据存在差异确定抽样方法,从而
确定各区间抽样份数.
2.累加各组的组中值与频率的积,并计算乙班的平均分,从而得到两
班平均分的差.
3.根据所给的数据得到2×2列联表,由列联表中的数据求出χ2,结合
临界值表得出结论.
探究一 探究二 素养形成 当堂检测
1.(2019天津高二期中)在吸烟与患肺病这两个分类变量中,零假设
为H0:吸烟与患肺病无关联.下列说法正确的是( )
①依据α=的独立性检验认为吸烟与患肺病有关联时,我们说某
人吸烟,他一定患有肺病;
②从统计量中得知依据α=的独立性检验认为吸烟与患肺病有
关联,是指不超过的概率使得推断出现错误;
③如果由χ2的值得到依据α=的独立性检验认为吸烟与患肺病
有关联,那么在100个吸烟的人中必有95人患有肺病.
A.① B.② C.③ D.②③
解析:根据α=的独立性检验认为吸烟与患肺病有关联时,指的
是不超过的概率使得推断出现错误,故②正确;可知①③错误.
故选B.
答案:B
探究一 探究二 素养形成 当堂检测
2.(2019重庆巴蜀中学高二期末)在对人们休闲方式的一次调查中,
根据数据建立如下的2×2列联表:
性别 看书 运动 合计
男 8 20 28
女 16 12 28
合计 24 32 56
附:
α
xα
探究一 探究二 素养形成 当堂检测
解析:零假设为H0:休闲方式与性别无关联.结合题意和独立性检验
的结论,由χ2≈>=,
根据α=的独立性检验,我们推断H0不成立,即认为休闲方式与
性别有关联.
故选D.
答案:D
探究一 探究二 素养形成 当堂检测
3.(2020湖北高二期末)手机给人们的生活带来便捷,但同时也对中
学生的生活和学习造成了严重的影响.某校高一几个学生成立研究
性学习小组,就使用手机对学习成绩的影响随机抽取了该校100名
学生的期末考试成绩并制成下表,则下列说法正确的是( )
类别 成绩优秀 成绩不优秀 合计
不用手机 40 10 50
使用手机 5 45 50
合计 45 55 100
α
xα
探究一 探究二 素养形成 当堂检测
A.依据α=的独立性检验认为使用手机与学习成绩有关联
B.依据α=的独立性检验认为使用手机与学习成绩无关联
C.依据α=的独立性检验认为使用手机对学习成绩无影响
D.依据α=的独立性检验认为使用手机对学习成绩有影响
解析:零假设为H0:使用手机与学习成绩无关联.因为
所以依据α=的独立性检验,我们推断H0不成立,即认为使用手
机与学习成绩有关联.
故选A.
答案:A
探究一 探究二 素养形成 当堂检测
4.(2020广东高三月考)2019年10月18日到27日,第七届世界军人运
动会在湖北武汉举办,中国代表团共获得133金64银42铜,共239枚
奖牌.为了调查各国参赛人员对主办方的满意程度,研究人员随机
抽取了500名参赛运动员进行调查,所得数据如下表所示:
满意度 男性运动员 女性运动员 合计
对主办方表示满意 200 220 420
对主办方表示不满意 50 30 80
合计 250 250 500
探究一 探究二 素养形成 当堂检测
现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主
办方表示满意的男性运动员的概率为 ;②依据α=的独立性
检验认为对主办方表示满意与运动员的性别有关联;③依据α=
的独立性检验认为对主办方表示满意与运动员的性别无关联.其中
正确的个数为( )
α
xα
探究一 探究二 素养形成 当堂检测
答案:B
探究一 探究二 素养形成 当堂检测
5.(2019北京师大附中高考模拟)已知某企业有职工5 000人,其中男
职工3 500人,女职工1 500人.该企业为了丰富职工的业余生活,决定
新建职工活动中心.为此,该企业工会采用分层随机抽样的方法,随
机抽取了300名职工每均运动时间(单位:h),汇总得到频率分布表
(如表所示),并据此来估计该企业职工每动时间.
平均运动时间 频数 频率
[0,2) 15
[2,4) m
[4,6) 45
[6,8) 755
[8,10) 90
[10,12) p n
合计 300 1
探究一 探究二 素养形成 当堂检测
(1)求抽取的女职工的人数;
(2)①根据频率分布表,求出m,n,p的值,补全如图所示的频率分布直
方图,并估计该企业职工每均运动时间不低于4 h的概率;
运动时间 男职工 女职工 合计
平均运动时间低于4 h
平均运动时间不低于4 h
合计
②若在样本数据中,有60名女职工每均运动时间不低于4 h,请完成
以下2×2列联表,并说明依据α=的独立性检验,能否认为该企业
职工每均运动时间不低于4 h与性别有关联.
探究一 探究二 素养形成 当堂检测
α
xα
探究一 探究二 素养形成 当堂检测
(2)①n==,
p=300×=15,m=300-15-45-75-90-15=60.
频率分布直方图如图:
探究一 探究二 素养形成 当堂检测
估计该企业职工每均运动时间不低于4 h的概率为
P=+++==
②2×2列联表如下所示:
运动时间 男职工 女职工 合计
平均运动时间低于4 h 45 30 75
平均运动时间不低于4 h 165 60 225
合计 210 90 300
探究一 探究二 素养形成 当堂检测
零假设为H0:该企业职工每均运动时间不低于4 h与性别无关联.根
据列联表中的数据,经计算得到
依据α=的独立性检验,我们推断H0不成立,即认为该企业职工
每均运动时间不低于4 h与性别有关联.