返回目录
成对数据的统计分析
返回目录
五年高考
考点1 变量间的相关关系
考点2 独立性检验
目 录
三年模拟
基础强化练
能力拔高练
返回目录
五年高考
考点1 变量间的相关关系
1.(2023天津,7,5分,易)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰“鸢飞戾天,鱼跃于
渊”.鸢尾花因花瓣形如鸢尾而得名(图1),寓意鹏程万里、前途无量.通过随机抽样,收
集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制对应散点图(图2).
返回目录
计算得样本相关系数为 2,利用最小二乘法求得相应的经验回归方程为 = 1x
+ 5.根据以上信息,如下判断正确的为 ( )
A.花萼长度与花瓣长度不存在相关关系
B.花萼长度与花瓣长度负相关
C.花萼长度为7 cm的该品种鸢尾花的花瓣长度的平均值约为 2 cm
D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为
2
C
返回目录
解析
题图2中的散点大致落在一条从左下角到右上角的直线附近,这说明成对样本数据之间
存在正相关关系,故A、B错误;把x=7代入经验回归方程 = 1x+ 5,得 = 2,
故C正确;由于样本发生变化,所以样本相关系数不一定相同,故D错误.
返回目录
2.(2024天津,3,5分,易)下列散点图中,样本相关性系数最大的是 ( )
A
返回目录
解析
观察各选项可知,A选项图中散点分布比较集中,且大体接近一条直线,呈现明显的正相
关,线性回归模型的拟合效果比较好,|r|相比于其他三个选项的图更接近1.故选A.
返回目录
3.(2020课标Ⅰ,文5,理5,5分,易)某校一个课外学习小组为研究某作物种子的发芽率y和
x(单位:℃)的关系,在20个不同的件下进行种子发芽实验,由实验数据(xi,yi)(i
=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和
x的回归方程类型的是 ( )
=a+bx =a+bx2
=a+bex =a+bln x
D
返回目录
解析
由散点图可知,发芽率随长的速度越来越慢,符合对数曲线增长的变化规律,故选
D.
返回目录
4.(2022全国乙理,19,12分,中)某地经过多年的环境治理,已将荒山改造成了绿水青山.为
估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面
积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6
根部横截面
积xi
材积量yi
样本号i 7 8 9 10 总和
根部横截面积xi
材积量yi
返回目录
并计算得 =, = 8, xiyi= 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面
积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出
该林区这种树木的总材积量的估计值.
附:相关系数r= , ≈.
返回目录
解析
(1)估计该林区这种树木平均一棵的根部横截面积为 = =(m2),平均一棵的材积
量为 = =(m3).
(2)样本相关系数r=
=
=
返回目录
= = ≈ ≈.
计算相关系数r= 时,需要将分子、分母稍加变换,采用题设中给出
的数据求解
即该林区这种树木的根部横截面积与材积量的样本相关系数约为.
(3)设这种树木的根部横截总面积为X m2,总材积量为Y m3,则 = ,则Y= =
=1 209,
所以该林区这种树木的总材积量的估计值为1 209 m3.
返回目录
5.(2020课标Ⅱ理,18,12分,中)某沙漠地区经过治理,生态系统得到很大改善,野生动物数
量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这
些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,
20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并
计算得 xi=60, yi=1 200, (xi- )2=80, (yi- )2=9 000, (xi- )(yi- )=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野
生动物数量的平均数乘地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该
返回目录
地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理
由.
附:相关系数r= , ≈.
解析
(1)由已知得样本平均数 = yi=60,从而该地区这种野生动物数量的估计值为60×200
=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
返回目录
r= = = ≈.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于
各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分
层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而
可以获得该地区这种野生动物数量更准确的估计.
返回目录
考点2 独立性检验
1.(2024全国甲理,17,12分,易)某工厂进行生产线智能化升级改造.升级改造后,从该工厂
甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
返回目录
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认
为甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=.设 为升级改造后抽取的n件产品的
优级品率,如果 >p+ ,则认为该工厂产品的优级品率提高了.根据抽取的150
返回目录
件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?
( ≈)
附:K2= ,
返回目录
解析
(1)列联表如下:
优级品 非优级品
甲车间 26 24
乙车间 70 30
K2= = 5,
∵< 5<,
∴有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为
甲、乙两车间产品的优级品率存在差异.
返回目录
(2)由题知 = =,
∵p=,∴p+ =+×
=+ ≈+ ≈,
∵ >p+ ,∴可以认为生产线智能化升级改造后,该工厂的优级品率提高了.
返回目录
2.(2020新高考Ⅰ,19,12分,中)为加强环境保护,治理空气污染,环境监测部某省市空气
质量进行调研,随机抽查了100天空气中的和SO2浓度(单位:μg/m3),得下表:
SO2
[0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事某省市一天空气中浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
返回目录
SO2
[0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握某省市一天空气中浓度与SO2浓
度有关.
附:K2= ,
返回目录
解析
(1)根据抽查数某省市100天的空气中浓度不超过75,且SO2浓度不超过150的天数
为32+18+6+8=64,因某省市一天空气中浓度不超过75,且SO2浓度不超过150的概
率的估计值为 =.
(2)根据抽查数据,可得2×2列联表:
SO2
[0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
返回目录
(3)根据(2)的列联表得
K2= ≈.
由于>,故有99%的把握某省市一天空气中浓度与SO2浓度有关.
返回目录
三年模拟
1.(2025届福建龙岩一中开学考,1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn
不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y= x+1上,则这组样本
数据的样本相关系数为 ( )
A.-1 C.
D
解析
由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=
x+1上,∴这组样本数据完全正相关,
因此其相关系数为1,故选D.
返回目录
2.(2024湖南名校联合体第三次联考,3)某校数学兴趣小组在某座山测得海拔高度x(单
位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,…,6),并将其绘制成如下散点图,分
析研究发现B点相关数据不符合实际,删除B点后重新进行回归分析,则下列说法正确的
是( )
A.删除点B后,样本数据的两变量x,y正相关
B.删除点B后,相关系数r的绝对值更接近于1
C.删除点B后,新样本的残差平方和变大
D.删除点B后,解释变量x与响应变量y相关性变弱
B
返回目录
解析
从题中散点图可知,删除点B后,样本数据的两变量x,y负相关,所以A错误;
由于B点较其他点偏离程度大,故删除B点后,回归效果更好,从而相关系数r的绝对值更
接近于1,所以B正确;
同理删除后决定系数R2更接近于1,所以新样本的残差平方和变小,所以C错误;
由B,C分析知解释变量x与响应变量y相关性增强,所以D错误.故选B.
返回目录
3.(多选)(2025届湖北武汉调研,9)某科技公司统计了一款App最近5个月的下载量如表
所示,若y与x线性相关,且经验回归方程为 =+ ,则( )
月份编号x 1 2 3 4 5
下载量y/万次 5 4
与x负相关
B. =
C.预测第6个月的下载量是万次
D.残差绝对值的最大值为
ACD
返回目录
解析
由题表知随着月份的增加,下载量逐渐减少,故A正确.
= =3, = =,故样本点的中心为(3,),代入 =+
得=×3+ ,解得 =,B错误.
预测第6个月的下载量为×6+=(万次),C正确.
当x=1时, =,残差绝对值为||=;当x=2时, =,残差绝对值为||=0;当x=3
时, =,残差绝对值为||=;当x=4时, =,残差绝对值为||=;当x=5时,
=,残差绝对值为||=,故D正确.
返回目录
4.(2024安徽六安一中月考,15)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4
种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发
现,100名不同性别的学生选择餐厅用餐的情况如表:
男 女
在A餐厅用餐 40 20
在B餐厅用餐 15 25
返回目录
(1)求某天甲、乙两名同学选择同一套餐用餐的概率;
(2)依据α=的独立性检验,能否认为性别与选择餐厅之间有关联?
附:χ2= .
α
xα
返回目录
解析
(1)一共有6种套餐,甲、乙各选择一种,共有62=36种情况,
甲、乙两名同学选择同一种套餐有6种情况,
所以甲、乙两名同学选择同一套餐的概率P= = .
(2)零假设为H0:性别与选择餐厅之间没有关联,
χ2= ≈>,
根据小概率值α=的独立性检验,推断H0不成立,
所以依据α=的独立性检验,认为性别与选择餐厅之间有关联.此推断犯错误的概
率不超过.
返回目录
5.(2024江西吉安六校协作体联考,16)2023年10月国家发展改革委等部门联合印发了
《加快“以竹代塑”发展三年行动计划》,该计划将推动“以竹代塑”高质量发展,助
力减少塑料污染,并将带动竹产业新一轮的增长.下表为2019年—2023年中国竹产业产
值规模y(单位:千亿元),其中2019年—2023年的年份代码x依次为1~5.
x 1 2 3 4 5
y
返回目录
(1)记第i+1年与i年(i=1,2,3,4)中国竹产业产值规模y差值的2倍的整数部分分别为ni,从
n1,n2,n3,n4中任取2个数相乘,记乘积为X,求X的分布列与期望;
(2)根据以上数据及相关系数,判断能否用线性回归模型拟合中国竹产业产值规模y与
年份x之间的关系.
参考数据: yi=, xiyi=, ≈, ≈.
相关系数r= .若|r|≥,则认为y与x有较强的相关性.
返回目录
解析
(1)由题得n1=0,n2=n3=1,n4=2,所以X的所有可能取值为0,1,2,
P(X=0)= = ,P(X=1)= = ,P(X=2)= = ,
所以X的分布列为
X 0 1 2
P
返回目录
所以E(X)=0× +1× +2× = .
(2)由题意得 = =3, (xi- )2=10,
xiyi=, yi=, ≈,
所以 xiyi-5 =-3×=,
所以r= ≈ ≈>.
因为y与x的相关系数大于,所以y与x的线性相关程度高,可以用线性回归模型拟合y
与x的关系.
返回目录
1.(2024湖南邵阳二中模拟,6)某学习小组对一组数据(xi,yi)(i=1,2,3,…,7)进行回归分析,
甲同学首先求出经验回归方程为 =5x+4,样本点的中心为(2,m).乙同学对甲的计算过程
进行检查,发现甲将数据(2,3)误输成(3,2),将这两个数据修正后得到经验回归方程为 =
kx+7,则实数k= ( )
A. B. C. D.
A
返回目录
解析
由甲同学的结论可得,m=5×2+4=14,
假设甲输入的(x1,y1)为(3,2),
则3+x2+x3+…+x7=7×2=14,2+y2+y3+…+y7=7×14=98,则x2+x3+…+x7=11,y2+y3+…+y7=96,
则乙同学改为正确数据时,2+x2+x3+…+x7=13,即 = ,
3+y2+y3+…+y7=99,即 = ,
所以修正后样本点的中心为 ,代入 =kx+7,得 = k+7,解得k= .故选A.
返回目录
2.(多选)(2025届广东广州摸底,9)中欧班列是推进“一带一路”沿线国家道路某著名企业、
贸的重要举措.在中欧班列带动下,某外贸企业出口额逐年提升,以下为该企业近
6个月的出口额情况统计,若已求得y关于x的经验回归方程为 =28x+ ,则 ( )
月份编号x 1 2 3 4 5 6
出口额y/万元 16 25 43 77 102 159
与x成正相关
B.样本数据y的第40百分位数为34
C.当x=3时,残差的绝对值最小
D.用模型y=enx+m描述y与x的关系更合适
AD
返回目录
解析
对于A,当x的值增加时,相应y的值也呈现增加的趋势,得出y与x成正相关,因此A正确;
对于B,样本数据y的6个取值从小到大依次是16,25,43,77,102,159,由6×40%=,得第40
百分位数为第3个数据43,因此B错误;
对于C, = = , = = ,将( , )代入 =28x+ ,得
=28× + ,解得 =- ,
所以 =28x- ,
所以当x=3时,相应残差的绝对值为 = ,
返回目录
当x=2时,相应残差的绝对值为 = < ,因此C错误;
对于D,根据题意作出散点图,如图,
由图可知用模型y=enx+m描述y与x的关系更合适些,因此D正确.故选AD.
返回目录
3.(2024湖北荆州适应性考试,13)某校数学建模兴趣小组收集了一组恒体重W
(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识
和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得 =8, =5, =
214.由最小二乘法得经验回归方程为 = x+,则k的值为 ;为判断拟合效果,通
过经验回归方程求得预测值 (i=1,2,…,8),若残差平方和 (yi- )2≈,则决定系数R2
≈ .
返回目录
解析
∵ =8, =5,经验回归方程为 = x+,∴5=8 +,∴ =,对f=cWk(c,k为参数)两边同
时取对数得,ln f=ln c+kln W,
∵xi=ln Wi,yi=ln fi,∴k= =.
由公式可知,R2≈1- =1- =1- =.
返回目录
4.(2025届四川成都简阳实验学校月考,17)
随着某著名企业互联网技术的发展,直播带货已经
成为热门的销售方式.通过主播的详细介绍,顾客对商品有更全面的了解,小了某
新手主播开启直播带货后从1月份到5月份每个月的销售量yi(万件)(i=1,2,3,4,5)的数据,
得到如图所示的散点图.
返回目录
(1)根据散点图判断,模型①y=a+bx与模型②y=c+dx2哪一个更适宜作为月销售量y关于
月份代码x的回归方程?(给出判断即可,不必说明理由)并求出y关于x的回归方程(计算
结果精确到);
(2)随机调查了2某省市民对直播带货的认可程度,得到的部分数据如表:
认可 不认可
50某省市民 70 50
50岁某省市民 40 60
返回目录
依据小概率值α=的独立性检验某省市民对直播带货认可程度是否与年龄有关联.
参考公式与数据: = = , = - . =55, =979, xiyi=,
tiyi=,其中ti= , χ2= ,其中n=a+b+c+d.
α
xα
返回目录
解析
(1)由散点图可知,随着x的增加,y的增加幅度不一致,是非线性的关系,所以选模型②y=c
+dx2更适宜,
由t=x2,得y=c+dt,
可得 = = ×55=11, = ×(++++8)=,
则d= = = ≈,
因此c= -d =×11=,所以y=+,
即y关于x的回归方程为y=+.
返回目录
(2)零假设为某省市民对直播带货认可程度与年龄无关联,
χ2= ≈>,
依据小概率值α=的独立性检验,我们推断H0不成立,某省市民对直播带货认可程
度与年龄有关联,此推断犯错误的概率不超过.
返回目录
5.(2025届四川成都列五中学入学考,16)为了了解高中学生课后自主学习数学时间(x分
钟/天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据.
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
(1)求数学成绩y与学习时间x的相关系数(精确到);
(2)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y
关于x的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成
绩(参考数据: xiyi=22 820, yi=435, =38 999,≈11 540,xi的方差为200);
返回目录
(3)基于上述调查,某校提倡学生校自主学习.经过一学期的实施后,抽样调查了
220位学生.按照是否参与校自主学习以及成绩是否有进步统计,得到2×2列联表.
依据表中数据及小概率值α=的独立性检验,分析“校自主学习”与“成绩
进步”是否有关.
没有进步 有进步 合计
参与
在校自主学习
35 130 165
未参与
在校自主学习
25 30 55
合计 60 160 220
返回目录
附:方差:s2= (xi- )2.相关系数:r= .
回归方程 = x+ 中斜率和截距的最小二乘估计公式分别为 = , = - ,
χ2= .
α
xα
返回目录
解析
(1) = =50, = =87,
又xi(i=1,2,3,4,5)的方差为 (xi- )2=200,
(yi- )2=(65-87)2+(78-87)2+(85-87)2+(99-87)2+(108-87)2=484+81+4+144+441=1 154,
则r= = = ≈ ≈.
(2)由(1)知r≈接近1,故y与x之间具有极强的线性相关关系,可用线性回归模型进
行拟合,
返回目录
= = = =,
= - =×50=,故 =+.当x=100时, =,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为分.
(3)零假设为H0:校自主学习与成绩进步无关联,
χ2= ≈,
因为>,所以依据α=的独立性检验,推断H0不成立,即认为“主学
习”与“成绩进步”有关联,此推断犯错误的概率不超过.