目录
五年高考
三年模拟
高考
数学
专题十一 概率与统计
成对数据的统计分析
新高考专用
目录
五年高考
三年模拟
考点1 变量间的相关关系
考点2 列联表和独立性检验
三年模拟
目 录
五年高考
综合基础练
综合拔高练
目录
五年高考
三年模拟
五年高考
考点1 变量间的相关关系
1.(2022全国乙理,19,12分,中)某地经过多年的环境治理,已将荒山改造成了绿水青山.
为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横
截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6
根部横截面积xi
材积量yi
样本号i 7 8 9 10 总和
根部横截面积xi
材积量yi
目录
五年高考
三年模拟
并计算得 =, = 8, xiyi= 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面
积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出
该林区这种树木的总材积量的估计值.
附:相关系数r= , ≈.
目录
五年高考
三年模拟
解析 (1)估计该林区这种树木平均一棵的根部横截面积为 = =(m2),平均一棵
的材积量为 = =(m3).
(2)样本相关系数r=
=
=
目录
五年高考
三年模拟
= = ≈ ≈.
计算相关系数r= 时,需要将分子、分母稍加变换,采用题设中给出
的数据求解
即该林区这种树木的根部横截面积与材积量的样本相关系数约为.
(3)设这种树木的根部横截总面积为X m2,总材积量为Y m3,则 = ,则Y= =
=1 209,
所以该林区这种树木的总材积量的估计值为1 209 m3.
目录
五年高考
三年模拟
2.(2020课标Ⅱ理,18,12分,中)某沙漠地区经过治理,生态系统得到很大改善,野生动物
数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从
这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,
…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数
量,并计算得 xi=60, yi=1 200, (xi- )2=80, (yi- )2=9 000, (xi- )(yi- )=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种
野生动物数量的平均数乘地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得
目录
五年高考
三年模拟
该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说
明理由.
附:相关系数r= , ≈.
目录
五年高考
三年模拟
解析 (1)由已知得样本平均数 = yi=60,从而该地区这种野生动物数量的估计值
为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r= = = ≈.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于
各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用
分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
目录
五年高考
三年模拟
3.(2018课标Ⅱ理,18,12分,中)下图是某地区2000年至2016年环境基础设施投资额y(单
位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归
目录
五年高考
三年模拟
模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①: =-30.
4+;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②: =99
+.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
目录
五年高考
三年模拟
解析 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 =+
×19=(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为 =99+×9=(亿
元).
(2)解法一:利用模型②得到的预测值更可靠.理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=+1
上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境
基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2
010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础
目录
五年高考
三年模拟
设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型
=99+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用
模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测
值亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用
模型②得到的预测值更可靠.
解法二:模型②得到的预测值更可靠,因为从总体数据看,该地区从2000年到2016年的
环境基础设施投资额是逐年上升的,从2000年到2009年间递增的幅度较小些,从2010
年到2016年间递增的幅度较大些,所以利用模型②得到的预测值更可靠.
目录
五年高考
三年模拟
考点2 列联表和独立性检验
1.(2022全国甲文,17,12分,中)甲、乙两城之间的长途客车均由A和B两家公司运营.为
了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到
下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
目录
五年高考
三年模拟
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:K2= ,
.
目录
五年高考
三年模拟
解析 (1)根据题表中数据得A公司共有260个班次,B公司共有240个班次,
设事件“A公司甲、乙两城之间的长途客车准点”为M,则P(M)= = ,
设事件“B公司甲、乙两城之间的长途客车准点”为N,则P(N)= = ,
所以A公司甲、乙两城之间的长途客车准点的概率为 ,B公司甲、乙两城之间的长
途客车准点的概率为 .
(2)2×2列联表如下:
目录
五年高考
三年模拟
准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
K2= = ≈>,故有90%的把握认
为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
目录
五年高考
三年模拟
2.(2020新高考Ⅰ,19,12分,中)为加强环境保护,治理空气污染,环境监测部某省市空
气质量进行调研,随机抽查了100天空气中的和SO2浓度(单位:μg/m3),得下表:
SO2
[0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
目录
五年高考
三年模拟
(1)估计事某省市一天空气中浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2
[0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握某省市一天空气中浓度与SO2浓
度有关.
附:K2= ,
目录
五年高考
三年模拟
解析 (1)根据抽查数某省市100天的空气中浓度不超过75,且SO2浓度不超过150
的天数为32+18+6+8=64,因某省市一天空气中浓度不超过75,且SO2浓度不超过1
50的概率的估计值为 =.
(2)根据抽查数据,可得2×2列联表:
SO2
[0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
目录
五年高考
三年模拟
(3)根据(2)的列联表得
K2= ≈.
由于>,故有99%的把握某省市一天空气中浓度与SO2浓度有关.
目录
五年高考
三年模拟
3.(2020课标Ⅲ,18,12分,中)某学生兴趣小组随机调某省市100天中每天的空气质量
等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,
200]
(200,
400]
(400,
600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
目录
五年高考
三年模拟
(1)分别某省市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点
值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级
为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列
联表,判断是否有95%的把握认为一天中到该公园锻炼的人某省市当天的空气质量
有关.
目录
五年高考
三年模拟
人次≤400 人次>400
空气质量好
空气质量不好
附:K2= ,
.
目录
五年高考
三年模拟
解析 (1)由所给数某省市一天的空气质量等级为1,2,3,4的概率的估计值如表:
空气质量等级 1 2 3 4
概率的估计值
(2)一天中到该公园锻炼的平均人次的估计值为 ×(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
目录
五年高考
三年模拟
根据列联表得K2= ≈.
由于>,故有95%的把握认为一天中到该公园锻炼的人某省市当天的空气
质量有关.
目录
五年高考
三年模拟
4.(2023全国甲理,19,12分,中)一项试验旨在研究臭氧效应,试验方案如下:选40只小白
鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在
高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重
的增加量(单位:g).
(1)设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.
(2)试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
目录
五年高考
三年模拟
试验组的小白鼠体重的增加量从小到大排序为
(i)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数
据的个数,完成如下列联表:
目录
五年高考
三年模拟
<m ≥m
对照组
试验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环
境中体重的增加量有差异?
附:K2= ,
.
目录
五年高考
三年模拟
解析 (1)依题意得,X的所有可能取值为0,1,2,
则P(X=0)= = ,
P(X=1)= = ,
P(X=2)= = ,
∴X的分布列为
X 0 1 2
P
目录
五年高考
三年模拟
∴E(X)=0× +1× +2× =1.
(2)(i)依题意可得m= =.
则对照组样本中小于m的数据的个数为6,
试验组样本中小于m的数据的个数为14,
则列联表为
<m ≥m
对照组 6 14
试验组 14 6
目录
五年高考
三年模拟
(ii)由(i)中列联表可得
K2= =>,
∴有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差
异.
目录
五年高考
三年模拟
三年模拟
1.(2024届福建宁德第一中学二模,4)5G技术在我国已经进入高速发展的阶段,5G手机
的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如表所示:
时间x 1 2 3 4 5
销量y(千只)
目录
五年高考
三年模拟
若y与x线性相关,且经验回归方程为 =+ ,则下列说法不正确的是 ( )
A.由题中数据可知,变量y与x正相关
B. =
C.可以预测x=6时该商场5G手机销量为千只
=5时,残差为
D
目录
五年高考
三年模拟
2.(2023河南安阳二模,4)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有
着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,
并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1
表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判
断下面指标对应的模型拟合效果最好的是 ( )
A.
C
目录
五年高考
三年模拟
B.
C.
D.
目录
五年高考
三年模拟
3.(2024届湖南名校联合体第三次联考,3)某校数学兴趣小组在某座山测得海拔高度x
(单位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,…,6),并将其绘制成如下散点
图,分析研究发现B点相关数据不符合实际,删除B点后重新进行回归分析,则下列说法
正确的是 ( )
A.删除点B后,样本数据的两变量x,y正相关
B.删除点B后,相关系数r的绝对值更接近于1
C.删除点B后,新样本的残差平方和变大
D.删除点B后,解释变量x与响应变量y相关性变弱
B
目录
五年高考
三年模拟
4.(2024届云南曲靖第一中学第二次月考,13)为了比较甲、乙、丙、丁四组数据的线
性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的相关系数,求得数值依
次为,,,,则这四组数据中线性相关性最强的是 组数据.
答案 甲
目录
五年高考
三年模拟
1.(多选)(2023广东深圳二模,9)为了研究y关于x的线性相关关系,收集了5组样本数据,
如下表:
x 1 2 3 4 5
y 1
假设经验回归方程为 = x+,则 ( )
A. =
B.当x=8时,y的预测值为
C.样本数据y的40%分位数为
D.去掉样本点(3,1)后,x与y的样本相关系数r不变
ABD
目录
五年高考
三年模拟
2.(2023湖南师大附中二模,18)某高中学校开展生涯规划教育,对今年的1 200名考生
(其中女生540人)进行调查,统计知:有意向报考师范专业的学生有200人(其中女生120
人).
(1)完成下面的列联表,并依据小概率值α=的独立性检验分析判断报考师范专业
意向是否与性别有关;
性别 报考意向 合计
师范专业 非师范专业
男生
女生
合计
目录
五年高考
三年模拟
(2)对有报考师范专业意向的学生按男女分层随机抽样得一个容量为10的样本,从样本
中任意抽取5人,记抽取到的男生人数为X,求X的分布列与期望值.
附:
α
xα
χ2= (其中n=a+b+c+d).
目录
五年高考
三年模拟
解析 (1)列联表如下:
性别 报考意向 合计
师范专业 非师范专业
男生 80 580 660
女生 120 420 540
合计 200 1 000 1 200
目录
五年高考
三年模拟
零假设为H0:报考师范专业意向与性别无关,
∵χ2= ≈>,
∴依据小概率值α=的独立性检验推断H0不成立,即认为报考师范专业意向与性
别有关,此推断犯错误的概率不大于.
(2)据题意知,样本中男生有4人,女生有6人,
则X的所有可能取值为0,1,2,3,4,
P(X=0)= = ,P(X=1)= = ,P(X=2)= = ,P(X=3)= = ,P(X=4)=
= .
目录
五年高考
三年模拟
所以X的分布列为
X 0 1 2 3 4
P
E(X)=0× +1× +2× +3× +4× =2.
目录
五年高考
三年模拟
3.(2024届山东新高考质量检测联盟质检(一),17)某学校研究性学习小组在学习生物遗
传学的过程中,为验证高尔顿提出的关于儿子成年后身高y(单位:cm)与父亲身高x(单
位:cm)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
父亲身高x 160 170 175 185 190
儿子成年后
身高y
170 174 175 180 186
目录
五年高考
三年模拟
(1)根据表中数据,求出y关于x的经验回归方程,并利用回归直线方程分别确定儿子比
父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
(2)记 =yi- =yi- xi- (i=1,2,…,n),其中yi为观测值, 为预测值, 为对应(xi,yi)的残差.求
(1)中儿子身高的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量
都成立.若成立,加以证明;若不成立,说明理由.
参考数据及公式: =880, =155 450, yi=885, xiyi=156 045,
= , = - .
目录
五年高考
三年模拟
解析 (1)由题意得 = =176, = =177, = = = =0.
5, = - =×176=89,所以经验回归方程为 =+89,
令+89-x>0,得x<178,即x<178时,儿子比父亲高;
令+89-x<0,得x>178,即x>178时,儿子比父亲矮,
可得当父亲身高较高时,儿子平均身高要矮于父亲,即儿子身高有一个回归,回归到全
种群平均高度的趋势.(意思对即可)
(2)由 =+89可得 =×160+89=169, =174, =, =, =184,
所以 =885,又 yi=885,所以 = (yi- )= yi- =0,
目录
五年高考
三年模拟
结论:对任意具有线性相关关系的变量 =0,
证明: = (yi- )= (yi- xi- )= yi- xi-n =n -n -n( - )=0.
目录
五年高考
三年模拟
4.(2024届广东广州荔湾月考,19)某专营店统计了最近5天到该店购物的人数yi和时间
第xi天之间的数据,列表如下:
xi 1 2 3 4 5
yi 75 84 93 98 100
(1)由表中给出的数据,判断是否可用线性回归模型拟合人数y与时间x之间的关系?(若|
r|>,则认为线性相关程度高,可用线性回归模型拟合;否则,不可用线性回归模型拟
合.计算r时精确到)
目录
五年高考
三年模拟
(2)该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满100元可减10元;
方案二,购物金额超过800元可抽奖三次,每次中奖的概率均为 ,且每次抽奖互不影响,
中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买一件价值
1 000元的商品,请从实际付款金额的数学期望的角度分析,选哪种方案更优惠?
参考数据: ≈.
附:相关系数r= .
目录
五年高考
三年模拟
解析 (1) = =3, = =90,
所以 (xi- )(yi- )=-2×(-15)+(-1)×(-6)+0+1×8+2×10=64,
(xi- )2=4+1+0+1+4=10, (yi- )2=(-15)2+(-6)2+32+82+102=434,
所以r= = ≈ ≈>,
所以y与x的线性相关性很强,故可用线性回归模型拟合人数y与时间x之间的关系.
(2)设方案一的实际付款金额为X元,方案二的实际付款金额为Y元,
由题意可知E(X)=1 000×=900(元),
目录
五年高考
三年模拟
Y的可能取值有600、800、900、1 000,
P(Y=600)= = ,P(Y=800)= · · = ,
P(Y=900)= · · = ,P(Y=1 000)= = ,
所以E(Y)=600× +800× +900× +1 000× = < =E(X),所以方案二更优
惠.
目录
五年高考
三年模拟
5.(2024届浙江金华十校模拟,20)2023年9月8日,第19届亚运会火炬传递启动仪式在杭
州西湖涌金公园广场成功举行.火炬传递首日,火炬手从杭州西湖涌金公园广场出发,
沿南山路—湖滨路—环城西路—北山街—西泠桥—孤山路传递,在“西湖十景”之一
的平湖秋月收火.杭州亚运会火炬首日传递共有106棒火炬手参与.
(1)组委某省市火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格:
性别 年龄 总计
满50 未满50
男 15 45 60
女 5 35 40
总计 20 80 100
目录
五年高考
三年模拟
根据小概率值α=的χ2独立性检验,试某省市火炬手的性别与年龄满或未满50
是否有关联;
(2某省市的火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性
火炬手喜欢观看足球比赛.某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请
问这位火炬手是男性的概率为多少?
附:
α
xα
目录
五年高考
三年模拟
解析 (1)零假设为H某省市火炬手的性别与年龄满或未满50有关联,
根据2×2列联表中的数据,得χ2= ≈<=,
所以根据小概率值α=的χ2独立性检验,没有充分证据推断H0不成立,因此可以认定
为H0成立,
即某省市火炬手的性别与年龄满或未满50有关联.
(2)设A表示火炬手为男性,B表示火炬手喜欢足球,
则P(A|B)= = = = = = ,
所以这位火炬手是男性的概率约为 .
目录
五年高考
三年模拟
6.(2024届重庆渝中期中,20)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代
表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如表:
年份 2017 2018 2019 2020 2021 2022
编号x 1 2 3 4 5 6
企业总数量y
(单位:百个)
50 78 124 121 137 352
(1)若用模型y=aebx拟合y与x的关系,根据提供的数据,求出y与x的经验回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀
请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决
目录
五年高考
三年模拟
出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比
赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化技术比赛
的“优胜公司”称号.已知在每场比赛中,甲胜乙的概率为 ,甲胜丙的概率为 ,乙胜丙
的概率为 ,若首场由甲乙比赛,求甲公司获得“优胜公司”称号的概率.
参考数据: ui=, xiui=,其中,ui=ln yi.
参考公式:对于一组数据(xi,yi)(i=1,2,3,…,n),其经验回归直线 = x+ 的斜率和截距的
最小二乘估计分别为 = , = - .
目录
五年高考
三年模拟
解析 (1)令u=ln y=ln(aebx)=bx+ln a,
= =, = =,
则 = = =,
ln =×=,所以 =,
所以y=·=+.
(2)设甲公司获得“优胜公司”称号为事件A,
则P(A)= × + × × × + × × × = ,
所以甲公司获得“优胜公司”称号的概率为 .
目录
五年高考
三年模拟
7.(2024届浙江台州统考,19)为了了解高中学生课后自主学习数学时间(x分钟/每天)和
他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(如表一).
表一
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
目录
五年高考
三年模拟
(1)请根据所给数据求出x,y的经验回归方程,并由此预测每天课后自主学习数学时间
为100分钟时的数学成绩;(参考数据: xiyi=22 820, yi=435,xi的方差为200)
(2)基于上述调查,某校提倡学生校自主学习.经过一学期的实施后,抽样调查了
220位学生.按照是否参与校自主学习以及成绩是否有进步统计,得到2×2列联表
(如表二).依据表中数据及小概率值α=的独立性检验,分析“校自主学
习”与“成绩进步”是否有关.
目录
五年高考
三年模拟
表二
没有进步 有进步 合计
参与校自主学习 35 130 165
未参与校自主学
习
25 30 55
合计 60 160 220
表二
α
xα
目录
五年高考
三年模拟
解析 (1) = =50, = =87,
又xi(i=1,2,3,…,5)的方差为 (xi- )2=200,
所以 = = = =,
= - =×50=,故 =+,当x=100时, =,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为分.
(2)零假设为H0:学生校自主学习与成绩是否有进步无关.
根据数据,计算得到:
目录
五年高考
三年模拟
χ2= = = ≈>=,
所以依据α =的χ2独立性检验,可以认为“校自主学习”与“成绩进步”
有关.