第1讲 统计与统计案例
专题五 概率与统计
考情分析
高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计
总体、线性回归方程的求解与运用、独立性检验等问题,常与概率综合考查,
中等难度.
考点一 用样本估计总体
考点二 回归分析
考点三 独立性检验
专题强化练
内容索引
用样本估计总体
考点一
1.用样本的频率分布估计总体的分布
核心提炼
(2)在频率分布直方图中各小长方形的面积之和为1.
2.用样本的数字特征估计总体的数字特征
样本数据:x1,x2,…,xn.
(1)标准差:样本数据到平均数的一种平均距离,
(3)若a>0,数据ax1+b,ax2+b,…,axn+b的标准差为as,方差为a2s2.
例1 (1)某学校为了解男生身体发育情况,从2 000名男生中抽查了100名
男生的体重情况,根据数据绘制样本的频率分布直方图,如图所示,下
列说法中错误的是
C.样本的平均值约为66
D.体重超过75 kg的学生频数约为200人
√
对于B,设样本的中位数为x,则5×+5×+(x-65)×=,
对于C,由直方图估计样本平均值可得×+×+×
+×+×=,
故C错误;
对于D,2000名男生中体重超过75 kg的人数大
约为2000×5×=200,故D正确.
(2)(2022·模拟)2021年11月10日,中国和美国在联合国气候变化格拉斯
哥大会期间发布《中美关于在21世纪20年代强化气候行动的格拉斯哥
联合宣言》(以下简称《宣言》).承诺继续共同努力,并与各方一道,
加强《巴黎协定》的实施,双方同意建立“21世纪20年代强化气候行
动工作组”,推动两国气候变化合作和多边进程.为响应《宣言》要求,
某地区统计了2020年该地区
一次能源消费结构比例,并规划
了2030年一次能源消费结构比例,
如图所示:
经测算,预估该地区2030年一次能
源消费量将增长为2020年的倍,
预计该地区
年煤的消费量相对2020年减
少了
年天然气的消费量比2020年
的消费量增长了5倍
年石油的消费量相对2020年不变
年水、核、风能的消费量是2020年的倍√
设2020年该地区一次能源消费总量为a,
2020年煤的消费量为,规划2030年煤的消费量为a××=
>,故A错误;
2020年天然气的消费量为 ,规划 2030年天然气的消费量为
a××=,增长了=4·,增长了4倍,故B错误;
2020年石油的消费量为,规划2030年石油的消费量为a××=
>,故C错误;
2020年水、核、风能的消费量为,规划2030年水、核、风能的消费
量为a××==×,故D正确.
利用频率分布直方图求众数、中位数与平均数.
在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每
个小长方形的面积乘以小长方形底边中点的横坐标之和.
规律方法
(1)(2022·兰州模拟)2021年7月,中共中央办公厅、办公厅印发
《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》.
各地积极推进“双减”工作,义务教育阶段学生负担得到有效减轻.下表
是某校七年级10名学生“双减”前后课外自主活动时间的随机调查情况
(单位:小时).
跟踪演练1
学生编号 1 2 3 4 5 6 7 8 9 10
“双减”前 1
“双减”后 2 3 2
√
由表格知,“双减”前的数据比较集中,“双减”后的数据比较分散,
故“双减”前的标准差小于“双减”后的标准差,即s1<s2.
(2)(2022·赤峰模拟)如图所示的是国家统
计局官网发布的2021年3月到2022年3月
全国居民消费价格的涨跌幅情况.
关于这个时间段的折线图,有下列说法:
①所有月份的同比增长率都是正数;
②环比增长率为正数的月份比为负数的月份多;
③2021年9月到10月的同比增长率的增幅等于10月到11月的同比增长率的增幅;
④同比增长率的极差为.
其中正确说法的个数为
√
①显然正确;
②环比增长率为正数的月份有6个,为负数的月份有5个,故②正确;
③2021年9月到10月的同比增长率的增幅为-=,10月到11月
的同比增长率增幅为-=,所以同比增长率的增幅相等,③
的说法正确;
④同比增长率的极差为-=,
所以④的说法错误.
回归分析
考点二
核心提炼
(2022·长沙模拟)为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某
知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果
的热卖黄金时段为7月10日至9月10日,为了解直播的效果和关注度,该
电商平台统计了已直播的2022年7月10日至7月14日时段中的相关数据,
这5天的第x天到该电商平台专营店购物的人数y(单位:万人)的数据如下表:
例2
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y
(单位:万人)
75 84 93 98 100
(1)依据表中的统计数据,请判断该电商平台的第x天与到该电商平台专营
店购物的人数y(单位:万人)是否具有较高的线性相关程度?(参考:若
<|r|<,则线性相关程度一般,若|r|>,则线性相关程度较高,
计算r时精确度为)
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y
(单位:万人)
75 84 93 98 100
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y
(单位:万人)
75 84 93 98 100
所以该电商平台直播黄金时段的天数x与购买人数y具有较高的线性相
关程度.
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y
(单位:万人)
75 84 93 98 100
(2)求购买人数y与直播的第x天的线性回归方程;用样本估计总体,请
预测从2022年7月10日起的第38天到该专营店购物的人数(单位:万人).
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y
(单位:万人)
75 84 93 98 100
预测从2022年7月10日起的第38天到该专营店购物的人数为314万.
日期 7月10日 7月11日 7月12日 7月13日 7月14日
第x天 1 2 3 4 5
人数y
(单位:万人)
75 84 93 98 100
(3)利用相关系数判断相关性强弱,看|r|的大小,而不是r的大小.
(4)区分相关系数r与相关指数R2.
(5)通过线性回归方程求的都是估计值,而不是真实值.
醒
跟踪演练2 (1)(2022·汕头模拟)如图所示,5个(x,y)数据,去掉D(3,10)后,
下列说法正确的是
A.相关系数r变小
B.残差平方和变大
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变强√
由散点图知,去掉离群点D后,解释变量x与
预报变量y的相关性变强,且为正相关,
所以相关系数r的值变大,相关指数R2的值变
大,残差平方和变小.
(2)(2022某省市育才中学模拟)某种产品的价格x(单位:元/kg)与需求量y
(单位:kg)之间的对应数据如表所示:
x 10 15 20 25 30
y 11 10 8 6 5
③若该产品价格为35元/kg,则日需求量大约为 kg;
④第四个样本点对应的残差为-.
②③④
所以③正确;
独立性检验
考点三
(3)查表比较K2与临界值的大小关系,作统计判断.K2越大,对应假设事
件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
核心提炼
例3 (2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营.
为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的
500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的
概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所
属公司有关?
P(K2≥k0)
k0
≈>,
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所
属公司有关.
(1)K2越大,两分类变量无关的可能性越小,推断犯错误的
概率越小,通过表格查得无关的可能性.
(2)在犯错误的概率不超过的前提下认为两个变量有关,
并不是指两个变量无关的可能性为.
醒
跟踪演练3 (2022·安庆模拟)很多人都爱好短视频,为了调查手机用户每天刷
短视频的时间,某通讯公司在一广场随机采访男性、女性用户各50名,
将男性、女性平均每天刷短视频的时间(单位:h)分成5组:(0,2],(2,4]
,(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.
(1)求a的值;
由男性的频率分布直方图,可得(+a+++)×2=1,
解得a=.
(2)根据频率分布直方图估计女性平均每天刷短视频的时间;(同一组中
的数据用该组区间的中点值为代表)
估计女性平均每天刷短视频的时间为2×(1×+3×+5×+
7×+9×)=(h).
(3)若每天刷短视频超过4h的用户称为“短视频控”,否则称为“非短视
频控”,完成如下列联表,判断是否有90%的把握认为是否是“短视频
控”与性别有关.
短视频控 非短视频控 总计
男性
女性
总计
参考数据:
P(K2≥k0)
k0
由(1)得a=,
男性非短视频控人数为(+)×2×50=12,男性短视频控人数为
50-12=38;
女性非短视频控人数为(+)×2×50=20,女性短视频控人数为
50-20=30,
所以填表如下:
短视频控 非短视频控 总计
男性 38 12 50
女性 30 20 50
总计 68 32 100
因此有90%的把握认为是否是“短视频控”与性别有关.
专题强化练
一、选择题
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1.某公司2022年1月 至7月空调销售完成情况如图,如7月份销售量是
190台,设月份为x,销售量为y,由统计数据(xi,yi)(i=1,2,…,7)得到
散点图,下列四个回归方程模型中最适合作为销售量y和月份x的回归方
程模型的是
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.
为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各
回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答
题的正确率如图,则
A.讲座前问卷答题的正确率的中位
数小于70%
B.讲座后问卷答题的正确率的平均
数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
对于B,讲座后问卷答题的正确率分别
是80%,85%,85%,85%,85%,90%,90%,95%,100%,100%,其平均数显然
大于85%,所以B正确;
对于C,由题图可知,讲座前问卷答题的正确率波动较大,讲座后问
卷答题的正确率波动较小,所以讲座前问卷答题的正确率的标准差大
于讲座后问卷答题的正确率的标准差,所以C错误;
1 2 3 4 5 6 7 8 9 10 11 12 13 14
对于D,讲座前问卷答题的正确率的极差是95%-60%=35%,讲座后
问卷答题的正确率的极差是100%-80%=20%,所以讲座前问卷答题
的正确率的极差大于讲座后问卷答题的正确率的极差,所以D错误.故
选B.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
3.(2022·济南模拟)某学校于3月12日组织师生举行植树活动,购买垂柳、
银杏、侧柏、海桐四种树苗共计1 200棵,比例如图所示.高一、高二、
高三报名参加植树活动的人数分别为600,400,200,若每种树苗均按各
年级报名人数的比例进行分配,则高三年级应分得的侧柏的数量为
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
由扇形统计图知,购买的1 200棵树苗中,侧柏
的数量为1 200×25%=300,
依题意,高一、高二、高三分到的侧柏的棵数
比为600∶400∶200=3∶2∶1,
1 2 3 4 5 6 7 8 9 10 11 12 13 14
4.(2022·大同模拟)中国运动员谷爱凌在2022北京冬奥会自由式滑雪女子
大跳台决赛中以分夺得金牌.自由式滑雪大跳台比赛一般有资格赛
和决赛两个阶段,比赛规定:资格赛前12名进入决赛.在某次自由式滑雪
大跳台比赛中,24位参加资格赛选手的成绩各不相同.如果选手甲知道了
自己的成绩后,则他可根据其他23位同学成绩的哪个数据判断自己能否
进入决赛
A.中位数 B.极差
C.平均数 D.方差
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
其他23位参赛同学,按成绩从高到低排列,这23个数的中位数恰好是
第12位选手的成绩.
若选手甲的成绩大于该选手的成绩,则进入决赛,否则不能进入决赛,
因此选手甲可根据中位数判断自己是否能进入决赛.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
5.(2022·西安模拟)某大学生暑假到工厂参加劳动,生产了100件产品,质
检人员测量其长度(单位:厘米),将所得数据分成6组:[90,91),[91,92)
,[92,93),[93,94),[94,95),[95,96],得到如图所示的频率分布直方图,
则对这100件产品,下列说法中不正确的是
=
B.长度落在区间[93,94)内的个数为35
C.长度的中位数一定落在区间[93,94)内
D.长度的众数一定落在区间[93,94)内√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
对于A,由频率和为1,得(×2+b+
++)×1=1,解得b=,所以A
正确;
对于B,长度落在区间[93,94)内的个数为
100×=35,所以B正确;
对于C,[90,93)内有45个数,[94,96]内有20个数,所以长度的中位数
一定落在区间[93,94)内,所以C正确;
对于D,根据频率分布直方图不能判断长度的众数一定落在区间
[93,94)内,所以D错误.
6.(2022·运城模拟)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生
产,影响了人民生活.世界性与区域性异常、旱涝频繁发生给蝗灾发生创造
了机会.已知蝗虫的产卵量y与x的关系可以用模型 (其中e为自然对
数的底数)拟合,设z=ln y,其变换后得到一组数据:
1 2 3 4 5 6 7 8 9 10 11 12 13 14
x 20 23 25 27 30
z 2 3 3
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
故当x=60时,蝗虫的产卵量y的估计值为e10.
x 20 23 25 27 30
z 2 3 3
1 2 3 4 5 6 7 8 9 10 11 12 13 14
7.为了解高中生选科时是否选物理与数学成绩之间的关系,某教研机构
随机抽取了50名高中生,通过问卷调查,得到以下数据:
选物理 不选物理 总计
数学成绩优异 20 7 27
数学成绩一般 10 13 23
总计 30 20 50
1 2 3 4 5 6 7 8 9 10 11 12 13 14
参考数据:
P(K2≥k0)
k0
A.有95%的把握认为是否选择物理与数学成绩有关
B.在犯错误的概率不超过的前提下,认为是否选择物理与数学成绩
有关
%的数学成绩优异的同学选择物理
D.若表格中的所有数据都扩大为原来的10倍,在相同条件下,结论会发
生变化
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
因为>,由临界值表知,P(K2≥)≈,
所以有95%的把握认为是否选择物理与数学成绩有关;
在犯错误的概率不超过的前提下,认为是否选择物理与数学成绩
有关;
又>,故结论会发生变化.
8.(2022·朔州模拟)2022年北京冬奥会开幕式各个代表团所身着的运动鞋服品牌一
度成为热议话题,运动鞋服是近年来某省市场中规模相当庞大的品类,如图为
2022年中国消费者运动鞋服购置品牌偏好调查,根据该图,下列说法错误的是
1 2 3 4 5 6 7 8 9 10 11 12 13 14
年中国运动鞋服消费者为父母长辈购买运
动鞋服时选择国产品牌的占比超过70%
年中国运动鞋服消费者没有为孩子购买运
动鞋服的占比低于20%
年中国运动鞋服消费者在为自己购买运动
鞋服时选择国外品牌的占比不超过
年中国运动鞋服消费者在为朋友购买运动鞋服时选择国产品牌的人数超
过选择国外品牌人数的2倍
√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
2022年中国运动鞋服消费者为父母长辈购买运动鞋服时选择国产品牌
的占比为%,超过70%,故A正确;
2022年中国运动鞋服消费者没有为孩子购买运动鞋服的占比为%
,低于20%,故B正确;
2022年中国运动鞋服消费者在为自己购买运动鞋服时选择国外品牌的
占比为%,超过了 ,故C错误;
2022年中国运动鞋服消费者在为朋友购买运动鞋服时选择国产品牌的
人数占比为%,选择国外品牌的人数占比为%,故D正确.
9.某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,
满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是
得分的个位数,叶部分是得分的小数,则下列说法错误的是
1 2 3 4 5 6 7 8 9 10 11 12 13 14
A.甲同学的平均分大于乙同学的平均分
B.甲、乙两位同学得分的极差分别为和1
C.甲、乙两位同学得分的中位数相同
D.甲同学得分的方差更小√
1 2 3 4 5 6 7 8 9 10 11 12 13 14
甲的极差为-=,乙的极差为-=1,故B正确;
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
10.(2022·荆州模拟)酒后驾驶是严重危害交通安全的行为,某交通管理
部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,
若“连续8天,每天查获的酒驾人数不超过10”,则认为“该地区酒驾
治理达标”,根据连续8天检查所得数据的数字特征推断,酒驾治理一
定达标的地区是
A.甲地:平均数为7,方差为2
B.乙地:众数为3,中位数为2
C.丙地:平均数为4,中位数为5
D.丁地:极差为3,中位数为8
√
不妨设8天中,每天查获的酒驾人数从小到大为x1,x2,…,x8,
且xi≥0其中i=1,2,3,…,8,
选项A,若不达标,则x8≥11,由平均数为7可知,其余七个数中至少
有一个数不等于7,
1 2 3 4 5 6 7 8 9 10 11 12 13 14
这与方差为2矛盾,从而甲地一定达标,故A正确;
选项B,由众数和中位数的定义可知,当x1=x2=0,x3=x4=1,x5=
x6=x7=3,x8=11时,乙地不达标,故B错误;
选项C,若不达标,则x8≥11,由平均数为7可知,因为中位数是5,
所以x4+x5=10,
1 2 3 4 5 6 7 8 9 10 11 12 13 14
从而x1+x2+x3+x6+x7≤32-11-10=11,
且x1≤x2≤x3≤5≤x6≤x7,则当x1=x2=0,x3=1,x4=x5=x6=x7=5
,x8=11时满足题意,此时丙地不达标,故C错误;
选项D,由极差和中位数的定义可知,当x1=x2=x3=x4=x5=x6=x7=
8,x8=11时,丁地不达标,故D错误.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
二、填空题
11.某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的
相关性,在生产过程中收集了4组对应数据(x,y),如表所示.(残差=观
测值-预测值)
x 3 4 5 6
y 3 4 m
1 2 3 4 5 6 7 8 9 10 11 12 13 14
解得m=.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
12.(2022·连云港模拟)一组数据x1,x2,…,x10是公差为-1的等差数列,
若去掉首末两项x1,x10,则下列说法正确的是________.(填序号)
①平均数变大;②中位数没变;③方差变小;④极差没变.
②③
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
对于③,设公差为d,则原数据的方差为
即方差变小,故③正确;
对于④,原数据的极差为x1-x10=-9d=9,
去掉x1,x10后的极差为x2-x9=-7d=7,即极差变小,故④错误.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
三、解答题
13.(2022·海东模拟)某公司为了解用户对公司生产的产品的满意度做了一次随
机调查,共随机选取了100位用户对其产品进行评分.用户对产品评分情况如
表所示(已知满分100分,选取的100名用户的评分分值在区间[70,100]上).
选取的100名用户中男性用户评分情况:
得分 [70,75) [75,80) [80,85) [85,90) [90,95) [95,100]
人数 7 11 18 12 8 8
选取的100名用户中女性用户评分情况:
得分 [70,75) [75,80) [80,85) [85,90) [90,95) [95,100]
人数 3 9 12 8 2 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14
(1)分别估计用户对产品评分分值在[70,80),[80,90),[90,100]的概率;
1 2 3 4 5 6 7 8 9 10 11 12 13 14
(2)若用户评分分值不低于80分,则定位用户对产品满意.填写下面的2×2列联
表,并分析有没有95%以上的把握认为用户对产品满意与否与性别有关?
男性用户 女性用户 总计
对产品满意
对产品不满意
总计 100
1 2 3 4 5 6 7 8 9 10 11 12 13 14
P(K2≥k0)
k0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
男性用户有64人,女性用户有36人,根据统计数据得到2×2列联表:
男性用户 女性用户 总计
对产品满意 46 24 70
对产品不满意 18 12 30
总计 64 36 100
所以没有95%以上的把握认为用户对产品满意与否与性别有关.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
14.(2022·拟)人工智能教育是将人工智能与传统教育相结合,借助人工智
能和大数据技术打造的智能化教育生态.为了解我国人工智能教育发展状
况,通过中国互联网数据平台得到我国2017年~2022年人工智某省市场
规模统计图.如图所示,若用x表示年份代码(2017年用1表示,2018年用2
表示,依此类推),用某省市场规模(单位:亿元),试回答:
1 2 3 4 5 6 7 8 9 10 11 12 13 14
(1)根据条形统计图中数据,计算变量y与x
的相关系数r,并据此判断两个变量y与x相
关关系的强弱(精确到小数点后2位);(参考:
若<|r|<,则线性相关程度一般,若
|r|>,则线性相关程度较高)
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
∴y与x具有较高的线性相关程度.
1 2 3 4 5 6 7 8 9 10 11 12 13 14
(2)若y与x的相关关系拟用线性回归模型表示,试求y关于x的线性回归方
程,并据此预测2024年中国人工智某省市场规模(精确到1亿元).
1 2 3 4 5 6 7 8 9 10 11 12 13 14
故据此预测2024年中国人工智某省市场规模约为2 677亿元.