此处是大标题样稿字样十五
字以内
本章的学习目的
本章的学习目的是为了认识到
通过样本推断总体的科学性。
当总体元素非常多,或者检查
具有破坏性时,需要进行抽样。
抽样的目的是为了推断总体的
数量特征,但这种推断必定伴
有某种程度的不确定性,需要
用概率来表示其可靠程度,这
是推断统计的重要特点。
案例
1936年美国总统选举的预测,民主党罗斯福
VS共和党兰登。《文摘》邮寄了1000万份调
查表;收回240万份,预测兰登获得57%的选
票获胜。而盖洛普研究所仅仅随机抽取了
2000 多选民,预测罗斯福将得到54%的选
票获胜。
选举结果是罗斯福获得62%的选票获胜。
此后,盖洛普研究所每年用1000~1500人的
样本快速准确的预测选举,误差在2%之内。
抽样的基本概念
抽样调查,按照随机原则从全部研究对象中抽
取一部分单位进行调查,并以调查结果对总体
数量特征作出具有一定可靠程度的估计与推断,
从而认识总体的一种统计方法。
随机原则:指样本单位的抽取不受主观因素及
其他系统性因素的影响,每个总体单位都有均
等的被抽中机会。
随机原则的实现
抽签法,是将总体中每个单位的编号写在外形
完全一致的签上,将其搅拌均匀,从中任意抽
选,签上的号码所对应的单位就是样本单位。
随机数表法:将总体中每个单位编上号码,然
后使用随机数表,查出所要抽取的调查单位。
计算机模拟法:是将随机数字编制为程序存储
在计算机中,需要时将总体中各单位编上号码,
启用随机数字发生器输出随机数字。
并非所有的抽样估计都按随机原则抽取样本,并非所有的抽样估计都按随机原则抽取样本,
也有非随机抽样。也有非随机抽样。
总体总体
随机样本随机样本
非随机样本非随机样本
与总体分布与总体分布
特征相同特征相同
与总体分布与总体分布
特征不同特征不同
抽样的基本概念
总体,要研究的调查对象的全体。
个体,组成总体的每个元素。
样本:从总体中随机抽取的部分个体。
样本容量:样本中所含的个体数量。
样本和总体(sample & population)
视频教学
抽样误差
167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM
170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM
平均身高=
平均身高=
总平均身高=
抽样的基本概念
抽样误差:用于抽样的随机性所带来的误
差,是一种固有误差。
非抽样误差:调查过程中发生的误差,以
及由于主观因素破坏了随机性原则而产生
的系统性偏差,是可以避免的。
随机抽样设计
不同的抽样方式,对抽样结果
有很大影响,根据研究目的和
要求,以及具体情况选择抽样
方式;
简单随机抽样、等距抽样、类
型抽样、整群抽样、多阶段抽
样等。
抽样方法-概率抽样
根据已知的概率选取样本
简单随机抽样:完全随机抽取样本;
分层抽样:总体分“层”,在每一层内进行抽样;
整群抽样:将总体划分为若干群,将一组被调查者
(群)作为一个抽样单位。(群内的个体存在差异,
理想情况是每个群都是总体的一个缩影)
等距抽样:在样本框中,每隔一定距离抽选一个被
调查者。
抽样方法-非概率抽样
不是完全按照随机原则选取样本
非随机抽样:由调查人员自由选取被调查者;
判断抽样:通过某些条件过滤来选取被调查者;
抽样分布
在讨论抽样分布之前,需要回顾
以下一些与概率分布有关的概念:
随机变量、离散型随机变量及其
概率分布、连续型随机变量及其
概率分布。
概率密度函数。
随机变量(Random
Variable)
随机变量是表征一个随机试验结果的变量,
其数值由一次试验结果所决定,但是在试
验之前是不确定的。
随机变量的所有可能取值就是所有基本事件
对应的值。通常用英文大写字母或希腊字
母表示。
离散型、非离散型、连续型。
随机变量(Random
Variable)
离散型随机变量:投掷骰子;
非离散型随机变量:某路口24小时内经过
的车辆;
连续型随机变量:灯泡寿命。
离散型随机变量
离散型随机变量的取值域由有限个或可数
多个数值或符号组成。
其概率是指离散型随机变量(X)取一个具体
数值(x)的概率,即P(X= x)。
离散型随机变量的概率分布是指离散型随
机变量取遍每一个实验结果x的概率的分布
情况,常用列表表示,如下表。
离散型随机变量
X的取值x 1 2 3 4 5 6
X的概率 P(X=x) 1/6 1/6 1/6 1/6 1/6 1/6
连续型随机变量
连续型随机变量的取值域为一个连续区间。
只有在(连续的)区间上取值时,其概率
才可能为正值,连续型随机变量在任何一
点上的概率都为零。
概率密度函数
连续型随机变量的概率密度函数 f (x)
概率密度函数的含义:曲线 f (x)下任何一
个区间的面积,等于随机变量 X 在该区间
取值的概率。
最常见的连续型随机变量的概率分布
正态分布(P40)。
若随机变量X的概率密度函数
记为
最常见的连续型随机变量的概率分布
标准正态分布:
标准正态分
布
标准正态分布的计算
例: 设随机变量XN(0,1),求下列概率:
(1)P(X<0); (2)P(X);
(3)P(X>1); (4)P(<X<).
(1) 查正态分布数值表,当x=0时,对应的(x)=
(2) 查正态分布数值表,当x=时,对应的(x)=
,
所以P(X<0)=
所以P(X)=
(3) 因为P(X>1)=1-P(X1)=1-(1)
查正态分布数值表,(1)=
所以 P(X>1)=1-(1)=
例: 设随机变量XN(0,1),求下列概率:
(1)P(X<0); (2)P(X);
(3)P(X>1); (4)P(<X<).
(4) 因为P(<X<)=()-()
=()-[1-()]
查正态分布数值表, ()=, ()=,
所以 P(<X<)=-[]=.
正态分布的计算 - 例题
某厂生产的某种节能灯管使用寿命服从正态分布,
对某批次产品的测试结果,平均使用寿命为1050
小时,标准差为200小时。求:
1. 使用寿命在500小时以下的灯管占多大比例?
2. 使用寿命在850~1450小时的灯管所占比例?
3. 以均值为中心,95%的灯管使用寿命的范围
?
什么是抽样分布?
如果要估计总体的均值 ;是用样
本平均值 ,还是用中位数m?
还是掷骰子,总体均值
第一次,2,2,6,m=2
第二次,3,4,6,m=4,
可见,不能仅仅根据一个样本去比
较是 和 m
样本统计量本身是随机变量,抽样
分布就是由样本n个观察值计算的统
计量的概率分布。
样本均值的抽样分布
一个总体1,2,3,4. 重复抽样方
法,先抽一个,放回,再抽一个。
样本均值 的抽样分布
样本均值的抽样分布
有放回(with replacement)抽
样 1 2 3 4
1
{1,1}
1
{2,1}
1.
5
{3,1}
2
{4,1}
2.
5
2
{1,2}
1.
5
{2,2}
2
{3,2}
2.
5
{4,2}
3
3
{1,3}
2
{2,3}
2.
5
{3,3}
3
{4,3}
4
{1,4}
2.
5
{2,4}
3
{3,4}
3.
5
{4,4}
4
样本均值的抽样分布
的取值 的个数 概率
1 1/16
2 2/16
3 3/16
4 4/16
3 3/16
2 2/16
1 1/16
样本均值的抽样分布
中心极限定理
中心极限定理:不论该总体服从何
种分布,只要当样本容量足够大(
),样本均值的分布都近似服从正
态分布。
视频:中心极限定理
视频:样本均值的抽样分布
样本均值的抽样分布
中心极限定理
程序模拟
视频:程序模拟n的不断增加
样本均值的抽样分布与总
体的关系
总体分布
正态分布 非正态分布
大样本 小样本
正态分布
大样本 小样本
正态分布 t 分布
抽样分布例题 1
某汽车电池的制造商声称其最好的电
池寿命的均值是54个月,标准差为6
个月。某消费组织决定购买50个该品
种电池作为样本来检验电池寿命,
1. 假设该制造商所言为真实的,请描
述这50个电池样本的平均寿命的抽样
分布;
2. 假设该制造商所言是真实的,则消
费组织的样本寿命小于或等于52个月
的概率是多少?
抽样分布例题 1
1. 运用中心极限定理推断:对于50个
电池的样本来说,平均寿命的分布
近似正态分布。因此,这个抽样分
布的均值与抽样总体的均值是相同
的,抽样分布的标准差由公式计算,
得
个月;
个月
抽样分布例题 1
2. 假设制造商所言是真实的,则对于
50个电池的样本来说,消费组织观
察到电池的平均寿命小于或者等于
52个月的概率 ,等于下
图的阴影面积,计算标准正态分布
z 值求这个面积:
抽样分布例题 1
因此,假设制造商的声明是真实的,
则消费组织观察到的样本均值(即电
池平均寿命)小于或者等于52个月的
概率仅为
这么小的概率几乎是不可能发生的!
那么,如果50 个电池的平均寿命小于
52个月,则说明该制造商所言是不真
实的。
抽样分布例题 2
美国汽车联合会(AAA)是一个拥有90个俱乐部的非营
利联盟,它对其成员提供旅行、金融、保险以及与汽车相
关的各项服务。1999年5月,AAA通过对会员调查得知
一个4口之家出游中总体平均每日餐饮和住宿费用大约是
213美元, 标准差是15美元。假设选取49个4口之家,
并对其在1999年6月期间的旅行费用进行记录。
1). 描述 (样本家庭平均每日旅行消费)的抽样分布。
抽样分布例题 2
1. 运用中心极限定理推断:对于49个
家庭的样本来说,平均每日旅行消
费的分布近似正态分布。因此,这
个抽样分布的均值与抽样总体的均
值是相同的,抽样分布的标准差由
公式计算,得
美元;
美元
抽样分布例题 2
2). 对于样本家庭来说,平均每日消费大于
217美元的概率是多少?3). 在209美元和
217美元之间的概率呢?
抽样分布例题 3
某酒店电梯标志注明最大载重为18人,
1350 kg。假定已知该酒店游客及其
携带行李的平均重量为70 kg,标准
差是6 kg。试问,随机进入电梯18
人,总重量超重的概率是多少?
(人的体重服从正态分布)
抽样分布例题 3
超重的概率只有 !
抽样分布例题 4
视频:喝水的问题
样本方差的抽样分布
THANKS