第六章 抽样推断
基础知识
• 排列 组合 公式
• 正态分布
学习目标
• 掌握抽样推断中的基本原理和方法
• 能够利用样本资料推断总体指标
• 重点掌握抽样误差的计算
抽样估计内容体系介绍
抽样推断的概念
抽样推断是建立在概率论基础上的一种科学的统计分
析方法。它是指按照随机原则,从全及总体中抽取一
部分单位作为样本进行实际调查,然后根据调查所得
的样本数据,对总体的特征值做出具有一定可靠程度
的推断,以反映总体的数量特征或数量关系。
第一节 抽样推断的意义及特点
• 由部分推算整体的一种认识方法
• 抽样推断是建立在随机取样的基础上
• 抽样推断是运用概率估计的方法
• 抽样推断的误差可以事先计算并加以控制
抽样推断的特点
抽样推断的意义及特点
• 全及总体与抽样总体
• 全及指标(总体参数)与抽样指标
• 样本空间与样本容量
抽样推断的几对基本概念
第二节 抽样的基本概念及原理
1. 全及总体是我们所要研究的对象,而样本总体则是我们所
要观察的对象,两者是有区别而又有联系的不同范畴。
2. 全及总体又称母体,简称总体,它是指所要认识的,具有
某种共同性质的许多单位的集合体,一般用N表示。
3. 抽样总体又称子样,简称样本,是从全及总体中随机抽取
出来,代表全及总体的那部分单位的集合体。样本总体的
单位数总是有限的,通常用小写英文字母n来表示。
4. 如果说对于一次抽样调查,全及总体是唯一确定的,但样
本总体不是,样本是不确定的,一个全及总体可能抽出很
多个样本总体。
(一)全及总体和抽样总体
• 总体参数根据全及总体各单位的标志值或标志
属性计算而来,是描述总体特征的概括性数字
度量,即全及指标,是研究者想要了解的总体
的某种特征值。
• 由抽样总体各单位标志值计算出来反映样本特
征,并用来估计全及指标(总体参数)的指标
称为抽样指标,也叫样本统计量,是样本变量
的函数。
(二)全及指标和抽样指标
(三)样本空间与样本容量
1.样本空间
在总体单位数N中随机抽n个单位,有许许多多
不同的样本可能,这些所有可能,形成的样本数
目,称为样本空间,用M表示。
(1)重复抽样
(2)不重复抽样
从总体N个单位中随机抽取一个容量为n的样本,每
次抽取一个单位,把结果登记后再放回到总体中,重新
参加下一次的抽取.
抽出个体 登记特征 放回总体 继续抽取
抽样方法—重复抽样
重复抽样形成的样本空间
从总体N个单位中随机抽取一个容量为n的样本,
每次抽取一个单位,把结果登记后不再放回到
总体参加下一次的抽取.
抽出
个体
登记
特征
继续
抽取
抽样方法—不重复抽样
从总体N个单位中抽取n个单位构成样本,不但考虑样
本各单位成分的不同,而且还要考虑样本各单位的中
选顺序。
即中选成分相同但中选顺序不同的视为不同样本
不重复抽样—考虑顺序
从总体N个单位中抽取n个单位构成样本,只考虑样本各
单位成分的不同,不管样本各单位的中选顺序.
即中选成分相同但中选顺序不同的视为同一样本
不重复抽样—不考虑顺序
考虑顺序的不重复抽样
不考虑顺序的不重复抽样
样本的空间数
统计推断的理论基础—大数法则
如果变量总体存在着有限的平均数和方差,则对
于充分大的抽样单位数,可以几乎为1的概率来
期望,样本平均数和总体平均数的绝对离差任意
小(二者几乎相等)。
(四)抽样推断的基本原理
样本平均数与总体
平均数的离差有多
大?分布如何?
• 抽样分布是样本统计量(如样本平均数)所
有可能值的概率分布
• 实践中不可能将所有样本一一列举,所以只
能对抽样分布进行推算
• 推算的理论依据是正态分布的再生定理和中
心极限定理
抽样分布定理
1.正态分布的再生定理
从正态总体中抽取的样本,不论容量大小,其样本平均数服从
正态分布。样本均值等于总体均值 ,样本均值的标准差为
。
2.中心极限定理
从非正态总体(平均数和标准差有限)中抽取的样本,当n足够
大时(n>30),样本平均数分布接近正态分布。n越大,分布越趋
近于正态分布。
抽样分布定理——正态分布的再生定理、中心极限定理
正态总体或非正态总体、大样本
第三节 抽样误差
• 有时我们会用样本的统计量直接去估计总体参
数。这种估计的可靠性是由抽样误差来衡量的。
• 抽样误差是由于随机原则导致的样本统计量
(如样本平均数、样本成数)与总体参数之间
的误差,主要包括:
•样本容量的大小 容量大 抽样误差小
•总体的变异程度 变异大 抽样误差大
•抽样方法和抽样组织方式 不重复抽样的抽样误差比重复
抽样的抽样误差小;
抽样组织方式:简单随机抽样
的误差最大。
抽样误差的影响因素
• 抽样误差是一个随样本不同而不同的随
机变量。
• 因为总体指标未知,对于任何一个样本,
其抽样误差都不可能测量出来。但是可
以推算所有抽样的平均误差。
抽样平均误差即全部可能样本的样本平均值或样本成数
计算的标准差。又称抽样标准误差、抽样标准误
抽样平均误差
衡量抽样平均数对总体平均数的代表程度,是反映抽样
平均数与总体平均数之间变异范围的主要依据。
抽样平均误差计算公式
• 统计上所谓的抽样误差一般指抽样平均误差,
而不是某一次具体抽样的抽样误差。
正态总体,或非正态总体、大样本。
那么,据数理统计证明,重复抽样条件下:
抽样平均误差的计算抽样平均误差的计算———— 计算公式计算公式
变量总体的标准差
属性总体的标准差
例 题
• 设有4个印刷厂装订工,其每小时装订效率分
别为70,90,130,150件,现采用重复抽样
的方法,从4人中抽2人构成样本,求抽样平
均误差。
• 解:平均装订件数为
装订件数的标准差为
抽样平均误差为
• 问:重复抽样中,若要减少20%的抽样误差,
那么样本单位数要扩大多少倍?
• 解:
正态总体,或非正态总体、大样本。
那么,不重复抽样条件下:
抽样平均误差的计算抽样平均误差的计算———— 计算公式计算公式
当N≥500时,
• 设有4个印刷厂装订工,其每小时装订效率分
别为70,90,130,150件,现采用不重复抽
样的方法,从4人中抽2人构成样本,求抽样
平均误差。
• 解:平均装订件数为
装订件数的标准差为
抽样平均误差为
例 题
• 若计算抽样平均误差时,总体方差未知,
那么就用样本方差s2来代替。
• 样本方差的计算公式?
抽样平均误差
• 估计某地区10000名适龄儿童的入学率,随机
从这一地区抽取400名儿童,检查有320名儿童
入学,求入学率的抽样平均误差。
• 解:以样本标准差代替总体标准差。
例 题
在实际抽样中,应
采用不重复抽样,
而计算误差时,则
可以采用重复抽样
的公式计算。
抽样平均误差的计算抽样平均误差的计算 ————举例举例
例1:某灯泡厂对10000个产品进行使用
寿命检验,随机抽取2%的产品进行测试,
得到资料如表所示:
试按上述资料,计算:
(1)产品平均寿命的抽样平均误差
(2)若寿命在1000小时以上为合格品,求合格
品率的抽样平均误差。
使用时间(小时)
x
产品数量
f
900以下
900~950
950~1000
1000~1050
1050~1100
1100~1150
1150~1200
1200以上
2
4
11
71
84
18
7
3
合计 200
抽样平均误差的计算抽样平均误差的计算 ————举例举例
(1)根据上述资料,有:
样本平均寿命
样本标准差
抽样平均误差的计算抽样平均误差的计算 ————举例举例
则重复条件下:
抽样平均误差的计算抽样平均误差的计算 ————举例举例
则不重复条件下:
抽样平均误差的计算抽样平均误差的计算 ————举例举例
(2)同样,按上述要求有:
样本合格率
抽样平均误差的计算抽样平均误差的计算 ————举例举例
(2)则重复抽样条件下:
抽样平均误差的计算抽样平均误差的计算 ————举例举例
(2)不重复抽样条件下:
在抽样推断中,在一定概率保证下,允许样本统计
量偏离总体统计量的最大幅度。(可允许的误差范围
)
从实际抽样角度来看,抽样极限误差就是实际样
本指标与总体指标之间存在抽样误差的可能范围。
抽样极限误差(抽样允许误差)
• 用标准差作为其衡量大小的尺度,即相当于几
个标准差。
• z为概率度,查表得到相应的概率F(z)。
抽样极限误差(抽样允许误差)
1.大样本,或小样本、正态总体、方差已知
概率度
样本容量
不超过30
2.小样本,正态总体,总体方差未知
概率度
t 分布
t分布是类似正态分布的一种对称分布,它通常要比
正态分布平坦和分散。一个特定的t分布依赖于称之
为自由度的参数。随着自由度的增大,t分布也逐渐
趋于正态分布
XX
t 分布与正态分布的比较
t 分布
正态分布
t
不同自由度的t分布
正态分布
t (df = 13)
t (df = 5)
Z
• 已知某地区职工家庭人均年收入为12000元,
标准差为2000元,用简单重复抽样的方法抽
取64户调查,问抽取出的64户的人均年收入
不低于12500元的概率是多少?
• 解:
例 题
• 问抽取出的6400户的人均年收入不低于12050元的
概率是多少?
• 已知某消费品的购买对象共10万人,其中6万
是女性,现从购买者中随机不重复地抽出100
人进行调查,问女性购买者的比例超过50%的
概率是多少?
• 解:
例 题
• 某市场牛羊肉价格服从正态分布,平均价格为
13元/500克,对26天的市场价格调查结果,
平均价格为12元/500克,标准差为1元/500
克。问平均价格在元/500克以上的概率
是多少?
• 解:
例 题
第三节 抽样估计方法
• 点估计
• 区间估计
1. 估计量:用于估计总体参数的统计量
– 如样本均值,样本比例, 样本方差等
– 例如: 样本均值就是总体均值 的一个估计量
– 不是所有的统计量都能充当良好的估计量
2. 参数用 表示,估计量用 表示
3. 估计值:估计参数时计算出来的统计量的
具体值
– 如果样本均值 x =80,则80就是的估计值
估计量与估计值
(estimator & estimated value)
• 抽样估计——用得到的样本指标来推断总体指标。
• 抽样估计的三要素
合适的统计量作为估计量
估计的允许误差范围
估计可信度,即概率保证程度或置信度,指抽样
指标与总体指标的误差不超过一定范围的概率保
证程度。用 表示。
设 为待估计的总体参数, 为样本统计量,则 的优良标
准为:
2 两个无偏估计量,若 ,则称 为比 更有效的
估计量(有效性)
1若 ,则称 为 的无偏估计量(无偏性)
3 若 越大,统计量 的值越接近被估总体的参数 ,则
称 为 的一致估计量(一致性)
优良估计的三个标准
抽样估计的两种方法
• 点估计
• 区间估计
点估计
(point estimate)
1. 用样本的估计量的某个取值直接作为总体参
数的估计值
例如:用样本均值直接作为总体均值的估计;
2. 无法给出估计值接近总体参数程度的信息
– 虽然在重复抽样条件下,点估计的均值可望等于
总体真值,但由于样本是随机的,抽出一个具体
的样本得到的估计值很可能不同于总体真值
– 一个点估计量的可靠性是由它的抽样标准误差来
衡量的,这表明一个具体的点估计值无法给出估
计的可靠性的度量
区间估计
(interval estimate)
1. 区间估计就是估计总体参数落在某个区域
的可能程度
2. 区间估计包括两部分内容:
区间范围的大小(置信区间)
可能性(可信度、置信度)
总体均值区间估计的图示
x
95% 的样本
x +x
99% 的样本
- x +x
90%的样本
x +x
95%的样本均值构造的区间是包括总体均值的!
重复构造出的20个置信区间
点估计值
1. 由样本统计量所构造的总体参数的估计区间称为
置信区间
2. 统计学家在某种程度上确信这个区间会包含真正
的总体参数,所以给它取名为置信区间
3. 用一个具体的样本所构造的区间是一个特定的区
间,我们无法知道这个样本所产生的区间是否包
含总体参数的真值
– 我们只能是希望这个区间是大量包含总体参数真值的
区间中的一个,但它也可能是少数几个不包含参数真
值的区间中的一个
– 概率的使用很重要
置信区间
(confidence interval)
1. 将构造置信区间的步骤重复很多次,置信
区间包含总体参数真值的次数所占的比例
称为置信度、置信水平。或者是基本样本
均值构造的区间包含总体均值的概率。
2. 表示为 (1 -
– 为是总体参数未在区间内的比例
3. 常用的置信度值有 99%, 95%, 90%
– 相应的 为,,
置信度
(confidence level)
•已知极限误差范围,求概率保证程度。
•已知概率保证程度,求置信区间。
计算样本统
计量
计算抽样平
均误差
计算置信区
间
确定置信度
计算样本统
计量
计算抽样平
均误差
计算概率度 确定置信区
间
总体均值的区间估计
(需考虑总体是否为正态总体、总体方差是否已
知、样本容量大小)
总体均值的区间估计
(大样本)
• 总体均值在1-置信水平下的置信区间为
重复抽样
不重复抽样
总体均值的区间估计
(大样本,或小样本,正态总体,方差已知)
由532名《商业周刊》订阅者组成的样本表明,其每
周使用因特网的平均时间为小时。如果总体标准差为
小时,求该周刊订阅者总体每周平均花费在因特网上
时间的95%置信区间和点估计。
则:点估计为小时
该置信区间为:
已知概率保证程度,求置信区间
例:某纱厂某时期内生产了10万个单位的纱,按无返回纯(简单)随机抽样
方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%
的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?
已知:
区间下限:
区间上限:
已知概率保证程度,求置信区间
例:对某型号的电子元件进行耐用性检查,共抽取100个电子元件,样本平
均数为小时,样本标准差为小时,要求耐用时数的允许误差范
围 小时,试估计该批电子元件的平均耐用时数?若该厂的产品质
检规定,耐用时数达到1000小时以上的为合格品,该100个样本中,合格率
为91%,方差为,要求合格率估计的误差范围不超过5%,试估计该批
电子元件的合格率?
已知极限误差范围,求概率保证程度
已知极限误差范围,求概率保证程度
总体均值的区间估计
(小样本)
• 假定条件
– 总体服从正态分布,且方差(2) 未知
– 小样本 (n < 30)
• 使用 t 分布统计量
• 总体均值在1-置信水平下的置信区间为
总体均值的区间估计
(小样本,正态总体,方差未知)
总体均值的区间估计
(例题分析)
【例】已知某种灯泡的寿命服从正态分布,现从一
批灯泡中随机抽取16只,测得其使用寿命(小时)如下。
建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
1510 1520 1480 1500
1450 1480 1510 1520
1480 1490 1530 1510
1460 1460 1470 1470
总体均值的区间估计
(例题分析)
解:已知X~N(,2),n=16, 1- = 95%,t/2=
。根据样本数据计算得: ,
总体均值在1-置信水平下的置信区间为
该种灯泡平均使用寿命的置信区间为小时~
小时
第四节 抽样方法
样本容量
调查误差
调查费用
小样本容量节省
费用但调查误差
大
大样本容量调查
精度高但费用较
大
找出在规定误差范围
内的最小样本容量
找出在限定费用范围
内的最大样本容量
抽样推断的样本容量
抽样组织设计
• 简单随机抽样(单纯随机抽样):按随
机原则直接从总体N个单位中抽取n个单
位作为样本,保证总体中每个单位的中
选机会相等。它是最基本也是最简单的
抽样组织形式,它适用于均匀分布的总
体。
• 优点:最符合随机原则
• 缺点:抽样误差较大
抽样组织形式
简单随机抽样
.简单随机重复抽样的必要样本容量简单随机重复抽样的必要样本容量
(1)平均数的必要样本容量
(2)成数的必要样本容量
简单随机抽样
例:某地硕士研究生毕业第一年年薪的标准差大约为
2000元人民币。简单重复抽样时,如果以95%的置信度估
计其平均年薪,并且希望抽样极限误差分别不超过500元
和100元,样本容量应为多少?
抽样推断样本容量的计算
某网站一个由400名使用者组成的样本表明,该网站的使
用者中26%的使用者为女性。在95%的置信度下,若希望将
抽样极限误差控制在3%,则重复抽样下,样本容量应当为:
抽样推断样本容量的计算
.简单随机不重复抽样的必要样本容量简单随机不重复抽样的必要样本容量
(1). 平均数的必要样本容量
(2). 成数的必要样本容量
简单随机抽样
例题
泛美电子有限公司一月生产的J型号电子
元件9800只,质检员对其耐用性进行检测,
根据以往的抽样检测算得的元件合格率为
93%,耐用时数的标准差为小时,试问:
(1)概率保证为%,元件平均耐用时数
的误差范围不超过8小时,则按重复抽样方
法需要抽取多少元件进行检测?
(2)若将抽样误差范围扩大到原来的三分之
四倍,概率把握度提高到%,则按不重
复抽样方法需要抽取多少元件进行检测?
抽样推断样本容量的计算
((11)由于)由于FF((zz))=%=%,所以,所以z=1z=1,,S==,,
必要样本容量确定应注意的问题
1.总体方差未知时,用有关资料替代
2.当计算的结果为非整数时,一般取比该结果大的
相邻整数为样本容量
抽样组织形式
类型抽样(分层抽样)
先将总体各单位按某一标志排队,然后按固定的顺序和间隔来抽
取调查单位的一种组织方式.
抽样组织形式
等距抽样
从12个中抽取3个
• 等距抽样(机械抽样或系统抽样):按某一标志对
总体各单位进行排队,然后依一定顺序和间隔来抽
取单位。作为排队的标志可以是无关标志,也可以
是有关标志,但要注意避免抽样间隔与现象本身的
周期性节奏相重合,引起系统误差的影响。它适用
于均匀分布的总体,且抽样误差一般小于简单随机
抽样的误差。等距抽样的方法有半距中点取样和对
称等距取样两种。
• 由于等距抽样是随机起点取样,所以抽样误差可以
简便地采用简单随机抽样误差公式来反映。
抽样组织形式
等距抽样
抽样组织形式
• 整群抽样,将总体各单位划分为若干群,从其中随
机抽取部分群,对中选群的所有单位进行全面调查
的抽样组织方式。
• 优点:方便
• 缺点:代表性较差
• 整群抽样采用不重复抽样的方法
• 分为等群抽样和不等群抽样两种
整群抽样
• 总体N个单位,R个群,每个群m个单位,则N=Rm。
从R个群中随机抽取r个群,进行调查。
• 第i群的群平均数
• 样本平均数
• 群间方差
• 抽样平均误差
抽样组织形式
整群抽样—等群抽样
• 阶段抽样也叫多级抽样,在总体中先抽某种更大范围
的单位,再从中选抽较小范围的单位,依次类推,分
阶段完成。
• 总体R组,每组Mi个单位。第一阶段从R组中抽取r组,
第二阶段从r组中,各组的Mi个单位随机抽取mi个单位,
构成样本。
• 整群抽样和分层抽样的结合
抽样组织形式
阶段抽样
• 第i组的组平均数
• 样本平均数
• 抽样平均误差(组间误差与组内平均误差)
• 其中,组间方差 ,组内方差 。
抽样组织形式
阶段抽样
抽
样
推
断
的
含
义
和
特
点
抽
样
推
断
的
基
本
概
念
3、样本容量和样本个数
4、重复抽样和不重复抽样
抽
样
误
差
1、抽样误差的含义 2、
抽样误差的影响因素
3、抽样误
差的种类
1)抽样平均误差
2)抽样极限误差
4、抽样误差概率度z=
5、抽样误差的置信度F(z)
1、抽样估计
2、假设检验
抽
样
推
断
的
内
容
特点:1、是由部分推断整
体的一种认识方法
2、建立在随机取样基础上
3、运用概率估计的方法
4、误差可以事先计算并加
以控制
抽
样
估
计
的
方
法
1、点估计
1)特点
2)优良标准
无偏性
一致性
有效性
2、区间估计
1)特点
2)方法
a、已知F(z)求
总体区间
b、已知
求F(z)
样
本
数
的
确
定
1、简单随机
重复抽样
2、简单随机不
重复抽样
抽
样
组
织
形
式
1、简单随机抽样
2、类型抽样
3、等距抽样
4、整群抽样
第
六
章
小
结
1、全及总体和样本总体
2、参数:总体的指标称为
参数是维一的、确定的;
统计量:样本的指标称为
统计量,是不确定、是样本
的变量的函数