第 四 章 抽样估计与假设检验
参数估计在统计方法中的地位
抽样调查与假设检验概述
抽样推断是依据随机原则,从总体中抽取一部分单位组成样本进行调查,并依据样本资料计算的特征值,对总体特征之作出具有一定可靠程度的估计,以达到认识总体树立郎特征的目的。
主要内容:
统计估计
假设检验
估计量与估计值(estimator & estimated value)
1. 估计量:用于估计总体参数的随机变量
如样本均值,样本比率、样本方差等
例如: 样本均值就是总体均值( 的一个估计量
2. 参数用( 表示,估计量用 表示
3. 估计值:估计参数时计算出来的统计量的具体值
如果样本均值 (x =80,则80就是(的估计值
参数估计的方法
点 估 计(point estimate)
1. 用样本的估计量直接作为总体参数的估计值
例如:用样本均值直接作为总体均值的估计
例如:用两个样本均值之差直接作为总体均值之差的估计
2. 没有给出估计值接近总体参数程度的信息
3. 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
区 间 估 计(interval estimate)
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的
2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
比如,某班级平均分数在75~85之间,置信水平是95%
置 信 水 平
1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平
2. 表示为 (1 - ((((
((为是总体参数未在区间内的比率(
3. 常用的置信水平值有 99%, 95%, 90%
相应的 ((为,,
置 信 区 间 (confidence interval)
1. 由样本统计量所构造的总体参数的估计区间称为置信区间
2. 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间
3. 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
置 信 区 间 与 置 信 水 平
影 响 区 间 宽 度 的 因 素
总体数据的离散程度,用 ( 来测度
样本容量,
置信水平 (1 - (),影响 z 的大小
无 偏 性(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被估计的总体参数
有效性(efficiency)
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
一 致性(consistency)
一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数
一个总体参数的区间估计
总体均值的区间估计
总体比率的区间估计
总体方差的区间估计
一个总体参数的区间估计
总体参数
符号表示
样本统计量
均值
比率
方差
总体均值的区间估计(大样本)
. 1 .假定条件
总体服从正态分布,且方差((2) 未知
如果不是正态分布,可由正态分布来近似 (n ( 30)
2. 使用正态分布统计量 z
3. 总体均值 ( 在1-( 置信水平下的置信区间为
总体均值的区间估计(例题分析)
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%
25袋食品的重量
总体均值的区间估计(例题分析)
解:已知X~N((,102),n=25, 1-( = 95%,z(/2=。根据样本数据计算
总体均值(在1-(置信水平下的置信区间为:
该食品平均重量的置信区间为~
总体均值的区间估计(例题分析)
【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间
36个投保人年龄的数据
23
35
39
27
36
44
36
42
46
43
31
33
42
53
45
54
47
24
34
28
39
36
44
40
39
49
38
34
48
50
34
39
45
48
45
32
解:已知n=36, 1-( = 90%,z(/2=。根据样本数据计算得:
总体均值(在1-( 置信水平下的置信区间为:
投保人平均年龄的置信区间为岁~岁
总体均值的区间估计(小样本)
. 假定条件
总体服从正态分布,且方差((2) 未知
小样本 (n < 30)
2. 使用 t 分布统计量
3.总体均值 ( 在1-(置信水平下的置信区间为
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布
总体均值的区间估计(例题分析)
【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
1510
1520
1480
1500
1450
1480
1510
1520
1480
1490
1530
1510
1460
1460
1470
1470
解:已知X~N((,(2),n=16, 1-( = 95%,t(/2=
根据样本数据计算得: ,
总体均值(在1-(置信水平下的置信区间为
该种灯泡平均使用寿命的置信区间为小时~小时
总体比率的区间估计
假定条件
总体服从二项分布
可以由正态分布来近似
2. 使用正态分布统计量 z:
3. 总体比率(在1-(置信水平下的置信区间为:
总体比率的区间估计 (例题分析)
【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间
解:已知 n=100,p=65% , 1-( = 95%,z(/2=
该城市下岗职工中女性比率的置信区间为%~%
两个总体参数的区间估计
总体参数
符号表示
样本统计量
均值之差
比率之差
方差比
两个总体均值之差的估计(小样本: (12=( 22 )
1. 假定条件
两个总体都服从正态分布
两个总体方差未知但相等:(12=(22
两个独立的小样本(n1<30和n2<30)
2. 总体方差的合并估计量
3. 估计量(x1-(x2的抽样标准差
两个总体均值之差的估计(小样本: (12=(22 )
1. 两个样本均值之差的标准化
2.两个总体均值之差(1-(2在1-( 置信水平下的置信区间为
两个总体均值之差的估计(例题分析)
【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间
两个方法组装产品所需的时间
方法1
方法2
解: 根据样本数据计算得
EMBED EMBED EMBED
合并估计量为:
两种方法组装产品所需平均时间之差的置信区间为分钟~分钟
两个总体均值之差的估计(小样本: (12(( 22 )
1. 假定条件
两个总体都服从正态分布
两个总体方差未知且不相等:(12((22
两个独立的小样本(n1<30和n2<30)
2. 使用统计量
(两个总体均值之差(1-(2在1-( 置信水平下的置信区间为
自由度
两个总体均值之差的估计(例题分析)
【例】沿用前例。假定第一种方法随机安排12名工人,第二种方法随机安排名工人,即n1=12,n2=8 ,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间
两个方法组装产品所需的时间
方法1
方法2
解: 根据样本数据计算得
EMBED EMBED EMBED
自由度为:
两种方法组装产品所需平均时间之差的置信区间为分钟~分钟
两个总体均值之差的估计(匹配大样本)
1. 假定条件
两个匹配的大样本(n1( 30和n2 ( 30)
两个总体各观察值的配对差服从正态分布
2. 两个总体均值之差(d =(1-(2在1-( 置信水平下的置信区间为
两个总体均值之差的估计(匹配小样本)
1. 假定条件
两个匹配的大样本(n1< 30和n2 < 30)
两个总体各观察值的配对差服从正态分布
2. 两个总体均值之差(d=(1-(2在1-( 置信水平下的置信区间为
两个总体均值之差的估计(例题分析)
【例】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表 。试建立两种试卷分数之差(d=(1-(2 95%的置信区间
10名学生两套试卷的得分
学生编号
试卷A
试卷B
差值d
1
78
71
7
2
63
44
19
3
72
61
11
4
89
84
5
6
91
74
17
5
49
51
-2
7
68
55
13
8
76
60
16
9
85
77
8
10
55
39
16
解: 根据样本数据计算得
EMBED
两种试卷所产生的分数之差的置信区间为分~分
两个总体比率之差的区间估计
1. 假定条件
两个总体服从二项分布
可以用正态分布来近似
两个样本是独立的
2. 两个总体比率之差(1-( 2在1-( 置信水平下的置信区间为
两个总体比率之差的估计(例题分析)
【例】在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节目。试以90%的置信水平估计城市与农村收视率差别的置信区间
已知 n1=500 ,n2=400, p1=45%, p2=32%, 1-( =95%, z(/2= (1-( 2置信度为95%的置信区间为
城市与农村收视率差值的置信区间为%~%
样本容量的确定
估计总体比率时样本容量的确定
估计总体均值时样本容量的确定
估计总体均值之差时样本容量的确定
估计总体比率之差时样本容量的确定
估计总体均值时样本容量的确定
1. 估计总体均值时样本容量n为
其中:
2. 样本容量n与总体方差( 2、允许误差E、可靠性系数Z或t之间的关系为
与总体方差成正比
与允许误差成反比
与可靠性系数成正比
估计总体均值时样本容量的确定(例题分析)
【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?
解: 已知( =2000,E=400, 1-(=95%, z(/2=应抽取的样本容量为
即应抽取97人作为样本
估计总体比率时样本容量的确定
1. 根据比率区间估计公式可得样本容量n为
其中
2 .E的取值一般小于
3. ( 未知时,可取最大值
估计总体比率时样本容量的确定 (例题分析)
【例】根据以往的生产统计,某种产品的合格率约为90%,现要求允许误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?
解:已知(=90%,(=, z(/2=,E=5% 应抽取的样本容量为
应抽取139个产品作为样本
估计两个总体均值之差时样本容量的确定
1. 设n1和n2为来自两个总体的样本,并假定n1=n2
2. 根据均值之差的区间估计公式可得两个样本的容量n为
其中:
估计两个总体均值之差时样本容量的确定(例题分析)
【例】一所中学的教务处想要估计试验班和普通班考试成绩平均分数差值的置信区间。要求置信水平为95%,预先估计两个班考试分数的方差分别为:试验班(12=90 ,普通班 (22=120 。如果要求估计的误差范围(允许误差)不超过5分,在两个班应分别抽取多少名学生进行调查?
解: 已知(12=90,(22=120,E=5, 1-(=95%, z(/2=
即应抽取33人作为样本