第四章 参数估计
张晓华
参数估计的一般问题
一个总体参数的区间估计(重点)
两个总体参数的区间估计(选讲)
样本容量的确定
本章小结
参数估计
假设检验
统计方法
描述统计
推断统计
参数估计的一般问题
一、估计量与估计值
二、点估计与区间估计
三、评价估计量的标准
估计量与估计值
估计量:用于估计总体参数的统计量
如样本均值,样本比率、样本方差等
例如: 样本均值就是总体均值 的一个估计量
参数用 表示;估计量用 表示:如
估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是的估计值
估 计 方 法
点 估 计
区间估计
用样本的估计量直接作为总体参数的估计值
例如:用样本均值直接作为总体均值的估计
例如:用两个样本均值之差直接作为总体均值之差的估计
没有给出估计值接近总体参数程度的信息
点估计的方法有矩估计法、顺序统计量法、最大似然估计法、最小二乘法等
引入区间估计
点估计没能说出点估计值与总体参数的真实值接近的程度。区间估计就是在点估计的基础上给出参数估计的一个范围;总体参数的区间估计通常是样本统计量加减抽样误差得到的,我们能够对样本统计量与总体参数的接近程度给出一个概率度量。
注意:抽样误差是由于抽样的随机性而造成的估计值与总体真实值之间的离差;抽样误差的所有可能取值的平均值就称为抽样平均误差,实际上就是样本均数的标准差,也称为标准误(表示样本均数间离散程度的指标,标准误小则抽样误差小,说明样本均数与总体均数接近);抽样极限误差是指估计值同总体真值之间的抽样误差不超过某一给定的最大可能范围。
区间估计基本原理
——以总体均值的区间估计为例(看链接)
95% 的样本
x
+x
99% 的样本
- x
+x
90%的样本
x
+x
x
1、置信区间
由样本统计量所构造的总体参数的估计区间称为置信区间,其区间的最小值称为置信下限,最大值称为置信上限;统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。
2、置信水平
表示为 (1 - ,为是总体参数未在区间内的比;
表示有多大的把握度认为真值落在所有样本构造的区间;
表示置信区间中包含总体参数真值的次数所占的比率;
置信区间、置信水平
样本均值的抽样分布
(1 - ) % 区间包含了
% 的区间未包含
1 – a
a /2
a /2
置信水平
%
90%
95%
%
99%
%
/2
1
2
3
从上不难看出,当样本容量n确定时,置信区间
从上不难看出,当样本容量n确定时,置信区间
从上不难看出,当样本容量n确定时,置信区间
构造置信区间常用的置信水平
P(| | ≤ =1-a
评价估计量的标准
无偏性:
估计量抽样分布的数学期望等于被估计的总体参数
P( )
B
A
无偏
有偏
有效性:
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
A
B
的抽样分布
的抽样分布
P( )
一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数
A
B
较小的样本容量
较大的样本容量
P( )
一个总体参数的区间估计
一、总体均值的区间估计
二、总体比率的区间估计
三、总体方差的区间估计
总体均值的区间估计(大样本)
1. 假定条件
总体服从正态分布
如果不是正态分布,可由正态分布来近似 (n 30)
2.使用正态分布统计量 z
3. 总体均值 在1- 置信水平下的置信区间为
置信上下限、概率值(风险值),置信水平、
是标准正态分布上侧面积对应的值、允许误差
练习题1、3
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了35袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%
35袋食品的重量
113
231
231
124
125
书上例题P128例
错,大样本
解:已知X~N(,102),n=25, 1- = 95%,z/2=。根据样本数据计算得:
总体均值在1-置信水平下的置信区间为
该食品平均重量的置信区间为
【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间
36个投保人年龄的数据
23
35
39
27
36
44
36
42
46
43
31
33
42
53
45
54
47
24
34
28
39
36
44
40
39
49
38
34
48
50
34
39
45
48
45
32
解:已知n=36, 1- = 90%,z/2=。
根据样本数据计算得:
总体均值在1- 置信水平下的置信区间为
投保人平均年龄的置信区间为岁~岁
总体均值的区间估计(小样本)
1. 假定条件
总体服从正态分布,且方差(2) 未知
小样本 (n < 30)
使用 t 分布统计量
总体均值 在1-置信水平下的置信区间为
讲T分布表怎么查
下一页有关T分布内容
方差2已知时采用公式
t 分布是由英国戈塞特提出,由费希尔证明的。它是一个合成分布。设X~N(0,1), ,且X与Y相互独立, 则
样本均值的抽样分布:
t 分布是类似标准正态分布的一种对称分布,它通常要比标准正态分布平坦和分散。其分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于标准正态分布
x
t 分布与标准正态分布的比较
t 分布
标准正态分布
t
不同自由度的t分布
标准正态分布
t (df = 13)
t (df = 5)
z
t 分布的性质:
E(t)=0; Var(t)=n/(n-2);
t分布关于t=0对称。
【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
1510
1520
1480
1500
1450
1480
1510
1520
1480
1490
1530
1510
1460
1460
1470
1470
解:已知X~N(,2),n=16, 1- = 95%,t/2=
根据样本数据计算得: ,
总体均值在1-置信水平下的置信区间为
该种灯泡平均使用寿命的置信区间为小时~小时
总体比率的区间估计
1. 假定条件
总体服从二项分布
可以由正态分布来近似
使用正态分布统计量 z
总体比率在1-置信水平下的置信区间为
【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间
解:已知 n=100,p=65% , 1- = 95%,z/2=
该城市下岗职工中女性比率的置信区间为%~%
总体方差的区间估计
1. 估计一个总体的方差或标准差
2. 假设总体服从正态分布
总体方差 2 的点估计量为s2,且
4. 总体方差在1- 置信水平下的置信区间为
2
21-
2
总体方差
1- 的置信区间
自由度为n-1的2分布
【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间
25袋食品的重量
解:已知n=25,1-=95% ,
根据样本数据计算得 s2 =
该企业生产的食品总体重量标准差的的置信区间为~
2置信度为95%的置信区间为
总体均值
(μ)
样本容量
总体分布
方差
公式
大样本
(n≥30)
正态或非正态
已知
大样本
(n≥30)
正态或非正态
未知
小样本
(n<30)
正态分布
已知
小样本
(n<30)
正态分布
未知
总体比率
(π)
总体正态或非正态,大样本
np≥5,n(1-p) ≥5
总体方差
(σ2)
总体是正态分布
样本容量的确定
一、估计总体均值时样本容量的确定
二、估计总体比率时样本容量的确定
估计总体均值时样本容量n为
样本容量n与总体方差 2、允许误差E、可靠性系数Z或t之间的关系为
与总体方差成正比
与允许误差成反比
与可靠性系数成正比
其中:
【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?
解: 已知 =2000,E=400, 1-=95%, z/2=
应抽取的样本容量为
即应抽取97人作为样本
根据比率区间估计公式可得样本容量n为
E的取值一般小于
未知时,可取最大值
其中:
【例】根据以往的生产统计,某种产品的合格率约为90%,现要求允许误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?
解:已知=90%,=, z/2=,E=5%
应抽取的样本容量为
应抽取139个产品作为样本
估计量与估计值的概念
点估计与区间估计的区别
评价估计量优良性的标准
一个总体参数的区间估计方法
样本容量的确定方法
某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。
1. 假定总体标准差为15元,求样本均值的抽样标准误差;
2. 在95%的置信水平下,求允许误差;
3. 如果样本均值为120元,求总体均值95%的置信区间。
某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时)
求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。
从一个正态总体中随机抽取容量为8 的样本,各样本值
分别为:10,8,12,15,6,13,5,11。
求总体均值95%的置信区间。
某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(公里)分别是:
10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2
求职工上班从家里到单位平均距离在95%的置信区间。
在一家家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。
求总体比率的置信区间,置信水平分别为90%和95%。
某居民小区共有500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。
(1)求总体赞成该项改革的户数比率的置信区间,置信水平为95%.
(2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查?
根据以往的生产数据,某种产品的废品率为2%,如果要求在95%的置信区间,若允许误差不超过4%,应抽取多大的样本?
某超市想要估计每个顾客平均每次购物花费的金额,根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本?
本章作业
1,2,3,4,5,6,7,13,14
*
*
9
*
*
*
14
*
*
*
*
33
*
*
35
Notice that the interval width is determined by 1- in the sampling distribution.
*
*
*
An estimator is a random variable used to estimate a population parameter (characteristic).
Unbiasedness
An estimator is unbiased if the mean of its sampling distribution is equal to the population parameter.
Efficiency
The efficiency of an unbiased estimator is measured by the variance of its sampling distribution.
If two estimators, with the same sample size, are both unbiased, then the one with the smaller variance has greater relative efficiency.
Consistency
An estimator is a consistent estimator of a population parameter if the larger the sample size, the more likely it is that the estimate will come close to the parameter.
*
An estimator is a random variable used to estimate a population parameter (characteristic).
Unbiasedness
An estimator is unbiased if the mean of its sampling distribution is equal to the population parameter.
Efficiency
The efficiency of an unbiased estimator is measured by the variance of its sampling distribution.
If two estimators, with the same sample size, are both unbiased, then the one with the smaller variance has greater relative efficiency.
Consistency
An estimator is a consistent estimator of a population parameter if the larger the sample size, the more likely it is that the estimate will come close to the parameter.
*
An estimator is a random variable used to estimate a population parameter (characteristic).
Unbiasedness
An estimator is unbiased if the mean of its sampling distribution is equal to the population parameter.
Efficiency
The efficiency of an unbiased estimator is measured by the variance of its sampling distribution.
If two estimators, with the same sample size, are both unbiased, then the one with the smaller variance has greater relative efficiency.
Consistency
An estimator is a consistent estimator of a population parameter if the larger the sample size, the more likely it is that the estimate will come close to the parameter.
*
9
*
*
*
*
*
As a result of this class, you will be able to ...
*
As a result of this class, you will be able to ...
*
As a result of this class, you will be able to ...
*
*
*
*
*
38
In this diagram, do the populations have equal or unequal variances? Unequal.
*
90
*
*
9
*
*
90
*
*
*