参数估计的一般问题
一个总体参数的区间估计
两个总体参数的区间估计
样本容量的确定
第五章 参数估计
1、一家调查公司进行一项调查,其目的是为了了解某市电信营业厅大客户对该营业窗口服务的满意情况。调查人员随机访问了30名去该电信营业厅办理业务的大客户,发现受访者有9名认为营业厅现在的服务质量比两年前好。试在95%的置信水平下对大客户中认为营业厅现在的服务质量比两年前好的比率进行区间估计。
2、某大学生记录了自己一个月31天所花费的伙食费,经计算得出了这个月平均每天花费元,标准差元。若置信水平为95%,试估计该学生每天平均伙食费的置信区间。
3、据某市场调查公司对某市80名随机受访的购房者的调查得到了该市购房中本地购房比率p的区间估计,在显著性水平为10%时,其边际误差E=,则:
(1)这80名受访者样本中为本地购房者的比率是多少?
(2)若置信水平为95%,则要保持同样的精度进行区间估计,需要调查多少名购房者?
问题的提出:
解决问题:
【例1】这是一个求某一属性所占比率的区间问题。
已知n=30, ,样本比率p=30%。
总体比率的区间为:
即[%,%] 。
解决问题:
【例2】 已知 ,s=,
则其置信区间为:
该学生每天平均生活费的95%的置信区间为元到元。
解决问题:
【例3】(1)由比率估计的公式
E=
得:
则:p=
(2)所要确定的样本容量为:
解决问题:
【例3】
即:当显著性水平 由变为时,要保持同样的精度,样本容量应从80增加到113.
参数估计的一般问题
参数估计的三个基本术语
参数估计的方法
评价估计量的标准
参数估计的三个基本术语
这三个术语是:参数估计,估计量,估计值。
所谓参数估计,又称抽样估计,就是根据样本提供的信息对总体的某些特征进行估计或推断。如:
用
参数估计的三个基本术语
估计量。参数估计中,用来估计总体参数的统计量,称之为估计量,用符号 表示。
如上页图示左边的样本指标统称估计量。
估计值。根据样本资料计算出的估计量的具体数值,称之为估计值。
如:对山大在校男生的身高进行估计。随机抽取100名学生,其平均身高为174cm。则:
所要估计的山大男生的平均身高 ,为参数 ;
样本的平均身高,及样本均值 ,为估计量 ;
根据100名男生身高所计算出的具体平均值174cm,即为估计 值。
参数估计的方法
参数估计的方法有两种: 点估计
区间估计
1、点估计
又叫定值估计,就是用样本估计量 的值直接作为总体参数的估计值 。
点估计常用的方法有两种:矩估计法
极大似然估计法
优缺点:其优点是简单、具体明确。但点估计总有一定的抽样误差,而点估计本身又无法说明抽样误差的大小,也无法说明估计结果有多大的把握程度。因此,通常进行的估计,一般都是区间估计,因为区间估计能够比较好地解决参数估计的精确度与可靠程度的问题。
参数估计的方法
(1) 矩估计法
矩估计法是英国统计学家提出的。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩以概率收敛与总体矩。因此,只要总体X的k阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。
在统计学中,矩是指以期望值为基础而定义的数字特征,例如数学期望、方差、协方差等。矩可以分为原点矩和中心矩两种。
(2)极大似然估计法(略)
极大似然估计法(Maximum Likelihood Estimate,简记为MLE)是由Fisher提出的一种参数估计方法。其基本思想是:设总体分布的函数形式已知,但有未知参数 , 可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的值作为估计值,记作 ,并称为的极大似然估计值。这种求估计量的方法称为极大似然估计法。
参数估计的方法
2、区间估计
区间估计就是根据样本估计量、以一定的可靠程度推断总体参数所在的区间范围。这种估计不仅以样本估计量为依据,而且考虑了估计量的分布,所以它能给出估计量的精度(准确性),也能说明估计结果的把握程度(可靠程度)。
评价估计量的标准
在参数估计中,用于估计总体参数的统计量 有很多(不仅仅局限于前述所指出的统计量),比如,估计总体均值也可以用样本中位数做为估计量,等等。然而,究竟用哪种估计量对总体参数进行估计,这就需要对估计效果作出评判,进而就需要有一定的评价标准。
一个好的估计量通常要求满足以下三个标准:
1、无偏性
所谓无偏性是指样本估计量的均值应等于被估计总体参数的真值。
数理统计已证明, 、 ,同样可证明 。
2、 有效性
所谓有效性是指作为优良的估计量,除了满足无偏性外,其方差应比较小。这样才能保证估计量的取值能集中在被估计的总体参数的附近,对总体参数的估计和推断更可靠。
3、一致性
一致性又称相合性 ,即随着样本容量n的增大,一个好的估计量将在概率意义下愈来愈接近于总体的真值。 (这点通过样本均值的抽样分布标准差分析之)
样本平均数作为总体平均数的估计量、样本比例作为总体比例的估计量,样本方差作为总体方差的估计量,都具有上述优良性质,所以,通常用样本平均数去估计总体平均数,用样本比率去估计总体比率,用样本方差去估计总体方差。
评价估计量的标准
一个总体参数的区间估计
总体均值的区间估计
总体比率的区间估计
总体方差的区间估计
总体均值的区间估计
在对总体均值进行区间估计时,需要考虑总体是否是正态分布,总体方差是否已知,用于构造估计量的样本是大样本还是小样本等。
1、总体方差已知,正态总体均值的区间估计
当总体服从正态分布且 已知时,无论所抽选的样本是大样本还是小样本,样本均值的抽样分布均为正态分布,即:
重复抽样下, ~N(µ,σ²/n),建立置信区间所用的统计量是Z统计量:
~N(0,1)
总体均值的区间估计
构造总体均值所在(1- )置信水平下的的置信区间为:
称为显著性水平,是事先确定的一个概率值,也被称为风险值,它是总体均值不包括在置信区间的概率;
(1- ) 称为置信水平;
是估计总体均值时的允许误差,即误差范围 。
因此,总体均值的置信区间也可以表示为:
总体均值的区间估计
该表达形式表明,总体均值的置信区间是由两部分组成,即:
点估计值和允许误差。
当总体方差未知,但总体均值和方差有限,只要是大样本,即使总体分布形式未知或总体为非正态分布, 依据中心极限定理,样本均值的分布近似正态分布,因此,估计总体均值的方法同上。不过此时,要用样本方差 替代未知的总体方差 。
总体均值的区间估计
2、总体方差未知,正态总体(小样本)
当总体服从正态分布,但方差 未知时,小样本情况下,则需用样本方差 代替总体方差 ,此时样本均值经标准化以后统计量(随机变量)服从自由度为(n-1)的t分布,即:
这时,需要采用t分布建立总体均值的置信区间。
总体均值的区间估计
则所构造的总体均值 在(1- )置信水平下的
置信区间为:
总体比率的区间估计
在此,只讨论大样本情况下总体比率的估计.
根据样本比率的抽样分布可知,当n 时,样本比率p的抽样分布近似于正态分布,即:
将样本比率标准化后的统计量z服从标准正态分布,即:
z=
总体比率的区间估计
所构造的总体比率p在(1- )置信水平下的置信区间为:
与总体均值的置信区间构成相同,总体比率的置信区间也是由两部分组成的,即:点估计值和允许误差。
总体比率的区间估计
说明:样本比率的抽样分布对n的要求。
见教材p141
总体方差的区间估计
在此,只讨论正态总体方差的估计。
根据样本方差的抽样分布可知,样本方差服从自由度为(n-1)的 分布,即:
因此,用 分布构造总体方差的置信区间。
给定一个显著性水平 ,用 分布构造的总体方差 的置信区间为:
总体方差的区间估计
用图示表示:
总体方差的区间估计
用 代替 ,最终可推导出总体方差
在(1- )置信水平下的置信区间:
两个总体参数的区间估计
如第 四章所讲,两个总体的参数估计,主要是对两个总体的均值 , ,
等的估计。
两个总体均值之差的区间估计 独立样本
匹配样本
两个总体比率之差的区间估计
两个总体方差 比的区间估计
两个总体均值之差的区间估计
对两个总体均值之差的估计,需要考虑两个样本是独立样本还是匹配样本,以及样本容量是大是小等相关的情况。
1、两个总体均值之差的估计:独立样本
所谓独立样本,是指两个样本是从两个总体中独立抽取的,即一个样本的元素与另一个样本的元素相互独立。(例p133)
1、两个总体均值之差的估计:独立样本
(1)总体方差已知,正态总体;或大样本
如果两个总体都服从正态分布,且方差已知,则无论样本容量是大样本还是小样本;或者,两个总体分布未知,方差也未知,但两个样本都为大样本( )
两个总体均值之差的区间估计
根据抽样分布可知,两个样本均值之差的抽样分布,服从 的正态分布。
~
将两个样本均值之差标准化后,则服从标准正态分布,即:
z =
两个总体均值之差的区间估计
当两个总体方差已知时,两个总体均值之差在(1- )置信水平下的置信区间为:
当两个总体的方差未知时,可用两个样本方差 来代替,则所构造的置信区间为:
两个总体均值之差的区间估计
(2)总体方差未知,正态总体,小样本
第一种情况:当两个总体的方差未知但相等,即:
则需用两个样本的方差 来估计,这时需将两个样本的数据结合在一起,以给出总体方差的合并估计量,用 表示,其公式为:
两个总体均值之差的区间估计
将两个样本均值之差标准化后服从自由度为
的t分布,即:
因此,两个总体均值之差在(1- )置信水平下的置信区间为:
两个总体均值之差的区间估计
第二种情况:当两个总体的方差未知但不相等,即:
,两个样本均值之差经标准化后近似服从自由度为 的t分布。自由度 的计算公式为:
两个总体均值之差的区间估计
构造两个总体均值之差在(1- )置信水平下的置信区间。
两个总体均值之差的区间估计
2、两个总体均值的估计:匹配样本
所谓匹配样本,是指一个样本中的数据与另一个样本中的数据相对应。
为何使用“匹配样本”?
(1)大样本
在大样本情况下,两个总体均值之差 的置信区间为:
两个总体均值之差的区间估计
式中:d—两个匹配样本对应数据差值;
—所有差值的均值;
—各差值的标准差。
当总体的 未知时,可用样本差值的标准差 代替。
(2)小样本
小样本情况下,假定两个总体各观察值的配对差服从正态分布。则两个总体均值之差 的置信区间为:
两个总体均值之差的区间估计
例题教材p148 (例)
两个总体比率之差的区间估计
依据第四章抽样分布知识,从两个二项总体中抽取两个独立的大样本,样本比率之差的抽样分布服从正态分布,则所构造的 的置信区间为:
两个总体方差比的区间估计
问题的提出:
现实中,如果要对两种测量工具的精度作出评价;
如果要对两个生产过程的稳定性作出评价;
如果要对两种不同方法生产的产品性能的稳定性作出评价;
如果要对两个教授评分的差异性作出评判,等等。
以上诸多问题该如何解决?两个总体方差的比较就可以解决上述问题。
两个总体方差比的区间估计
与比较两个总体均值不一样,比较两个总体的方差 ,要用各自的样本方差比来判别。
如果 接近于1,说明两个总体方差 很接近;反之,说明两个总体方差之间存在差异。
由第四章抽样分布可知,当两个总体正态分布时,
两个总体方差比的区间估计
因此,要用F分布来构造两个总体方差比
的置信区间。这个置信区间为:
此置信区间等同于:
两个总体方差比的区间估计
通过上一公式,可推导出两个总体方差比在一定置信水平下的置信区间为:
查F分布表时注意:F分布表给出的是上侧面积的分位数,即 ,而 的分位数值是通过下列关系求得的:
两个总体方差比的区间估计
样本容量的确定
抽样设计中的一个重要内容就是要确定必要的样本单位数。
所谓必要的样本单位数,就是为了使抽样误差不超过给定的允许范围至少应抽取的样本单位数目。
确定必要样本单位数的原则是:在保证抽样推断能达到预期的可靠程度和精确性的要求下,使费用达到最小,即用尽可能少的样本容量而能达到误差在允许范围之内。
估计单个总体参数时样本容量的确定
样本容量的确定
在总体方差 已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,必要样本单位数的计算公式为:
重复抽样 不重复抽样
样本容量的确定
影响样本容量的因素:p153
估计两个总体参数时样本容量的确定
(1)估计两个总体均值之差所需样本容量:
样本容量的确定
估计两个总体参数时样本容量的确定
(2)估计两个总体比率之差所需样本容量:
均值的置信区间:
其中:极限误差 应依据所给的条件,利用抽样分布定理进行推算。
=
或 =
或 =
总体比例的置信区间:
其中:
在总体方差 已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,必要样本单位数的计算公式为:
重复抽样 不重复抽样
估计均值
估计成数
必要的样本单位数n受允许的极限误差的制约,极限误差要求越小,则样本单位就要求越多。以重复抽样来说,在其他条件不变下,当误差范围缩小一半则样本单位数必须增加到四倍;而误差范围允许扩大一倍,则样本单位数只需要原来的1/4。所以,在抽样组织中,对抽样误差可能允许的范围要十分慎重地考虑。
在多主题抽样中,往往一个样本要调查多项指标。(此时又如何确定样本容量呢?)
第四节 假设检验
假设检验(Hypothesis testing)是推断统计中的一项重要内容,它是先对研究总体的参数作出某种假设,然后通过样本的观察来判断假设是否成立。它是进行经济管理和决策的有利工具。
一、假设检验的步骤
一个完整的假设过程,通常包括以下五个步骤:
(一)提出原假设(Null hypothesis)和替换假设(Alternative hypothesis)
对每个假设检验问题,一般要同时提出两个相反的假设:
原假设又称零假设 ,是正待检验的假设,记为 H0;
备择假设,是拒绝原假设后可供选择的假设,记为H1。
原假设和备择假设是相互对立的,检验结果二者必取其一。
如何提出假设?
原假设和备择假设不是随意提出的,应根据所检验问题的具体背景而定。常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择假设。举例:
双侧检验
假设有三种形式: 左侧检验 单侧检验
右侧检验
采用哪种假设应依据实际问题而定。如果对所研究问题只需判断有无显著性差异,或要求同时注意总体参数偏大或偏小的情况,则采用双侧检验;如果所关心的是总体参数是否比某个值偏大(或偏小),则宜采用单侧检验。
(二)确定适当的检验统计量
在参数的假设检验中,如同参数估计一样,要借助于样本统计进行统计推断。用于假设检验的统计量称为检验统计量。在不同的条件下应选择不同的检验统计量。
(三)选择显著性水平α,确定临界值
由于假设检验是根据样本提供的信息进行推断的,也就有犯错误的可能。统计上,把正确的原假设当成错误的加以拒绝的概率用α表示,α被称为假设检验中的显著水平,也就是决策中所面临的风险。故显著性水平是指当原假设正确时人们把它拒绝了的概率或风险。这个概率由人们决定的 。
给定了显著性水平α,查有关的概率分布表得临界值,从而确定H0的接受区域和拒绝区域。临界值就是拒绝区域和接受区域的分界点。
(四)计算检验统计量的值
(五)作出统计决策
α
α
/2
α/2
α/2
/2
二、 假设检验中的小概率原理
假设检验的基本思想是应用小概率的原理。
所谓小概率原理,是指发生概率很小的随机事件在一次实验中是几乎不可能发生的。根据这一原理,可以作出是否接受原假设的决定。(举例 :厂商声称其产品的合格率高达到99%)。
三、 假设检验中的两类错误
假设检验是基于样本信息来判断的。由于样本的随机性,使假设检验有可能出现两类错误:一类错误是原假设H0为真却被我们拒绝了。犯这类错误的概率用α来表示,所以也称作α错误(αerror)或弃真错误。另一类错误是原假设伪,却被我们接受了。
一般地说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应该把哪一类错误作为首要的控制目标。但是在假设检验中都在执行这样一个原则,即首先控制犯α错误的原则。 这样做的原因主要有两个:
一是大家都遵循一个统一的原则,讨论问题就比较方便;
另一是,也是最重要的原因在于,从实用的观点看,原假设是什么常常是明确的,而替换假设是什么常常是模糊的。显然,对于一个含义清楚的假设和含义模糊的假设,我们更愿意接受前者,正是在这个背景下,我们就更为关心如果H0为真,而却把它放弃了,犯这种错误的可能性有多大。而这正是α错误所表现的内容。