统计推断
从数据得到对现实世界的结论的过程
估计
总体它代表我们所关心的那部分现实世界。而在利用样本中的信息来对总体进行推断之前人们一般对代表总体的变量假定了分布族。比如假定人们的身高属于正态分布族;对抽样调查假定了二项分布族等等。这些模型基本上是根据经验来假定的,所以仅仅是对现实世界的一个近似。在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的分布;由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。
估计
一种是点估计(point estimation),也就是用估计量的实现值来近似相应的总体参数。
另一种是区间估计(interval estimation);它是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可能包含总体参数。
点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。
无偏估计(大样本性质)
区间估计的置信度(大样本性质)
估计
注意置信区间的论述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。如果给出被调查的人数,则内行可以由推算出置信度(由后面给出的公式),反之亦然。
一个描述性例子
一个有10000个人回答的调查显示,同意某种观点的人的比例为70%(有7000人同意),可以算出总体中同意该观点的比例的95%置信区间为(,);另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(,)。到底相信谁呢?实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。如果第二个调查仅仅调查了50个人,有35个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有11%。
假设检验
在假设检验中,一般要设立一个原假设;而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。在多数统计教科书中(除了理论探讨之外)的假设检验都是以否定原假设为目标。
如果否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接受原假设”的说法,犯了明显的低级逻辑错误。
假设检验的过程和逻辑
首先要提出一个原假设,比如某正态总体的均值等于5(m=5)。这种原假设也称为零假设(null hypothesis),记为H0。
与此同时必须提出对立假设,比如总体均值大于5(m>5)。对立假设又称为备选假设或备择假设(alternative hypothesis)记为记为H1或Ha。
假设检验的过程和逻辑
根据零假设(不是备选假设!),我们可以得到该检验统计量的分布;
然后再看这个统计量的数据实现值(realization)属不属于小概率事件。也就是说把数据代入检验统计量,看其值是否落入零假设下的小概率范畴;
如果的确是小概率事件,那么我们就有可能拒绝零假设,否则我们说没有足够证据拒绝零假设。
假设检验的过程和逻辑
注意:零假设和备选假设在假设检验中并不对称。因检验统计量的分布是从零假设导出的,因此,如果发生矛盾,当然就对零假设不利了。
不发生矛盾也不说明备选假设有问题(因为和备选假设无关)。
假设检验的过程和逻辑
检验统计量在零假设下等于这个样本的数据实现值或更加极端值的概率称为p-值(p-value)。
显然得到很小p-值意味着小概率事件发生了。如果小概率事件发生,是相信零假设,还是相信数据呢?
当然是相信数据。于是就拒绝零假设。但小概率并不能说明不会发生,仅仅发生的概率很小罢了。
拒绝正确零假设的错误常被称为第一类错误(type I error)。
假设检验的过程和逻辑
有第一类错误,就有第二类错误;那是备选零假设正确时反而说零假设正确的错误,称为第二类错误(type II error)。
零假设和备选假设哪一个正确,这是确定性的,没有概率可言。
而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。
负责的态度是无论做出什么决策,都应该给出犯错误的概率。
假设检验的过程和逻辑
到底p-值是多小才能够拒绝零假设呢?也就是说,需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中,使用最多的标准是在零假设下(或零假设正确时)抽样所得的数据拒绝零假设的概率应小于(也可能是,,等等)。这种事先规定的概率称为显著性水平(significant level),用字母a来表示。当p-值小于或等于a时,就拒绝零假设。所以,a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时,我们说这个检验是显著的(significant)。
假设检验的过程和逻辑
归纳起来,假设检验的逻辑步骤为:
第一,写出零假设和备选假设;
第二,确定检验统计量;
第三,确定显著性水平a;
第四,根据数据计算检验统计量的实现值;
第五,根据这个实现值计算p-值;
第六,进行判断:如果p-值小于或等于a,就拒绝零假设,这时犯错误的概率最多为a;如果p-值大于a,就不拒绝零假设,因为证据不足。
假设检验的过程和逻辑
实际上,计算机软件仅仅给出p-值,而不给出a。这有很多方便之处。比如a=,而假定我们得到的p-值等于。这时我们如果如果采用p-值作为新的显著性水平,即a=,于是可以说,我们拒绝零假设,显著性水平为。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。在这个意义上,p-值又称为观测的显著性水平(observed significant level)。在统计软件输出p-值的位置,有的用“p-value”,有的用significant的缩写“Sig”就是这个道理。
假设检验的过程和逻辑
展示结果的精确性(根据数据减少a的值)总是没有害处的。这好比一个身高180厘米的男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于155厘米,虽然这第二种说法数学上没有丝毫错误。
假设检验的过程和逻辑
关于“临界值”的注:作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值(critical value),它定义为,统计量取该值或更极端的值的概率等于a。也就是说,“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。
使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易,只有采用临界值的概念。但从给定的a求临界值同样也不容易,好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值(比如a=,a=,a=,a=,a=等等),或者根据分布表反过来查临界值(很不方便也很粗糙)。
现在计算机软件都不给出a和临界值,但都给出p-值和统计量实现值,让用户自己决定显著性水平是多少。
假设检验的例子
汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后,得到下面的排放数据:、、、、、、、、、。该样本均值为。究竟能否由此认为该指标均值超过20?这次我们的假设检验问题就是
假设检验的例子
检验统计量为
我们可以发现p-值为,因此,我们没有证据否定零假设。