一些重要的概率分布
§1、正态分布
§2、样本均值的抽样分布或概率分布
§3、 x²分布
§4、 t分布
§5、 F分布
§6、 x²分布、 t分布、 F分布与正态分布的关系
§1、正态分布
什么是正态分布?
对于连续型随机变量而言,正态分布是最重要的一种概率分布,其形状似“钟型”。
经验表明:对于其值依赖于众多微小因素且每一因素均产生微小的或正或负影响的连续型随机变量来说,正态分布是一个相当好的描述模型。如身高、体重、考试成绩等。
为了方便,通常用:
表示随机变量X服从正态分布。
符号~表示随机变量服从什么样的分布;
N表示正态分布;
,²为正态分布的(总体)均值(或期望)和方差。
X是一个连续型随机变量,可在区间(-∞,+∞)内任意取值。
-
-2
2
68%(近似)
3
-3
95%(近似)
%(近似)
正态曲线下的区域示意图
正态分布的性质:
⑴ 正态分布曲线以均值为中心,对称分布。
⑵ 正态分布的概率密度函数呈中间高、两边低,在均值处达到最高,向两边逐渐降低,即随机变量在远离均值处取值的概率逐渐变小。
⑶ 正态曲线下的面积约有68%位于± 两值之间;约有95%面积位于±2之间;约有%的面积位于± 3之间。这些区域可用作概率的度量。
⑷ 正态分布可由两个参数,²来描述,即一旦知道,²的值,就可以根据附录表查到随机变量X落于某一区间的概率值。
⑸ 两个(或多个)正态分布随机变量的线性组合仍服从正态分布。该性质很重要,解释如下:
⑹ 正态分布的偏度为0,峰度为3。
令:
假定X和Y相互独立,设a、b为常数,考虑线性组合:W=aX+bY 则有:
其中,
例:令X表示在曼哈顿非商业区一花商每日出售玫瑰花数量,Y表示在曼哈顿商业区一花商每日出售玫瑰花的数量,假定X和Y均服从正态分布,且相互独立。已知:X~N(100,64),Y~N(150,81),求两天内两花商出售玫瑰花数量的期望和方差。
W=2X+2Y
根据上述公式,得:
E(W)=2E(X)+2E(Y)=500
Var(W)=4Var(X)+4Var(Y)=580
因此,W服从均值为500,方差为580的正态分布,即
W~N(500,580)
标准正态分布
由于期望和方差的不同,正态分布之间会存在一定的区别(见下图),如何将其简单化,从而引入标准正态分布。
1
2
不同均值,同方差的两个正态分布图
1
2
1=2
不同均值,不同方差
相同均值,不同方差
标准正态分布
如果变量X的均值为,方差为,定义一个新的变量Z,
则根据性质5,变量Z的均值为0,方差为1。在统计学中,我们称之为单位或标准正态变量,用符号表示为:
任一给定均值和方差的正态变量都可转化为标准正态变量,将其标准化可以大大简化计算。
例:变量X表示面包房每日出售的面包量,假定它服从均值为70、方差为9的正态分布,即X~(70,9),求任给一天,出售面包数量大于75条的概率。
首先,定义变量Z,Z=(75-70)/3≈
求:P(Z>)
查正态分布表得:
P(0≦Z≦)=
则:P(Z>)==
即每天出售面包的数量超过75条的概率为。
0
f(Z)
标准正态变量概率密度函数
§2 样本均值的抽样分布或概率分布
引言:样本均值是总体均值的估计量,但是由于样本均值是依靠某一给定样本而定,因此它的值会因随机样本的不同而变化。由此,我们将样本均值看作随机变量,在样本是随机抽取得到的条件下,求样本均值的概率密度函数。
随机抽样:表示总体中每一个个体有同等机会被选入样本。
独立同分布随机变量:由X1、X2,…,Xn构成容量为n的随机样本Xs,如果所有的Xs是从同一个概率密度(Xi有相同的概率密度函数)中独立抽取得到的,称Xs为独立同分布随机变量。
样本均值的概率密度
例:已知正态分布的均值为10,方差为4,即 N(10,4)。现在从这个正态总体中抽取20个随机样本,每个样本包括20个观察值,对抽取的每一个样本,得到其样本均值,因此,共有20个样本均值。
来自N(10,4)的20个样本均值
求和=
20个样本的频率分布
样本均值范围
频数
频率
~ 1
~ 2
~ 5
~ 9
~ 2
~ 1
样本均值
来自N(10,4)总体的20个样本均值的分布
理论依据:
若X1,X2,X3,…,Xn是来自于均值为,方差为²的正态总体的一随机样本。则样本均值 也服从正态分布,其均值为,方差为²/n,即:
也就是说,样本均值 的抽样(或概率)分布,同样服从正态分布。
样本均值概率分布的标准正态变量:
将样本均值的概率密度转化为标准正态分布后,可以从标准正态分布表中计算某一给定样本均值大于或小于给定的总体均值的概率。
例:令X代表某一型号汽车每消耗一加仑汽油所行驶的距离(英里)。已知X~(20,4)。则对于由一个25辆汽车组成的随机样本,求:每消耗一加仑汽油所行驶的平均距离大于21英里的概率。
分析:由于X服从均值为20,方差为4的正态分布,则样本均值也服从正态分布,其均值为20,方差为4/25。那么,
Z服从标准正态分布,求:
查标准正态概率密度表得:
即每消耗一加仑汽油所行驶的平均距离大于21英里的概率为。
中心极限定理
引言:从正态总体中抽样,其样本均值服从正态分布,那么,如果从其他总体中抽样,情况如何呢?
中心极限定理:如果X1,X2,…,Xn是来自(均值为,方差为²)任一总体的随机样本,随着样本容量的无限增大,其样本均值趋于正态分布,其均值为,方差为²/n。
§3、 ²分布
何谓²分布?
²分布是统计学中常用的一种概率分布,它与正态分布很相似。
统计理论证明:标准正态变量的平方服从自由度为1的²分布,用符号表示为,
其中,Z是标准正态变量,即Z~N(0,1); x²的下标(1)表示自由度。自由度是指平方和中独立观察值的个数。因为我们考虑的是一个标准正态变量的平方,故自由度为1。
现在令Z1,Z2,…,Zk为k个独立的标准正态变量(即每一个变量都是均值为0,方差为1的正态变量),现在对所有的变量Zs平方,则它们的平方和服从自由度为k的X²分布,即
公式里的自由度为k,因为在所有变量的平方和中,有k个独立的观察值。
²分布的几何图形:
f(²)
概率密度
²
K=2
K=5
K=10
²变量的密度函数
0
²分布的性质
⑴与正态分布不同, ²分布只取正值(它是平方和的分布),并且取值范围从0到无限大。
⑵ 与正态分布不同, ²分布是斜分布,其遍度取决于自由度的大小,自由度越小,越向右偏,但是随着自由度的增大,逐渐呈对称,接近于正态分布。
⑶ ²分布的期望值为k,方差为2k。k为²分布的自由度。即²分布的方差是其均值的2倍。
⑷ 若E1、E2分别为自由度为k1,k2的两个相互独立的 ²变量,则其和(Z1+Z2)也是一个²变量,其自由度为(k1+k2)。
可以证明: 样本方差与总体方差的比值与自由度(n-1)的积服从自由度为(n-1)的²分布。公式表示为:
其中,²为总体方差,S²为样本方差,样本容量为n。
§4、 t分布
回忆:若样本均值 ,则变量Z服从标准正态分布。
即:
假定已知和²的估计量S²,则可以用样本标准差(S)代替总体标准差(),得到一个新的变量t。
根据统计理论得知:变量t服从自由度为(n-1)的t分布。
注意:在这里,自由度为(n-1),而不是n。
结论:从正态总体中抽取随机样本,若该正态总体的均值为,但方差²用其估计量S²来代替,则其样本均值服从t分布。通常用符号tk表示,其中k表示自由度。
k=120(正态)
K=20
K=5
0
不同自由度下的分布
t分布的性质
⑴ t分布与正态分布相类似,具有对称性。
⑵ t分布的均值与标准正态分布均值相同,为0,但方差为k/(n-2)。由此,在求t分布的方差时定义自由度必须大于2。
标准正态分布的方差等于1,因此,t分布方差总大于标准分布的方差,也就是说,t分布比正态分布略“胖”些。
t分布与正态分布:
当k增大时,t分布的方差接近于标准正态分布方差值1。
例如:当k=10时,t分布的方差为10/8=;
当k=30时,t分布的方差为30/28=;
当k=100时,t分布的方差为100/98=;
结论:随着自由度的逐渐增大,t分布近似于正态分布。
注意:对于t分布,不要求其样本容量很大,k=30时,t分布与正态分布已很近似。
t分布表的使用:
0
例:自由度为10,P(t>)=P(t<)=
P(︱t︱>0)=P(t>)+P(t<)=
t分布表举例:
例:变量X表示面包房每日出售的面包量,在15天内,出售面包的样本方差为16。假定真实的出售量为70条,求任意15天内出售面包平均数量为74条的概率。
分析:本例中已知样本方差S²=16,则S=4,总体均值(真实的出售量)=70,运用t变量公式得:
查t分布表,自由度为(n-1)=15-1=14
当自由度为14时,查表得,t值大于等于的概率为,大于等于的概率为,所以,t值大于等于的概率介于~之间。
练习1:
上例中其他条件不变,现假定15天内出售面包的平均数量为72条,求获得此数量的概率。
按照上述步骤,首先运用t变量公式,求出t变量。
查t分布表,当自由度为14时,t值大于等于的概率为,大于等于的概率为,因此,t值取的概率介于与之间。
查t分布表的注意事项:
⑴ 自由度为(n-1),而不是n。
⑵ t分布表具有对称性,t值大于等于某一特定值的概率与t值小于等于该特定值相反数的概率相等。
§5、 F分布
F分布是如何定义的?
令随机样本X1,X2,X3,…,Xm来自均值为x和方差为x²的正态总体,其样本容量为m;随机样本Y1,Y2,Y3,…,Yn来自均值为y和方差为y²的正态总体,其样本容量为n;且这两个样本相互独立。假设知道这两个随机样本的样本方差Sx²和Sy²(两个总体方差的估计量)。
定义一个新的变量F,
分析F值:如果这两个总体方差真实相等,则计算出的F值接近于1,如果两个总体方差真实值不相等,则F值不等于1;两总体方差相差越大,则F值越大。
统计理论表明:如果x² =y²(即两总体方差相等),则F服从分子自由度为k1=(m-1),分母自由度为k2=(n-1)的F分布。
需要说明一点:
在概率论与数理统计中,更准确的说法是:( Sx²/ x²)/(Sy²/ y²)服从F分布,但我们上式给出, x² =y²,故样本方差之比服从F分布。
F分布又称为方差比分布,通常用符号表示为:
其中的双下标表明了分子与分母的自由度。
在计算F值时,将方差大的值放在上面,故F值总是大于或等于1。
F分布的性质
⑴ 与²分布类似,F分布也是斜分布,向右偏,其取值范围也为0到无限大(见下图) 。
0
F
f(F)
概率密度
F2,2
F50,50
F10,2
⑵ 与²分布类似,当自由度k1,k2逐渐增大时,F分布近似于正态分布。
⑶ t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即
⑷ ²变量与其自由度之比近似为分母自由度为m,分子自由度很大(无限大)的F变量,即
当n ∞
对于大容量的样本,我们可以用²分布来代替F分布;同样,也可用F分布代替²分布。
性质3也可以改写为:
即若分子自由度充分大,则Fm,n值的m倍,等于自由度为m的²分布。
例:两个班做同样的计量经济学测试。其中,一班级共有学生100名,二班级共有学生150名。老师从一班级随机抽取25个学生,从二班级随机抽取31个学生,观察得到两个班级学生考试平均分数的样本方差分别为100和132。假设学生考试平均分数这一随机变量服从正态分布,能否认为这两个班级的分数平均值同方差。
分析:这两个随机样本来自两个正态总体,并且相互独立,则首先利用公式计算F值。
F=132/100=
它服从自由度为30、24的F分布。
查F分布表得当分子自由度为30、分母自由度为24时,在显著水平为5%时,F值为。比较和,进一步可得出结论:两总体同方差。
§6、 x²分布、 t分布、 F分布与正态分布的关系
⑴ 若自由度充分大(至少为30),则t分布近似标准正态分布。
⑵ 若分母自由度充分大,F值的m倍(m为分子自由度)近似自由度为m的²分布。
⑶ 若Z~N(0,1)和m²相互独立,且²分布的自由度为m,则
即标准正态变量与²变量和其自由度比值的平方根之比,服从自由度为m的t分布。
⑷ t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即
⑸ 若自由度充分大,则 ²分布近似标准正态分布。