第10章 概率与概率分布
本章主要阐述概率的种类、基本计算、概率分布的种类,常用的离散型随机变量概率分布和连续型随机变量概率分布,为后几章的统计推断打下基础。同时,本章主要从应用的角度研究概率与概率分布,而不参与概率的某些定律的数理推导。
10.1 概率的概念与种类
10.2 概率运算法则
离散型随机变量概率分布
概率分布的类型
连续型随机变量概率分布
湖南商学院信息系 龚曙明
10.1 概率的概念与种类
概率的概念
概率简单地说,就是一个随机事件在某一特定场合下出现的稳定的频率。
所谓随机事件,就是在一次观察或一组实验中,每次出现的结果可能是这样,也可能是那样的一种现象,又称偶然事件,不肯定事件或不确定事件.而把对随机事件取值的名称,称为随机变量。
概率是用以测定随机事件中某一结果发生的可能性大小程度的相对指标。设A为随机事件中的某一结果,P(A)为A结果出现的概率,m为A结果出现的次数,n代表随机
事件中所有结果的次数,则:
概率是一个介于0与1之间的比率,可用系数或百分数表示。当事件不可能发生时,概率为0;当事件必然要发生时,概率为l。
概率的计算方法
概率依其计算方法不同,可分为古典概率、试验概率和主观概率。
1.古典概率是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。
古典概率的基本特征是:
(1)可知性,可由演绎或外推法得知随机事件所有可能发生的结果及其发生的次数;
( 2)无需试验,即不必做统计试验即可计算各种可能发生结果的概率;
(3)准确性,即按古典概率方法计算的概率是没有误差的。
2.试验概率。
根据大量的,重复的统计试验结果计算随机事件各种可能发生结果的概率,称为试验概率或频率概率
试验概率的基本特征是:
(1)试验性,即必须通过统计试验结果才能计算出各种结果的频率,即试验频率;
(2)大量重复性,即试验次数必须足够大,重复进行多次试验的条件和程序必须相同;
(3)误差性,即频率只是概率的估计值,因而存在误差。因而,概率是一个总体意义上的确定的频率值,当被研究对象是总体的全部单位时,频率就是概率;当被研究对象是总体的部分单位(样本)时,频率只是概率的估计值。当试验次数或抽样次数不断增大时,频率逼近概率。
3.主观概率。主观概率是依据个人对随机事件的认识、主观地确定随机事件中各种可能发生结果的概率, 主观概率是人们对某一事件A发生的信任程度大小的主观评价,即:
P(A)=[对A发生的信用度]
4.概率的公理。20世纪30年代,苏联数学家柯尔莫哥洛夫提出了概率论的三条公理,从而为概率论理论研究打下了坚实的基础。由这三条公理可推得概率运算的基本法则,进而可导出概率论的整个体系。概率的三条公理是:
公理1:事件A发生的概率P(A)为实数,且0≤P(A)≤1。
公理2:令S为所有的事件的集合,则P(S)=1。
公理3:设A1,A2,……为各互斥事件,则
P (A1+A2+……)=P (A1)十P (A2)+……
10.2 概率运算法则
概率运算法则又称概率运算定理,主要有加法定理和乘法定理。
10.2.1 加法定理
1.加法的特殊定理。如果事件(A、B、C)之间是互相排斥互不相容的,即各种可能出现的结果不可能重复出现,则各种事件的概率之和等于它们的个别概率之和。
P(A+B+C)=P(A)+P(B)+P(C)
2.补偿定理。如果事件之间是相互排斥的,但事件A出现时,其他事件(记作 )不出现时,则称A、 为互逆事件,它们的概率总和为:
P(A+ )=P(A)+P( )=1
则有: P(A)=1-P( )
P( )=1-P(A)
3.加法的一般定理。又称广义的概率加法公式。如果事件A和事件B不是相互排斥的,而是重迭出现的复合事件(积事件),如从一副标准的纸牌中随机抽取l张,出现既是K又是红心(即心K)的事件,就属于复合事件,出现这种情况的概率叫做A和B的联合概率。加法的一般定理是:
P(A+B)+P(A)+P(B)-P(AB)
乘法定理
1.乘法的特殊定理。如果一个事件的出现不影响另一个事件的出现,这样出现的事件叫做独立事件。当两个事件独立时,A发生对B发生的概率没有影响,B发生对A发生的概率也没有影响,此时,事件A和事件B同时出现的概率为:
P(AB)=P(A)·P(B)
2.乘法的一般定理。乘法的一般定理的应用是有条件的,即事件之间是不独立的,或者说是不重复抽样的。设A、B是两个事件,在已知A发生的条件下,B发生的概率称为B对于A的条件概率,用P(B/A)表示。此时A、B两个事件均发生的概率为:
P(AB)=P(A)·P(B/A)
3.全概率定理。全概率定理应用的前提条件是:事件A1,A2,……,An为一完备事件组(即随机事件中,各种可能出现的结果齐备);并且A1,A2,……,An两两相互排斥,则对任一事件B都有:
贝叶斯定理
贝叶斯定理又称逆概定理,是十八世纪四十年代英国数学家T·贝叶斯提出的一个对决策非常有用的定理,也是一个计算条件概率的公式。即如果事件A1,A2,……,An为一完备事件组,则对任一事件有:
概率分布的类型
概率分布的概念
概率分布是由随机变量的所有可能取值(xi)及相应的概率P(xi)所组成的分布数列,反映随机变量的分布状况和特征。任何概率分布都具有两个性质:
(1) 0≤P(xi)≤1
(2) ∑P(xi)=1
概率分布有表列法、函数法、图示法三种表示方式。
概率分布的类型
按随机变量的性质不同,概率分布的类型有:
概率分布
品质型
数量型
离散型
连续型
1.品质型随机变量概率分布。由品质型随机变量的所有可能结果(xi)及相应的概率P(xi)组成的分布数列。
2.数量型随机变量概率分布。由数量型随机变量的取值(xi)及其相应的概率P(xi)组成的分布数列。如例中的骰子点数是个数量型随机变量,因而骰子点数的概率分布属于数量型概率分布。
(1)离散型随机变量概率分布。由离散型随机变量的取值xi及相应的概率P(xi)组成的分布数列,离散型随机变量概率密度函数具有两个性质:
1.0≤P(xi)≤1
2.∑P(xi)=1
(2)连续型随机变量概率分布。由连续型随机变量(x)的取值区间及相应的概率组成分布数列,在这种概率分布下,由于连续随机变量的取值是一个区间。因此,必须以面积来表示x取某段区间值的概率。根据概率分布的两个要求,若设x的全部取值范围在a和b之间,即o≤x≤b,则连续型随机变量概率密度函数必须满足:
概率密度曲线位于x 轴上方,即非负性:f (x)≥0
概念密度曲线以下的面积(积分)等于1,即:
概率分布的特征值
概率分布又称概率模型或理论分布。由于概率分布是指随机变量的所有可能取值与其对应的概率所组成的分布数列,故概率分布又是总体分布。有关概率分布的特征值均可使用总体分布的符号。概率分布的重要特征值有:期望值或总体平均数 μ,方差 ,偏态系数 ,峰态系数 等。各种常用的概率分布的特征值将在以下分别介绍。
离散型随机变量概率分布
分立均等分布
分立均等分布称离散型等概率分布,其定义为:若离散型随机变量的分布具有下列概率函数:
则称其为分立均等分布。式中N为正整数,是此分布的总体参数。分立均等分布的两个重要特征值分别为:
(x=1,2,……,N)
由这两个特征可知,某一分立均等分布的总体参数N确定后,则该分布的两个特征值也就确定了。
二点分布
二点分布又称点二项分布,若互相独立的重复试验只有“成功”和“失败”两种结果,这种试验称为贝努里试验,可取:
如掷硬币,产品质量(合格品和次品)检验、孕妇未出生的婴儿性别判断等问题都属于贝努里实验。贝努里实验的特征为:
1.实验的现象只有两种互斥结果,即“成功”与“失败”。
2.成功事件发生的概率为p,失败的概率为q,且p+q=1。
3.贝努力实验为独立实验。
二点分布的概率函数可表达为:
x=1
二点分布的重要特征值为:
1.期望值 E(x)=P
2.方 差 V(x)=pq
其中p为总体参数,当二点分布的总体参数p确定后,该分布的期望值和方差也就确定了。
二点分布的图形只有两点,因而其概率函数为二项分布的概率函数:
x=0,1,2,……,n
n=1时的特例,故二点分布又称为点二项分布。
超几何分布
超几何分布是离散型随机变量概率分布的一种,它是建立在超几何实验基础之上的,若并非独立的不重复试验中,总体N中有“成功”类者为K个,失败类者为N—K个,从总体中抽取n个作为样本时,称为超几何实验(参图10—1)
图5 超几何实验
超几何实验具有下列性质:
1.从一个含有N个个体的总体中,以不重复方式随机抽取n个作为样本,各次试验(抽样)并非独立的。
2.总体N中成功类者为K个,失败类者为N-K个。
3.样本中抽自成功类者为x个,抽自失败类者为n-x个。
4.由于不重复试验(抽样),每次试验成功的概率受其前次试验结果的影响,故成功的概率不能维持不变。
超几何分布的定义为:若离散型随机变量的分布具有下列概率函数:
则称为超几何分布。
式中N、K、n都为正整数,是此分布的三个参数,且N>K≥n,或N-K≥n。超几何分布的两个重要特征值为:
期望值:
方 差:
其中称为有限总体较正因子,当采用不重复随机抽样时才须考虑,因而又称不重复抽样较正因子。
二项分布
二项分布是一种重要的离散型随机变量概率分布,它是建立在重复进行n次贝努里实验(二项实验)基础上的。二项实验的性质为:
1.一个简单的贝努里实验重复独立试行n次,共有n+1个可能发生的结果,即x=0,1,2,……n。
2.每次试验的结果只有“成功”或“失败”两种互斥的结果。
3.每次试验关心的是概率p保持不变。
4.每次试验关心的是成功事件是否出现。
二项分布定义为:若离散型随机变量分布具有下列概率函数:
则称其为二项分布。式中q=1-p,0≤p≤1;n为正整数。n和p为二项分布的两个重要参数。
二项分布的重要特征值为:
偏态系数:
峰态系数:
由偏态系数 可知二项分布的偏态:
(1)当p=1/2, = 0,二项分布为对称分布。
(2)当p<1/2, >0,二项分布为右偏分布。
(3)当p>1/2, <0,二项分布为左偏分布。
由峰态系数 可知二项分布的峰态:
(1)当pq =1/6, = 3,二项分布具有常态峰。
(2)当pq>1/6, <3,二项分布具有低阔峰。
(3)当pq<1/6, >3,二项分布具有高狭峰。
普哇松分布
普哇松分布也是一种重要的离散型随机变量概率分布,它适于描述某些稀有事件的状态或出现机会非常小的一些事件(如特大洪水、火山爆发、民航飞机失事、核反应堆逸漏事件等),它是由普阿松于1837年提出的。
设随机变量x表示一实验的“成功”次数,即在一段时间或一定区域内,该实验中某一特定事件发生的次数,则普哇松实验具有以下性质:
1.发生在一定时间或特定区域内的成功次数x的期望值E(x)=μ为已知,或E(x)=np为已知。
2.不管时间或区域的始点,某一特定事件在某一段时间或特定区域内发生的概率相同。
3.在极短时间或极小区域内,某一特定事件发生超过一次的概率略而不计。
4.某一特定事件在各段时间或特定区域上出现是相互独立的。
5.特定事件的成功次数的期望值μ与所选择的时间或区域的大小 t 成正比,其关系为 。
普哇松分布的定义为:若离散型随机变量x的分布具有下列概率函数:
称为普哇松分布。其中μ为此分布的参数,e=。其分布的重要特征值为:
期 望 值:E(x)= μ
方 差:V(x)=μ
偏态系数:
峰态系数:
期望值与方差均为μ是普哇松布的一大特性。当 , 时,普哇松分布为具有高狭峰的右偏分布;当 随μ增加而趋向于0时,其偏斜程度则随μ的增加而逐渐减小,最终成对称分布; 随μ增加而趋向3时,则高狭程度的峰态会随μ的增加而逐渐减慢,最终成为常态峰。
连续型随机变量概率分布
正态分布
正态分布又称常态分布或高斯分布,是一种非常重要的连续型随机变量的概率分布。其定义为:若连续型随机变量x的分布具有下列概率密度函数:
则称为正态分布。式中μ和σ为此分布的参数。(μ为总体均值,σ为总体标准差),e=,π=。
正态分布的重要特征值为:
(1)期望值:E(x)= μ,且μ=Me=M0
(2)方 差:
(3)偏态系数:
(4)峰态系数:
正态分布具有下列重要性质:
1.正态分布具有常态峰,即以μ为中心的左右对称分布,左右二者面积相等,均为1/2。
2.正态分布曲线左右两尾与横轴渐近,但不与横轴相交,即-∞<x<∞。
3.当x=μ值时,正态分布的概率密度函数值最大,当x≠μ时,f(x)的值随│x│的值递增而递减。
4.正态分布曲线有两个拐点,分别在横轴μ-σ与μ+σ所对应的曲线上。
5.正态分布曲线下的面积(区间概率)是固定的。
图9 正态分布x的取值区间及概率
在实践中,由于不同现象的随机变量有不同的参数μ和σ,且不同随机变量的计量单位也不同,因而有不同的正态分布形状,从而给正态分布的应用带来了不便之处。为此,可令正态分布概率密度中的 ,则有:
因此,新的随机变量z仍服从正态分布,且该正态分布的参数μ=0,σ=1。同时,无论x的计量单位如何,新变量以σ为计量单位,则称 z 为标准正态随机变量,称 z 的分布为标准正态分布。其重要的特征值为:
期 望 值:E(z)=0
方 差:V(z)=l
偏态系数:
峰态系数:
最高纵轴:
由于任何正态分布都可以通过 的变量转换化为标准正态分布(z分布),因此,只要计算出正态随机变量z的取值区间[-∞,z],就可求出相应的区间概率P(z≤zi),并将其编成z分布表,从而利用z分布表就可求出任何正态随机变量x的取值区间[x1,x2]的概率。即:
正态分布在统计方法应用或统计推断的抉择上,占有非常重要的地位;
1.许多客观现象的分布大多为正态分布,如成年人的身高、机械零件的长度、学童的智力、误差分布等等。
2.正态分布可作为一些离散型随机变量的概率分布的近似,例如二项分布、普哇松分布、超几何分布等,当n增大时,均可转换为正态分布。
3.在统计标准中,许多问题均可在正态分布的假设下获得解决。例如,小样本抽样分布(卡方分布、t分布、F分布等)常假设总体呈正态分布。
4.许多大样本的抽样分布通常将正态分布视为极限,以便进行统计推断。
指数分布
指数分布主要应用于产品寿命的分析,是一种连续型随机变量的概率分布。其定义为:若连续型随机变量x的分布具有下列概率函数:
则称为指数分布。式中λ>0,为此分布的参数。
指数分布的重要特征值为:
期望值:
方 差:
众 数: M0=0
均匀分布
均匀分布是连续型随机变量z在有限区间(a,b)内取值较为均匀的概率分布。其定义为:若随机变量x在有限区间(a,b)内取值满足下列概率函数:
a<x<b
其它
则称x在区间(a,b)上服从均匀分布。式中a,b为此分布的参数。
均匀分布的两个重要特征是:
期望值:
方 差: