统计学
STATISTICS
125
第 3 章 概率、概率分布
与抽样分布
统计学
STATISTICS
3-2
事件及其概率
随机变量及其概率分布
常用的抽样方法
抽样分布
中心极限定理的应用
统计学
STATISTICS
3-3
学习目标
¨ 掌握事件的定义及其概率的计算。
¨ 熟悉常用的几种离散型和连续型随机变
量及其概率分布。
¨ 了解常用的抽样方法
¨ 掌握样本均值、比率和方差的抽样分布。
¨ 熟练运用中心极限定理。
统计学
STATISTICS
3-4
事件及其概率
试验、事件和样本空间
事件的概率
概率的性质和运算法则
条件概率与事件的独立性
全概公式与逆概公式
统计学
STATISTICS
试验、事件和样本空间
3-5
统计学
STATISTICS
3-6
1)对试验对象进行一次观察或测量的过程
– 掷一颗骰子,观察其出现的点数
– 从一副52张扑克牌中抽取一张,并观察其结果
(纸牌的数字或花色)
2)试验的特点
– 可以在相同的条件下重复进行
– 每次试验的可能结果可能不止一个,但试验的
所有可能结果在试验之前是确切知道的
– 在试验结束之前,不能确定该次试验的确切结
果
1. 试 验
统计学
STATISTICS
3-7
2. 事件
1)事件:试验的每一个可能结果(任何样本
点集合)
– 掷一颗骰子出现的点数为3
– 用大写字母A,B,C,…表示
2)随机事件(random event):每次试验可能出
现也可能不出现的事件
– 掷一颗骰子可能出现的点数
统计学
STATISTICS
3-8
3)简单事件:不能被分解成其他事件组合的基本事件
– 抛一枚均匀硬币,“出现正面”和“出现反面
”
4)必然事件:每次试验一定出现的事件,用表示
– 掷一颗骰子出现的点数小于7
5)不可能事件:每次试验一定不出现的事件,用表
示
– 掷一颗骰子出现的点数大于6
统计学
STATISTICS
4-9
6)事件的关系和运算
事件的关系有:包含和相等;
事件的运算有:和(并),差,交(积),逆。
(1)包含:关系式
表示“若A出现,
则B也出现”
(反之则未必),
称作“B包含A”,
或“A导致B”。
AAB
B A
统计学
STATISTICS
4-10
(3)和(并):运算式A+B或A∪B读作“A加B”
,称作“A与B的和(并)”,表示“A和B至少出
现一个”。对于多个事件
或 表示
“诸事件中至少出现一个”。
BA
A+B
(2)相等:关系式A=B表示二事件A和B要么都出现,
要么都不出现,称作“事件A等于事件B”或“事件A
和B等价”。
统计学
STATISTICS
(4)差:运算式 A-B或A\B读作“A减B”,
称作“A与B的差”,表示“事件A出现但B
不出现。”
4-11
A - B
A B
统计学
STATISTICS
(5)交(积):运算式AB或A∩B,称作
“A与B的交(或积)”,表示“事件A和
B同时出现”。对于多个事件
表示“诸事件 同时出现
”。
4-12
AA B
AB
统计学
STATISTICS
(6)逆事件: ={A不出现},称作A的对
立事件或逆事件。显然A和 互为对立事
件,它们之间有下列关系:,A∩ =Ø。
4-13
A
AA
统计学
STATISTICS
4-14
(7)不相容(互斥):若AB=Ø,即A与B不
可能同时出现,则称A和B不相容。
A
B
统计学
STATISTICS
3-15
3. 样本空间与样本点
1)样本空间
– 一个试验中所有结果的集合,用 表示
– 例如:在掷一颗骰子的试验中,样本空间表
示为:{1,2,3,4,5,6}
– 在投掷硬币的试验中,{正面,反面}
2)样本点
– 样本空间中每一个特定的试验结果
– 用符号 表示
统计学
STATISTICS
事件的概率
3-16
统计学
STATISTICS
3-17
1. 定义: 概率是对随机事件发生可能性大小的度量.
2. 事件A的概率是一个介于0和1之间的一个值,用
以度量试验完成时事件A发生的可能性大小,
记为P(A)
3. 概率的计算:
1)古典概率
特征:(1)试验的基本事件总数是有限的;
(2)每个基本事件出现的可能性都相同。
计算方法:
统计学
STATISTICS
2)统计概率
当试验的次数很多时,概率P(A)可以由所观察
到的事件A发生次数(频数)的比例来逼近
– 在相同条件下,重复进行n次试验,事件
A发生了m次,则事件A发生的概率可以
写为
3-18
统计学
STATISTICS 3、主观概率
对未来某一事件,既不能通过可能事件个
数来计算,也不能根据大量试验的频率来
估计,只有根据经验、专业知识、对事件
发生的众多条件或影响因素的分析等,对
其进行估计从而作出相应决策
3-19
统计学
STATISTICS
3-20
概率的性质和运算法则
统计学
STATISTICS
3-21
互斥事件及其概率
(mutually exclusive events)
¨ 在试验中,两个事件有一个发生时,另一
个就不能发生,则称事件A与事件B是互斥事
件,(没有公共样本点)
AA
BB
互斥事件的文氏图互斥事件的文氏图(Venn diagram) (Venn diagram)
统计学
STATISTICS
3-22
【例】在一所城市中随机抽取600个家庭,用以确定拥
有个人电脑的家庭所占的比例。定义如下事件:
A:600个家庭中恰好有265个家庭拥有电脑
B:恰好有100个家庭拥有电脑
C:特定户张三家拥有电脑
说明下列各对事件是否为互斥事件,并说明你的理由
(1) A与B (2) A与C (3) B与 C
统计学
STATISTICS
3-23
解:(1) 事件A与B是互斥事件。因为你观察
到恰好有265个家庭拥有电脑,就
不可能恰好有100个家庭拥有电脑
(2) 事件A与C不是互斥事件。因为张三
也许正是这265个家庭之一,因而事
件与有可能同时发生
(3) 事件B与C不是互斥事件。理由同(2)
统计学
STATISTICS
3-24
【【例例】】同时抛掷两枚硬币,并考察其结果。恰好有同时抛掷两枚硬币,并考察其结果。恰好有
一枚正面朝上的概率是多少?一枚正面朝上的概率是多少?
解解::用用HH表表示示正正面面,,TT表表示示反反面面,,下下标标11和和22表表示示硬硬币币11
和硬币和硬币22。该项试验会有。该项试验会有44个互斥事件之一发生个互斥事件之一发生
(1) (1) 两枚硬币都正面朝上,记为两枚硬币都正面朝上,记为HH11HH22
(2) 1 (2) 1号硬币正面朝上而号硬币正面朝上而22号硬币反面朝上,记为号硬币反面朝上,记为HH11TT22
(3) 1 (3) 1号硬币反面朝上而号硬币反面朝上而22号硬币正面朝上,记为号硬币正面朝上,记为TT11HH22
(4) (4) 两枚硬币都是反面朝上,记为两枚硬币都是反面朝上,记为 TT11TT22
统计学
STATISTICS
3-25
由于每一枚硬币出现正面或出现反面的概率都是
1/2,当抛掷的次数逐渐增大时,上面的4个简单
事件中每一事件发生的相对频数(概率)将近似等
于1/4。因为仅当H1T2或T1H2发生时,才会恰好
有一枚硬币朝上的事件发生,而事件H1T2或T1H2
又为互斥事件,两个事件中一个事件发生或者另
一个事件发生的概率便是1/2(1/4+1/4)。因此,抛
掷两枚硬币,恰好有一枚出现正面的概率等于
H1T2或T1H2发生的概率,也就是两种事件中每个
事件发生的概率之和
统计学
STATISTICS
3-26
互斥事件加法规则
1)若两个事件A与B互斥,则事件A发生或事
件B发生的概率等于这两个事件各自的概
率之和,即
P(A∪B) =P(A)+P(B)
2)事件A1,A2,…,An两两互斥,则有
P(A1∪A2 ∪…∪An)
=P(A1)+P(A2) +…+P(An)
统计学
STATISTICS
3-27
解解::掷掷一一颗颗骰骰子子出出现现的的点点数数((11,,22,,33,,44,,55,,66))
共共有有66个个互互斥斥事事件件,,而而且且每每个个事事件件出出现现的的概概率率都都为为
1/6 1/6 ,, 根据互斥事件的加法规则,得根据互斥事件的加法规则,得
【例】抛掷一颗骰子,并考察其结果。求出其点
数为1点或2点或3点或4点或5点或6点的概率
统计学
STATISTICS
3-28
概率的性质(小结)
1)非负性: 对任意事件A,有 P 0
2)规范性: 一个事件的概率是一个介于0与1之间的值,
即对于任意事件 A,有0 P 1
3)必然事件的概率为1;不可能事件的概率为0。
即P ( )=1; P( )=0
4)可加性: 若A与B互斥,则P(A∪B) =P(A)+P(B)
– 推广到多个两两互斥事件A1,A2,…,An,有
P( A1∪A2 ∪… ∪An) = P(A1)+P(A2)+…+P(An)
统计学
STATISTICS
3-29
事件的补及其概率
¨ 事件的补(complement)
¨ 事件A不发生的事件,称为事件A的补事件
(或称逆事件),记为A 。它是样本空间中所有
不属于事件A的样本点的集合
AA
AA P(A)=1- P(A)
统计学
STATISTICS
3-30
广义加法公式
广义加法公式
对任意两个随机事件A和B,它们和的
概率为两个事件分别概率的和减去两个事
件交的概率,即
P(A∪B) = P(A) + P(B) - P(A∩B)
两个事件的并两个事件的并 两个事件的交两个事件的交
统计学
STATISTICS
3-31
广义加法公式
(事件的并或和)
事件A或事件B发生的事件,称为事件A与事
件B的并。它是由属于事件A或事件B的所有样
本点的集合,记为A∪B或A+B
BAA
AA∪BB
统计学
STATISTICS
3-32
广义加法公式
(事件的交或积)
AA BB
AA∩BB
事件A与事件B同时发生的事件,称为事件A与
事件B的交,它是由属于事件A也属于事件B的所
有公共样本点所组成的集合,记为B∩A 或AB
统计学
STATISTICS
3-33
解:设 A =员工离职是因为对工资不满意
B =员工离职是因为对工作不满意
依题意有:P(A)=;P(B)=;P(AB)=
P(A+B)= P(A)+ P(B)- P(AB)=+=
【【例例】】一一家家计计算算机机软软件件开开发发公公司司的的人人事事部部门门最最近近做做了了
一一项项调调查查,,发发现现在在最最近近两两年年内内离离职职的的公公司司员员工工中中有有
40%40%是是因因为为对对工工资资不不满满意意,,有有30%30%是是因因为为对对工工作作不不满满
意意,,有有15%15%是是因因为为他他们们对对工工资资和和工工作作都都不不满满意意。。求求两两
年年内内离离职职的的员员工工中中,,离离职职原原因因是是因因为为对对工工资资不不满满意意、、
或者对工作不满意、或者二者皆有的概率。或者对工作不满意、或者二者皆有的概率。
统计学
STATISTICS
条件概率与事件的独立性
统计学
STATISTICS
3-35
1. 条件概率
在事件B已经发生的条件下事件A发生的概率,称为已
知事件B时事件A的条件概率,记为P(A|B)
P(B)
P(AB)P(A|B) =
事件事件BB及其及其
概率概率PP ( (BB))
事件事件 AABB及其及其
概率概率PP ( (AABB))
事件事件AA 事件事件BB 一旦事件一旦事件BB发生发生
统计学
STATISTICS
3-36
解:设 A =顾客购买食品, B =顾客购买其他商品
依题意有:P(A)=;P(B)=;P(AB)=
【【例例】】一一家家超超市市所所作作的的一一项项调调查查表表明明,,有有80%80%的的顾顾客客到到超超市市是是
来来购购买买食食品品,,60%60%的的人人是是来来购购买买其其他他商商品品,,35%35%的的人人既既购购买买食食
品也购买其他商品。求:品也购买其他商品。求:
(1)(1)已知某顾客购买食品的条件下,也购买其他商品的概率已知某顾客购买食品的条件下,也购买其他商品的概率
(2)(2)已知某顾客购买其他的条件下,也购买食品的概率已知某顾客购买其他的条件下,也购买食品的概率
统计学
STATISTICS
3-37
【例】一家电脑公司从两个供应商处购买了同一种计算机配
件,质量状况如下表所示
从这200个配件中任取一个进行检查,求
(1) 取出的一个为正品的概率
(2) 取出的一个为供应商甲的配件的概率
(3) 取出一个为供应商甲的正品的概率
(4) 已知取出一个为供应商甲的配件,它是正品的概率
甲乙两个供应商提供的配件
正品数 次品数 合计
供应商甲 84 6 90
供应商乙 102 8 110
合计 186 14 200
统计学
STATISTICS
3-38
解:设 A = 取出的一个为正品
B = 取出的一个为供应商甲供应的配件
¨
(1)
(2)
(3)
(4)
统计学
STATISTICS
3-39
1)用来计算两事件交的概率
2)以条件概率的定义为基础
3)设A,B为两个事件,若P(B)>0,则
P(AB)=P(B)P(A|B)
或 P(AB)=P(A)P(B|A)
2. 乘法公式
统计学
STATISTICS
3-40
【【例例】】一一家家报报纸纸的的发发行行部部已已知知在在某某社社区区有有75%75%的的
住住户户订订阅阅了了该该报报纸纸的的日日报报,,而而且且还还知知道道某某个个订订阅阅
日日报报的的住住户户订订阅阅其其晚晚报报的的概概率率为为50%50%。。求求某某住住户户
既订阅日报又订阅晚报的概率既订阅日报又订阅晚报的概率
解:解:设设 AA == 某住户订阅了日报某住户订阅了日报
B B ==某住户订阅了晚报某住户订阅了晚报
依题意有依题意有::PP((AA))==;;PP((BB||AA)= )=
PP((AABB))==PP((AA))· · PP((BB||AA)=×=)=×=
统计学
STATISTICS
3-41
【【例例】】从一个装有从一个装有33个红球个红球22个白球的盒子里摸球个白球的盒子里摸球
((摸出后球不放回摸出后球不放回)),求连续两次摸中红球的概率,求连续两次摸中红球的概率
解:解:设设 AA == 第第22次摸到红球次摸到红球
B B == 第第11次摸到红球次摸到红球
依题意有依题意有::
PP((BB))=3/5=3/5;;PP((AA||BB)=2/4 )=2/4
PP((AABB))==PP((AA))· · PP((BB||AA)=3/5×2/4=)=3/5×2/4=
统计学
STATISTICS
3-42
3. 独立事件
1)若P(A|B)=P(A)或P(B|A)=P(B) ,则称事
件A与B事件独立,或称独立事件
2)若两个事件相互独立,则这两个事件同
时发生的概率等于它们各自发生的概率
之积,即
P(AB)= P(A)· P(B)
3)若事件A1,A2,,An相互独立,则
P(A1, A2, , An)= P(A1)· P(A2) · · P(An)
统计学
STATISTICS
3-43
【【例例】】一一个个旅旅游游经经景景点点的的管管理理员员根根据据以以往往的的经经验验得得
知知,,有有80%80%的的游游客客在在古古建建筑筑前前照照相相留留念念。。求求接接下下来来
的两个游客都照相留念的概率的两个游客都照相留念的概率
解:解:设设 AA = = 第一个游客照相留念第一个游客照相留念
B B = = 第二个游客照相留念第二个游客照相留念
两个游客都照相留念是两个事件的交。在没两个游客都照相留念是两个事件的交。在没
有其他信息的情况下,我们可以假定事件有其他信息的情况下,我们可以假定事件AA
和事件和事件BB是相互立的,所以有是相互立的,所以有
PP((AABB))==PP((AA))· · PP((BB)=×=)=×=
统计学
STATISTICS
3-44
【【例例】】假假定定我我们们是是从从两两个个同同样样装装有有33个个红红球球22个个白白
球球的的盒盒子子摸摸球球。。每每个个盒盒子子里里摸摸11个个。。求求连连续续两两次次摸摸
中红球的概率中红球的概率
解:解:设设 AA == 从第一个盒子里摸到红球从第一个盒子里摸到红球
B B == 从第二个盒子里摸到红球从第二个盒子里摸到红球
依题意有依题意有::PP((AA))=3/5=3/5;;PP((BB)=3/5 )=3/5
PP((AABB))==PP((AA))· · PP((BB)=3/5×3/5=)=3/5×3/5=
统计学
STATISTICS
4-45
¨独立性与互不相容的区别:
独立性是指两个事件的发生互不影响。
互不相容是指两个事件不能同时发生。
两个不相容事件一定是统计相依的,两个
独立事件一定是相容的(除非其中有一个事
件的概率为0)。
统计学
STATISTICS
全概率公式与逆概率公式
统计学
STATISTICS
3-47
1. 全概率公式
BB
BB55 BB44
BB
BB33
完备事件组完备事件组
统计学
STATISTICS
3-48
【【例例】】假假设设在在nn张张彩彩票票中中只只有有一一张张中中奖奖奖奖券券,,那那么么第第
二个人摸到奖券的概率是多少?二个人摸到奖券的概率是多少?
解:解:设设 AA = = 第二个人摸到奖券,第二个人摸到奖券,B B = = 第一个人摸到奖券第一个人摸到奖券
依题意有依题意有::PP((BB))=1/=1/nn;;PP((BB)=()=(nn-1)/-1)/nn
PP((AA||BB)=0 )=0 PP((AA||BB)=1/)=1/nn-1 -1
统计学
STATISTICS
3-49
2. 逆概率公式(贝叶斯公式 )
PP((BBii))是没有加入其它信息的概是没有加入其它信息的概
率,率,被称为事件被称为事件BBii的先验概率的先验概率
PP((BBii||AA))被称为事件被称为事件BBii的后验概的后验概
率率
BB
BB55 BB44
BB
BB33
统计学
STATISTICS
3-50
【【例例】】某某考考生生回回答答一一道道四四选选一一的的考考题题,,假假设设他他知知道道正正
确确答答案案的的概概率率为为1/21/2,,而而他他不不知知道道正正确确答答案案时时猜猜对对的的
概概率率应应该该为为1/41/4。。考考试试结结束束后后发发现现他他答答对对了了,,那那么么他他
是知道正确答案情况下做对的概率是多大呢?是知道正确答案情况下做对的概率是多大呢?
解:解:设设 AA == 该考生答对了该考生答对了 ,,B B == 该考生知道正确答案该考生知道正确答案
依题意有依题意有::PP((BB))=1/2=1/2;; PP((BB)=1-1/2 = 1/2 )=1-1/2 = 1/2
PP((AA||BB)=1/4 )=1/4 PP((AA||BB)=1)=1
统计学
随机变量及其概率分布
随机变量
离散型随机变量的概率分布
离散型随机变量的数学期望和方差
几种常用的离散型概率分布
概率密度函数与连续型随机变量
常见的连续型概率分布
统计学
STATISTICS
随机变量
统计学
STATISTICS
4-53
1. 随机变量就是其取值带有随机性的变量,
一般用 X、Y、Z 等表示。
在给定的条件下,这种变量取任何值事先
不能确定,只能由随机试验的结果来定,
并且随试验的结果而变。
例如: 投掷两枚硬币出现正面的数量
统计学
STATISTICS
4-54
2. 随机变量的种类
如果随机变量的全体可能取值能够一一
列举出来,这样的随机变量称作离散型随机
变量(如掷一枚硬币首次出现正面向上所需
要的投掷次数);
如果随机变量的全体可能取值不能一一
列举,其可能的取值在数轴上是连续的,则
该变量称为连续型随机变量(如可能出现的
测量误差)。
统计学
STATISTICS
3-55
离散型随机变量的一些例子
试验 随机变量 可能的取值
抽查100个产品
一家餐馆营业一天
电脑公司一个月的销
售
销售一辆汽车
取到次品的个数
顾客数
销售量
顾客性别
0,1,2, …,100
0,1,2, …
0,1, 2,…
男性为0,女性为1
统计学
STATISTICS
3-56
连续型随机变量的一些例子
试验 随机变量
可能的取
值
抽查一批电子元
件
新建一座住宅楼
测量一个产品的
长度
使用寿命(小时)
半年后工程完成的百
分比
测量误差(cm)
X 0
0 X
100
X 0
统计学
STATISTICS
离散型随机变量的概率分布
统计学
STATISTICS
1.离散型随机变量的分布
离散型随机变量X的所有可能取值x1 、x2 、
x3 、……、xn和这些值的概率p(x1) 、 p(x2) 、p
(x3)、 ……、p(xn) 就称为离散型随机变量的概
率分布。即:
统计学
STATISTICS
¨离散型随机变量概率分布的性质
变量X x1 x2 x3 …… xn
概率P p(x1) p(x2) p(x3) …… p(xn)
离散型随机变量的概率分布
统计学
STATISTICS
【例】投掷一枚骰子,出现的点数是个离散型
随机变量,其概率分布为
X = xi 1 2 3 4 5 6
P(X=xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6
00
1/61/6
PP((xx))
11 xx22 33 44 55 66
统计学
STATISTICS
3-61
【例】一部电梯在一周内发生故障的次
数X及相应的概率如下表
故障次数X = xi 0 1 2 3
概率P(X=xi)pi
一部电梯一周发生故障的次数及概率分布一部电梯一周发生故障的次数及概率分布
(1) (1) 确定确定的值的值
(2) (2) 求正好发生两次故障的概率求正好发生两次故障的概率
(3) (3) 求最多发生两次故障的概率求最多发生两次故障的概率
(4)(4)求求故障次数多于一次的概率故障次数多于一次的概率
统计学
STATISTICS
3-62
解:(1) 由于+++ =1
所以, =
(2) P(X=2)=
(3) P(X 2)=++=
(4) P(X1)=+=
统计学
STATISTICS
离散型随机变量的
数学期望和方差
统计学
STATISTICS
3-64
1. 离散型随机变量的数学期望
1)离散型随机变量X的所有可能取值xi与其取相对
应的概率pi乘积之和
2)描述离散型随机变量取值的集中程度
3)记为 或E(X)
4)计算公式为
统计学
STATISTICS
3-65
2. 离散型随机变量的方差
1)随机变量X的每一个取值与期望值的离差平方
和的数学期望,记为 2 或D(X)
2)描述离散型随机变量取值的分散程度
3)计算公式为
4)方差的平方根称为标准差,记为 或D(X)
统计学
STATISTICS
3-66
【【例例】】一一家家电电脑脑配配件件供供应应商商声声称称,,他他所所提提供供的的配配
件件100100个中拥有次品的个数及概率如下表个中拥有次品的个数及概率如下表
次品数X = xi 0 1 2 3
概率P(X=xi)pi
每每100100个配件中的次品数及概率分布个配件中的次品数及概率分布
求该供应商次品数的数学期望和标准差求该供应商次品数的数学期望和标准差
统计学
STATISTICS
几种常用的离散型概率分布
统计学
STATISTICS
3-68
常用离散型概率分布
离散型
概率分布
二项分布 两点分布 泊松分布 超几何分布
统计学
STATISTICS
3-69
1. 二项分布
1)二项分布与伯努利试验有关
2)伯努利试验满足下列条件
– 一次试验只有两个可能结果,即“成功”和“
失败”
• “成功”是指我们感兴趣的某种特征
– 一次试验“成功”的概率为p ,失败的概率为q
=1- p,且概率p对每次试验都是相同的
– 试验是相互独立的,并可以重复进行n次
– 在n次试验中,“成功”的次数对应一个离散型
随机变量X
统计学
STATISTICS
3-70
3)重复进行 n 次试验,出现“成功”的次数
的概率分布称为二项分布,记为X~B(n,
p)
4)设X为 n 次重复试验中出现成功的次数,X
取 x 的概率为
5)二项分布的期望与方差:
统计学
STATISTICS
3-71
对于P(X=x) 0, x =1,2,…,n,有
同样有
统计学
STATISTICS
3-72
【【例例】】已知一批产品的次品率为已知一批产品的次品率为4%4%,从中任意有放回地抽,从中任意有放回地抽
取取55个。求个。求55个产品中:个产品中:
(1) (1) 没有次品的概率是多少?没有次品的概率是多少?
(2) (2) 恰好有恰好有11个次品的概率是多少?个次品的概率是多少?
(3) (3) 有有33个以下次品的概率是多少?个以下次品的概率是多少?
统计学
STATISTICS
3-73
2. 两点分布( 0-1分布)
随机变量X只取0和1两个可能的值。
两点分布的期望为p,方差为pq。
当 n = 1 时,二项分布退化为两点分布:
或
统计学
STATISTICS
3-74
【例】已知一批产品的次品率为p=,合格率
为q=1-p==。并指定废品用1表示,合
格品用0表示。则任取一件为废品或合格品这一
离散型随机变量,其概率分布为
X = xi 0 1
P(X=xi)=pi
00
11
11 xx
PP((xx))
统计学
STATISTICS
3-75
3. 泊松分布
1)1837年法国数学家泊松(,1781—1840)首次
提出
2)用于描述在一指定时间范围内或在一定的长度、
面积、体积之内每一事件出现次数的分布
3)泊松分布的例子
– 一定时间段内,某航空公司接到的订票电话数
– 一定时间内,到车站等候公共汽车的人数
– 一定路段内,路面出现大损坏的次数
– 一定时间段内,放射性物质放射的粒子数
– 一匹布上发现的疵点个数
– 一定页数的书刊上出现的错别字个数
统计学
STATISTICS
3-76
— 给定的时间间隔、长度、面
积、体积内“成功”的平均数
e =
x —给定的时间间隔、长度、面
积、体积内“成功”的次数
4)概率分布函数 X~P()
5)泊松分布的期望和方差均为
统计学
STATISTICS
3-77
【【例例】】假假定定某某航航空空公公司司预预订订票票处处平平均均每每小小时时接接到到4242
次次订订票票电电话话,,那那么么1010分分钟钟内内恰恰好好接接到到66次次电电话话的的概概
率是多少?率是多少?
解:解:设设XX==1010分钟内航空公司预订票处接到的电话次数分钟内航空公司预订票处接到的电话次数
统计学
STATISTICS
3-78
(1)当试验的次数 n 很大,成功的概率 p 很
小时,可用泊松分布来近似地计算二项分
布的概率,即
(2)实际应用中,当 P,n>20,近似效
果良好
6)泊松分布作为二项分布的近似
统计学
STATISTICS
3-79
4. 超几何分布
1)采用不重复抽样,各次试验并不独立,成功
的概率也互不相等
2)总体元素的数目N很小,或实验次数n相对于
N来说较大时,样本中“成功”的次数则服从
超几何概率分布
3)概率分布函数为
4)
统计学
STATISTICS
3-80
【【例例】】假假定定有有1010支支股股票票,,其其中中有有33支支购购买买后后可可以以获获利利,,
另另外外77支支购购买买后后将将会会亏亏损损。。如如果果你你打打算算从从1010支支股股票票中中选选
择择44支支购购买买,,但但你你并并不不知知道道哪哪33支支是是获获利利的的,,哪哪77支支是是亏亏
损的。求:损的。求:
(1)(1)有有33支能获利的股票都被你选中的概率有多大?支能获利的股票都被你选中的概率有多大?
(2)3(2)3支可获利的股票中有支可获利的股票中有22支被你选中的概率有多大?支被你选中的概率有多大?
解:解:设设NN==1010,,MM=3=3,,nn=4=4
统计学
STATISTICS
概率密度函数与
连续型随机变量
统计学
STATISTICS 1. 连续型随机变量的特点
1)连续型随机变量可以取某一区间或整个实
数轴上的任意一个值
2)它取任何一个特定的值的概率都等于0
3)不能列出每一个值及其相应的概率
4)通常研究它取某一区间值的概率
5)用概率密度函数的形式和分布函数的形式
来描述
统计学
STATISTICS 2. 概率密度函数
1)设X为一连续型随机变量,x 为任意实数,
X的概率密度函数记为f(x),它满足条件
2) f(x)不是概率
统计学
STATISTICS
密度函数 f(x)表示X 的所有取值 x 及其频数f(x)
值值
((值值, , 频数频数))频数频数
ff((xx))
aa bb
xx
统计学
STATISTICS
在平面直角坐标系中画出f(x)的图形,则对于任何实
数 a < b,P(a< X b)是该曲线下从a到 b的面积
f(x)
xa b
概率是曲线下的面积概率是曲线下的面积
统计学
STATISTICS 3. 分布函数
1)连续型随机变量的概率可以用分布函数
F(x)来表示
2)分布函数定义为
3)根据分布函数,P(a<X<b)可以写为
统计学
STATISTICS 4. 分布函数与密度函数的图示
1)密度函数曲线下的面积等于1
2)分布函数是曲线下小于 x0 的面积
f(x)
x
x0
F F ( ( xx00 ))
统计学
STATISTICS5. 连续型随机变量的数学期望和方差
1)连续型随机变量的数学期望
2)方差
统计学
STATISTICS
常见的连续型随机变量
的概率分布
统计学
STATISTICS
统计学
STATISTICS 1. 正态分布
由.高斯(Carl Friedrich Gauss,1777—1855)作
为描述误差相对频数分布的模型而提出。
描述连续型随机变量的最重要的分布。
许多现象都可以由正态分布来描述。
可用于近似离散型随机变量的分布。
例如: 二项分布
经典统计推断的基础。
xx
f f ((xx))
统计学
STATISTICS (1)概率密度函数
f(x) = 随机变量 X 的频数
= 正态随机变量X的均值
= 正态随机变量X的方差
= ; e =
x = 随机变量的取值 (- < x < )
统计学
STATISTICS (2) 正态分布函数的性质
图形是关于x=对称的钟形曲线,且峰值在x= 处
均值和标准差一旦确定,分布的具体形式也惟一确
定,不同参数正态分布构成一个完整的“正态分布族
”
均值可取实数轴上的任意数值,决定正态曲线的具
体位置;标准差决定曲线的“陡峭”或“扁平”程度。
越大,正态曲线扁平;越小,正态曲线越陡峭
当X的取值向横轴左右两个方向无限延伸时,曲线的两
个尾端也无限渐近横轴,理论上永远不会与之相交
正态随机变量在特定区间上的取值概率由正态曲线下
的面积给出,而且其曲线下的总面积等于1
统计学
STATISTICS 和 对正态曲线的影响
x
f(x)
CA
B =1/2=1/2
=1 =1
统计学
STATISTICS (3)正态分布的概率
概率是曲线下的概率是曲线下的面积面积!!
aa bb
xx
ff((xx))
统计学
STATISTICS(4)对称钟形分布中的3σ法则
¨ 3σ 法则——关于钟形分布的一个近似的
或经验的法则:
– 变量值落在 [-3σ,+3σ]范围以外的情况极为
少见。因此通常将落在区间[-3σ,+3σ]之外
的数据称为异常数据或称为离群点。
x
%
%
%
统计学
STATISTICS 切比雪夫定理
¨
对于任意一个数据集中,至少有
75%的数据位于平均数2个标准差范围内。
至少有89%的数据位于平均数3个标准差
范围内。
3-97
统计学
STATISTICS (5)标准正态分布
aa)标准正态分布)标准正态分布的概率密度函数的概率密度函数
作变换:
bb)标准正态分布)标准正态分布的分布函数的分布函数
可将一般形式的正态分布转化为标准正态分布正态分布转化为标准正态分布
统计学
STATISTICS
XX
一般正态分布一般正态分布
Z
标准正态分布标准正态分布
统计学
STATISTICS (6)标准正态分布表的使用
a)对于标准正态分布,即Z~N(0,1),有
• P (a Zb) b a
• P (|Z| a) 2 a 1
b)对于负的 z ,可由 (-z) z得到
c)对于一般正态分布,即X~N( , ),有
统计学
STATISTICS
标准化的例子
P(5 X )
X 5
一般正态分布一般正态分布
Z
标准正态分布标准正态分布
统计学
STATISTICS 标准化的例子
P( X )
5
= 10
X
一般正态分布一般正态分布 标准正态分布标准正态分布
0
= 1
.
统计学
STATISTICS
【【例例】】假假定定某某公公司司职职员员每每周周的的加加班班津津贴贴服服从从均均值值为为5050元元、、标标
准准差差为为1010元元的的正正态态分分布布,,那那么么全全公公司司中中有有多多少少比比例例的的职职员员每每
周周的的加加班班津津贴贴会会超超过过7070元元,,又又有有多多少少比比例例的的职职员员每每周周的的加加班班
津贴在津贴在4040元到元到6060元之间呢?元之间呢?
解:解:设设=5=500,, =10=10,,XX~~NN(50,10(50,1022))
统计学
STATISTICS
3-104
2. 均匀分布
1) 若随机变量X的概率密度函数为
则称X在 [a ,b]上服从均匀分布,记为X~U[a,b]
2)数学期望和方差
统计学
STATISTICS
3-105
随机变量X在某取值范围[a ,b]的任一子区间[c ,d]上
取值的概率为
同样有:
统计学
STATISTICS
3-106
【【例例】】某某公公共共汽汽车车站站从从早早上上66时时起起每每隔隔1515分分钟钟开开出出一一
趟趟班班车车,,假假定定某某乘乘客客在在66点点以以后后到到达达车车站站的的时时刻刻是是随随
机机的的,,所所以以有有理理由由认认为为他他等等候候乘乘车车的的时时间间长长度度XX服服从从
参参数数为为aa=0=0,,bb=15=15的的均均匀匀分分布布。。试试求求该该乘乘客客等等候候乘乘车车
的时间长度少于的时间长度少于55分钟的概率分钟的概率
解:解:概率密度函数为概率密度函数为
落入区间落入区间[0[0,,15]15]的任一子区间的任一子区间[0[0,,dd]]的概率是的概率是 ,,
等候乘车的时间长度少于等候乘车的时间长度少于55分钟即有分钟即有d d =5=5,因此该事件发生的,因此该事件发生的
概率等于概率等于5/15=1/35/15=1/3
统计学
STATISTICS
3-107
3. 指数分布
1. 若随机变量X的概率密度函数为
2. 称X服从参数为的指数分布,记为
X~E()
3. 数学期望和方差
统计学
STATISTICS
3-108
指数分布
(概率计算)
1. 随机变量X取小于或等于某一特定值x的概率为
2. 随机变量X落入任一区间(a,b)的概率为
统计学
STATISTICS
3-109
指数分布
(例题分析)
【【例例】】假假定定某某加加油油站站在在一一辆辆汽汽车车到到达达之之后后等等待待下下一一辆辆汽汽车车到到
达达所所需需要要的的时时间间((单单位位::分分钟钟))服服从从参参数数为为1/51/5的的指指数数分分布布,,如如
果果现现在在正正好好有有一一辆辆汽汽车车刚刚刚刚到到站站加加油油,,试试分分别别求求以以下下几几个个事事
件发生的概率:件发生的概率:
(1)(1)一辆汽车到站前需要等待一辆汽车到站前需要等待55分钟以上分钟以上
(2)(2)一辆汽车到站前需要等待一辆汽车到站前需要等待55~~1010分钟分钟
解:解:
统计学
STATISTICS 常用的抽样方法
大多数的实际应用当中真实的均值与方差等的
参数是未知的,需要通过抽样调查,用样本统
计量去推断人们所关心的总体参数。
简单随机抽样
分层抽样
系统抽样
整群抽样
统计学
STATISTICS
3-111
简单随机抽样
1. 从总体N个单位中随机地抽取n个单位作为样本,使
得每一个总体单位都有相同的机会(概率)被抽中
2. 抽取元素的具体方法有重复抽样和不重复抽样
3. 特点
– 简单、直观,在抽样框完整时,可直接从中抽取样本
– 用样本统计量对目标量进行估计比较方便
4. 局限性
– 当N很大时,不易构造抽样框
– 抽出的单位很分散,给实施调查增加了困难
– 没有利用其他辅助信息以提高估计的效率
统计学
STATISTICS
3-112
分层抽样
1. 将总体单位按某种特征或某种规则划分为
不同的层,然后从不同的层中独立、随机
地抽取样本
2. 优点
– 保证样本的结构与总体的结构比较相近,从
而提高估计的精度
– 组织实施调查方便
– 既可以对总体参数进行估计,也可以对各层
的目标量进行估计
统计学
STATISTICS
3-113
系统抽样
1. 将总体中的所有单位(抽样单位)按一定顺
序排列,在规定的范围内随机地抽取一个
单位作为初始单位,然后按事先规定好的
规则确定其他样本单位
– 先从数字1到k之间随机抽取一个数字r作为
初始单位,以后依次取r+k,r+2k…等单位
2. 优点:操作简便,可提高估计的精度
3. 缺点:对估计量方差的估计比较困难
统计学
STATISTICS
3-114
整群抽样
1. 将总体中若干个单位合并为组(群),抽样时
直接抽取群,然后对中选群中的所有单位
全部实施调查
2. 特点
– 抽样时只需群的抽样框,可简化工作量
– 调查的地点相对集中,节省调查费用,方便
调查的实施
– 缺点是估计的精度较差
统计学
STATISTICS 抽样分布
抽样分布的概念
样本均值抽样分布的形式
样本均值抽样分布的特征
样本比率的抽样分布
样本方差的抽样分布
两个样本统计量的抽样分布
统计学
STATISTICS
若将样本指标的取值分别记为
其相应的概率记为P1,P2,…Pn,将它们按
顺序排列起来,可得如下概率分布表。
……
……
抽样分布的概念
从总体中随机地抽取许多样本,所得到的所有可能的
样本观测值及其所对应的概率便是抽样分布。因此,
抽样分布也可以称为样本统计量的概率分布。
统计学
STATISTICS
3-117
1. 样本统计量的概率分布,是一种理论分布
– 在重复选取容量为n的样本时,由该统计量的所有
可能取值形成的相对频数分布
2. 随机变量是 样本统计量
– 样本均值,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行
推断的理论基础,也是抽样推断科学性的重要
依据
抽样分布
(sampling distribution)
统计学
STATISTICS
【例5-2】设一个总体,含有4个元素(个体) ,
即总体单位数N=4。4 个个体分别为x1=1,x2=2
,x3=3,x4=4 。总体的均值、方差及分布如下
总体分布
11 4422 33
00
.
.
. 均值
样本均值的抽样分布
方差
统计学
STATISTICS
现从总体中抽取n=2的简单随机样本,在重复抽样
条件下,共有42=16个样本。所有样本的结果为:
3,43,33,23,13
2,42,32,22,12
4,44,34,24,14
1,4
4
1,3
321
1,21,11
第二个观察值第一个
观察值
所有可能的n = 2 的样本(共16个)
统计学
STATISTICS
计算出各样本的均值,如下表。并给出样本均值
的抽样分布
4
321
第二个观察值第一个
观察值
1616个样本的均值(个样本的均值(xx))
统计学
STATISTICS
5-121
xx
样本均值的抽样分布
00
P P ( ( x x ))
X 1 2 3 4
p 1/16 2/16 3/16 4/16 3/16 2/16 1/16
统计学
STATISTICS
样本均值的分布与总体分布的比较
=
σ2 =
总体分布
11 4422 33
00
.
.
.
抽样分布
P ( x )
00
.
.
.
统计学
STATISTICS样本均值抽样分布的形成过程
¨
3-123
统计学
STATISTICS
3-124
¨
样本均值的抽样分布
统计学
样本均值抽样分布的形式
x x 的的分分布布
趋趋于于正正态态
分分布布的的过过
程程
统计学
STATISTICS
3-126
总体分布总体分布
正态分布 非正态分布
大样本大样本 小样本小样本
正态分布正态分布 非正态分布
统计学
STATISTICS
3-127
1. 样本均值的数学期望
2. 样本均值的方差
– 重复抽样
– 不重复抽样
当N趋于无穷大或N很大n很小时,不重复抽样可
以用重复抽样公式计算
样本均值抽样分布的特征
统计学
STATISTICS
3-128
样本均值的抽样分布
(总体数学期望与方差)
比较及结论:比较及结论:1. 1. 样本均值的均值样本均值的均值((数学期望数学期望) ) 等于总体均值等于总体均值
2. 2. 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/nn
统计学
STATISTICS t分布
¨
3-129
统计学
STATISTICS t分布
在实际问题中所有可能的样本数是难以一
一列举的,这时可以通过反复进行抽样模
拟,记录下统计量取不同数值时的百分比,
这是可以发现样本均值的抽样分布服从与
自由度为(n-1)的t分布
3-130
统计学
STATISTICS t 分布
t t 分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,,它它通通常常要要比比
正正态态分分布布平平坦坦和和分分散散。。依依赖赖于于称称之之为为自自由由度度的的参参数数。。
随着自由度的增大,分布也逐渐趋于正态分布随着自由度的增大,分布也逐渐趋于正态分布
xx
tt 分布与标准正态分布的比较分布与标准正态分布的比较
t t 分布分布
标准正态分布标准正态分布
tt
不同自由度的不同自由度的tt分布分布
标准正态分布标准正态分布
t t ((dfdf = 13) = 13)
tt ( (dfdf = 5) = 5)
zz
统计学
STATISTICSt分布与正态分布的异同点
¨ 相同点
1,都是均数位于中间;
2,t曲线与正态曲线都是关于μ点对称,形状相似;
3,总面积都是1.
¨ 不同点
1,t曲线会随n的大小变化而变化,不是一条而是多
条;
2,随着n的增加,t分布逐渐接近标准正态分布,当
n=∞时,完全成为标准正态分布
3-132
统计学
STATISTICS
3-133
样本比率的抽样分布
统计学
STATISTICS
3-134
¨
比率
(proportion)
统计学
STATISTICS
3-135
1. 在重复选取容量为n的样本时,由样本比
率的所有可能取值形成的相对频数分布,
称为样本比率抽样分布
2. 一种理论概率分布
3. 当样本量很大时(np≥5 或n(1-p)≥5),
样本比率的抽样分布可用正态分布近似
4. 推断总体比率的理论基础
样本比率的抽样分布
统计学
STATISTICS
3-136
1. 样本比率的数学期望
2. 样本比率的方差
– 重复抽样
– 不重复抽样
样本比率的抽样分布
(数学期望与方差)
统计学
STATISTICS
重复抽样
不重复抽样
统计学
STATISTICS
【例5-4】从某地区6000名适龄儿童中用不放回抽
样方法抽取400名儿童,其中有320名儿童入学,
求样本入学率的标准差。
解:
5-138
统计学
STATISTICS 样本方差的抽样分布
1. 在重复选取容量为n的样本时,由样本方差的
所有可能取值形成的相对频数分布
2. 对于来自正态总体的简单随机样本,则比值
的抽样分布服从自由度为 (n -1) 的2分布,即
统计学
STATISTICS
(1)由阿贝(Abbe) 于1863年首先给出,后来由海尔墨
特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年
和1900年推导出来
(2)设 ,则
(3) 令 ,则 Y 服从自由度为1的2分布,即
(4) 当总体 ,从中抽取容量为n的样本,则
2分布
统计学
STATISTICS
(1) 分布的变量值始终为正
(2) 分布的形状取决于其自由度n的大小,
通常为不对称的正偏分布,但随着自由度
的增大逐渐趋于对称
(4) 可加性:若U和V为两个独立的服从2
分布的随机变量,U~2(n1),V~2(n2),
则U+V这一随机变量服从自由度为n1+n2
的2分布
2分布的性质和特点
统计学
STATISTICS c
2分布图示
选择容量为n 的
简单随机样本
计算样本方差s2
计算卡方值
2 = (n-1)s2/σ2
计算出所有的
2值
不同容量样本的抽样分布不同容量样本的抽样分布
nn=1=1
nn=4=4
nn=10=10
nn=20=20
总体
统计学
STATISTICS
5-143
统计学
STATISTICS
两个样本统计量
的抽样分布
统计学
STATISTICS
1)两个总体都为正态分布,即
,
2)两个样本均值之差 的抽样分布服从正态
分布,其分布的数学期望为两个总体均值之差
3)方差为各自的方差之和
1. 两个样本均值之差的抽样分布
统计学
STATISTICS 两个样本均值之差的抽样分布
1 1
1 1总体1
2 2
22
总体2
抽取简单随机样
样本容量 n1
计算x1
抽取简单随机样
样本容量 n2
计算x2
计算每一对样本
的x1-x2
所有可能样本
的x1-x2
--
抽样分布抽样分布
统计学
STATISTICS
1)两个总体都服从二项分布
2)分别从两个总体中抽取容量为n1和n2的独立样本,
当两个样本都为大样本时,两个样本比例之差的抽
样分布可用正态分布来近似
3)分布的数学期望为
4)方差为各自的方差之和
2. 两个样本比例之差的抽样分布
统计学
STATISTICS 3.两个样本方差比的抽样分布
11))两两个总体都为正态分布,个总体都为正态分布,即即
X X11~~NN((μμ1 1 ,,σσ1122)),, XX22~~NN((μμ2 2 ,,σσ222 2 ))
22)从两)从两个总体中分别抽取容量为个总体中分别抽取容量为nn11和和nn22的独立样本的独立样本
33)则统计量)则统计量
服服从从分分子子自自由由度度为为((nn11-1)-1),,分分母母自自由由度度为为((nn22-1) -1) 的的FF
分布,即分布,即
统计学
STATISTICS
由统计学家费希尔() 提出的,以其姓
氏的第一个字母来命名
设若U为服从自由度为n1的2分布,即U~2(n1)
,V为服从自由度为n2的2分布,即V~2(n2),且
U和V相互独立,则
称F为服从自由度n1和n2的F分布,记为
F分布(F distribution)
统计学
STATISTICS F分布(图示)
不同自由度的F分布
FF
((1,10)1,10)
(5,10)(5,10)
(10,10)(10,10)
统计学
STATISTICS
中心极限定理的应用
对于抽自任意总体样本量为n的随
机样本,当n充分大时,样本均
值的抽样分布具有 的
正太分布。样本量越大样本均值
的抽样分布越近似于正态分布
统计学
STATISTICS
1. 均值的抽样分布
[例] 某汽车电瓶商声称其生产的电瓶具有均值为60
个月,标准差为6个月的寿命分布。现质检部门从
该厂随机抽取了50个电瓶进行寿命检验。
1)假定厂商声称是正确的,试描述50个电瓶的平均
寿命的抽样分布。
2)假定厂商声称正确,则50个电瓶样本的平均寿命
不超过57个月的概率是多少?
3)假定测得该50个样品组成的样本的平均寿命为57
个月,请问厂商的声称是否正确?
统计学
STATISTICS [解]
1)若厂商声称是正确的,由中心极限定理知道,50
个电瓶的平均寿命的分布近似服从正态分布,其均
值为60个月,方差为62/50=
2)若厂商声称正确,则50个样品组成的样本的平均
寿命不超过57个月的概率为:
统计学
STATISTICS
3)不正确。若厂商声称是正确的,则50个样品组
成的样本的平均寿命不超过57个月的概率为
,这是一个不可能事件。若观察到50个样
品组成的样本的平均寿命小于57个月,即可认为
厂商的声称是不正确的。
统计学
STATISTICS
[例]某酒店电梯的最大载重为18人, 1350kg。假定已知
该酒店旅客及其携带的行李平均重量为70kg,标准
差为6kg。试问随机进入电梯18人,总重量超重的概
率是多少?
解:根据条件已知:μ=70, σ=6, n=18, 电梯载重的最大
平均重量为1350/18=75kg.
按照题意,要计算的是随机的任意18人平均重量超
过75kg的概率.用数学公式表示,即计算P( ≥75)的概
率.要计算这一概率,由已知人的体重服从正态分布,就
可以根据中心极限定理将均值 抽样分布概率的计算
转换成标准正态变量z值概率的计算。
统计学
STATISTICS
即:
就有:
统计学
STATISTICS
[例]假定某统计人员填写的报表中有2%的可能性至
少会有一处错误,如果我们检查一个600份报表组
成的样本,其中至少有一处错误的报表所占的比
率在~之间的概率有多大?
解: 设600份报表中至少有一处错误的报表所占的比
率为 ,由题意可知
统计学
STATISTICS
根据中心极限定理,有
故所求概率为:
统计学
STATISTICS
[例]甲、乙两所高校在某年录取新生时,甲校的
平均分为655分,标准差为20分,乙校的平均
分为625分,标准差为25分,假定两校的分数
均服从正态分布,现从两所高校中各随机抽
取8名新生计算其平均分,出现甲校比乙校的
平均分低的可能性有多大?
解:因为两个总体均为正态分布,所以8名新生
的平均成绩 、 以及 也为正态分
布,且:
统计学
STATISTICS
故有
统计学
STATISTICS
3-161
本章小结
¨ 事件及其概率
¨ 随机变量及其概率分布
¨ 常用的抽样方法
¨ 抽样分布
¨ 中心极限定理的应用