此处是大标题样稿字样十五
字以内
2
第第 3 3 章章 概率分布与抽概率分布与抽样样分布分布
随机随机变变量量
正正态态分布分布
常用的抽常用的抽样样方法方法
抽抽样样分布分布
中心极限定理的中心极限定理的应应用用
3
随机变量
(random variables)
1.对随机事件的数值性描述
--例如:抛硬币的结果,正面定义为1,反
面定义为0
2.一般用 X,Y,Z 来表示
3.根据取值情况的不同分为
离散型随机变量:数轴上可列
个孤立的点
连续型随机变量:数轴上一个
或多个区间
4
离散型随机变量
1. 随机变量 X 取有限个值或所有取值都可以
逐个列举出来 x1 , x2,…
2. 以确定的概率取这些不同的值
3. 离散型随机变量的一些例子
5
连续型随机变量
1. 连续型随机变量可以取某一区间或整个实数轴
上的任意一个值
2. 它取任何一个特定的值的概率都等于0
3. 不能列出每一个值及其相应的概率
4. 通常研究它取某一区间值的概率
5. 用概率密度函数和分布函数的形式来描述
定义 设X是一随机变量,X是任意实数,则实值函数
F(x)=P {Xx}, x∈(-∞,+∞)
称为随机变量X的分布函数。
有了分布函数定义,任意x1,x2∈R, x1<x2,随
机变量X落在(x1,x2]里的概率可用分布函数来计算:
P {x1<X x2}=P{X x2}-P{Xx1}= F(x2)-F(x1).
在这个意义上可以说,分布函数完整地描述了随
机变量的统计规律性,或者说,分布函数完整地表示
了随机变量的概率分布情况。
6
分布函数的定义
7
分布函数的性质
1、单调不减性:若x1<x2, 则F(x1)F(x2);
2、归一 性:对任意实数x,0F(x)1,且
3、右连续性:对任意实数x,
反之,具有上述三个性质的实函数,必是某个
随机变量的分布函数。故该三个性质是分布函
数的充分必要性质。
例 设随机变量X具分布律如下表
解
试求出X的分布函数。
8
9
连续型随机变量与概率密度
则称X是连续型随机变量,f(X)称为X的概率密度函
数,简称概率密度。
注意f(x)不是概
率
设X是随机变量,如果存在定义在整个实数轴上的函
数f(x),满足条件
概率密度函数的性质
1)
2)
1
这两条性质是判定一
个函数 f(x)是否为某
个随机变量X的概率
密度函数的充要条件
3) X落入区间[a,b]内的概率=
10
11
连续型随机变量的期望
和方差
1.连续型随机变量的数学期望
2.方差
12
正态分布
(normal distribution)
1. 正态分布是最重要的一种概率分布。正态分布概
念是由德国的数学家(Carl Friedrich Gauss,
1777—1855)和天文学家Moivre于1733年首次
提出的,但由于Gauss率先将其应用于天文学家
研究,故正态分布又叫高斯分布。
2. 描述连续型随机变量的最重要的分布
3. 许多现象都可以由正态分布来描述
4. 可用于近似离散型随机变量的分布
例如: 二项分布当n越来越大,越近似服从正态分
布
5. 经典统计推断的基础
正态分布是许多统计方法的理论基础:
如t分布、F分布、χ2分布都是在正态分
布的基础上推导出来的,此外,t分布、
二项分布、Poisson分布的极限为正态
分布,在一定条件下,可以按正态分布
原理来处理。
13
= 正态随机变量X的均值
= 正态随机变量X的方差
= ; e =
x = 随机变量的取值 (- < x < )
则称X服从参数为 、 的正态分布,记作
X~N( , )
正态分布
14
正态分布函数的性质
1. 图形是关于x=对称钟形曲线,且峰值在x= 处
2. 均值和标准差一旦确定,分布的具体形式也惟一确
定,不同参数正态分布构成一个完整的“正态分布族
”
3. 均值可取实数轴上的任意数值,决定正态曲线的具
体位置;标准差决定曲线的“陡峭”或“扁平”程度。
越大,正态曲线扁平;越小,正态曲线越高陡峭
4. 当X的取值向横轴左右两个方向无限延伸时,曲线的
两个尾端也无限渐近横轴,理论上永远不会与之相交
5. 正态随机变量在特定区间上的取值概率由正态曲线下
的面积给出,而且其曲线下的总面积等于1
正态概率密度函数的几何特征
15
16
17
μ决定曲线的位置,σ决定曲线的“胖瘦”
正态分布下的概率计算
方法一:利用统计软件计算
方法二:转化为标准正态分布标准正态分布查表计算
19
标准正态分布的概率密度表示为
标准正态分布的分布函数表示为
标准正态分布
(standardize the normal distribution)
20
标准正态分布的图形
21
查表标准正态分布函数表解
例1
22
23
解 查标准正态分布表
24
正态分布的转换
1. 任何一个一般的正态分布,可通过下面的线性
变换转化为标准正态分布
X-μ表示将一般正态分布的曲线平衡到标准正态分布的位置
除以σ表示将一般正态分布的曲线形状转换为标准正态分布
25
正态分布
(例题分析)
【【例例】】定定某某公公司司职职员员每每周周的的加加班班津津贴贴服服从从均均值值为为5050元元、、标标准准
差差为为1010元元的的正正态态分分布布,,那那么么全全公公司司中中有有多多少少比比例例的的职职员员每每周周
的的加加班班津津贴贴会会超超过过7070元元,,又又有有多多少少比比例例的的职职员员每每周周的的加加班班津津
贴在贴在4040元到元到6060元之间呢?元之间呢?
解:解:设设=5=500,, =10=10,,XX~~NN(50,10(50,1022))
26
27
常用的抽样方法
简单随机抽样
分层抽样
系统抽样
整群抽样
28
简单随机抽样
(simple random sampling)
1. 从总体N个单位中随机地抽取n个单位作为样本,使
得每一个总体单位都有相同的机会(概率)被抽中
2. 抽取元素的具体方法有重复抽样和不重复抽样
3. 特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
但是当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
也称纯随机抽样,是应用最多、
最基本的抽样方法之一
29
简单随机抽样的优缺点
优点:简单随机抽样是最符合
随机原则的抽样方法,能保证
总体的每个成员具有已知的且
同等的被选为样本单位的机会,
因此,产生的样本,不论其多
大都是总体的一个有效代表。
缺点:不论使用哪种抽样方法,
都需要预先设定每个总体成员,
要为每个总体成员提供一个标
志值,而且要有一个完整的总
体情况表,这往往是难以获得
的。
30
分层抽样
(stratified sampling)
1.将总体单位按某种特征或某种
规则划分为不同的层,然后从
不同的层中独立、随机地抽取
样本
2.优点
保证样本的结构与总体的结构比
较相近,从而提高估计的精度
组织实施调查更方便
既可以对总体参数进行估计,也
可以对各层的目标量进行估计
分层或分类时,应使层内各
单位的差异尽可能小,而使
各层之间的差异尽可能大。
31
系统抽样
(systematic sampling)
1.将总体中的所有单位(抽样单位
)按一定顺序排列,在规定的范
围内随机地抽取一个单位作为
初始单位,然后按事先规定好
的规则确定其他样本单位
先从数字1到k之间随机抽取一个
数字r作为初始单位,以后依次
取r+k,r+2k…等单位
2.优点:操作简便,可提高估计
的精度
3.缺点:对估计量方差的估计比
较困难
也称等距抽样或机械抽样
32
例3-1:从10000户中抽取200户进
行抽样调查。
①把10000户按一定标志(如家庭
人口、收入水平、地址等)排列
编号1—10000号;
②求出抽样间隔k=N/n=
10000/200=50
③在第一个间隔1--50号内任意选
取一个单位作为抽样起点,如38
号;
④从38号开始,每隔50户抽取一户
38、88、138、188……9988,共
200户。
系统抽样
(例题)
33
整群抽样
(cluster sampling)
1.将总体中若干个单位合并为组
(群),抽样时直接抽取群,然后
对中选群中的所有单位全部实
施调查
2.特点
抽样时只需群的抽样框,可简化
工作量
调查的地点相对集中,节省调查
费用,方便调查的实施
缺点是估计的精度较差
抽样分布
抽样分布的概念抽样分布的概念
样本均值抽样分布的形式样本均值抽样分布的形式
样本均值抽样分布的特征样本均值抽样分布的特征
样本比率的抽样分布样本比率的抽样分布
样本方差的抽样分布样本方差的抽样分布
34
35
研究总体与所抽取的样本之
间的关系是统计学的中心内容 。
对这种关系的研究从两方面着手:
一是从总体到样本 ,这就
是研究抽样分布(sampling
distribution)的问题;
二是从样本到总体,这就是
统计推断(statistical inference)问
题。
抽样分布
(sampling distribution)
36
抽样分布
(sampling distribution)
从一个给定的总体中抽取(不
论是否有放回)容量(或大小)为n的所有
可能的样本,
对于每一个样本,计算出某个统
计量(如样本均值或标准差)的值,不同
的样本得到的该统计量的值是不
一样的,由此得到这个统计量的
概率分布,称之为抽样分布。
样本统计量与总体参数之间
的差异称为抽样误差
(sampling error)。
37
1. 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有
可能取值形成的相对频数分布
2. 随机变量是样本统计量
样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行
推断的理论基础,也是抽样推断科学性的重要
依据
抽样分布
(sampling distribution)
38
抽样分布
(例题分析)
某班组5个工人的
日工资为34、38、
42、46、50元。
= 42
2 = 32
现用重置抽样的方
法从5人中随机抽
2个构成样本。共
有52=25个样本。
如右图。
总体单位数很大时,难以一一列举样本数,
可通过反复进行抽样,记录下统计量取不同
数值时的次数百分比,以得到一个统计量近
似的抽样分布
39
设有一个总体 ,总体平均数为 μ,方差为σ2,
总体中各变数为 x, 将 此总体称为原总体。现从这
个总体中随机抽取含量为n的样本,样本平均数记
为 。
可以设想,从原总体中可抽出很多甚至无穷多
个含量为n的样本。由这些样本算得的平均数有大
有小,不尽相同,与原总体平均数μ相比往往表现
出不同程度的差异,即抽样误差(sampling error)。
(一)样本均值的抽样分布
40
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素
(个体) ,即总体单位数N=4。4
个个体分别为 x1=1, x2=2,
x3=3,x4=4 。总体分布、总
体的均值、方差及分布如下
总体分布总体分布
11 4422 33
00
.
.
.
41
样本均值的抽样分布
(例题分析)
现现从从总总体体中中抽抽取取nn==22的的简简单单随随机机样样本本,,在在重重复复抽抽
样条件下,共有样条件下,共有4422=16=16个样本。所有样本的结果为个样本。所有样本的结果为
3,43,33,23,13
2,42,32,22,12
4,44,34,24,14
1,4
4
1,3
321
1,21,11
第二个观察值第一个
观察值
所有可能的n = 2 的样本(共16个)
42
样本均值的抽样分布
(例题分析)
计计算算出出各各样样本本的的均均值值,,如如下下表表。。并并给给出出样样本本均均
值的抽样分布值的抽样分布
4
321
第二个观察值
第一
个
观察
值
16个样本的均值(x)
xx
样本均值的抽样分布样本均值的抽样分布
.
00
00
.
11
.
33
PP ( ( x x
))
.
55
.
00
.
00
.
55
.
00
.
55
43
样本均值的分布与总体分布的比较
的分布形式与原有总体和样本
容量n的大小有关
总体分布
11 4422 33
00
.
..
22
.
抽样分布抽样分布P P ( ( x x ))
.
00
00
.
.
.
.
55
.
00
.
00
.
55
.
00
.
55 xx
= =
σσ22 = =
44
1.样本均值的数学期望
2.样本均值的方差(与抽样方法有关)
重复抽样
不重复抽样
样本均值的抽样分布
(数学期望与方差)
修正系数
对无限总体进行不重复抽样时,修正系数趋向于1,
样本均值的方差可按重复抽样的公式计算
对于有限总体,当N很大而n很小时,修正系数趋向
于1,样本均值的方差可按重复抽样的公式计算
45
样本均值的抽样分布
(数学期望与方差)
比较及结论:比较及结论:1. 1. 样本均值的均值样本均值的均值((数学期望数学期望) ) 等于总体均值等于总体均值
2. 2. 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/nn
46
1. 总体(或样本)中具有某种属性的单位与全部单位
总数之比,例:
不同性别的人与全部人数之比
合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
3. 样本比例可表示为
(二)样本比例的抽样分布
(proportion)
47
1.在重复选取容量为n的样本时,
由样本比例的所有可能取值形
成的相对频数分布
2.一种理论概率分布
3.当样本量很大时,样本比例p
的抽样分布可用正态分布近似
4.推断总体比例的理论基础
样本比例的抽样分布
48
1.样本比例的数学期望
2.样本比例的方差
重复抽样
不重复抽样
样本比例的抽样分布
(数学期望与方差)
无限总体不重复抽样时,
可按重复抽样处理
49
(三)样本方差的抽样分
布
. 在在重重复复选选取取容容量量为为nn的的样样本本时时,,由由样样本本方方差差的的
所有可能取值形成的相对频数分布所有可能取值形成的相对频数分布
. 对对于于来来自自正正态态总总体体XX~~N(μ,σN(μ,σ22))的的简简单单随随机机样样本本,,
则比值则比值
的的抽抽样样分分布布服服从从自自由由度度为为 ((n n -1) -1) 的的22分分布布,,
即即
50
1. 两个总体都为正态分布,即
2. 两个样本均值之差 的抽样分布服从正
态分布,其分布的数学期望为两个总体均值之
差
3. 方差为各自的方差之和
(四)两个样本均值之差的抽样分布
51
(五)两个样本比率之差的抽
样分布
独立地从两个二项分布的总体分别抽取容量为n 1和
n2 的两个样本。
当两个样本都为大样本时, 两个样本的比例差的抽样
分布近似服从正态分布,其分布的均值和方差为
52
(六)两个样本方差比的
分布
1. 1. 两两个总体都为正态分布,个总体都为正态分布,即即
XX11~~NN((μμ1 1 ,,σσ1122)),,XX22~~NN((μμ2 2 ,,σσ222 2 ))
2. 2. 从两从两个总体中分别抽取容量为个总体中分别抽取容量为nn11和和nn22的独立样本的独立样本
3. 3. 两两个个样样本本方方差差比比的的抽抽样样分分布布,,服服从从分分子子自自由由度度为为
((nn11-1)-1),分母自由度为,分母自由度为((nn22-1) -1) 的的FF分布,即分布,即
F分布
53
中心极限定理
(central limit theorem)
中心极限定理:中心极限定理:
设设从均从均值为值为,方差,方差为为 22的一的一
个个任意任意总总体体中抽取容量中抽取容量为为nn的的样样本,本,当当
nn充分大充分大时时样样本均本均值值的抽的抽样样分布近似服分布近似服
从均从均值为值为μμ方差方差为为σσ22//nn的的正正态态分布分布
54
样本均值的抽样分布
与中心极限定理
= 50= 50
=10=10
XX
总体分布总体分布
nn = 4 = 4
抽样分布抽样分布
x
nn =16 =16
当当总总体体服服从从正正态态分分布布NN((μμ,,σσ22))时时,,来来自自该该总总体体的的所所有有
容容量量为为nn的的样样本本的的均均值值xx也也服服从从正正态态分分布布,,xx 的的数数
学期望为学期望为μμ,方差为,方差为σσ22//nn。即。即xx~~NN((μμ,,σσ22//nn))
55
中心极限定理
(central limit theorem)
当样本容量足够当样本容量足够
大时大时((nn 30) 30) ,,
样本均值的抽样样本均值的抽样
分布逐渐趋于正分布逐渐趋于正
态分布态分布
从从均均值值为为,,方方差差为为 22的的一一个个任任意意总总体体中中抽抽取取容容量量为为nn
的的样样本本,,当当nn充充分分大大时时,,样样本本均均值值的的抽抽样样分分布布近近似似服服从从
均值为均值为μμ、方差为、方差为σσ22//nn的正态分布的正态分布
一个任意分一个任意分
布的总体布的总体
xx
56
资料:统计量的参数符号
57
资料:2分布
样本方差的抽样分布
58
59
1. 分布的变量值始终为正
2. 分布的形状取决于其自由度n的大小,通常为不
对称的正偏分布,但随着自由度的增大逐渐趋
于对称
3. 期望为:E(2)=n,方差为:D(2)=2n(n为自
由度)
4. 可加性:若U和V为两个独立的2分布随机变量,
U~2(n1),V~2(n2),则U+V这一随机变量服从
自由度为n1+n2的2分布
2分布
(性质和特点)
样本方差的抽样分布
t 分布又称学生氏(Student)分布.
60
t 分布
(t-distribution)
61
t 分布
. 高高塞塞特特 ()()于于 19081908年年在在一一篇篇以以
““Student”(Student”(学学生生))为为笔笔名名的的论论文文中中首首次次提提
出出
. t t 分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,,
它通常要比正态分布平坦和分散它通常要比正态分布平坦和分散
. 一一个个特特定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参
数数。。随随着着自自由由度度的的增增大大,,分分布布也也逐逐渐渐趋趋于于
正态分布正态分布
62
不同自由度下的t 分布图
63
t分布的特征
①以0为中心,左右对称的单峰分
布;
②t分布曲线是一簇曲线,其形态
变化与自由度的大小有关。
自由度越小,则t值越分散,
曲线越低平;
较小的n的t分布的尾部比
标准天上正态分布要长;
自由度逐渐增大时,t分布
逐渐逼近Z分布(标准正态分布);
当趋于∞时,t分布即为Z分布。
64
1. 由统计学家费希尔() 提出的,以其姓氏
的第一个字母来命名
2. 设若U为服从自由度为n1的2分布,即U~2(n1),
V为服从自由度为n2的2分布,即V~2(n2),且U和
V相互独立,则称F为服从自由度n1和n2的F分布,
记为
F分布
(F distribution)
65
THANKS