统计学
STATISTICS
第 3 章
概率分布与抽样分布
1
统计学
STATISTICS 第 3 章 概率分布与抽样分布
随机变量
正态分布
常用的抽样方法
抽样分布
中心极限定理的应用
2
统计学
STATISTICS
随机变量
(random variables)
1.对随机事件的数值性描述
--例如:抛硬币的结果,正面定义为1,反
面定义为0
2.一般用 X,Y,Z 来表示
3.根据取值情况的不同分为
离散型随机变量:数轴上可列个孤立的点
连续型随机变量:数轴上一个或多个区间
3
统计学
STATISTICS 离散型随机变量
1. 随机变量 X 取有限个值或所有取值都可以
逐个列举出来 x1 , x2,…
2. 以确定的概率取这些不同的值
3. 离散型随机变量的一些例子
4
统计学
STATISTICS 连续型随机变量
1. 连续型随机变量可以取某一区间或整个实数轴
上的任意一个值
2. 它取任何一个特定的值的概率都等于0
3. 不能列出每一个值及其相应的概率
4. 通常研究它取某一区间值的概率
5. 用概率密度函数和分布函数的形式来描述
5
统计学
STATISTICS
定义 设X是一随机变量,X是任意实数,则实值函数
F(x)=P {Xx}, x∈(-∞,+∞)
称为随机变量X的分布函数。
有了分布函数定义,任意x1,x2∈R, x1<x2,随
机变量X落在(x1,x2]里的概率可用分布函数来计算:
P {x1<X x2}=P{X x2}-P{Xx1}= F(x2)-F(x1).
在这个意义上可以说,分布函数完整地描述了随
机变量的统计规律性,或者说,分布函数完整地表示
了随机变量的概率分布情况。
分布函数的定义
6
统计学
STATISTICS 分布函数的性质
1、单调不减性:若x1<x2, 则F(x1)F(x2);
2、归一 性:对任意实数x,0F(x)1,且
3、右连续性:对任意实数x,
反之,具有上述三个性质的实函数,必是某个
随机变量的分布函数。故该三个性质是分布函
数的充分必要性质。
7
统计学
STATISTICS例 设随机变量X具分布律如下表
解
试求出X的分布函数。
8
统计学
STATISTICS 连续型随机变量与概率密度
则称X是连续型随机变量,f(X)称为X的概率密度函
数,简称概率密度。
注意f(x)不是概
率
设X是随机变量,如果存在定义在整个实数轴上的函
数f(x),满足条件
9
统计学
STATISTICS 概率密度函数的性质
1)
2)
1
这两条性质是判定一
个函数 f(x)是否为某
个随机变量X的概率
密度函数的充要条件
3) X落入区间[a,b]内的概率=
10
统计学
STATISTICS 连续型随机变量的期望和方差
1. 连续型随机变量的数学期望
2. 方差
11
统计学
STATISTICS
正态分布
(normal distribution)
1. 正态分布是最重要的一种概率分布。正态分布概
念是由德国的数学家(Carl Friedrich Gauss,
1777—1855)和天文学家Moivre于1733年首次
提出的,但由于Gauss率先将其应用于天文学家
研究,故正态分布又叫高斯分布。
2. 描述连续型随机变量的最重要的分布
3. 许多现象都可以由正态分布来描述
4. 可用于近似离散型随机变量的分布
例如: 二项分布当n越来越大,越近似服从正态分
布
5. 经典统计推断的基础
正态分布是许多统计方法的理论基础:
如t分布、F分布、χ2分布都是在正态分
布的基础上推导出来的,此外,t分布、
二项分布、Poisson分布的极限为正态
分布,在一定条件下,可以按正态分布
原理来处理。
12
统计学
STATISTICS
= 正态随机变量X的均值
= 正态随机变量X的方差
= ; e =
x = 随机变量的取值 (- < x < )
则称X服从参数为 、 的正态分布,记作
X~N( , )
正态分布
13
统计学
STATISTICS 正态分布函数的性质
1. 图形是关于x=对称钟形曲线,且峰值在x= 处
2. 均值和标准差一旦确定,分布的具体形式也惟一确
定,不同参数正态分布构成一个完整的“正态分布族
”
3. 均值可取实数轴上的任意数值,决定正态曲线的具
体位置;标准差决定曲线的“陡峭”或“扁平”程度。
越大,正态曲线扁平;越小,正态曲线越高陡峭
4. 当X的取值向横轴左右两个方向无限延伸时,曲线的
两个尾端也无限渐近横轴,理论上永远不会与之相交
5. 正态随机变量在特定区间上的取值概率由正态曲线下
的面积给出,而且其曲线下的总面积等于1
14
统计学
STATISTICS
正态概率密度函数的几何特征
15
统计学
STATISTICS
16
统计学
STATISTICS
17
统计学
STATISTICS
μ决定曲线的位置,σ决定曲线的“胖瘦”
统计学
STATISTICS
正态分布下的概率计算
方法一:利用统计软件计算
方法二:转化为标准正态分布标准正态分布查表计算
19
统计学
STATISTICS
标准正态分布的概率密度表示为
标准正态分布的分布函数表示为
标准正态分布
(standardize the normal distribution)
20
统计学
STATISTICS 标准正态分布的图形
21
统计学
STATISTICS
查表标准正态分布函数表解
例1
22
统计学
STATISTICS
解 查标准正态分布表
23
统计学
STATISTICS 正态分布的转换
1. 任何一个一般的正态分布,可通过下面的线性
变换转化为标准正态分布
X-μ表示将一般正态分布的曲线平衡到标准正态分布的位置
除以σ表示将一般正态分布的曲线形状转换为标准正态分布
24
统计学
STATISTICS
正态分布
(例题分析)
【【例例】】定定某某公公司司职职员员每每周周的的加加班班津津贴贴服服从从均均值值为为5050元元、、标标准准
差差为为1010元元的的正正态态分分布布,,那那么么全全公公司司中中有有多多少少比比例例的的职职员员每每周周
的的加加班班津津贴贴会会超超过过7070元元,,又又有有多多少少比比例例的的职职员员每每周周的的加加班班津津
贴在贴在4040元到元到6060元之间呢?元之间呢?
解:解:设设=5=500,, =10=10,,XX~~NN(50,10(50,1022))
25
统计学
STATISTICS
26
统计学
STATISTICS 常用的抽样方法
简单随机抽样
分层抽样
系统抽样
整群抽样
27
统计学
STATISTICS
简单随机抽样
(simple random sampling)
1. 从总体N个单位中随机地抽取n个单位作为样本,使
得每一个总体单位都有相同的机会(概率)被抽中
2. 抽取元素的具体方法有重复抽样和不重复抽样
3. 特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
但是当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
也称纯随机抽样,是应用最多、
最基本的抽样方法之一
28
统计学
STATISTICS 简单随机抽样的优缺点
优点:简单随机抽样是最符合随机原则的
抽样方法,能保证总体的每个成员具有已
知的且同等的被选为样本单位的机会,因
此,产生的样本,不论其多大都是总体的
一个有效代表。
缺点:不论使用哪种抽样方法,都需要预
先设定每个总体成员,要为每个总体成员
提供一个标志值,而且要有一个完整的总
体情况表,这往往是难以获得的。
29
统计学
STATISTICS
分层抽样
(stratified sampling)
1. 将总体单位按某种特征或某种规则划分为
不同的层,然后从不同的层中独立、随机
地抽取样本
2. 优点
保证样本的结构与总体的结构比较相近,从
而提高估计的精度
组织实施调查更方便
既可以对总体参数进行估计,也可以对各层
的目标量进行估计
分层或分类时,应使层内各
单位的差异尽可能小,而使
各层之间的差异尽可能大。
30
统计学
STATISTICS
系统抽样
(systematic sampling)
1. 将总体中的所有单位(抽样单位)按一定顺
序排列,在规定的范围内随机地抽取一个
单位作为初始单位,然后按事先规定好的
规则确定其他样本单位
先从数字1到k之间随机抽取一个数字r作为
初始单位,以后依次取r+k,r+2k…等单位
2. 优点:操作简便,可提高估计的精度
3. 缺点:对估计量方差的估计比较困难
也称等距抽样或机械抽样
31
统计学
STATISTICS
例3-1:从10000户中抽取200户进行抽样调查。
①把10000户按一定标志(如家庭人口、收入水
平、地址等)排列编号1—10000号;
②求出抽样间隔k=N/n=10000/200=50
③在第一个间隔1--50号内任意选取一个单位作
为抽样起点,如38号;
④从38号开始,每隔50户抽取一户 38、88、
138、188……9988,共200户。
系统抽样
(例题)
32
统计学
STATISTICS
整群抽样
(cluster sampling)
1. 将总体中若干个单位合并为组(群),抽样时
直接抽取群,然后对中选群中的所有单位
全部实施调查
2. 特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便
调查的实施
缺点是估计的精度较差
33
统计学
STATISTICS 抽样分布
抽样分布的概念
样本均值抽样分布的形式
样本均值抽样分布的特征
样本比率的抽样分布
样本方差的抽样分布
34
统计学
STATISTICS
研究总体与所抽取的样本之间的关系是统
计学的中心内容 。对这种关系的研究从两方面
着手:
一是从总体到样本 ,这就是研究抽样分布
(sampling distribution)的问题;
二是从样本到总体,这就是统计推断
(statistical inference)问题。
抽样分布
(sampling distribution)
35
统计学
STATISTICS
抽样分布
(sampling distribution)
从一个给定的总体中抽取(不论是否有放
回)容量(或大小)为n的所有可能的样本,
对于每一个样本,计算出某个统计量(如样本
均值或标准差)的值,不同的样本得到的该统
计量的值是不一样的,由此得到这个统计量
的概率分布,称之为抽样分布。
样本统计量与总体参数之间的差异称为
抽样误差 (sampling error)。
36
统计学
STATISTICS
1. 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有
可能取值形成的相对频数分布
2. 随机变量是样本统计量
样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行
推断的理论基础,也是抽样推断科学性的重要
依据
抽样分布
(sampling distribution)
37
统计学
STATISTICS
抽样分布
(例题分析)
某班组5个工人的
日工资为34、38、
42、46、50元。
= 42
2 = 32
现用重置抽样的方
法从5人中随机抽2
个构成样本。共有
52=25个样本。如
右图。
总体单位数很大时,难以一一列举样本数,
可通过反复进行抽样,记录下统计量取不同
数值时的次数百分比,以得到一个统计量近
似的抽样分布
38
统计学
STATISTICS
设有一个总体 ,总体平均数为 μ,方差为σ2,总
体中各变数为 x, 将 此总体称为原总体。现从这个
总体中随机抽取含量为n的样本,样本平均数记为
。
可以设想,从原总体中可抽出很多甚至无穷多
个含量为n的样本。由这些样本算得的平均数有大有
小,不尽相同,与原总体平均数μ相比往往表现出不
同程度的差异,即抽样误差(sampling error)。
(一)样本均值的抽样分布
39
统计学
STATISTICS
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即
总体单位数N=4。4 个个体分别为x1=1,
x2=2,x3=3,x4=4 。总体分布、总体的
均值、方差及分布如下
总体分布总体分布
11 4422 33
00
.
.
.
40
统计学
STATISTICS
样本均值的抽样分布
(例题分析)
现现从从总总体体中中抽抽取取nn==22的的简简单单随随机机样样本本,,在在重重复复抽抽
样条件下,共有样条件下,共有4422=16=16个样本。所有样本的结果为个样本。所有样本的结果为
3,43,33,23,13
2,42,32,22,12
4,44,34,24,14
1,4
4
1,3
321
1,21,11
第二个观察值第一个
观察值
所有可能的n = 2 的样本(共16个)
41
统计学
STATISTICS
样本均值的抽样分布
(例题分析)
计算出各样本的均值,如下表。并给出样本均
值的抽样分布
4
321
第二个观察值第一个
观察值
16个样本的均值(x)
xx
样本均值的抽样分布样本均值的抽样分布
00
PP ( ( x x ))
42
统计学
STATISTICS样本均值的分布与总体分布的比较
的分布形式与原有总体和样本容量n的大
小有关
总体分布
11 4422 33
00
.
.
.
抽样分布抽样分布P P ( ( x x ))
00
.
.
.
xx
= =
σσ22 = =
43
统计学
STATISTICS
1. 样本均值的数学期望
2. 样本均值的方差(与抽样方法有关)
重复抽样
不重复抽样
样本均值的抽样分布
(数学期望与方差)
修正系数
对无限总体进行不重复抽样时,修正系数趋向于1,
样本均值的方差可按重复抽样的公式计算
对于有限总体,当N很大而n很小时,修正系数趋向
于1,样本均值的方差可按重复抽样的公式计算
44
统计学
STATISTICS
样本均值的抽样分布
(数学期望与方差)
比较及结论:比较及结论:1. 1. 样本均值的均值样本均值的均值((数学期望数学期望) ) 等于总体均值等于总体均值
2. 2. 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/nn
45
统计学
STATISTICS
1. 总体(或样本)中具有某种属性的单位与全部单位
总数之比,例:
不同性别的人与全部人数之比
合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
3. 样本比例可表示为
(二)样本比例的抽样分布
(proportion)
46
统计学
STATISTICS
1. 在重复选取容量为n的样本时,由样本比
例的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 当样本量很大时,样本比例p的抽样分布
可用正态分布近似
4. 推断总体比例的理论基础
样本比例的抽样分布
47
统计学
STATISTICS
1. 样本比例的数学期望
2. 样本比例的方差
重复抽样
不重复抽样
样本比例的抽样分布
(数学期望与方差)
无限总体不重复抽样时,
可按重复抽样处理
48
统计学
STATISTICS (三)样本方差的抽样分布
1. 在重复选取容量为n的样本时,由样本方差的
所有可能取值形成的相对频数分布
2. 对于来自正态总体X~N(μ,σ2)的简单随机样本,
则比值
的抽样分布服从自由度为 (n -1) 的2分布,即
49
统计学
STATISTICS
1. 两个总体都为正态分布,即
2. 两个样本均值之差 的抽样分布服从正态分
布,其分布的数学期望为两个总体均值之差
3. 方差为各自的方差之和
(四)两个样本均值之差的抽样分布
50
统计学
STATISTICS(五)两个样本比率之差的抽样分布
独立地从两个二项分布的总体分别抽取容量为n 1和n2
的两个样本。
当两个样本都为大样本时, 两个样本的比例差的抽样
分布近似服从正态分布,其分布的均值和方差为
51
统计学
STATISTICS (六)两个样本方差比的分布
1. 1. 两两个总体都为正态分布,个总体都为正态分布,即即
XX11~~NN((μμ1 1 ,,σσ1122)),,XX22~~NN((μμ2 2 ,,σσ222 2 ))
2. 2. 从两从两个总体中分别抽取容量为个总体中分别抽取容量为nn11和和nn22的独立样本的独立样本
3. 3. 两两个个样样本本方方差差比比的的抽抽样样分分布布,,服服从从分分子子自自由由度度为为
((nn11-1)-1),分母自由度为,分母自由度为((nn22-1) -1) 的的FF分布,即分布,即
F分布52
统计学
STATISTICS
中心极限定理
(central limit theorem)
中心极限定理:
设从均值为,方差为 2的一个任
意总体中抽取容量为n的样本,当n充分
大时样本均值的抽样分布近似服从均值
为μ方差为σ2/n的正态分布
53
统计学
STATISTICS
样本均值的抽样分布
与中心极限定理
= 50= 50
=10=10
XX
总体分布总体分布
nn = 4 = 4
抽样分布抽样分布
x
nn =16 =16
当当总总体体服服从从正正态态分分布布NN((μμ,,σσ22))时时,,来来自自该该总总体体的的所所有有
容容量量为为nn的的样样本本的的均均值值xx也也服服从从正正态态分分布布,,xx 的的数数
学期望为学期望为μμ,方差为,方差为σσ22//nn。即。即xx~~NN((μμ,,σσ22//nn))
54
统计学
STATISTICS
中心极限定理
(central limit theorem)
当样本容量足够当样本容量足够
大时大时((nn 30) 30) ,,
样本均值的抽样样本均值的抽样
分布逐渐趋于正分布逐渐趋于正
态分布态分布
从从均均值值为为,,方方差差为为 22的的一一个个任任意意总总体体中中抽抽取取容容量量为为nn
的的样样本本,,当当nn充充分分大大时时,,样样本本均均值值的的抽抽样样分分布布近近似似服服从从
均值为均值为μμ、方差为、方差为σσ22//nn的正态分布的正态分布
一个任意分一个任意分
布的总体布的总体
xx
55
统计学
STATISTICS 资料:统计量的参数符号
56
统计学
STATISTICS 资料:2分布
样本方差的抽样分布
57
统计学
STATISTICS
58
统计学
STATISTICS
1. 分布的变量值始终为正
2. 分布的形状取决于其自由度n的大小,通常为不
对称的正偏分布,但随着自由度的增大逐渐趋
于对称
3. 期望为:E(2)=n,方差为:D(2)=2n(n为自
由度)
4. 可加性:若U和V为两个独立的2分布随机变量,
U~2(n1),V~2(n2),则U+V这一随机变量服从
自由度为n1+n2的2分布
2分布
(性质和特点)
样本方差的抽样分布
59
统计学
STATISTICS
t 分布又称学生氏(Student)分布.
t 分布
(t-distribution)
60
统计学
STATISTICS t 分布
1. 高塞特 ()于 1908年在一篇以
“Student”(学生)为笔名的论文中首次提
出
2. t 分布是类似正态分布的一种对称分布,
它通常要比正态分布平坦和分散
3. 一个特定的分布依赖于称之为自由度的参
数。随着自由度的增大,分布也逐渐趋于
正态分布
61
统计学
STATISTICS 不同自由度下的t 分布图
62
统计学
STATISTICS t分布的特征
①以0为中心,左右对称的单峰分布;
②t分布曲线是一簇曲线,其形态变化与自由
度的大小有关。
自由度越小,则t值越分散,曲线越低平;
较小的n的t分布的尾部比标准天上正态分
布要长;
自由度逐渐增大时,t分布逐渐逼近Z分布
(标准正态分布);当趋于∞时,t分布即为Z分
布。
63
统计学
STATISTICS
1. 由统计学家费希尔() 提出的,以其姓氏
的第一个字母来命名
2. 设若U为服从自由度为n1的2分布,即U~2(n1),
V为服从自由度为n2的2分布,即V~2(n2),且U和
V相互独立,则称F为服从自由度n1和n2的F分布,
记为
F分布
(F distribution)
64
统计学
STATISTICS
65
统计学
STATISTICS F分布
不同自由度的F分布
FF
((1,10)1,10)
(5,10)(5,10)
(10,10)(10,10)
两个样本方差的抽样分布
66