贝叶斯估计及其在
抽样调查中的应用
22
((BayesBayes,,ThomasThomas))(1702(1702──1761) 1761)
贝叶斯是英国数学家贝叶斯是英国数学家.年生于伦敦;年生于伦敦;
17611761年年44月月1717日卒于坦布里奇韦尔斯日卒于坦布里奇韦尔斯..
贝叶斯是一位自学成才的数学家贝叶斯是一位自学成才的数学家..曾助理宗教曾助理宗教
事务,后来长期担任坦布里奇韦尔斯地方教堂的事务,后来长期担任坦布里奇韦尔斯地方教堂的
牧师牧师.年,贝叶斯被选为英国皇家学会会员年,贝叶斯被选为英国皇家学会会员..
如今在概率、数理统计学中以贝叶斯姓氏命名如今在概率、数理统计学中以贝叶斯姓氏命名
的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、
贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、
贝叶斯统计等等贝叶斯统计等等..
33
贝叶斯方法(Bayesian approach )
贝叶斯方法是基于贝叶斯定理而发展起来用于系统地贝叶斯方法是基于贝叶斯定理而发展起来用于系统地
阐述解决统计问题的方法阐述解决统计问题的方法(Samuel Kotz(Samuel Kotz和吴喜之和吴喜之,2000),2000)。。
贝叶斯推断的基本方法是将关于未知参数的先验信息贝叶斯推断的基本方法是将关于未知参数的先验信息
与样本信息综合,再根据贝叶斯定理,得出后验信息,然与样本信息综合,再根据贝叶斯定理,得出后验信息,然
后根据后验信息去推断未知参数后根据后验信息去推断未知参数((茆诗松和王静龙等茆诗松和王静龙等,1998,1998
年年))。。
““贝叶斯提出了一种归纳推理的理论贝叶斯提出了一种归纳推理的理论((贝叶斯定理贝叶斯定理)),,
以后被一些统计学者发展为一种系统的统计推断方法,称以后被一些统计学者发展为一种系统的统计推断方法,称
为贝叶斯方法为贝叶斯方法..””────摘自摘自《《中国大百科全书中国大百科全书》》(数学卷)(数学卷)
44
第一章先验分布与后验分布
统计学有两个主要学派统计学有两个主要学派::频率学派与贝叶斯学派频率学派与贝叶斯学派..它们它们
之间有异同之间有异同,,贝叶斯统计是在与经典统计的争论中发展起贝叶斯统计是在与经典统计的争论中发展起
来来,,主要的争论有主要的争论有::
1. 1.未知参数可否作为随机变量未知参数可否作为随机变量??
2. 2.事件的概率是否一定的频率解释事件的概率是否一定的频率解释??
3. 3.概率是否可用经验来确定概率是否可用经验来确定??
………………..
§ § 先介绍三种信息的概念先介绍三种信息的概念
经典统计学派规定统计推断使用两种信息经典统计学派规定统计推断使用两种信息::
总体信息总体信息 样本信息样本信息
而而贝叶斯学派认为是三种信息贝叶斯学派认为是三种信息::
总体信息总体信息 样本信息样本信息 先验信息先验信息
55
总体信息
即总体分布或总体所属分布族给我们的信息。即总体分布或总体所属分布族给我们的信息。
譬如,譬如,““总体是正态分布总体是正态分布””就给我们带来很多信就给我们带来很多信
息:密度函数是一条钟形曲线;一切一阶距都存息:密度函数是一条钟形曲线;一切一阶距都存
在;有关正态变量(服从正态分布随机变量)的在;有关正态变量(服从正态分布随机变量)的
一些事件的概率可以计算;由正态分布可以导出一些事件的概率可以计算;由正态分布可以导出
分布,分布和分布等重要分布,还有许多成熟的分布,分布和分布等重要分布,还有许多成熟的
点估计、区间估计和假设检验方法可供我们选用。点估计、区间估计和假设检验方法可供我们选用。
总体信息是很重要的信息,为了获得此信息,往总体信息是很重要的信息,为了获得此信息,往
往耗资巨大。往耗资巨大。
66
样本信息
从总体中抽取的样本给我们提供的信息。
这是最“新鲜”的信息,并且愈多愈好。
人们希望对样本的加工和处理对总体的某
些特征作出较为精确的统计推断。没有样
本就没有统计学可言。这是大家都理解的
事实。
77
基于上述两种信息进行的统计推断称为经典统基于上述两种信息进行的统计推断称为经典统
计学,它的基本观点是把数据(样本)看成是具计学,它的基本观点是把数据(样本)看成是具
有一定概率分布的总体,所研究的对象是这个总有一定概率分布的总体,所研究的对象是这个总
体而不局限于数据本身。这方面最早的工作是高体而不局限于数据本身。这方面最早的工作是高
斯斯(Gauss,~1855(Gauss,~1855))和勒让德和勒让德
((Legendre,~1833Legendre,~1833))的误差分析,正态的误差分析,正态
分布和最小二乘法。从十九世纪末到二十世纪上分布和最小二乘法。从十九世纪末到二十世纪上
半叶,经皮尔逊半叶,经皮尔逊((Pearson,~1936Pearson,~1936))、费、费
歇歇((Fisher,~1962Fisher,~1962))奈曼奈曼((.))
等人的杰出工作创立了经典统计学。随着经典统等人的杰出工作创立了经典统计学。随着经典统
计学的持续发展与广泛的应用,它本身的缺陷也计学的持续发展与广泛的应用,它本身的缺陷也
逐渐暴露出来了。逐渐暴露出来了。
88
先验信息
即在抽样之前有关统计问题的一些信息,一般说来,即在抽样之前有关统计问题的一些信息,一般说来,
先验信息主要先验信息主要来源于经验和历史资料来源于经验和历史资料。。
例例11:有一英国妇女,对奶茶能辨别出先倒进茶还是:有一英国妇女,对奶茶能辨别出先倒进茶还是
先倒进奶,做十次试验她都正确说出。先倒进奶,做十次试验她都正确说出。
某学生第一次看到他的数学老师,即有反应:老师30岁
到40之间,极可能35岁左右(左右可理解为正负3岁,极可
能可理解为90%的可能).
P(32≤X≤38)=
99
1010
三种信息
基于上述三种信息(总体信息、样本信息和基于上述三种信息(总体信息、样本信息和
先验信息)进行的统计推断被称为贝叶斯统计学。先验信息)进行的统计推断被称为贝叶斯统计学。
它与经典统计学的主要差别在于是否利用先验信它与经典统计学的主要差别在于是否利用先验信
息。息。贝叶斯统计学派把任意一个未知参数都看成贝叶斯统计学派把任意一个未知参数都看成
随机变量,应用一个概率分布去描述它的未知状随机变量,应用一个概率分布去描述它的未知状
况,该分布称为先验分布。况,该分布称为先验分布。
1111
贝叶斯的信息处理路径
1212
后验分布是三种信息的综合后验分布是三种信息的综合,,先验分布反应人们在先验分布反应人们在
抽样前对参数的认识抽样前对参数的认识,,后验分布反应人们在抽样后后验分布反应人们在抽样后
对参数的认识对参数的认识
BayesBayes统计推断原则统计推断原则::对参数对参数 所作任何推断所作任何推断((参参
数估计数估计,,假设检验等假设检验等))都必须建立在后验分布基础上都必须建立在后验分布基础上..
1313
共轭分布法
后验分布和先验分布是同一个类型后验分布和先验分布是同一个类型
1414
定义:定义:设是总体分布中的参数(或参数向量),设是总体分布中的参数(或参数向量),
是的先验密度函数,假如由抽样信息算得的后验是的先验密度函数,假如由抽样信息算得的后验
密度函数与有相同的密度函数形式,则称是的密度函数与有相同的密度函数形式,则称是的
(自然)共轭先验分布。(自然)共轭先验分布。
应该着重指出,共轭先验分布是对某一分布应该着重指出,共轭先验分布是对某一分布
中的参数而言的。如正态均值、正态方差、泊松中的参数而言的。如正态均值、正态方差、泊松
均值等。离开指定参数及其所在的分布去谈论共均值等。离开指定参数及其所在的分布去谈论共
轭先验分布是没有意义的。轭先验分布是没有意义的。
1515
正态均值(方差已知)的共轭先验分布是正态分布正态均值(方差已知)的共轭先验分布是正态分布
1616
1717
1818
常用共轭先验分布
1919
共轭先验分布的优点
2020
贝叶斯估计在抽样推断中的应用
贝叶斯估计法也是一种需要利用与调
查变量相关的辅助变量(先验信息)进行
估计的方法,但其方法和思路与其他方法
相比有自己的特色。贝叶斯估计法的基本
思路是,要对某一指标或目标进行估计,
则总体以前该指标的水平,即先验指标与
目前欲估计的指标(即目标量)也称后验
指标有关,可以利用先验指标对后验指标
进行估计。
2121
设,欲对总体均值 进行估计,根据该总体
以往的资料有该指标的平均数 和方差
,现从总体N中抽出容量为n的样本,计算
得样本平均数 和该平均数的方差 ,
则总体均值的贝叶斯估计法的估计量为:
2222
其中:其中:
估计量的方差为:估计量的方差为:
2323
显然显然 是相关的同一指标的两个取值水是相关的同一指标的两个取值水
平,则上式的平,则上式的 可以看做是以方差的倒数可以看做是以方差的倒数
和和 为权数的加权算术平均,实际上此方差的为权数的加权算术平均,实际上此方差的
倒数是估计精度的倒数,即方差的值越大,其倒数是估计精度的倒数,即方差的值越大,其
倒数便越小,则相应平均数作为估计的精度就倒数便越小,则相应平均数作为估计的精度就
越低,通俗的讲是该平均数的代表性越差;反之,越低,通俗的讲是该平均数的代表性越差;反之,
方差越小,其倒数越大,相应平均数的估计精度方差越小,其倒数越大,相应平均数的估计精度
越高。越高。
2424
贝叶斯估计量方差的意义是先验指
标和抽样指标精度之和的倒数。而以
上估计式有非常直观的含义:贝叶斯
估计量的精度为先验指标精度与抽样
指标精度之和,这意味着贝叶斯估计
量的精度要高于 中任何一个作
为估计量的估计精度,即:
2525
例如,某市有居民家庭共
97670户,根据上年的统计,居民人
均月货币收入为2580元,其方差为
,现从该总体中随机抽出
100户,调查目前居民人均收入水平
情况,有关调查结果和计算见表8.
2626
2727
2828
2929
3030
3131
3232
3333
3434
3535
3636
3737
3838
3939