§ 贝叶斯估计 在一个统计问题中,可供选择的决策函数往往很多,自然希望寻找使风险最小的决策函数,然而在这种意义下的最优决策函数往往是不存在的。 这是因为风险函数R(θ,d)是既依赖于参数θ又依赖于决策函数d的二元函数,它往往会使得在某些θ处决策函数d的风险函数值较小,而在另一些θ处决策函数d的12风险函数值较小。要解决这个问题,就要建立一个整体指标的比较准则。 贝叶斯方法通过引进先验分布把两个风险函数的点点比较转化为用一个整体指标的比较来代替,从而可以决定优劣。 一、先验分布与后验分布 在前一章讨论参数估计问题时,我们都是把待估参数θ视为参数空间Θ中的一个未知常数(或常数向量),在估计时仅利用样本所提供的关于总体的信息,而没有利用θ关于的其他任何信息。 然而在许多实际问题中,往往在抽样前便对参数θ有所了解,这种在抽样前对未知参数θ所了解的信息,称为 1
先验信息。 例* 某学生通过物理实验确定当地的重力加速2度,测得如下数据(m/s):, , , , 问如何估计当地的重力加速度? 如果用样本均值x=来估计,你一定会认为这个结果很差,这是因为在未做实验之前你对重力加速度已有了一个先验的认识,比如你已经知道它大致在左右,误差最大不超过。因此,参数的先验信息对于正确估计参数往往是很有益的。 要利用参数θ的先验信息,通常是将θ看作在参数空间Θ中取值的随机变量。 贝叶斯估计方法就是把未知参数θ视为一个具有已知分布πθ的随机变量,通常称πθ为先验分布。 ()()先验分布πθ有离散型和连续型之分,这要视θ是离()散型随机变量还是连续型随机变量而定。 设总体X的分布密度为p(x,θ),θ∈Θ,θ的先验分布为πθ.贝叶斯估计中我们将总体的分布密度p(x,θ)应看作()给定θ时X的条件分布密度,于是总体X的分布密度p(x,θ)改用p(xθ)来表示。 2
T设总体为X ,样本为: X=(X,...,X) 1nTT给定样本值x=(x,x,",x)时,样本X=(X,...,X)的联12n1nn合密度为 q(x,x,",xθ)=p(xθ), 12n∏ii=1n或表示为 qx|θ=px|θ. ()()∏ii=1由此,样本X和θ的联合概率分布为 f(x,θ)=q(xθ)π(θ). 由乘法公式知 f(x,θ)=π(θ)q(xθ)=m(x)h(θx). π(θ)q(xθ)于是有 h(θx)=,(∈Θ) m(x)称h(θx)为给定样本X=x时θ的后验分布。其中m(x)是(Χ,θ)关于样本X的边缘分布。 如果θ是连续型随机变量,则 m(x)=f(x,θ)dx=q(xθ)π(θ)dθ∫∫ΘΘ如果θ是离散型随机变量 m(x)=q(xθ)π(θ)∑θ贝叶斯估计方法认为,后验分布集中体现了样本和先验分布两者所提供的关于总体信息的总和,因而估计应建立在后验分布的基础上来进行。 例(略) 为了提高某产品的质量,公司经理考 3
虑增加投资来改进生产设备,预计需投资90万元,但从投资效果看,顾问们提出两种不同意见: θ:改进生产设备后,高质量产品可占90%, 1θ:改进生产设备后,高质量产品可占70%。 2经理当然希望θ发生,公司效益可得到很大提高,投资1改进设备也是合算的。但根据下属二个部门(顾问们)过去建议被采纳的情况,经理认为θ的可信度只有40%,θ12的可信度是60%,即 π(θ)=,π(θ)= 12这两个都是经理的主观概率。经理不想仅用过去的经验来决策此事,试验结果(记为A)如下: A:试制5个产品,全是高质量的产品。 经理对这次试验结果很高兴,希望用此试验结果来修改他原来对θ和θ的看法,即要求后验概率hθA。h(θA与())1212这可采用贝叶斯公式来完成。现已有先验概率π(θ)与1π(θ)。还需要第二个条件概率P(Aθ)与P(Aθ)。由二项212分布算得 55P(Aθ)==, P(Aθ)== ()12由全概率公式算得 4
P(A)=P(Aθ)π(θ)+P(Aθ)π(θ)=. 1122于是可求得后验概率为 h(θA)=P(Aθ)π(θ)/P(A)= 111h(θA)P(Aθ)π(θ)/P(A) 222这表明,经理根据试验A的信息调整自己的看法,把对θ1与θ的可信度由和调整到和。后者是综2合了经理的主观概率和试验结果而获得的,要比主观概率更有吸引力,更贴近当前实际。 经过试验A后,经理对增加投资改进质量的兴趣增大,但因投资额大,还想再做一次小规模试验,观其结果再作决策。为此又做了一项试验,试验结果(记为B)如下: B:试制10个产品,有9个是高质量产品。 经理对此次试验结果更为高兴,希望用此试验结果对θ1与θ再作一次调整。为此把上次后验概率看作这次的先2验概率,即π(θ)=,π(θ)= 129P(Bθ)=()=,()1用二项分布算得 9P(Bθ)(),()2由此可以算得P(B)=和后验概率 5
h(θB)=,h(θB)=。 12经理看到,经过二次试验,θ(高质量产品可占90%)1的概率已上升到,到做决策的时候了,他能以%的把握保证此项投资能取得较大经济效益。 二、共轭先验分布 前面提到后验分布在贝叶斯统计中起着重要作用,然而,在某些场合后验分布的计算较为复杂。 为了简便地计算参数θ的后验分布,我们引入共轭先验分布的概念。 *定义 设总体X的分布密度为px|θ,F为θ的()*一个分布族,πθ为θ的任意一个先验分布,πθ∈F,()()若对样本的任意观察值x,θ的后验分布hθ|x仍在分布()**族F内,则称F是关于分布密度px|θ的共轭先验分布()族,或简称为共轭族。 注意,共轭先验分布是对某分布中的参数而言的,如正态均值,正态方差,泊松均值等。离开指定的参数及所在的分布去谈共轭先验分布是没有意义的。 引入共轭分布族的好处: 使得数学运算较为简便 6
因为当θ的先验分布为共轭分布时,其后验分布也属于同一类型,这一点使得在共轭先验分布下,贝叶斯估计问题易于处理。 在实际中,如何获得参数θ的共轭先验分布,是我们关心的一个重要问题。为此我们引入后验分布核的概念,随后介绍两种计算共轭先验分布的求法。 当给定样本的分布(或称为似然函数)qx|θ和先()验分布πθ后,由贝叶斯公式知θ的后验分布为 ()hθ|x=πθqx|θ/mx ()()()()T其中m(x)为样本X=(,,"的边缘分布。由于 ,)XXX12nm(x)不依赖于θ,在计算θ的后验分布中仅起到一个正则化因子的作用,若把m(x省略,可将贝叶斯公式改写为)如下等价形式 ∝ hθ|xπθqx|θ () ()()()其中符号“∝”表示两边仅差一个不依赖于θ的常数因子。()式的右端虽不是正常的密度函数,但它是后验分布h(θx)的主要部分,称为h(θx)的核。 获得共轭先验分布的方法一 首先求出似然函数q(xθ),根据q(xθ)中所含θ的因式 7
情况,选取与似然函数(θ的函数)具有相同核的分布作为先验分布,这个分布往往就是共轭先验分布。 T2例 设X=(,,"是来自正态分布N(θ,σ)的,)XXX12n2一个样本,其中θ已知,现要寻求方差σ的共轭先验分布。由于该样本的似然函数为 nn⎛1⎞⎧2⎫ q(xθ)=exp−x−θ()⎨⎬∑⎜⎟i22σ2πσ⎝⎠⎩i=1⎭n/2n1⎧2⎫⎛⎞∝exp−x−θ ()⎨⎬∑⎜⎟i2σ2σ⎝⎠⎩i=1⎭22上述似然函数中所含的因式将决定的共轭先验分σσ布的形式,什么分布具有上述的核呢? 设X服从Γ分布Γ(α,λ),其中α>0为形状参数,λ>0为尺度参数,其密度函数为 αλα−1−λxp(xα,λ)=,x>0 xeΓ(α)−1通过概率运算可以求得Y=X的密度函数为 α+1α⎛1⎞λ−λ/yp(yα,λ)=,>0 ⎜⎟ye⎜⎟Γ(α)y⎝⎠这个分布称为倒Γ分布,记为IΓα,λ,假如取此倒Γ分()22λ布为的先验分布,其中参数α与已知,则的密度σσ函数为 8
α+1α2λ1⎛⎞2−λ/σπ(σ)=e,σ>0. ⎜⎟2Γ(α)σ⎝⎠2于是σ的后验分布为 222h(σx)∝π(σ)q(xσ) nα++1n2⎧⎫11⎡2⎤⎛⎞∝exp−λ+x−θ. ()⎨⎬∑⎜⎟i2⎢⎥σσ2⎝⎠⎣i=1⎦⎩⎭n⎛n12⎞容易看出,这仍是倒Γ分布ΙΓα+,λ+x−θ,它()∑⎜i⎟22⎝i=1⎠2是正态方差σ的共轭先验分布,其合理性由先验信息决定。 T例 设总体X服从二项分布B(N,θ),(X,X,",X)为取12n自X的样本,其似然函数为 nN−xxxiiiq(xθ)Cθ1−θ() ∏Ni=1nnx∑inN−x∑ii=1∝θ−θ,=0,1",N ()i=1iq(xθ)中所含θ的因式为β分布的核,从而设θ的先验分β−1α−1布为β分布B(αβ),,(); 其核为θ1−θ,其中()α,β已知。于是可写出θ的后验分布 nnα+x−1∑iβ+nN−x−1∑ii=1h(θx)∝θ1−θ,0<θ1.()i=1 可以看出θ的后验分布是β分布 9
nn⎛⎞Bα+x,β+nN−x的核,这说明二项分布B(N,θ)中∑∑⎜ii⎟⎝=1=1⎠θ的共轭先验分布为β分布。令 nnα+x−1∑iβ+nN−x−1∑ii=1h(θx)=Cθ1θ,0<θ1. ()i=1nnα+x−1∑i11β+nN−x−1∑ii=1h(θx)dθ=Cθ1θdθ=1由()i=1 可得 ∫∫00Γ(α+β+nN),故θ的后验密度为 C=nn⎛⎞⎛⎞Γα+xΓβ+nN−x∑∑⎜i⎟⎜i⎟⎝=1⎠⎝=1⎠nnα+x−1∑iβ+nN−x−1∑ii=1Γ(α+β+nN)θ−θ()i=1h(θx)=, n⎛⎞⎛⎞Γα+xΓβ+nN−x∑∑⎜i⎟⎜⎟⎝=1⎠⎝i=1⎠0<θ<1. 获得共轭先验分布的方法二 当参数θ存在适当的充分统计量时,一般可用下面的方法构造共轭先验分布族。 T设总体X的分布密度为p(xθ),(X,X,",X)为取自12nX的样本,T=TX=T(X,X,",X)是参数θ的充分统计()12n量,则由因子分解定理有 np(xθ)=g(tθ)h(x,",x) ∏in1ni=1其中h(x,",x)与θ无关。 1n 10
定理 设f(θ)为任一固定的函数,满足条件 (1)f(θ)≥0,θ∈Θ, (2)0<(tθ)f(θ)dθ<∞, g∫Θn⎧⎫(tθ)f(θ)g⎪⎪n=:n=1,2,"则 D⎨⎬ f(tθ)f(θ)dθ⎪g⎪∫⎩Θn⎭是共轭先验分布族。 例 设总体X服从0-1分布B1,θ,其分布为()1−xTp(xθ)=θ1−θ,=0,1,(X,X,",X)() 12n为取自总体X的一个样本,则似然函数为 nn−nxnxq(xθ)p(xθ)=θ1−θ=g(tθ)⋅1() ∏ii=1n1n−tt其中t=nx,x=x,g(tθ)=θ1−θ ()∑inni=1所以T=nX是充分统计量,取fθ=1,则 ()n−t⎧⎫tθ1−θ()⎪⎪D=:=1,2,",t=0,1,2,",n ⎨⎬f1n−ttθ1−θdθ()∫⎩0⎭是共轭先验分布族。 容易看出是β分布族的子族(因为分布的参数仅Df取部分有限值)。可以证明β分布族的全体 {B(a,b):a>0,b>0} 11
仍是共轭先验分布族,其中B(a,b)的密度为 Γ(a+b)b−1a−1p(θ)=θ1θ,0<θ1()。 Γ(a)Γ(b) 三.贝叶斯风险 设随机变量θ∈Θ,它的先验分布为π(θ),则风险函数 R(θ,d)=[L(θ,d(X))]=L(θ,d(x))q(xθ)dx, Eθ∫χ它是θ的函数,仍是随机变量.关于θ再求期望得 defR(d)=E[R(θ,d)]=R(θ,d)π(θ)dθ () ∫ΘR(d)称为决策函数d在给定先验分布π(θ)下的贝叶斯风险,简称d的贝叶斯风险。 当总体X和θ都是连续型随机变量时,上式可写为 R(d)=R(θ,d)π(θ)dθ ∫Θ=L(θ,d(x))q(xθ)π(θ)dxdθ ∫∫Θχ=L(θ,d(x))m(x)h(θx)dxdθ ∫∫Θχ=m(x){L(θ,d(x))h(θx)dθ}dx ∫∫χΘ其中m(x)h(θx)=q(xθ)π(θ) 当总体X和θ都是离散型随机变量时,有 ⎧⎫R(d)=m(x)L(θ,d(x)h(θx)) ∑⎨∑⎬x⎩θ⎭ 12
由上式可见,贝叶斯风险可看作是随机损失函数L(θ,d(X))求两次期望而得到的.即第一次先对θ的后验分布求期望,第二次关于样本X的边缘分布求期望。 此时,由于R(d)已不依赖于参数θ而仅依赖于决策函数d(X),因此,以贝叶斯风险的大小作为衡量决策函数优劣的标准是合理的。 13