概率混合模型(1) 概率混合模型可以简单的理解为有多个(甚至是无数个)独立概率模型的凸组合(Convex Combination),由于概率混合模型使用多个独立的概率分布,它可以描述一个复杂的数据分布,无论数据分布的结构如何复杂,总可以通过增加成分的方式来描述数据分布的局部特性,因此概率混合模型成为最有效的密度工具以及最常用的聚类工具之一。 广义的混合模型的一般表达式如下: Kf(x)=wf(x)∑kk (1) k=1其中f(x)为具有K个独立成分的混合模型,f(x)表示第k个成分,wkk表示第k个成分的权重,且w>0,k=1,...,K,由归一化条件,即kKw=1。 ∑kk=1当混合模型中的成分是独立的概率分布时,我们可以称之为概率混合模型。把f(x)换成P(x),式(1)重写为下式 KP(x)=wP(x)∑kk (2) k=1w除了表示权重外,这里可以认为是P(x)的先验概率。如果P(x)是kkk带参数的概率模型,可以用P(x|Θ)或P(x)代替P(x),Θ表示第k个kθkkk成分的参数或参数集,{Θ,...,Θ}为混合模型的参数集合。 1K用数学语言来描述概率混合模型的抽样过程。先用C={c,...,c}表1K示异质性数据集X={x,...,x}的隐含类别属性集合,用{w,...,w}表示K1N1K个类别的先验概率,第k个类别的概率分布为G(c),则异质性数据集k
的产生由两部分构成: Mult(1,w,...,w)(1)在K个类别中抽样一次的多项式分布 K1K(2)第k个类别的概率分布G(c) k用数学表达为: y|w,...,w~Mult(1,w,...,w) (3) n1KK1Kx|y=c~G(c) (4) nnkk使用概率混合密度基于观测到的数据集X={x,...,x}进行聚类和密度1N估计,实质就是样本生成过程的逆过程。 概率混合模型样本生成的两个步骤:首先,从K个可能类别中按一定的分布抽出y,即选取类标签;然后对于该标签中成分按一定的概率分布抽出样本x。样本可以分成可观测部分x和不可观测的隐藏标签y,y属于隐含类别集合C。令x,y的联合概率分布为P(x,y),则x的边缘分布 KP(x)=P(x,y=c)∑kk=1K=P(x|y=c)P(c)∑kkk=1 (5) K=wP(x|Θ)∑kkk=1将第k个类别的概率分布密度函数参数Θ代入,同时用w代替P(c)表kkk示第k个成分在整个混合模型中所占的权重。式(5)即是式(2)。 下面介绍一下高斯(正态)分布,高斯分布一般表示为N(µ,Σ),其概率密度函数为
11Τ−1P(x|µ,Σ)=exp−(x−µ)Σ(x−µ) (6) 1D222(2π)Σ其参数集为Θ=(µ,Σ)。 假设高斯混合模型有K个成分,则高斯混合模型可以定义为 Kw1Τ−1kP(x)=exp−(x−µ)Σ(x−µ)∑kkk (7) 1D2k=122(2π)Σ极大似然估计是数学模型模拟数据集的常用方法,最优参数由下式得到: Nˆˆ{w,Θ}=argmaxlogP(x|{w},{Θ})kk∑nkk{w,Θ}kkn=1NK=argmaxlogwP(x|Θ)∑∑knk{w,Θ} (8) kkn=1k=1*=argmaxL({w},{Θ})kk{w,Θ}kk求此函数的最大值,可化为求目标函数偏导的跟求得,即 *∂L({w},{Θ})kk=0 (9) ∂Θk*∂L({w},{Θ})kk=0 (10) ∂wk期望最大化算法提供一种迭代计算途径用于使用观测到的数据来估计不可观测的数据。假设我们所需要估算数据集Z={z,...,z}的概1N率分布。我们只能观测到它的一部分,用X={x,...,x}表示可观测部分1N的集合,Y={y,...,y}表示隐含部分的集合,且z=[x+y],n=1,2,...N。1Nnnn当隐含变量为连续变量时,可观测部分X概率分布可表示为 P(X|Θ)=P(Z|Θ)dZ (11) ∫Z(X)
当隐含变量为离散变量时,可观测部分X概率分布可表示为 P(X|Θ)=P(Z|Θ) (12) ∑Z(X)其中Z(X)表示满足X(Z)=X的Z的取值。本文只考虑隐含变量为离散的情况。 由模型参数为Θ极大似然估计为 ˆΘ=argmaxlogP(X|Θ)Θ (13) =argmaxlogP(Z|Θ)∑ΘZ(X)由于没有完整的数据Z用于计算logP(Z|Θ),我们对于隐含变量的∑Z(X)认识只能来源在给定参数数据和任意参数时它的后验概率P(Y|X,Θ),我们可以转而计算关于隐含变量后验概率的期望,即E[logP(Z|Θ)],Y为此,我们定义如下函数Q ˆˆQ(Θ|Θ)=E[logP(Z|Θ)|X,Θ]Yˆ (14) =P(Y|X,Θ)logP(X,Y|Θ)∑Yˆˆ其中Θ表示当前给定的参数,Y的分布由观测变量X和当前参数Θ唯一确定。 期望最大化算法的一般框架: ˆ1.初始化模型参数Θ; ˆ2.循环下列两步直至Θ不再变化: E步骤:计算观测数据的后验概率P(Y|X,Θ); ˆ M步骤:寻找新的Θ使式(14)最大。 下面以高斯混合模型为例,用期望最大化算法求解极大似然估
计。完整数据(X,Y)的极大似然估计 (X,Y|{w},{Θ})=wP(x|Θ)kk∏∏knk (15) n=1k=1两边取对数,并建立Q函数 ˆˆˆQ(Θ|Θ)=({w},{Θ}|{w},{Θ})kkkkˆˆ=E[logP(X,Y|{w},{Θ})|X,{w},{Θ}]YkkkkNKˆˆ=Ey(logw+logP(x|Θ))|X,{w},{Θ}Y∑∑n=1k=1(16) NKˆˆ=E[y|x,w,Θ](logw+logP(x|Θ))∑∑=1k=1ˆˆ条件期望Eˆ[y|x,w,Θ]即为观测变量X的后验概率Pˆ[y|x,w,Θ],根据贝叶斯定理及后验概率总和为1的约束条件得到: ˆˆwP(x|Θ)knkˆˆP[y|x,w,Θ]= (17) ˆˆwP(x|Θ)∑knkk=1对Q求偏导可求出w,µ,Σ。 kkk增量式混合模型是一种常见的在线学习模型,它能够用新颖的样本对当前的模型进行更新。此文提出一种基于“一般到特定”的学习策略递归式混合模型。 假定有Z个离线学习任务,每个学习任务都有一定的样本域,我们基于所有离线任务样本域中正样本的集合(可以人工筛选),学习*一个关于待测类概率混合模型Θ。我们把基于离线学习任务中正样本*集合得到的概率混合模型Θ称作“一般模型”。对于在线获得的特定++*样本域X,必存在该样本的正样本X的子集X,其在一般模型Θ的S+*ˆ最大似然P(X|Θ)可以无限趋近于该样本域特定模型Θ上的似然S
+*ˆP(X|Θ),所以把一般模型Θ应用到特定样本域X时,可以把X中S++的X检测出来,检测出来的X可以作为种子样本,通过一定的技术SS(针对不同的实际应用)从种子样本出发收集更多该特定域的潜在正*样本用于对一般模型Θ进行增量式更新。更新后的模型再次用于检测同一特定样本域X以收集更多的新颖样本用于对当前模型的增量式更新,如此递归,直至收敛。