二次和线性分类器
• 前面讲的统计决策理论提供了分类器设计的
基础。
• 这一小节讨论二次和线性分类器。所以叫作
二次或线性分类器是因为分类(决策)面方
程的数学形式是二次或线性的。
• 这样的分类器又叫参数分类器,因为它们由
一些参数所规定(如分布的均值和方差)。
非参数分类器以后要讲。
1
• 这一节的目的(概念)有两个:
在一定的分布和条件下(如正态、等协方
差矩阵),贝叶斯决策可以导致二次或线
性分类器。
虽然贝叶斯决策(似然比检验)在错误率
或风险上是最优的,但必须知道类条件密
度。在大多数应用场合,类条件密度函数
是从有限的样本中估计的。后面我们将讲
一些密度函数估计的方法。但密度函数的
估计本身是一件复杂工作(其难度不低于
分类)并且需要大量样本。
2
• 即使我们得到了密度函数,有时用似然比检
验的方法也很难计算,需要大量的时间和空
间。
• 因此我们有时考虑更简便易行的分类器设计
方法。用二次、线性、分段线性分类器。即
先规定分类器的数学形式,然后在适当的准
则下,来确定这些参数。
• 这一节先分析在什么条件下贝叶斯分类器变
成二次和线性分类器,然后讨论当这些条件
不满足时,如何设计“性能好”的参数分类
器。
3
一. 两类问题的二次和线性分类器
对于似然比检验的决策规则:
4
• 当各类的类条件密度是高斯分布时,
• mi和Ki为均值向量和协方差矩阵。
5
• 这时似然比为
定义 ,-2倍自然对数,则:
6
• 上式是二次分类器。计算x到各类均值mi的
Mahalanobis距离,然后和阈值
相比较,决定x属于第一或第二类。
7
• 在一维时,马氏距离 ,即比较
用方差标准化的一般距离。
• 展开h(x)式,有
(※※)
• 式中
8
• 决策边界h(x)=T是二次曲面(超曲面):超
椭球面、超双曲面、超抛物面、超平面等,
或它们组合的形式。
• (为了确定二次曲面的形状,首先要消掉x的各分
量相乘的项,可采用旋转坐标系的方法,把坐标轴
旋转到A(※※)的特征向量的方向。曲面的几何
形状由A的特征值决定。如果A的特征值全部是正
的,则是超椭球面;如果特征值有些正,有些负,
则是超双曲面;如果有些特征值是0,则是超抛物
面。)
9
• 当x落到决策边界的某一侧时,就把它分到
相应的类。也可以把上述二次分类器用到非
高斯分布的密度函数,但这时不能保证错误
率最小。(但所确定的边界是和二阶统计矩
(均值、方差)最相匹配的。)
• 任何具有(※※)式的分类器都叫作二次分
类器。只有A、b、c是由高斯密度函数确定
时,才叫高斯分类器。
10
• 例1:两维时的二次分类器的决策边界
假定两类模式都是高斯分布的,参数为:
求 的分类边界,并画出其曲线。
11
• 解:
12
假定T=0,h(x)=T=0化为:
,是一双曲线。
13
14
15
• 当先验概率相等时,最小错误率决策规则选
择密度函数大的。
• 由于第二类在x2方向上的方差大于类1的,这
样密度函数p(x|ω2)在x2方向上将有较广的延
伸。使得在左边R2区域内有p(x|ω2) > p(x|ω1)
,尽管这些点比较靠近类1的均值点。
• 在前面的h(x)= xTAx+bTx+c中,如果两类的
协方差矩阵相等,K1= K2= K,则矩阵A=0,
这时决策规则为:
16
• 这时的决策边界就退化为线性决策边界(超
平面),相应的分类器为线性分类器。
式中
17
二. 判别函数和多类分类器
1.判别函数
• 当模式有 类,这时的最小错误率的
决策规则可以表示为:
若
(※)
式中
• 称为判别函数(discriminant
function)。它表示决策规则。
18
• 由贝叶斯公式, 和
等价。即把 用在(※)式中时,决
策结果和 是一样的。
• 当先验概率相等时,p(x|ωk)也是一组等价的
判别函数。
• 一般地,若 是任意一组判别函数,则
下面定义的 也是一组等价的判别函数:
• a>0,b是常数。(也可以是x的函数,但不能
是k的函数。)
19
• 同样,若f是单调增函数,则
•
它和 也是等价的判别函数。
• 这些性质可以使我们从一组判别函数推导出
另外的判别函数,以便计算上更加简单,或
者意义更清楚,便于理解。
20
• 当每类都是正态分布,其均值和协方差矩
阵分别为mk和Kk时,这时的最小错误率决
策规则的判别函数为:
2.多类的二次和线性分类器
• 由于自然对数是单调增的,所以可以定义
下面等价的判别函数:
21
(※)
• 这是二次判别函数。当所有类的先验概率相
等时,可以省略 。
• 前面已经证明,当两类的协方差矩阵相等时,
二次分类器退化为线性分类器。多类时也是
如此。
22
• 当 时,(※)式化为:
• 上式中,由于第一项和第四项对所有的类都
是相同的,所以等价的一组判别函数为:
(※※)
• 上式是x的线性函数。
• 下面考虑一些特定情况,说明二次和线性分
类器的应用。
• 以下假定各类的先验概率都相等。
23
• 例2:最小距离分类器。假定各类的先验概率
相等,而且各类 ,
即x的各个分量不相关,且各类等方差。
解:这时的判别函数化为(P22(※)式 ):
• 后两项对所有类是共同的,可以省略。分母
中的 也可以去掉,因而有等价的判别函数:
• 这时的决策规则的含义是:x离哪类的均值
最近,就把它分到哪类。
24
• 例3 :内积分类器(相关分类器)
有
假定 。利用线性判别函数
• 若进一步假定每类的均值的模相等,即|mk|
相等,它们分布在半径为|mk|的一个超球面
上,且由于假定先验概率也相等,因此,等
价的判别函数为:
25
• 即将测量向量x和每类的均值mk作内积(或称
相关),然后选择值最大的,作为它的类。
• 上述例子是通信理论中信号检测的一个经典
例子。
• 假定有Nc种已知信号要检测。令x(t)表示接
收到的信号,mk(t)是已知的信号,k=1,2
,…,Nc 。当mk(t)发送时,加入了白噪声
w(t),
26
• 白噪声w(t)是零均值、等方差、不相关的信
号(随机过程)。即在任意时刻ti,w(ti)的
均值为0,方差为 ,且当 时,
。
即:
• 如果随机向量x和mk是由相应的时间函数取
样而成,即
27
28
• 这是一个相关分类器(内积分类器)的模式
识别问题。
• 假定|mk|
2相等,即所有的信号具有相等的
能量。
29
• 把接收到的信号和已知信号作相关mk
Tx,然
后选择相关最大的。作相关时通常通过一个
“匹配滤波器”来实现。
选择最大
的输出
匹配滤波器1
┇
匹配滤波器2
匹配滤波器Nc
30
• 在连续时,判别函数:
• 另外,mk和x间的相关也可以通过一个线性
滤波器的输出来实现。
• 构造一个函数gk(t),使满足 gk
(T-t)=mk(t),则 (线性系统的杜哈美尔积分)
31
• 即滤波器的输出是相关值,而滤波器的脉
冲响应是gk(t),匹配滤波器可由专门的仪
器来作。
• * 可以把上面的线性分类器的讨论再进一步。在
线性分类器
中,如果把向量在K的特征向量的坐标系下表示(作
变换),并作比例变换使所有分量的方差变为1,这
时,线性分类器将作mk
Tx相关运算。在通信问题中,
如果噪声信号是相关的,而且方差是变化的,那么最
优的信号检测是使噪声变为不相关的,然后作相关或
匹配滤波器运算。
32
三. Fisher线性分类器—
另一种决策准则(另外一种解决思路)
• 在前面一节中,我们讨论了两种形式的分
类器,在n维空间内分析了它的判别边界。
其中分类的参数如A、b、c和T都是确定的,
如果模式满足高斯分布,那么分类器可以
使错误率、最小风险或者Neyman—Pearson
准则最小。
33
但在某些情况下,不知道类条件密度函
数,因此不可能找出最优分类器。
在另外一些情况下,虽然可以对类条件
密度进行估计,但推导最优分类器的计
算量太大。
• 因此,实际工作中,一般是先假定一种分类
器的数学形式,如线性或二次分类器,然后
确定它的参数,使它对某种适当的准则函数
最优,如类间的分离性等。在一般情况下,
这种准则函数不一定是错误率,而是更加简
单和易于分析的。
34
• 人们在线性分类器上作了许多工作。这不仅
因为它形式简单,而且用分段线性的组合可
以任意逼近复杂的决策边界。我们先介绍其
中的一种:Fisher线性分类器(两类问题)。
线性分类器的形式:
寻找分类器的参数,能够使以下的Fisher准
则函数最大:
()
35
(
)
式中
()
• 希望使两类的均值离得越开越好,而方差
尽可能的小。
回想一下,若有
即
36
(
)
这时h(x)(分类器的输出)的均值和方差为
()
• 方程()和参数c无关(相减),因此
c可以包括到阈值T里去。因此只要找出b就
可以了。对准则函数求导并令其等于0,有
变换后的均值和方差
37
()
∴ ()
38
• 利用()式可以求出 、 、 、 ,
然后代入上式,但为了简单,有时就把b定
为
()
而把项 放到阈值里去。
39
• 这样分类器的形式就成为:
当K1=K2=K时,()式的b和( a)的
成比例。这样,当模式满足高斯分布,且协
方差矩阵相等时,使Fisher准则最优等价于
最小错误率最优。
40
小结
• 这一章首先讨论了一些简单的决策理论
最小错误率、风险、Neyman—Pearson
似然比检验,只是阈值不同。
最小最大决策,当先验概率变化时,
使最大的错误率最小。
序贯决策:测量的维数可变时,分析
了阈值和错误率间的关系。在独立同
分布的假定下分析了维数的期望值。
41
• 这一章还介绍了线性和二次分类器
对于多类模式识别问题的判别函数。
讨论了最近距离分类和相关分类。
讨论了两类问题的一种线性分类器—
—Fisher分类器。在高斯分布、等协方
差矩阵的情况下,Fisher分类器等价于
最小错误率分类器。
42
* 这类线性分类器的更一般解法
• 线性分类器是最容易实现的。然而,只在正态分布
和等协方差的情况下,线性判别函数才是贝叶斯意
义上最优的。
• 在通信系统的信号检测中,等协方差矩阵是合理的。
但在不少应用场合,并不满足协方差矩阵相等。
• 在设计正态分布、不等协方差的线性分类器,在设
计非正态分布的线性分类器上有不少研究成果。当
然,它们不是最优的。但简单易行,可以补偿性能
上的损失。下面我们更一般地讨论这一问题。
43
令
任务是要确定
和 。
表示x在V方向上的投影。投影后的均值
和方差 是衡量类可分性的一个准则。
44
投影 比 要好。投影后的均值 和方
差 是衡量类可分性的一个准则。
45
令 是任一准则函数(要
最大或最小的),要确定使f最大(小)的v
和v
0
。
46
由于
代入,有:
47
由以上两式可以计算出v,但由于错误率只
依赖v的方向,而不是它的大小。因而可以
消去v的常数系数(不是mi和ki的函数)。
解出:
式中,
48
• 注意,上面得出的v和f无关,f只是出现在s中。
• 回想在正态、等协方差的情况下,有
这里是用s和(1-s)对K1和K2作加权平均。当f
的具体形式给出后,v0是
的解。
49
例1:Fisher线性分类器。
∵
因此s=
Fisher准则不依赖于v0。因为v0从 和
相减中消失了。
∴最佳的
50
例2:另种准则是
解出后有
∴ Fisher准则不能确定v0。
51
分类器的错误率问题
• 对样本进行分类是PR的任务之一。在分类过
程中总会有错误率,当先验概率和类条件密
度函数已知,采用的决策规则也确定后,错
误率也就固定了。
• 错误率反映了模式分类问题本身的固有复杂
程度。也是衡量分类器性能的重要指标。分
类器是否和要解决的问题相匹配。
一. 错误率的计算和估计
52
• 从上式可以看出,在x是多维时,P(e)的计算
要进行多重积分。当类条件密度函数的解析
形式比较复杂时,P(e)的计算相当困难。
错误率的计算公式前面已经分析,对两类问题:
53
• 由于错误率对模式识别系统的重要性和复
杂性,人们对错误率的计算和估算方法进
行了大量的研究。方法主要有以下几类:
按公式计算错误率;
估算错误率的上限;
从实验中估计错误率。
• 这一小节先讨论前两种方法。
54
• 正态分布且等协方差矩阵时;
• 当x的各分量间相互独立时;
(参考清华的书,略)。
• 下面讨论估计错误率上限的方法
二. 在一些特殊情况下错误率的计算
55
• 模式可分性度量反映了模式分类的困难程度,
和错误率有密切关系。既有理论上的意义,
也用在特征抽取和选择等问题上。这一节介
绍模式可分性的两种重要度量:偏离度
(divergence)和Bhattacharyya距离。
(泾渭分明,西瓜瓤和籽)
• 先对一般的概率密度函数定义这两个量。然
后在多元高斯情况下,看看会有什么结果。
三. 模式可分性的度量
56
• 对于对数的似然比检验:
•
也是一个随机变量。它可以用两个密度函
数 和 来描述。如下图所示,
当两个密度函数偏离较大时,错误率一定
低,反之会大。
1.偏离度和Bhattacharyya距离
57
两类模式可分性的一种度量是它们均值的
差 ,称为偏离度D 。
58
偏离度的定义为:
定义量:
称为有(单)向偏离度,或第i类相对第j类的相
对信息。有些作者称它为Kullback—liebler数。
59
由上两式可知
• 这样,当相对信息H(1,2)和H(2,1)大时,
D也大,可分性好。
• 可分性的另一种度量是Bhattacharyya距离:
而量 ,有时称
为Bhattacharyya系数。
60
• 这两个量比起偏离度来,直观上更难解释。
但若将 写为:
• 我们可以给出Bhattacharyya距离的一种解释,
如下图:
61
62
• 若原来的两个密度函数分的较开,则f相对
于ω2的期望将较小(<<1)。
• 这时的-ln值将会大,Bhattacharyya距离将
会大。
63
• 反之,若p1 (x)和p2 (x)近似重叠,则期望值
将较大,-ln将较小。即Bhattacharyya距离
小。如下图:
64
• 偏离度和B距离是真的距离度量吗?
• 偏离度和Bhattacharyya距离都满足:
1.在一对一的线性变换下不变;
2.当x的分量独立时,这两个量都满足相
加性(对每个成分)。
65
• 令 表示偏离度或Bhattacharyya距
离,有:
• 但它们都不满足距离的三角不等式,所以
都不是真实的距离。但它们满足下面的性
质:
66
• 对于高斯分布的数据,可以推导出它的偏
离度的封闭形式解。
2.高斯分布下的偏离度和Bhattacharyya距离
而
67
由于
而且由
有
68
和
∴
69
同样,有:
∴
• 这就是高斯分布的偏离度。
70
• 对于高斯分布的Bhattacharyya距离,有
相似的推导。
71
其中的指数项可以化为:
可以化为
72
其中
73
∴
74
可以证明
(※)
以及
(※※)
75
证明的思路和技巧:定义量
先证明
由此再证:
以及
76
由上面各种关系证明(※)和(※※)。
∴
这是对于高斯分布的Bhattacharyya距离。
77
由上式的B和前面的
• 可以看出,当两类的协方差矩阵相等时,
K1= K2= K,
• ∴ 此时的D 和B 是等价的度量,而且和
两类均值间的马氏距离等价。说明D 和
B 确是两类间偏离和距离的一种度量。
78
• 上一小节定义了偏离度和Bhattacharyya距离。
下面分析它们和错误率的关系。
• 这一节讨论似然比检验的错误率的上界。
它们是基于Bhattacharyya距离及其推广。
四. 错误率的Bhattacharyya和Chernoff界
1.最小错误率的上界
• 最小错误率(有时也叫贝叶斯错误率)eB 为:
79
利用不等式
上式可以化为:
即
• 这个结果称为Bhattacharyya界。
80
若利用不等式
和前面的推导一样,可得更一般的Chernoff界:
式中
对于高斯密度函数,可以解出上面的积分,得
81
比较一下B 和 ,有
即当 时
Chernoff界就变为Bhattacharyya界。
82
• 使用Chernoff界的优点是:
它可以求出错误率的紧上界(求适当的
s),此时s一般不等于 。
利用 可以估计各个类的错误率 和
,以及使用任何阈值T的似然比检验的
错误率。
• * 下面我们分析Chernoff界的另一种推导方
法。
83
* 2.一般似然比检验的Chernoff界
• 考虑一般的对数似然比检验:
而
84
或
现定义一组(族)新的密度函数:
85
由于 的积分等于 ,所以
也是密度函数,其积分等于1。
下面分析错误率 :
由于 ,是实数,函数 是 的
单调减函数。
∴ 在积分区域内,有
∴
86
∵上式的积分小于1
∴
用同样的方法可以建立 的界
另外的方法是利用下面等价的对数似
然比检验
87
并定义量
上面 和 的界也称为Chernoff界。
用和上面同样的推导序列,有
令 ,而且由于 ,可得
88
使等式成立的s0即为要找的s0。
前节所建立的总错误率
也可以利用本节的结果来得到。
• 和 的紧上界可以由选择s以使e的指
数项最小来实现。这时对 和 都有:
89
而∵
∴ 上式右端为
这时,∵
90
• 使 和 得到紧上界的s0同样使Pr[e]有
紧上界。
• 一般在许多情况,上界在s0处有较平的特性。
常选 以避免解最优化问题。
91