书书书
! "##$ 年 % 月 重庆师范大学学报(自然科学版) &’() "##$
第 "* 卷 第 + 期 &,’-./( ,0 12,. 6,-7/( :-;5<=(6/<’-/( >?5:.?:) @,() "* 6,) +
ABC:D#) +$*$ E &) C>>6) D*%"F **$+) "##$) #+) #DG
基于等价关系的信息熵及概率分配函数
!
赵晓雨,周润珍
(重庆文理学院 应用技术师范学院,重庆 H#"D*#)
摘要:I/J(/K在 D$G"年提出的粗糙(L,’32)集是基于等价关系的理论,粗糙集的发展推动了人们对等价关系的研
究。等价关系上的信息熵具有最为简单、规范的性质。本文研究基于等价关系上的信息熵及概率分配函数,讨论基
于等价关系上的信息熵的基本性质,为等价关系的信息熵的各种应用提供理论基础,比如等价关系的信息熵在信息
系统的约简方面可能发挥重要作用。文章主要从两方面进行论证:!等价关系的粗细对信息熵的影响,这点通过 G
个命题来说明;"等价关系与证据理论之间的联系。证据理论主要是通过概率分配函数、信任函数及似然函数来表
述,从某种意义上说粗集理论继承和发展了证据理论。另外,本文的讨论均在有限论域 ! M{"D,"",⋯," ! }上进
行,用具体的例子来说明抽象的数学命题,使之更容易理解。
关键词:等价关系;信息熵;粗糙集;入侵检测
中图分类号:NI+#D 文献标识码:O! ! ! 文章编号:D*%"F **$+("##$)#+F ##%PF #H
! ! 熵是 DG*P 年由 1(/’;5’; 最先提出,并用来量度
热力学过程不可逆程度的;随后 Q,(<R7/..说明了熵
的统计意义,把熵作为物质系统内部无序程度的量
度。D$HG 年 >2/..,.把熵的概念引入信息论中,作
为随机事件不确定性的量度。I/J(/K[D]在 D$G" 年
给出了粗糙(L,’32)集的概念后,人们发现它在数
据挖掘和知识发现中的许多应用,因此近年来该理
论及其应用得到迅速发展["F*]。由于等价关系是粗
糙集理论赖以建立的基础,等价关系的研究得到空
前的深入。例如在信息表的约简方面,由于信息表
的每个属性对应于一个等价关系,因此信息表的约
简实际上就是除去冗余的等价关系及等价类的约
简。为此,人们想出了各种各样的方法,除常用的集
合论方法外,还把 >2/..,. 定义的概率信息熵[%]的
方法搬到等价关系上[GF$],使得信息表的约简与相应
的等价关系的信息熵发生密切联系[D#FDD]。等价关
系的信息熵在科学技术的许多方面都有重要应用。
例如,最近人们把信息熵的方法应用于计算机的入
侵检测( C.<-’;5,. S:<:?<5,.)[D"],用信息熵来衡量或
发现审计数据的规律性。本文主要研究等价关系的
信息熵的基本性质,为等价关系的信息熵的各种应
用提供理论基础,比如等价关系的信息熵在信息系
统的约简方面可能发挥重要作用。
本文的讨论均在有限论域 ! # {"D,"",⋯,
" ! }上进行,若 $为 !上的等价关系,$确定了 !
的一个划分,划分的结果称为商空间(或称商集),
记为 ! % $ #{&D,&",⋯,&’},借助 >2/..,. 定义的
概率信息熵,!上的等价关系 $的信息熵定义为
(!($)# )"
’
* # D
+(&*)(,3(+(&*))
其中 ,(&)# &* % !
这里对数的底数一般取为 "(也可以是其它大
于D的数,其中自然对数的底数 :对数学处理较为方
便),当底数取为 " 时,信息熵的单位为比特(T5<:),
与概率的信息熵一样,等价关系信息熵的最大值为
(,3 ! (对应于恒等关系),最小值为 #(对应于全
关系)。由于等价关系确定的分类给出后概率计算
简单,等价关系的信息熵较概率的信息熵直观,计算
也相对简单。
D 等价关系的粗细对信息熵的影响
等价关系的粗细指的是等价关系的包含。设 ,,
-为 !上的两个等价关系,如果 ,# -,则称 ,较 -
细或称 -较 ,粗,若 ,较 -细,则 ,相应的分类是 -
的分类的细化,即可以理解为按分类标准 , 的分类
! 收稿日期:"##$F #HF D+! !
资助项目:重庆市教育委员会科学技术研究项目(6,) U&#GD"#% )
作者简介:赵晓雨,男,副教授,硕士,研究方向为人工智能、数据挖掘。
结果是按分类标准 ! 的分类结果的进一步细分。若
有一个等价关系的序列 "! $ "" $⋯$ "#,其分类
的谱系图恰好是一棵 # 层树,所有的叶节点构成集
合 $。容易看出有以下结果。
命题 "# 设 ",!为 $上的两个等价关系,如果
"$ !,则 %$(!)& %$(")。
证明 # 设 $ ’ ! ({)",)$,⋯,)#},因为 "相应
的分类是 !的分类的细化,即 " 的分类可以理解为
!的类逐步细分,而每次细分都是把 ! 的某个类细
分为两个类,因此,为简单起见,可设 * % + ( )",
*& + ( ’,且$ ’ " ({*,+,)$,⋯,)#},注意到当
! & ,,- & " 时,有
(, . -)%&’(, . -)/ ,%&’, . -%&’-
%$(!)0 %$(")( 0 1()")%&’(1()")).
1(*)%&’(1(*)). 1(+)%&’(1(+))& !
即 %$(!)& %$(") 证毕
命题 " 说明,划分越细,相应的熵越大。这对于
入侵检测的异常检测方法而言,一个审计数据集中
的每一个记录都代表一个类,熵越小,不同记录的个
数就越少,审计数据就越具有规律性,因此利用熵值
较小的数据集建立的异常检测模型具有较好的检测
性能。
理论上,()*++&+ 在讨论信息熵的过程中,较多
使用函数 0 ,%&’(,)在区间上(!,,)的上凸性,因
为信息熵的许多性质都依赖于函数 0 ,%&’(,)的性
质。()*++&+的条件信息熵也可以搬到两个等价关
系上,用于研究两个等价关系之间的相互作用,设
"、!为 $ 上的两个等价关系,$ ’ " ( {)",)$,⋯,
)#},$ ’ ! ({2",2$,⋯,23},条件信息熵定义为
%$(! ")( 0"
#
4 ("
1()4)"
3
5 ("
1(25 )4)%&’(1(25 )4))
其中 1(25 )4)( 25 & )4 ’ )4 。
对于入侵检测的异常检测来说,通常使用一个
训练数据集来建立模型,并将建立的模型应用于测
试数据集,条件熵可以反映训练集与测试集之间的
差异。
需要注意的是,若 "为 $上的等价关系,相应的
商空间为 $ ’ " ({)",)$,⋯,)#},则 !在 )4 上的限
制是也 )4 上的等价关系,从而确定 )4 的分类,商空
间为 )4 ’ ! ({)4 & 2",)4 & 2$,⋯,)4 & 23}(可能
有某些 )4 & 25 ( ’),从条件信息熵的定义容易看
出,条件信息熵 %$(! ")实际上是 )4 上的信息熵
%)(!)的加权算术平均值。即有
%$(! ")( "
#
4 ( "
1()4)%)4(!)
条件信息熵有以下基本性质:
命题 $[-]# 设 ",!为 $上的两个等价关系,则
%$(! "). %$(")( %$("& !)。
命题 .# 设 ",!,6均为 $上的等价关系,如果
"$ !,则 %$(! 6)& %$(" 6)。
证明 # 由命题 " 及条件信息熵定义即得。证毕
命题 /# 设 ",! 为 $ 上的两个等价关系,则
%$(! ")( ! 当且仅当 "# !。
证明 # 只需注意到 %$(! ") ( ! 当且仅当
%)4(!)( !,即按照 !的标准,)4( 4 ( ",$,⋯,#)只
能分为一类,!为 )4 上的全关系,这样 "较 !细,因
此 "# !。 证毕
命题 0# 设 ",! 为 $ 上的两个等价关系,则
%$(! ")( %$(!)。
证明 # 利用函数 0 ,%&’(,)在区间(!,,)上的
上凸性,见文献[-]。 证毕
一个很自然的问题是,如果 ",!为 $上的两个
等价关系,且 " $ !,是否一定有 %$(! ") &
%$(!)?笔者给出否定的答案,见下例:设 ( {",$,
.,/},$ ’ " ({{",$},{.,/}},$ ’ ! ({{",.},{$,
/}},则 %$(! ")( %$(!)。
那么何时有 %$(! ")( %$(!)?一般地,有如
下命题。
命题 1# 设 ",!为 $上的两个等价关系,$’ " (
{)",)$,⋯,)#},$ ’ ! ( {2",2$,⋯,23},若 )4 &
25 ’ $ (( )4 ’ $ )( 25 ’ $ ),( 4 ( ",
$,⋯,#,5 ( ",$,⋯,3)则 %$("& !)( %$(").
%$(!)及 %$(! ")( %$(!)。
证明 # 这时只需注意 $ ’(" & !) ( {)4 &
25 " ( 4 ( #," ( 5 ( 3}及 1()4 & 25) (
1()4)1(25),即得 %$("& !)( %$("). %$(!),
再由命题 $ 得另一等式。 证毕
命题 -# 设 ",!,6均为 $上的等价关系,如果
"# !,则 %$(6 !)) %$(6 ")。
证明 # 因为加细可以逐步实现,为简单起见,
可设 $ ’ ! ({)",)$,⋯,)#},$ ’ " ( {*,+,)$,⋯,
)#}且 *% + ( )",*& + ( ’,$ ’ 6 ({2",2$,⋯,
23},由条件信息熵的定义及命题 . 有
%$(6 !)0 %$(6 ")(
1()")%)"(6)0 1(*)%*(6)0 1(+)%+(6)(
)"
$ (%)"(6)0 %)"(6 "))) ! 证毕
$ 重庆师范大学学报(自然科学版)# )223:4 4 5556 78+9:6 7+# # # # # # # # # # 第 $1 卷
命题 !表明,若 !不变,"较 #细,则相应的条件
信息熵 $%(! ")较 $%(! #)小,下面笔者给出一
个例子说明存在",#,且"确较#细,但$%(! ")&
$%(! #)。
设 % & {",#,$,%,&},% ’ " & {{",#},{$,%},
{&}},% ’ # &{{",#,$,%},{&}}及 % ’ ! &{{",$,
&},{#,%}}则 $%(! ")& $%(! #)。
命题 ’( 设 ",#,!均为 %上的等价关系,如果
" # #,则 $%(") ( $%(#)) $%(" !) (
$%(# !)。
证明 ( 由 命题 #,$%( ! ")) $%( ")&
$%("& #)& $%(" !)) $%* 及 $%(! #) )
$%(#)& $%(# !)) $%* ,两式相减并注意到命
题 ) 知命题 ’ 成立。 证毕
# 等价关系与证据理论的关系
证据 理 论(*+,-./ -0 ,123,45,) 首 先 由
6,789:,.提出,并由 ;+<0,. 进一步完善["$],可以用
来处理由不知道引起的不确定性问题的理论模型,
产生于上世纪 )= 年代,它是概率论的进一步扩充,
证据理论主要是通过概率分配函数、信任函数及似
然函数来表述的,由莫比乌斯(>-?2@9)变换知道
概率分配函数*、信任函数+,-及似然函数"- $者之
间可以相互唯一确定,容易看出它们与粗集的等价
类、下近似及上近似有极为类似的关系,从某种意义
上说粗集理论继承和发展了证据理论。
设%为有限论域,幂集"(%)到区间[=,"]的满
足 *(’)& =及"
.#%
*(.)& "的函数*称为 "(%)
上的概率分配函数,设 !为 %上的等价关系,!确定
的商集为 % ’ !,定义
*(/)& / ’ % ,/+ % ’ !
=,/,{ % ’ !
容易验证 *是 "(%)上的一个概率分配函数,
这样%上的每个等价关系按照上述方法对应%上的
一个概率分配函数 *,设 ",#为 %上的两个等价关
系,且% ’ " &{/",/#,⋯,/0}及% ’ # &{1",1#,⋯,
1*},若 "对应的概率分配函数为 *",#对应的概率
分配函数为 *#,% ’(" & #)对应的概率分配函数
为 *,很自然的问题是概率分配函数 *与 *",*# 的
关系如何?
命题 A( 设 ",#为%上的两个等价关系,%’ " &
{/",/#,⋯,/0},%’ # &{1",1#,⋯,1*},设 " 对应的
概率分配函数为*",#对应的概率分配函数为*#,若满
足 /2&13 ’ % &( /2 ’ % )( 13 ’ % ),
(2 & ",#,⋯,0,3 & ",#,⋯,*),则%’("&#)对应的概
率分配函数 *为 *" 与 *# 的正交和 *" - *#。
证明 ( 按照概率分配函数正交和的定义,(*" -
*#)(.)& 4
(" "
/2&13 & .
*"(/2)*#(13),由于
/2 & 13 ’ % &( /2 ’ % )( 13 ’ % )
因此 /2 & 13 .’,故
4 & "
/2&13.’
*"(/2)*#(13)&"
0
2 &"
*"(/2)"
*
3 &"
*#(13)&
"
0
2 & "
( /2 ’ % )"
*
3 & "
( 13 ’ % )& "
再次利用 /2&13 ’ % &( /2 ’ % )( 13 ’ % ),
得到(*" - *#)(.)& "
/2&13 & .
*"(/2)*#(13)&
/2 & 13 ’ % 当 . & /2 & 13
=,{ 其他
即% ’("&#)对应的概率分配函数*为*"与*#的
正交和 *" - *#。 证毕
/2&13 ’ % &( /2 ’ % )( 13 ’ % )
是一个很苛刻的条件,因此对于一般的等价关系",
#来说 * & *" - *# 不成立。
信息熵可以用于信息表的研究,信息表可以抽
象为四元组 5 &〈%,.,6,7〉,其中 %是论域,.是属
性集合,6是属性值的集合,7是信息函数;信息表可
以区分为无决策信息表和有决策信息表,在信息表
中若 . & 8% 9,8是条件属性集合,9是决策属性
集合,则称信息表 5 &〈%,8% 9,6,7〉为决策表。
设 "为%上的一族等价关系,记 20:(")&&
;+"
;,
则 ; + " 是 " 中的冗余知识当且仅当 20:(") &
20:(" ({;}),它用条件信息熵来表述为命题 "=。
命题 "=( 设 5 &〈%,.,6,7〉为信息表,;+ .,
则下列 $ 款等价:
");是 .的冗余属性;
#)$%( 20:(.))& $%( 20:(. ({;}));
$)$%( ; 20:(. ({;}))& =。
证明 ( ; + . 是 . 中的冗余属性当且仅当
20:(.) & 20:(. ( {;}),即有 $%( 20:(.)) &
$%( 20:(. ({;})),及 ;/ 20:(. ({;}),由命题 %
即得 $%( ; 20:(. ({;}))& =。
命题 "= 中 #)说明,冗余属性不能提供任何信
息。若 5 &〈%,8%9,6,7〉为决策表,决策表是否一
致取决于是否有 20:(8)# 20:(9),用条件信息熵
来表述就是看 $%( 20:(8) 20:(9))是否为零。对
$第 $ 期 ( ( ( ( ( ( ( ( ( ( ( ( ( ( 赵晓雨,等:基于等价关系的信息熵及概率分配函数
于一致决策表有类似于命题 !" 的结论。
# 结论
由于粗糙集理论在数据挖掘方面的应用而倍受
关注,粗糙集理论的应用研究得到了长足发展。把
信息熵用于粗糙集的研究,因而定义了等价关系上
的信息熵。约简是粗糙集用于数据分析的重要概
念。在大数据集下约简的有效计算问题是粗糙集应
用于实际系统时必然面临的问题。为解决这些问
题,现在许多的研究工作集中在寻求有效的约简算
法和对经典粗糙集理论的扩展上。有许多文献讨论
了概率的信息熵,而本文阐述了等价关系的粗细对
信息熵的影响,笔者所讨论的基于等价关系的信息
熵比概率的信息熵更直观,并能在信息系统的约简
方面发挥重要作用。同时通过对等价关系与证据理
论之间的关系研究,笔者对 $%&’%( 粗糙集有了更深
入的理解。另外,本文用具体的例子来说明抽象的
数学命题,使之更容易理解。
参考文献:
[!]$%&’%( )* +,-./ 0120[3]* 452165%27,5%’ 3,-65%’ ,8 9,:;-216
%5< 458,6:%27,5 =>715>10,!?@A,!!:#B!C#DE*
[A]F%, F F,%0 $ 3* 45216;612%27,50 ,8 H1’718 8-5>27,50 75
2/1 2/1,6I ,8 6,-./ 0120[ 3]* 458,6:%27,5 =>715>10,!??@,
!"B:@!C!"E*
[#]刘清* +,-./ 集及 +,-./ 推理[J]* 北京:科学出版社,
A""!*
[B]452%5 +,J-(%7<,5, J* K1516%’7L%27,5 ,8 6,-./ 0120 %5< 720
%;;’7>%27,50 75 758,6:%27,5 0I021:[ 3]* 4521’’ M%2% NC
5%’I070,A""A,E:#A#C##?*
[D]雷晓蔚*粗集理论的矩阵方法[ 3]*计算机工程与应用,
A""E,BA(!O):O#COD*
[E]朱小飞,卓丽霞,彭建华*一种基于分布特征的连续属性
离散化方法[ 3]* 西南师范大学学报(自然科学版),
A""E,#!(A):!"OC!!"*
[O]朱雪龙*应用信息论基础[J]* 北京:清华大学出版社,
A""!*
[@]苗夺谦,王珏* 粗糙集理论中概念与运算的信息表示
[3]*软件学报,!???,!"(A):!!#C!!E*
[?]王国胤*基于条件信息熵的决策表约简[ 3]* 计算机学
报,A""A,AD(O):OD?COEE*
[!"]李玉榕* 粗糙集理论中不确定性的粗糙信息熵表示
[3]*计算机科学,A""A,A?(D):!"!C!"#*
[!!]赵晓雨*粗集模型的特征函数表示[ 3]*重庆师范大学
学报(自然科学版),A""O,AB(B):DBCDO*
[!A]朱树人,李伟琴*入侵检测技术研究[3]*计算机工程与
设计,A""!,AA(B):!#C!O*
[!#]=/%81 K* N :%2/1:%27>%’ 2/1,6I ,8 1P7<15>1[J]* $675>1C
2,5:$675>12,5 Q57P16072I $6100,!?OE*
!"# $%&’()*+,’% -%+(’./ *%0 1(’2*2,3,+/ 455,6%)#%+ 7*5#0 ’% -89,:*3#%+ ;#3*+,’%5
!"#$ %&’()*+,!"$, -+.)/01.
(9,’’ ,8 N;;’71< =>715>1 %5< R1>/5,’,.I,9/,. Q57P16072I ,8 N620 %5< =>715>10,9/,. B"A!E",9/75%)
425+(*<+:R/1 6,-./ 012 2/1,6I,;6,;,01< HI $%&’%( 75 !?@A,70 H%01< ,5 1S-7P%’15>1 61’%27,5* +1>152’I,2/1 1S-7P%’15>1 61’%27,5 H1C
>,:10 :,61 >%52 H1>%-01 ,8 6,-./ 0120* 458,6:%27,5 1526,;I ,8 %5 1S-7P%’15>1 61’%27,5 /%0 :%5I 61.-’%6 %5< 7521610275. ;6,;16C
2710* 45 2/70 ;%;16 &1 02-<I 2/1 H%07> ;6,;162710 ,8 758,6:%27,5 1526,;I %5< ;6,H%H7’72I ,8 %:152 H%01< ,5 1S-7P%’152 61’%27,5* R/70
02-<I .7P10 % 2/1,6127>%’ H%070 8,6 2/1 %;;’7>%27,50 ,8 758,6:%27,5 1526,;I H%01< ,5 1S-7P%’152 61’%27,5* T,6 1U%:;’1,,5 % 61<->27,5 75
758,6:%27,5 0I021:0,2/1 758,6:%27,5 1526,;I H%01< ,5 1S-7P%’152 61’%27,5 /%0 %5 7:;,62%52 1881>2* R/70 ;%;16 <1:,5026%210 2&, :%75
’1::%0* T7602’I,&1 8,>-0 ,5 2/1 758’-15>1 ,8 2/1 75>’-07,5 ,8 1S-7P%’152 61’%27,5 ,5 2/1 758,6:%27,5 1526,;I,&/7>/ 70 1U;’%751< 2/6,-./
@ ;6,;,0727,50* =1>,5<’I,&1 %’0, 75P1027.%21 2/1 61’%27,5 H12&115 2/1 =/%816V0 1P7<15>1 2/1,6I %5< 1S-7P%’152 61’%27,5* R/1 1P7<15>1
2/1,6I 70 :%75’I 02%21< 2/6,-./ 2/1 ;6,H%H7’72I <70267H-27,5 8-5>27,5,%5< 2/1 8-5>27,5 ,8 26-02 %5< ’7(1’7/,,<* 45 % 01501,2/1 6,-./ 012
2/1,6I 70 75/16721< %5< /%0 <1P1’,;1< 2/1 1P7<15>1 2/1,6I * J,61,P16,2/1 <70>-007,5 75 2/70 %627>’1 70 ’7:721< 75 2/1 <,:%75 , W{+!,
+A,⋯,+ , },HI -075. 0;1>787> 1U%:;’10 2, 7’’-026%21 %H026%>2 :%2/1:%27>%’ ;6,;,0727,5,75 ,6<16 2, :%(1 72 :,61 1%0716 2, -5<16C
02%5<*
=#/ >’(05:1S-7P%’152 61’%27,5;758,6:%27,5 1526,;I;6,-./ 012;7526-07,5 <121>27,5
(责任编辑X 游中胜)
B 3,-65%’ ,8 9/,. Y,6:%’ Q57P16072I(Y%2-6%’ =>715>1)X /22;:Z Z &&&* >S5-[* >5X X X X X \,’* AE Y,* #