黯制l军
基于概念格的知识获取*
王娜
(郑州l航空工业管理学院河南 郑州 45∞15)
摘 要:概念是人类进行知识表达的一种手段。数据库知识发现的过程就是将数据库中蕴含的知识
形式化为有用概念的过程 而概念格正是从数据中进行概念发现的有力工具用来发现数据中隐藏的知
识模式。基于概念格理论提出了一种从形式背景中获得所有形式概念的算法并根据构建的概念格提取
蕴含规则。
关键词·概念格·知识获取;知识发现;规则提取
申图分类号,TP393 文献标识码,A
1 百|言
随着计算机应用及 Internet 的日益
普及丰富的数据与贫乏的知识"问题
日见突出,不同领域的人们都期待着从
这些数据中得到自己想要的答案,将信
息变为知识。由此产生了一个新的领
域一一知识发现。知识表示问题是知识
发现要研究的根本问题之一,W3C 论坛
的主席 Berners-lee 指出.知识表示代表
了一种很好的思路,而知识获取则是知
识发现的关键工序。
概念是人类进行知识表达的一种
手段。数据库知识发现的过程就是将数
据库中蕴含的知识形式化成有用概念
的过程。由二元关系导出的概念格作为
一种非常有用的形式化工具,体现了概
念内涵和外延的统一,反映了对象和特
征间的联系以及概念的泛化与特化关
系,其相应的 Hasse 图则实现了对数据
的可视化,因此非常适用于从数据库中
进行知识挖掘,从而成为数据分析和规
则提取的一种有效工具。概念格,也称
为 Galois 格,又叫做形式概念分析,由
While R 于 1982 年首先提出。经过近
30 年的发展,概念格(形式概念分析理
论中的-种核心数据结构)已经在众多
的领域取得了广泛而成功的应用。在知
识发现领域,概念格可以从关系数据中
构造出来,然后从概念格上可以提取各
种类型的知识,如蕴含规则、关联规则、
分类规则等等 o 在知识工程领域,概念
格可以用于知识库的重新结构化。
2 基本理论
下面简要的给出所需概念格的基
本概念。
定义 1 :形式背景 (context)是一个
三元组 (U , D , R) 。其中,U 是对象的集
合,D 是属性的集合,R 是 U 和 D 之间
的二元关系,对于'v' xeU ,yeD ,若 x 具
有属性 y,则说 x 与 y 是有关的,记为
xRy 或者 (x , y)εR。
定义 2: 形式背景仰,D , R) 的一个
形式概念(简称概念)是一个二元组 (X ,
Y) ,它满足 X'=Y 且 Y'=X,其中 XÇU ,
yÇD ,XαX'=ldεDI 'v' u εX: (u , d)ε
Rf , YαY'=luεUI 'v' d eY: (u , d)ε
Rfo X 是概念 (X , Y) 的外延,Y 是概念
(X , Y)的内涵。
显然,概念的内涵是概念外延中所
有对象的共同属性的集合,而概念的外
延是概念内涵可以确定最大的对象集
合,一个概念是一个完备的二元组。特
别的,定义两个特殊的概念,分别是包
含所有对象的概念一一全概念,包含所
有属性的概念 空概念。
定义 3 ,在概念节点之间能够建立
起一种偏序关系。对于给定 (Xt, Y,)和
(凡, Y2 ) ,若饵, Y,)运 (X2 , Y2):∞X, ÇX2
(Ç:}y2ÇY,)成立,则称(丸,Y,)是 (X2 ,Y2 )
的子概念, (X2 , Y2 )是 (X"Y,)的超概念。
*基金项目:郑州航空工业管理学院青年科研基金项目(项目编号,Q09DZ01)
收稿日期: 2010-04-18
118 科技创业月刊 2010 年第 6 期
关系"运"是概念的一个偏序 (partial or-
der) 。
根据偏序关系可生成概念格的
Hasse 图 o 如果有 C,>Cz,并且不存在另
一个元素 ι使得 C,>C3>C2,则从 C,到
C2 就存在一条边,即 C,是 C2 的直接超
概念。 C2 是 C,的直接子概念,形式背景
仰, D , R) 中,满足直接子概念一一起概
念关系的所有概念节点的集合是一个
完全格称之为 Galois 概念格,简称概念
格。
3 概念格上的规则提取
在概念格中,数据是用形式背景来
表示的,而形式背景可以很容易地用交
叉表来表示,交叉表的行表示对象,列
表示属性。表 1 中的-个形式背景 C=
(D , T,则,其中,对象集 D= 11 ,2 ,3 ,4 ,
剖,属性集 T=la , b , c , d , e , f , g , hf ,关系
R=DxT , ep: i(1,a) , (I,b) , (1,c) , (1,
d) ,… (4 ,a) , (4 ,f) , (4 ,g) , (5 ,b) , (5 , f) ,
(5 , h)f 。表中符号"X"表示对象具有该
属性。
为了构建一个概念层次结构,必须
找出形式背景的所有概念。公式(2. 1)和
公式()可以用来计算所有的概念。首
先,获得所有的行内涵 Idf' , deD(公式
)或者所有的列外延It f' , teT(公式
)。然后找出它们的交集以便 C 的概
念的所有外延 X'或者内涵 Y'得以确
定。依次类推,计算出所有确定外延的
基于概念格的知识获取 ,_.
内涵。C 的所有概念的集合表示为 B(D ,
T ,R)o
X'= 1 Idf'
Y'= 1 Itf'
d εY
表 1 形式背景 C
a b c d e g h
x x x
x
x x
xx xxxx q&
句3AU
,,、
d
x x
x x
基于公式 2,表 2 给出了从表 l 的
形式背景中获得所有概念的一个实例。
详细算法过程如下:
步骤 1 :明确表示出包含所有对象
的概念的外延,即所有对象的集合 D。
然后,对每个属性 t 执行下列步骤 mo
步骤 m: 找出具有属性 t 的对象集
X。随后,检查在列表中的任一外延是否
等于 X。如果 X 的一个等价外延不在列
表中,那么集合 X 就被作为一个外延。
然后,计算 X 和前边几步计算的外延的
交集。当这个交集不在列表中时,那么
这个集合也添为-个外延。如表 2(a)所
刁亏。
最后,根据形式背景 C 中的概念,
可以找出对应于表 2(a) 中每个概念外
延的内涵,如表 2(b)所示。针对表 1 中
的形式背景 C ,现在我们得出了 10 个形
式概念,即: (11 ,2 ,3 ,4 ,51 , lal) , (11 ,2 ,
51 , la ,bl) , (11 , 31 , la ,cl) , (111 , la ,b ,
c f), ( 131 , 1 a ,c ,d 1) , ( 11 , 1 a ,b ,c ,d ,e ,f ,
g ,hl) , (12 1. la ,b ,el) , (14 ,51 , la ,fl) ,
(151 , la ,b ,f, hl) , (141 , la ,f, gl) 。
接下来,就是构建概念格了。根据
定义 3 找出概念集合 B(D , K , R)的所有
子概念和超概念,然后依据它们之间的
偏序关系就可以构建出概念格了(见图
表 2 从表 l 所示的背景中获得形式概念的程序
1)。图 I 中每个节点代表一个形式概念 述符的规则总数为。
饵,Y) ,其中 X 是对象的集合,Y 是属性 定理 3. 如果格中节点 H=(X , Y)具
的集合。 有两个双亲节点 M1=(X1 ' , Y1 ') 和 M2=、,/嚼,且/,‘、
(2)
圄 1 表 1 中形式背景 C 的概念格
由于概念格的每个节点就是-个
概念概念的外延表示为属于这个概念
的所有对象的集合,而内涵则表示为所
有这些对象所共有的属性的集合,所以
概念格的每个概念就是具有最大共同
属性的对象的集合。在形式背景中,外
延即是由内涵所确定的等价类。由图 1
中的概念格就可以清楚地看出对象集
和属性集之间的这种内在关系。
另外,概念格节点间关系体现了概
念之间的泛化和特化关系,因此非常适
合作为规则发现的基础性数据结构。从
构建好的概念格中可以提取蕴含规则,
其基本思想是针对格中每个节点来生
成其无冗余的所有规则,主要的依据是
其双亲节点即直接泛化的个数及形式。
下面给出提取规则所依据的主要定理。
定理 1 :如果格中节点 H=(X , Y) 只
有一个双亲节点 M=(X' , Y') ,则 H 所产
生的规则前件只能为单个描述符,且
VpEIY-Y'I ,都存在一条无冗余规则
p=丰Y-p。
定理 2:如果格中节点 H=(X , Y)具
有 d 个双亲节点 M1 =(X/ , Y/) ,她=
(X2' ,Y2') ,…, Md=(Xd' , Yd') ,则对于任
意一个描述
(a) 表 1 中背景的外延 (b) 在 (a) 中外延的内涵
步骤属性 外延 步骤 内涵
(1, 2 ,3 ,4 ,5) lal
2 b (1, 2 ,5) 2 la ,bl
3 c (1, 3) (1) 3 la ,clla ,b ,cl
4 d (3) () 4 la ,c ,dlla ,b ,c ,d ,e ,f,g ,hl
5 e (2) 5 la ,b ,el
6 f (4 ,5)(5) 6 la ,b ,f ,hl
7 E (4) 7 la ,f ,gl
符 P E IY-
外延
(Y1' YY2'
(1, 2 ,3 ,4 ,5) YAYY/ )1 ,
(1,2 ,5) 都存在一条
(1, 3) (1) 规则 p=丰Y-
(3) () p 。
(2) 据此定
(4 ,5)(5) 理,可知前
(4) 件为单个描
PIONEERING WITH SCIENCE & TECHNOLOGY MONTHL Y 2010 119
(X2' , Y2') ,则 V Pl E ly1'-yny2') 1 和
P2 E IY2'-Y/IY2') 1 ,都存在一条规则
P肋=亨Y-PIP2,并且前件为两个描述符的
规则总数是IIY 1 ' - Y1'IY2' 1I *IIY2' - Y1'IY2' 1I。
注意到只有当 IIYII>k 时,才可能有
前件至多为 k 个描述符的规则,并且规
则前件的描述符个数至多为其双亲节
点的数目。除了前件为单个描述符的规
则之外,其它规则的形式与数目仅仅依
赖于其双亲节点。
根据规则提取所依据的定理,可以
从图 l 的概念格中推导出如下的蕴含
规则:
b=丰 a , c =丰 a , f=丰 a , e 斗aAb,daAc ,
gaM , bAca , bMaAh。
对于规则 :eab,可以解释如下:属
性 "e"的应用总是和属性"a"和 "h"的应
用联系在一起的。
从概念格上可以提取规则目前有
了许多研究,如Godin 等的系统:一种
增量式概念格建造方法,提出在概念格
上提取蕴含规则的算法。 LEGAL:通过
引进两个参数 α 和 β,改进 Bordat 的算
法,将其应用于分类任务。 Rulele四ler:
由 Stanford 大学的 Sahami 提出。该算法
采用一种"标记法"从格中提取规则。
4 结语
在知识发现的过程中建造与应用
概念层次结构进行知识获取具有很多
的优势,而概念格的 Hasse 图正好体现
了一种概念层次结构,反映了概念之间
的泛化和例化关系。从数据集中生成概
念格的过程是一种数据聚类的过程,它
可以对具有对象和属性的数据库进行
酣技创山里
浅析公允价值及其应用
周美容
(鄂川'1 职业大学经济与管理学院 湖北 鄂州 436000)
摘 要:从公允价值的基本涵义出发剖析对公允价值这一计量工具的正确理解,并结合公允价值在
我国的应用历程,对其在新会计准则中的应用进行阐述,指出公允价值计量将日益显出合理性和必然性,
并进一步提高和改善我国财务会计信息系统的质量促进资本市场的健康、稳定发展。
关键词:计量属性;公允价值;相关性
中国分类号 :F230 文献标识码 :A
1 公允价值的基本洒义
美国在 20 世纪 80 年代曾发生严
重的储蓄和贷款危机,一些储蓄及住房
贷款机构利用会计手段掩盖问题贷款,
最终导致 4∞多家金融机构破产,联邦
储蓄保险公司无力赔偿,联邦政府动用
1 ∞0 多亿美元联邦储备基金予以补
救。美国金融界从那以后就倾向于以公
允价值计量金融产品。从某种意义 f二
说公允价值"概念正是由于 20 世纪
80 年代美国储蓄和房屋贷款危机而引
人的 O
公允价值亦称公允市价、公允价
格。国际会计准则、美国会计准则、英国
会计准则以及中国会计准则分别对公
允价值下了定义,虽然文字表述不同,
但基本含义却是一致的 O 可以归纳为:
"在公平交易中,熟悉情况的交易双方
自愿进行资产交换或债务清偿的金
额。"从中可以看出,公允价值双方的地
位是平等的,交易日的是自愿的,交易
环境是公正的,交易价格是市场的,不
掺杂任何主观色彩和功利因素 O 并且是
于者规处或营业算经企清其早是算减瑞弱·玩到
E
那不算确下川并打正提下不的叮叮…盯住扎啤假的清
MU
种营要允一经需公于续不.基持说模
2
公允价值的判定前提是公平交易
公平交易是指不存在特别或特殊
关系的当事人之间进行的交易,市场主
体是熟悉情况、不关联、自愿的买卖双
方,能够独立进行交易的行为。交易双
方地位是平等的,交易目的是自愿的,
分析,构造出一个完备的格结构,从中
进行规则提取,并进行优化决策。关于
概念格在数据库中知识发现的应用还
有许多问题有待研究,例如发展高效的
构造概念格及剪校算法;如何从格上产
生有意义的规则;如何找到更好的概念
之间关系的计算方法,以更方便地提取
规则等。
参考文献
Ganter B, Wille R. Fonnal concept anal-
ysis: mathematical foundations. Berlin:
Springer , 1999
2 胡可云,陆玉昌,石纯一基于概念格的分
类和关联规则的集成挖掘方法[1].软件
学报,2000(11 )
3 Godin R.. Incremental concept formation
algorithm based on Galois (concept) lat-
Intelligence , 1995 (11)
4 Njiwoua P , Nguifo E M. Forwarding the
choice of bias LEGAL-F: using feature
selection to reduce the complexity of
LEGAL. Proceedings of BENELEARN-
97 , ILK and INFOLAB , Tiburg Univer-
sity , the Netherlands , 1997
5 Sahami M. Learning classification rules
using lattices. In: Lavran N, Wrobel S ,
eds. Proceedings of ECML -95 , Grete ,
Greece , 1995
(责任编辑梁工赵茜)
Knowledge Acquisition Based On the Concept Lattice
Abstract: Concept is a kind of means that mankind carries on the know1edge expression. Know1edge discovery process in
database is to forrnalize the know1edge contained in the database into a usefu1 concept. Concept 1attice is a powerfu1 too1 for
concept discovery from data , used to extract hidden know1edge pattem in data. The paper gives an a1gorithm of obtaining al1
forrn concepts from the forrna1 context based on the concept 1attice theory. And then , to extract the imp1ication ru1es from the
lattice.
Key words: concept 1attice , know1edge acquisition , knowledge discovery , ru1e extracting
收稿日期 :2010-04-05
120 科技创业月刊 2010 年第 6 期