第30卷情 报 杂 志 第7期 2011年7月 JOURNALOFINTELLIGENCEJuly 2011传统知识组织系统的重构及其在网络环境下的应用李育嫦(广东肇庆学院图书馆 肇庆 526061)摘 要 传统知识组织系统(如分类法、叙词表、标题表等)在传统的文献信息组织中发挥了巨大的作用,但将它们应用于网络环境下,主要存在诸如机器不可理解不可处理、更新缓慢、检索功能薄弱等局限性。为此有必要在内容、结构等方面对传统知识组织系统进行改造,创建可应用于网络数字环境、支持网络知识组织和智能检索的网络知识组织系统。传统知识组织系统重构的目标是:简单易用、机器可理解可交换、支持动态更新、支持对网络信息的自动分类与标引、具备互操作性。重构的主要内容包括:叙词表的重构、传统文献分类法的重构以及知识组织系统的互操作。在上述基础上简述重构后的知识组织系统在网络环境下的应用。关键词 传统知识组织系统 自动分类 知识组织系统互操作 中图分类号 G250 文献标识码 A 文章编号 1002-1965(2011)07-0114-05ReconstructionandApplicationofTraditionalKnowledgeQrganizationSystemsinWebEnvironmentLIYuchang(LibraryofZhaoQingUniversity,Zhaoqing 526061)Abstract Traditionalknowledgeorganizationsystems(classificationsystems,thesauri,subjectheadings,etc.),somedisadvantageshaveemergedsuchasmachine-disunder-standable,machine-unprocessable,,machine-understandable,machine-processable,supportauto-maticrenewal, classificationandautomaticindexing,,reconstructionoftraditionalliteratureclassification, traditionalknowledgeorganizationsystems automaticclassification interoperabilityamongKOS1 传统知识组织系统应用于网络环境中的局限a.词汇列表:包括规范文档、术语表、词典、地名辞典等。知识组织系统(也称知识组织体系)是对各种人b.分类聚类体系:包括标题表、粗略分类表、知识类知识结构进行表达和有组织阐述的语义工具的统分类表、文献分类法等。称,包括分类法、叙词表、语义网络、本体以及更泛指的c.关系型词汇表:如叙词表。情报检索语言和标引语言[1]。根据知识组织系统结传统知识组织系统产生并应用于以纸质文献为主构、功能及使用环境的不同,本文将知识组织系统分为的传统图书馆中,主要用于纸本文献的标引、目录组织两种类型:传统知识组织系统,和在网络环境尤其是在及藏书排架。传统知识组织系统在传统的文献信息组语义网环境中产生的新型知识组织系统(如语义网织中发挥了巨大的作用,但将它们应用于网络环境下络、主题图、本体等)。的信息组织与检索,主要存在以下的局限:传统知识组织系统是以规范的语词按学科、专业a.结构简单。传统知识组织系统以聚类或树型等集中文献,简单揭示概念之间的关系,有的体系附以数级结构为组织框架,只能机械揭示词汇间的等级、隶属字、字母符号构建等级框架,其大致可分为:关系,其线性、一维的组织方式不利于充分揭示多维的收稿日期:2011-02-25 修回日期:2011-03-31作者简介:李育嫦(1968-),女,副研究馆员,研究方向:网络信息组织与检索。
第7期 李育嫦:传统知识组织系统的重构及其在网络环境下的应用·115·网络信息资源。关系来自动构建词表,研究工作主要集中在通过自动b.机器不可理解和处理。传统知识组织系统是为建立词间关联,实现词汇聚类以及词间关系的自动识了满足印刷环境中信息组织与检索的要求而设计的,别,本文将现有的几种词表自动构建方法归纳如下:处理对象主要是纸质资源,面向对象是人,应用于网络·基于同现分析的词表自动构建方法。基于同现环境下,其内容和结构不便于机器的理解和自动处理,分析技术自动构建词表是一种应用广泛的词表自动构因此不能自动应用于数字化、网络化的信息对象。建方法,它综合运用了统计方法、机器学习、知识挖掘、c.更新缓慢。传统知识组织系统的编制、修订与知识发现等自然语言处理技术,通过统计计算词汇同维护有赖于专家的手工劳动,在网络环境下,面对海量现频次来挖掘语料库中词汇之间语义关联,生成自然的信息资源,手工维护的方式难以及时更新以跟上快语言叙词表。该方法以覆盖学科领域的文献库作为词速发展的学科内容。表构建的来源,其构建过程主要分为词汇收集、关联度d.检索功能薄弱。传统知识组织系统主要用于文计算及聚类分析。利用同现分析技术自动构建的叙词献的分类、主题标引、目录组织及馆藏排架,其检索功表具有良好的文献保障,并能探测到自由文本库中潜能不强,分类检索途径形同虚设。在的知识框架[3]。如美国学者Crouch分别在1988年和1992年实现从文本关键词自动生成叙词类别,应用2 传统知识组织系统重构的目标及主要内容于标引文献和用户提问。传统知识组织系统应用于网络环境中的局限是其·概念空间方法。美国学者等提出了一重构的动因,计算机技术和网络技术的迅速发展为其种基于不对称的词汇相似度算法的词表自动生成方重构提供了技术上的支持。传统知识组织系统应在内法,亦称概念空间方法。概念空间是词汇和词汇之间容、结构等方面进行改造,创建可应用于网络数字环的权重关联组成的语义网络,代表了潜在于信息空间境,支持网络资源知识组织和智能检索的网络知识组的概念和它们的关联,并能辅助基于概念的检索[4]。织系统。重构的目标如下:a.简单易用;b.机器可理目前,该方法已被运用到诸如生物学、医学等多个检索解、可处理;c.具备一定的自动更新与自动丰富的能领域以及网络信息检索系统,在这些系统中,概念空间力;d.支持对网络信息资源的自动分类和自动标引;e.被用于交互式的修改检索提问。概念空间方法归纳起互操作性与可复用性[2]。重构的内容包括:a.叙词表来可以分为以下几个步骤:词汇收集、过滤、选词及词的改造、重构,使其在内容上能及时吸收新概念、新术组识别、共现分析以及联想检索。语,拓展语义关系,适合普通用户直接使用。该部分的·贝叶斯网络方法。贝叶斯网络建立在词汇依存内容主要包括:词表的自动生成与自动丰富、叙词表向关系上,描述了语词之间的概率相似性分布,能够克服本体的转化、叙词表的可视化。b.传统文献分类法的采用统计同现率的方法构建叙词表常遇到的数据稀疏改造、重构,使其适应网络信息自动分类的要求。c.知问题[5]。贝叶斯网络方法首先需要建立同位图,然后识组织系统互操作。通过不同知识组织系统间的兼容利用同位图计算语词相似度,最后根据语词之间的相转换实现分布式资源集成检索。似度,采用Sim聚类算法把紧密相关的词汇聚集成叙词类,实现词表的自动构建。3 传统知识组织系统的重构除了以上介绍的几种自动构建词表的方法外,目 叙词表的重构前应用的方法还有:基于互操作的词表自动构建方法、 叙词表的自动构建与自动丰富。利用网络链接结构特征构建叙词表、通过语法分析自a.叙词表的自动构建。目前,网络信息检索以基动构建词表、利用用户检索策略构建词表等。在众多于关键词字面匹配的全文方式为主,检准率低下是其的词表构建方法中,统计方法仍是主流,其中对基于同不可逾越的一道障碍,将叙词表的控制机制引入检索现分析的词表自动构建方法研究最多,但无论采用何系统中,使检索从字面匹配提升到概念匹配从而实现种方法,自动构建的词表均有如下不足:a.各种词表自概念检索,是解决该问题的有效途径之一。但传统的动构造技术本质上都是基于对文中词汇的同现统计分叙词表是依靠手工维护的,其缓慢的更新远远跟不上析,识别的只是词与词之间的相关关系,等级和等同关领域知识的迅速发展。此外,将传统叙词表移植到计系的确定比较模糊,而相关关系是传统词表中最弱的算机检索系统中,还必须经过大规模的修改、增补。上关系。b.相似度计算的运算量大,一定程度上影响效述两方面的原因直接影响了叙词表在网络环境下的推率。要进一步识别词间关系,特别是等同等级关系,自广应用。为此,信息领域专家学者研究的热点逐渐转然语言处理、人工智能等技术的发展要达到较高的水向叙词表的自动生成,即从自由文本中挖掘词和词间平,目前较为现实的方法是对现有词表自动或半自动
·1 16 · 情 报 杂 志 第30卷丰富。 叙词表的可视化。网络环境下,叙词表已b.基于现有词表的自动丰富。国内学者王军探讨有的参照系统、传统图示静态局部表示方法以及电子了一种基于手工编制词表,从已标引的结构化语料库版、网络版叙词表的主题树线性结构表示方法均不能中提取专业领域词汇自动丰富现有词表的方法。这一动态、全面、直观地显示词间关系,不便于用户浏览和方法以文献书目数据为语料,从文献标题中抽取关键检索。词,通过对标题中的关键词和标引词之间的同现分析JAVA开源语言的快速发展,为信息可视化提供而得到新词和词表中的主题词之间的关系,并把该关技术和接口支持,语义网概念和技术的发展,元数据、键词作为该主题词的下位词添加到词表中,从而实现本体、主题图等为叙词表词间关系可视化提供知识组标题关键词在现有手工编制词表中的定位,完成对现织技术。叙词表的可视化就是利用信息可视化技术将有词表的自动丰富。用该方法构建的词表既增添了能叙词表中的语词、概念和词间关系转化为图形和图像反映领域最新发展的新词,又保留了传统词表中丰富等直观的视觉形式[8],从而增强叙词表的直观性、易的词汇和词间关系,在一定程度上克服了通过统计方用性、动态性和可检索性。目前,广泛应用在概念图、法识别出的词间关系粗糙问题,减轻了编表负担,促进本体中的各种可视化手段已被逐步应用到各种数字化词表更新[6]。用这种方法构造的词表和知识库可以广叙词表的概念或结构的显示上。典型的词表可视化例泛应用于Web信息检索、自动分类、自动聚类以及其子如英国文化遗产图示叙词表(HeritageIllustrated他基于内容的文本分析和处理中。大量的试验证明了Thesaurus),用于帮助用户建立检索提问和控制检索这一方法的的可行性。范围。国内南京农业大学的李华、刘竟、侯汉清利用本 叙词表向本体的转化。本体是某一领域体构建工具Protégé对中国传统农具专业叙词表中中的概念及概念间关系的规范说明,提供对领域知识130个叙词和非叙词实现可视化。的共同理解与描述。本体随着语义网的研究和应用的 传统文献分类法的改造、重构 基于机器学习流行,它是知识工程、系统建模、信息处理、语义Web的自动分类是目前自动分类领域的主流技术,其中的服务等应用的关键所在,能支持知识浏览、概念检索、贝叶斯分类、支持向量机、K-近邻分类、神经网络算法词汇提示等基于内容的高级服务[2]。但本体的构建十等已经是比较成熟的技术,并广泛应用到多个领域。分复杂,它需要领域专家的手工劳动,是开展基于本体机器学习方法的实质是一种文献保障方法,由训练和应用的最大瓶颈。分类两个阶段组成。在训练阶段,先收集与待分文档传统叙词表由于其丰富的概念、词汇及清晰的语同处一个领域的已由专家分好类的文档作为训练集,义结构,为本体的构建提供了极大的便利,传统叙词表采用统计方法从大规模训练文本中学习类的特征,建转换为领域本体的主要目标:一是继承词表中丰富的立规范化的类别特征向量,来构建分类器;在分类阶词汇,二是对概念、关系进行凝炼和结构化处理,以满段,将待分类文献的特征词串与分类器各个类目特征足概念推理的需要。基于叙词表的领域本体构建主要进行计算比较,得到分类概率最大的类目[9]。包括以下几个主要步骤:a.领域本体的信息收集与分但利用机器学习方法也存在一些难以解决的问析;b.领域本体的详细设计;c.领域本体的表示。其中题,如多层分类问题。基于机器学习的文本分类技术领域本体的详细设计是领域本体构建的核心阶段,其是在全文环境下发展起来的,现有文献所报道的大多主要流程是[7]:根据叙词表确定领域中核心概念集,数实验都是采用单层分类,即类别间是孤立的,相互之即通过对叙词表中的叙词及词间关系进行处理和精间没有必然联系,分类类目大多是浅层次的粗略分类。炼,将叙词转换成领域本体中的概念;根据叙词间的层而传统文献分类法(如DDC、UDC、LCC、中图法等)一次关系确定所对应的领域本体中概念间的等级关系;般都包含几万个类目,具有很深的等级层次结构,采用参考叙词的限义词注释为领域本体中的概念添加属这些分类体系实现自动分类,最大的障碍是类别关系性;参考叙词间的关系为领域本体中的概念添加关系;复杂和互相干扰、稀疏数据以及不同类别层次间分类为领域本体中的概念添加实例。错误的传播,导致了基于机器统计学习的自动分类技目前,已经有多种叙词表被用各种方法转换为领术在此类多层分类上的力不从心。为此,有必要对文域本体,如阿姆斯特丹大学的等采用献分类法进行改造、重构,以便于机器的理解和学习。Protégé-2000作为本体编辑工具,RDFS作为表示语改造、重构的主要内容包括[2]:一是缩短类号。将类号言,将《艺术与建筑叙词表》(AAT)转换为本体;联合的长度控制在合理的范围,从而减少参与分类的类特国粮农组织(FAO)利用RDFS将Agrovoc叙词表转换别是稀疏类的数量。二是改造文献分类法的等级结为农业本体。构。主要是压缩类的等级结构,平衡文献分布,合并稀
第7期 李育嫦:传统知识组织系统的重构及其在网络环境下的应用·117·疏类等。关系,而不只是概念的等价性链接起来创建的知识组近年来,OCLC和欧盟在数字信息资源自动分类织体系,如CAMed。和主题识别领域开展了多个研究项目,如OCLC的e.中心转换(Switching)。主要借助一个中介词Scorpion项目、欧盟的DESIRE项目、德国的GER-典或称转换语言来实现不同知识组织体系的转换。HARD项目等。这些项目研究了利用传统文献分类法在上述的互操作实现模式中,映射是实现互操作如DDC、EI、UDC等对网络信息资源进行自动分类和的主要方式。主题识别。国内的自动分类研究也取得了一定进展,近年来,国外有关知识组织系统互操作的研究成北京大学的王军博士在改造文献分类法,以实现基于果显著,其中UMLS、Renardus、HILT、GEMET、MACS机器学习的书目数据自动分类方面做出了有效的探等项目的成果已应用到具体的知识组织与服务中,成索。他领导的课题小组应用计算语言学基于语料库的为解决分布式异构数据库一站式检索的重要技术方统计方法,以美国国会图书馆十年的书目数据作为训式。练数据集,构建分类器和标引器,根据书目记录在DDC类体系中的分布特性,通过收缩、合并、截枝等手4 网络环境下知识组织系统的应用段重构DDC,使之易于机器学习,以实现一个可应用 信息检索 重构后的知识组织系统在网络信于实际分类工作的DDC分类系统[10]。息检索中的应用主要体现在以下几个方面:a.作为关 知识组织系统互操作 在传统知识组织系统键词检索的查询扩展和精化;b.作为信息导航的知识重构的研究中,对单一知识组织系统的丰富和完善已框架;c.作为交叉浏览与检索的支撑。不再是唯一的主流方向,目前研究的另一重点是知识 检索扩展与精化。a.基于叙词表的语义组织系统间的互操作。知识组织系统互操作是指不同扩展检索。借助叙词表中的概念语义关系扩展与精化知识组织系统之间的兼容互换,即用某一知识组织系用户检索式是各种网络信息检索工具提高其检索性能统中的词汇及其构造的检索式能够直接或通过转换适的常用方法[12]。如利用叙词表词间关系实现扩检和用于多个信息系统,主要包括同构知识系统的互操作,缩检,利用叙词表中的规范化主题词对检索词进行控如多个叙词表或多个分类表之间的互操作,以及异构制,利用同义词环在搜索引擎检索中的扩展应用提高知识组织系统的互操作,如叙词表与分类法、术语表的其检索效率等。b.基于本体的语义检索。本体的应用集成。知识组织体系互操作是实现分布式资源集成检主要集中在网络检索系统及数字图书馆等领域。本体索以及交叉浏览的有效方法。描述了概念及概念之间的各种关系,基于本体的语义知识组织系统互操作主要为解决知识组织系统应检索支持知识浏览、概念检索、词汇提示、搜索归类等用中面临的异构、跨领域和多语言问题。其实现的技基于内容的高级服务,从而克服机械式字面匹配的缺术概括如下[11]:陷。a.演化/建模(Derivation/Modeling)。以现存的 信息导航。绝大多数分类聚类体系在网综合性词表为模型,建立专业的或简化的词表。如络环境中的应用都体现在作为一个信息浏览的知识框MeSH、FAST的创建。架来组织和展示信息,提供分类导航服务[12]。如基于b.翻译/改编(Translation/Adaptation)。从其他语粗略分类体系的网站分类导航,主要应用于Google、言的词表翻译、改编形成自己的词表。如DDC已被翻Yahoo!等综合性网站;基于文献分类法的学科信息译成30多种语言。门户导航,主要用于检索网络上高质量的学术资源,如c.映射。包括直接映射和共现映射。直接映射英国的BUBLLINK、美国的INFOMINE等;而对于其(DirectMappping)是基于不同知识组织系统自身体系他生活类信息资源的描述和组织则催生了基于用户参结构建立的映射,具体是指不同的受控词表之间或词与组织的大众分类法,这是一种新的、动态的、以用户表与分类号之间建立等同词联系,包括人工建立映射为中心的信息导航方式。和计算机辅助实现两种方式。如DDC与LCC、 交叉浏览与检索。即用户在一个系统中与MeSH、DDC与NLMC采用了直接映射方法。共现可以自由浏览和检索其他系统中的同一概念内容,一映射(Co-occurrenceMapping)是根据同一元数据或编个提问式能够获取多个相关数据库中的数据。交叉浏目记录中同时出现的来自不同体系的术语建立连接关览与检索是解决跨语言检索兼容问题以及实现“一站系。如OCLC的LCC与LCSH采用了共现映射的方式”检索的有效途径之一,一般通过知识组织系统间法。的互操作来实现,如欧盟的Renardus项目。d.链接(Linking)。将词汇与其他词汇根据语义 术语服务 在Web上建立语义信息的“规范
·1 18 · 情 报 杂 志 第30卷控制”,术语服务是其实现的基础之一。术语服务是际水准的管理和服务。知识地图是电子政务中知识组用于展示和应用各种类型知识组织资源(包括规范文织最常见的方式,此外,分类法、元数据、本体等方法都档、主题词表、分类表等)的Web服务。其目标是为人被用于电子政务的知识组织。如澳大利亚政府网站采和计算机获取和理解知识组织资源中的概念体系、词用分类法组织信息,挪威的ONTOPIA采用主题图组汇及概念关系提供方便[13]。主要用于检索、浏览、翻织信息。译、映射、语义推理、主题标引和分类、获取、提示等等。术语服务是知识组织系统网络化的一个有效方5 结 语法,其目的不仅是要用不同的格式存取知识组织系统传统知识组织系统在传统的文献信息组织与检索和提供分布式的词汇服务,更重要的是使之成为语义中发挥了巨大的作用,对传统知识组织系统的改造、重网中的数据资源。国外一些信息机构如OCLC、FAO构是网络数字环境下知识组织的要求。随着计算机技等都开展了有关术语服务的研究活动。如OCLC的术和语义网技术的发展,对知识组织系统的研究将更术语服务,主要研究词表映射匹配以及在此基础上实加深入,如何丰富和拓展知识组织系统的结构和功能、现词表之间的互操作,提供易访问、模块化、基于Web如何集成各种知识组织系统应用于数字图书馆或网络的词汇服务。类似的项目还有:AGROVOC网络术语信息组织中、如何将知识组织系统与技术结服务、STAR及EPA等。合、如何开辟知识组织系统新的应用领域等都将成为 知识组织系统的其他应用 知识组织系统,尤知识组织系统研究的热点。其是新型知识组织系统(如本体)的应用有很多,如在参考文献网络学习、电子政务、电子商务、农业、医学等领域均有相应的应用。本文主要简述其在E-learning及在电子[1] 曾 蕾.网络环境下的知识组织系统[J].现代图书情报技术,政务系统中的应用2004(1):2-3。[2] 王 军.数字图书馆的知识组织系统—从理论到实践[M].北 在E-learning系统中的应用。E-learning京:北京大学出版社,2009也称为网上教育、网络学习,指通过因特网进行的学习[3] 杜慧平,何 琳,侯汉清.基于聚类分析的自然语言叙词表的与教学活动,它充分利用现代信息技术所提供的、具有自动构建[J].国家图书馆学刊,2007(3):44-48全新沟通机制与丰富资源的学习环境,实现一种全新[4] 朱晓华.基于概念空间方法的信息检索技术研究[J].大学图的学习方式。在E-书馆学报,2003(2):47-51learning的学习环境中,汇集了大量数据、档案资源、程序、教学软件、兴趣讨论组[5] 杜慧平,仲云云.自然语言叙词表自动构建研究[M].南京:东、新闻组等学习资源南大学出版社,2009,形成了一个高度综合集成的资源库。[6] 王 军.词表的自动丰富—从元数据中提取关键词及其定位目前在E-learning领域,各种知识组织系统与方法都[J].中文信息学报,2005(6):36-42得以应用。国外的E-learning发展比较成熟,大多数[7] 司 莉.KOS在网络信息组织中的应用与发展[M].武汉:武具备E-learning功能的网站,其资源组织多采用叙词汉大学出版社,2007:172表、分类法、本体、主题图等多种形式,且在实际应用过[8] 刘 俊,李 华,侯汉清等.叙词表词间关系可视化实验研究程中往往是多种知识组织系统集成使用[12],如美国教[J].大学图书馆学报,2008(1):61-65育资源中心系统[9] 薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分(ERIC)。国内成熟的E-learning系统以提供教学资源访问为主,其资源的组织方法以主类模式比较[J].中国索引,2005(1):37-43[10]王 军,张 丽.网络知识组织系统的研究现状和发展趋势题法、文献分类法居多,基于本体的E-learning系统尚[J].中国图书馆学报,2008(1):65-69处于试验模型阶段。[11]李育嫦.网络数字环境下知识组织体系的发展现状及未来趋 在电子政务系统中的应用。电子政务,就势[J].情报资料工作,2009(2):45-48是应用现代信息和通信技术,将管理和服务通过网络[12]薛春香.网络环境中知识组织系统构建与应用研究[M].南技术进行集成,在互联网上实现组织结构和工作流程京:东南大学出版社,2009:194-205的优化重组[13]司 莉,徐丽晓,吴 钢等.OCLC术语服务研究:背景、进展,超越时间和空间及部门之间的分隔限制,与启示[J].中国图书馆学报,2007(1):58-61向社会提供优质的、全方位的、规范而透明的、符合国(责编:刘影梅)