中国科学技术信息研究所硕士学位论文知识抽取系统中学术概念属性的抽取AttributeExtractionofAcademicConceptionInKnowledgeExtractionSystem姓名:丁君军申请学位级别:硕士专业:情报学指导教师:郑彦宁2011-05
知识抽取系统中学术概念属性的抽取摘要学术文献是科研成果的结晶,蕴含着丰富的知识和智慧,面对当前知识爆炸,人们需要对其进行有效的组织和管理。知识抽取是对学术文献中知识点进行抽取,以格式化的形式存入知识库,是对文本知识组织的一种新的方式,属性抽取作为知识抽取的一种应用,是将不同文献中对于某一学术概念的属性集中起来,有助于全面地了解这些学术概念。本文通过对国内外属性抽取的研究热点、对象、方法和结果评测等方面进行综述分析,发现从学术文献中进行抽取非常具有价值,是文献处理的一种潜在发展趋势。本文对知识抽取系统中学术概念属性的抽取进行了研究,首先对抽取规则的形成方法进行了探讨,提出一套学术概念属性规则的构建流程,并通过大量的文献阅读和分析,人工构建了属性抽取的九大类的抽取规则,还对属性描述的数量关系和情感信息进行了讨论;然后对知识抽取系统中属性抽取系统进行了设计,确定了一套属性抽取的流程,并对系统中文献内容解析模块、文本预处理模块、规则构建模块和属性抽取模块这四个关键模块的进行了具体阐述;最后对属性抽取系统进行了实现,并把机器抽取的结果和人工标记的结果进行了结果测评,还对结果进行了分析,找出当前研究的不足和下一步工作的方向。本文的创新点是采取知识单元的方式从学术文献中抽取知识点,并对属性描述进行了数量关系和情感信息方面的分析。本文通过《情报理论与实践》2009年的387篇全文进行阅读分析来构建抽取规则,并选取《情报学报》2007年140篇和2008年的113篇全文进行了实验,规则来源与实验数据选择不同期刊,说明规则具有一定的适应性;本文还对机器抽取结果和第三方人工标记结果进行7537了测评分析,为进一步的深入研究奠定了基础。图幅,表个,参考文献篇,其中英文参考文献12篇。关键词:属性抽取;知识抽取;学术概念;规则构建;正则匹配分类号:TP391,G35I
AttributeExtractionofAcademicConceptionInKnowledgeExtractionSystemAbstractAcademicpaperisthecrystallizationofscientificresearch,,Knowledgeextractionaimsatextractingknowledgefromthepaper,,itmakesattributeofcertainacademicconceptiontogetherfromthedifferentpapers,,,,,makesdetailedexplanationofthemajorfourmodulesofthesystem,whichisthecontentconvertingmodule,thetextpreprocessingmodule,rulesconstructionmoduleandattributeextractionmodule,inaddition,,wedosomeexperimentsonthesystem,,,,andmakeexperimentsonanotherperiodical,-partymanualmarkedresults,:AttributeExtraction;KnowledgeExtraction;AcademicConception;II
RulesConstruction;RegularMatchingIII
图目录图描述概念属性的规则构建流程图.............................................................17图属性描述存在于标题中的举例.................................................................18图属性按照数量关系和情感信息的四象限图.............................................19图基于NLP的知识抽取的系统架构...........................................................24图属性抽取系统流程图.................................................................................26图抽取循环控制算法.....................................................................................33图系统抽取结果在Eclipse中显示图...........................................................36VI
表目录表信息抽取与知识抽取的比较.......................................................................8表学术概念属性抽取的规则和相关例句.....................................................21表和PDFBox的实验比较.....................................................................27表抽取结果数据表的设计.............................................................................34表系统抽取实验的结果.................................................................................36VII
独创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的成果。尽我所知,论文中除已经加以标注和致谢的地方外,不包含任何他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中明确说明并表示了谢意。研究生签名:时间:年月日关于论文使用授权的说明本人完全了解中国科学技术信息研究所有关保留、使用学位论文的规定,即:所里有权保留送交论文的打印稿和电子稿,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意中国科学技术信息研究所用不同方式在不同媒体上发表、公布论文的全部或部分内容。保密的论文在解密后遵守此规定。研究生签名:时间:年月日导师签名:时间:年月日
引言引言题目背景、来源及意义随着我国科技的发展,科学研究的规模也越来越大,学术文献作为科研成果的重要一部分,其数量呈现了高速增长的趋势,目前我国的科技论文年发文量已进入世界前列水平。学术文献数字化在大力的建设着,全文数据库的得到了迅速的发展,国内三大全文数据库商清华同方、万方数据和重庆维普都推出了PDF等格式的全文文献。无论高校、研究所的科研人员还是企业研发人员,都会经常使用到学术文献,因为这些学术文献是科研人员成果的结晶,蕴含着丰富的知识和智慧,范围涉及到科学研究里的各个领域,是人们进行科学研究时最需要的参考文献。针对学术文献中的海量知识,人们需要对其进行有效的组织和管理,但目前的组织与利使用还都是以篇章为单位的,如何能打破以篇章为单位的组织方式,以更小的粒度进行组织与管理,是文献处理的一种潜在发[1]展趋势,因此以知识单元的形式组织知识的知识抽取就应运而生。本文研究的属性抽取是知识抽取系统的一个应用,是对学术文献中学术概念属性描述内容的一个抽取,是知识抽取的一种具体形式。本文的研究是国家自然科学基金项目《基于句子匹配分析的知识抽取研究与实现》的一个组成部分,本课题是对知识组织方式的一个新的尝试,是对学术文献中的知识点进行抽取,抽取出来结构化的知识可以构建成知识库,为以后的综述、报告等提供参考。知识抽取的研究能够为学术文献中的知识组织和管理提供新的方式,全世界的知识总量每年剧增,本文研究的意义是对当前的知识爆炸提供一种解放方案,将文献处理的颗粒度从篇章层次细分到句段层次,以句子为单位抽取文献中的知识单元,实现在知识单元上的组织、管理和利用,知识抽取中句子匹配和句子相似度计算的技术也能为以后文献自动综述和学术文献抄袭的自动判定提供服务。属性抽取作为知识抽取中的一种应用,能将不同学术文献中对于某一学术概念的属性描述集中起来,从不同的角度反映这个学术概念的相关情况,对这些学术概念的属性进行抽取有助于全面地了解这些学术概念。研究内容与方法本文的研究主要是对属性抽取的一个探索,具体内容包括对属性抽取国内外研究现状进行综述,对信息抽取和知识抽取进行了介绍,通过大量的文献阅读1
引言构建了属性抽取的规则,然后对抽取系统进行了设计和具体实现,并对一些学术文献进行了抽取实验,还对实验的结果进行了测评和分析。本文中使用的方法有:(1)文献调研,通过文献查询和大量的文献阅读,对相关的研究进行了深入调研,对当前属性抽取的研究现状和未来发展趋势进行了阐述,并参考和借鉴已有的相关研究;(2)规则构建,通过大量情报学领域文章的阅读分析,对概念属性描述的规律进行总结,然后对属性抽取的描述规律进行统计形成规则,并对规则进行分析和优化,再不断完善规则来构建抽取规则;(3)实验分析,根据构建好的规则,设计一套属性抽取系统,利用正则表达式的匹配实现属性抽取,通过实验对学术文献中学术概念的属性抽取进行实验,并对实验的结果进行测评和对比分析。本文的逻辑体系和结构安排本文的正文共安排五个章节:第一章:主要是对相关的概念和技术进行了介绍,对学术概念的范畴及学术概念的属性进行了介绍,然后对信息抽取和知识抽取进行了介绍和比较,并对常用的抽取模型进行了介绍。第二章:相关文献的综述,对国内外属性抽取的相关研究进行了分析,并且对属性抽取的研究热点、属性抽取的对象、属性抽取的方法和属性抽取的结果评测形式等进行了展开论述,力求反映属性抽取研究的现状。第三章:对抽取规则的形成方法进行了探讨,然后对学术概念属性规则构建的流程进行了介绍,并通过《情报理论与实践》大量原文的阅读和分析,构建了属性抽取的九大类的抽取规则。第四章:对知识抽取系统中属性抽取系统进行了设计,确定了一套属性抽取的流程,并对系统中文献内容解析模块、文本预处理模块、规则构建模块和属性抽取模块这四个模块的进行了具体阐述。第五章:介绍了属性抽取系统中关键技术、开发环境和数据库设计,并对属性抽取系统进行了具体实现,此外还对2007年和2008年《情报学报》的全文进行了抽取实验,并对实验的结果进行测评和分析。结论部分是对本文研究的总结,并对下一步研究工作进行展望。2
第一章相关概念和技术1相关概念和技术学术概念的范畴学术概念是指一个学科领域中核心的理论、方法和指标等,是学科领域里表示概念的术语集合,包括了学科中核心的名词,在一定程度上能反映一个学科[2]的情况。学术概念的基本特征有:①专业性,学术概念是表达特定领域内的概念,通行范围也仅限在该学科内,具有非常强的学科性和专业性;②科学性,学术概念的语义范围准确,它的提出是科学研究的产物,经过科学的论证而提出的精确词语;③单义性,学术概念与普通概念的最大区别在于它的单义性,即在某一特定的学科范围内一般是单义的;④系统性,在一门学科或领域中,每个学术概念的地位只有在这一学科的整个概念系统中才能加以规定。本文研究的是情报学领域的学术概念属性抽取,情报学领域的学术概念是指能代表情报学学科的核心术语,包含着情报学领域核心的理论、方法和指标等,如“实物情报”、“h指数”、“文献计量学”等。情报学领域的学术概念可以通过情报学家的依据经验和积累进行提出和形成,也可以对情报学学术文献的关键词进行提取,筛选出情报学文章里热门词语,另外还能从相关情报学词典中寻找学术概念,情报学学术概念的来源有《中国情报学百科全书词条》、《图书馆学情报词典》、《英汉图书馆情报学词汇》等。属性的介绍属性是事物的本质性质,庄寿强认为属性是事物本身所固有的性质,故此属性都是客观存在的,是随着事物的存在、变化而存在、变化的,它们不以人的[3]意志来决定,也不以人的愿望而转移,这就是属性的客观性,例如事物的化学属性是事物在发生化学变化时表现出来的性质,如酸性、碱性、化学稳定性等;事物的物理属性是指物质不需要发生化学变化就呈现出来的性质,如颜色、状态、熔点、沸点、密度等。属性是指事物本身所固有的性质,是一个事物区别于其他事物的特征。事物的属性通常是从多个方面和多个层次来表现的,因此事物的属性是多样性的。研究事物需要识别出这些事物的属性特征,通过事物可以深入了解这些事物的3
第一章相关概念和技术特征和内涵。属性是一种多集合性的,一个事物有着多个属性,事物和属性之间是一对多的关系。学术概念和普通概念一样,存在着对其进行描述的属性。学术概念的属性是指对学术概念特征特点及优缺点的描述,如对概念正面属性的描述词语有“优点”、“优势”、“好处”、“正面”等,负面属性描述的词语有“缺点”、“劣势”、“负面”、“局限”、“缺陷”、“不足”等,也有一些对概念属性的中性描述的词语,如“特点”、“特征”、“性质”、“属性”等。学术概念的属性是多集合性的,一篇文献中可能有多个概念,一个概念也有着多个属性,概念和属性之间是一对多的关系。属性抽取是将不同信息源对于某一事物的属性集中起来,能从不同的角度反映这个事物的相关情况,对这些事物的属性进行抽取有助于全面地了解这些事物。对学术概念属性的抽取是将不同文献中对于某一概念的属性描述集中起来,能从不同角度反映概念的属性,对这些概念的属性进行抽取也有助于更加全面地了解这些概念。例如在全文数据库里查找关于“h指数”属性的论文,在传统的环境下只能把和“h指数”相关的所有论文下载下来,然后一篇一篇地阅读,可能一篇文章要看的也就几句话而已,或者有些文献里面并没有相关内容,这样无疑效率很低,如果有知识抽取技术的支撑,可以通过属性抽取系统把所有h文献中关于“指数”优缺点的所有相关知识单元都抽取出来,然后以结构化的方式把其所有的相关知识整合在一起,通过属性抽取知识库的查询就能方便查找出某一学术概念的属性,例如通过属性抽取系统,可以查询到“h指数”的属性有:“具有简单、明晰、易于记忆的特点”、“h指数随着时间推移逐年攀升,具有明显的只升不降的特点”、“h指数在科研评价中更加科学、合理和公平”、“h指数的区分度和灵敏度差的缺点”等,通过这些多角度的属性描述,可以对h指数的特点有着较为全面的了解。信息抽取信息抽取技术信息抽取是指从文本中抽取出符合某些事先定义的模式的信息片断并将之[4]结构化存储的过程,信息抽取是一种自然语言处理技术,利用计算机从自然语言文本中抽取相关实体、实体关系等信息,并进行结构化的储存和管理,供后续的查询、深层挖掘、自动回答等应用。信息抽取的研究开始于二十世纪六十年代,但真正主流研究起源于1987年的MUC(MessageUnderstanding[5]Conference)会议,它是八十年代末美国国防部的国防高级研究计划局(DARPA)发起的,旨在利用自然语言处理技术来对文本进行深入的信息抽取的研究,通过一系列的系统测评和评估来提高抽取系统的性能。4
第一章相关概念和技术MUC会议的目的是为了评估和促进文本理解的研究,MUC的每次会议都会聚集各机构的大量信息抽取研究人员,大会的参会者会在参会之前设计好各MUC自的信息抽取系统,通过准备好的语料对参会者的抽取系统进行功能和性能的测评,并对每个抽取系统的抽取效果进行打分,MUC的系列会议为信息抽取的发展和研究起到了很大的推动作用,其评价体系也成为了信息抽取研究的标准体系。另外一项推动信息抽取研究进步的是ACE(AutomaticContent[6]Extraction)会议,ACE会议与MUC会议类似,都是侧重关注于信息抽取系统的测评,该会议主要评测自动抽取新闻语料中出现的实体、关系、事件等内容,ACE语料中标注任务对应于其三个研究目标,即实体的识别、关系的识别以及事件的识别,ACE会议的测评将信息抽取研究引向了新的高度。国内对信息抽取技术的研究起步较晚,最早关于“信息抽取”的学术文献开始于二十世纪九十年代,刘挺等在《基于信息抽取和文本生成的自动文摘系统[7]设计》一文中对信息抽取进行了介绍,他指出“信息抽取的目的是利用语言学知识,主要是词语知识和篇章结构的知识,从文中抽取出特定内容,从而避免对全文进行深入的理解。”目前,国内从事信息抽取研究的机构已经很多,如北京大学计算语言学研究所、哈尔滨工业大学计算机学院信息检索实验室、微软亚洲研究院自然语言处理研究组等。目前,国内外相关大型信息抽取系统已经有很多,英国谢菲尔德大学的自然[8]语言处理研究组开发了一个开源GATE系统,GATE可以通过基于其框架的ANNIE组件进行抽取,采用流水线的方式,经过预处理过程、命名实体探测过程、事件探测过程实现对文本的抽取。于1998年开发的一个文本[9]进行信息抽取系统WHISK,WHISK系统处理能力很强,包括网页半结构化文本和纯文本,系统能从给定的训练集中归纳抽取规则,通过指导学习算法,从一个空规则集开始,进行循环,自上而下学习分类归纳规则,WHISK通过种子信息训练进行信息抽取。近来年,信息抽取技术的研究与应用非常活跃,每年仅中文关于信息抽取的期刊论文和会议论文就达上百篇。信息抽取在研究方面侧重利用机器学习的方法,来提高和增强系统的性能和可移植性,以探索和实现无领域性的通用抽取系统;在应用方面扩大抽取范围,探索到网页以外的其他文本内容的抽取,抽取的领域扩大到旅游、医疗等领域的抽取。信息抽取的处理对象信息抽取的抽取对象可分为三种:无结构文本、半结构化文本、结构化文本[10]。针对不同的信息源,信息抽取的方法有着很大差别,它抽取系统的原理和方法基本类似,都要对文本进行预处理,即语法语义进行处理。无结构化文本即自由文本,是目前信息抽取的主要处理对象,也是信息抽取5
第一章相关概念和技术中难度最大的一个对象。在历次的MUC会议和ACE评测中,都是对无结构化文本做进行的信息抽取测评。在MUC和ACE评测的推动下,现在无结构化文本的信息抽取已经细化到如下几个主要方面:命名实体识别与跟踪,实体关系识别与跟踪,事件的识别与抽取等几个方面。这几个方面多年来都获得巨大的发展,有些问题基本以获得解决,实体识别已达到很高的效率,可以实现商业化应用,而有些则还处于发展阶段。半结构化文本是一种介于无结构化文本和结构化文本之间的一种数据形式,如Web网页,Web上目前出现了大量的半结构化的文本信息,即各种不同类型的网页,这些Web网页上的信息具有一定的规则,但各自的规则又不是相同的,各自有自己的页面结构特点,又如文本格式的法律条约、专利文献等,虽然表面无结构化文本,但其实它们存在着固定的内容结构模式,因此也属于半结构化的。半结构化文本的信息抽取也需要自然语言处理过程,包括对文本的句法分析、语法分析和实体识别,通过对每个网页分析构建规则,规则的构建通过人工识别和机器学习的方式。结构化的文本是指已经通过特定的规则或符号来表达的文本结构。结构化文本本身已具有结构化的特征,对其抽取比较方便且具有规则,一般不再进行抽取研究。对结构化的文本进行的抽取有对数据库进行的抽取,也有对百科全书中知识点进行再组织。知识抽取知识抽取技术知识抽取是在信息抽取发展的基础上提出的概念,将抽取的对象从实体和实体关系等信息扩展到了知识点。知识抽取是把蕴含于文本文献中的知识经识别、理解、筛选、格式化,把文献的每个知识点抽取出来,以格式化的形式存入知[11]识库,知识抽取的目标是从大量的文本中抽取出所需要的知识。知识抽取的过程需要充分理解文本的结构,经过自然语言处理各个层面的分析,需要分词、句法分析、语义分析甚至语用分析,从完全自由的文本中抽取知识点,文献中所蕴含的知识点抽取出来存入知识库,是对文本知识的一种新的组织方式。目前,国内外对知识抽取已经有相关研究,荷兰特温特大学的Plinius知识[12]抽取项目,通过对文本进行预处理,再对文本进行语言处理,通过语法、词典、本体知识库、背景知识库等资源的协助,最终获得知识库进行储存,它是一个人工参与的辅助知识抽取系统。英国南安普敦大学把知识获取和本体结合[13]了起来了,开发的ArtEquAKT项目能够自动地从网页中抽取艺术家的信息,将这些信息自动地输入事先设计的领域本体中,根据用户的需求从知识库中抽6
第一章相关概念和技术取和构建信息,从而自动产生艺术家的生平传记。OntoText实验室也开发了一[14]种新颖的知识和信息管理架构和服务平台KIM,基于本体和大型知识库对开KIM放领域的非结构化和半结构化内容进行自动语义标注、索引及检索,提供最小但足够的本体集合来满足开放领域中通用的语义标引,KIM中的知识抽取可以看作是一个传统的命名实体识别和标注过程。国内对知识抽取的真正研究还相对较少,西安电子科技大学的温有奎等已通过对文本的知识挖掘,从论文[15]中抽取出论文的创新点,中国知网也推出了一些知识抽取相关的平台,其链接为:
第一章相关概念和技术从表中可以看出信息抽取和知识抽取最大的区别就是它们的处理对象不同,一般而言,信息抽取是抽取指定的实体和实体关系等信息,形成结构化的数据库,知识抽取系统的目标也是形成结构化的知识库,但知识抽取的是完整的知识单元,抽取的主体多以句子或句段。信息抽取和知识抽取存在着紧密相连的关系,信息抽取和知识抽取相辅相成,都为自动的知识获取提供帮助,知识抽取是在信息抽取的基础上进行的文本深层次知识点的挖掘,知识抽取是抽取技术的一个发展方向。知识抽取与概念检索概念检索是一种语义检索,是把信息检索与人工智能技术、自然语言处理技术相结合的具有一定智能的检索。概念检索的核心是扩展检索和相关概念联想,借助于概念词典,能够提供比全文检索更为智能化、知识化的服务,其根本基[16]础在于拥有比全文检索更为丰富的知识。概念检索技术在查全率和交互性方,面较好,可以提高检索系统各方面的性能,实现优势互补概念检索技术是未来[17]全文检索技术的一个发展方向。知识抽取与概念检索存在着密切的联系和异同:两者都是通过概念围绕知识库进行操作,都涉及到语义处理过程,都限定在某个领域进行实现;但知识抽取的目标是从大量的文本中抽取出所需要的知识,构建相关知识库,而概念检索的处理过程恰好与知识抽取相反,是从已经构建好的知识库里通过智能概念检索出相关知识,前者是抽取出知识构建知识库,后者是从知识库中检索出知识。知识抽取可以应用于概念检索,提高检索的质量与精度,反之,概念检索的应用也会对知识抽取提出更新的挑战。常用的抽取模型介绍抽取规则的构建一般有基于规则的知识工程方法和基于统计的机器学习的方法,机器学习的方法中近年来已出现许多学习模型,比较典型的抽取模型有HiddenMarkovModelHMMMaximum隐马尔可夫模型(,)、最大熵模型([18]Entropy,ME)和条件随机场(ConditionalRandomFields,CRFs)等。隐马尔可夫模型(HMM)是一种统计分析模型,创立于二十世纪六十年代后半期,之后HMM模型成为了信号处理的一个重要方向,现已成功应用于语音识别、行为识别、文字识别以及故障诊断等领域。最大熵模型(ME)也是一种统计学习模型,主要的最大熵模型有Wilson模型和Sasaki模型,ME模型的核心就是在已知限制条件下,未知的概率分布应该均等看待。条件随机场(CRFs)也是一种重要的统计学习模型,2001年由Lafferty提出。CRFs是一种标注、切分序列数据的概率模型,结合了各种领域知识与有限状态机解码,算法比较复8
第一章相关概念和技术杂,属于有指导的判别训练模型。基于统计模型的机器学习方法通过训练语料来自动构建抽取模型,模型的构建需要大量的标注语料,具有较强的自动化构建规则性能,但对于新的领域或没有实验语料的情况下,模型的适应性较差。9
第二章属性抽取研究综述2属性抽取研究综述国内外抽取方面的研究已经很多,而属性抽取作为其中的一种应用,在国内外也已经有着一系列的研究,其延续着抽取常用的方法和技术。属性作为事物本身所固有的性质,对研究事物本身具有非常重要的意义,而且属性抽取由于属性的一对多的关系,还存在着一些区别于普通抽取的特色,通过文献调研,可以对已有的研究进行参考和借鉴,并在此基础上设计出本文所研究的学术概念属性抽取系统。通过对国内外属性抽取研究的相关文献调研,对相关的研究进行了分析,并且对属性抽取的研究热点、对象、方法和结果评测形式等进行了展开论述,力求反映属性抽取研究的现状。属性抽取的研究热点在中国学术期刊网络出版总库()和ISIWebofScience()中,检索“属性and抽取”和“attributeextraction”等相关关键词时,共查到与属性抽取相关的研究有45篇(查询于2010年10月13日),其中一些研究是关于图像属性抽取和神经网络属性的抽取,这些文献虽然也包含“属性抽取”,但更侧重于图像识别技术和人工神经网络技术,而不是我们研究的抽取技术。与本文比较相关的属性抽取研究文献共有24篇,主要分为以下四类:人物属性抽取人物属性抽取是指对人物的基本信息进行抽取,比如人物的生日、出生地和工作等。英国南安普敦大学把属性抽取和本体结合起来,其ArtEquAKT项目能够自动地从网页中抽取艺术家的信息,将这些信息自动地输入事先设计的领域本体中,根据用户的需求从知识库中抽取和构建信息,从而自动产生艺术家的[13][19]生平传记。大连理工大学的叶正等从《知网》的自由文本中提取出人的性别、职务等属性信息,把描述人物属性的词看作是实体,把人物属性抽取看作[20]是实体关系抽取的具体应用。泰国的研究者开发了个人主页上人物信息自动抽取系统,抓取网页信息并把它送到抽取模块里面,通过预先设计好的抽取框架,用最小编辑距离算法将人的不同信息整合在一起。西班牙UNED大学的WePS项目通过对人物18个属性的逐一分析统计,从网页上抽取给定人名的18[21]个人物信息。[22]人物属性抽取可以用来构建人物信息库,武汉大学的陆伟等利用人物信10
第二章属性抽取研究综述息的抽取构建了企业专家检索系统,以方便寻找专家的特长。此外,人物属性抽取还能用于开发人物搜索引擎,综合搜索引擎也正往此方向发展,例如搜索“比尔·盖茨”,排在首位的可能直接是他的相关个人信息,而不用点开某个网页去浏览他的信息,这也是人物属性抽取的一个应用前景。产品属性抽取随着电子商务的发展,互联网堆积了数以亿计的产品信息,产品的描述、价格等信息对用户和制造商都非常有价值,产品属性的抽取正可以满足这一需求。[23]国内外对这方面的研究也较为活跃,郝博一等介绍了一种有效的产品属性挖掘系统,它以一个小型语料库作为基础,借助浅层语言分析工具,在评论文本中自动获取产品属性,并依据统计特征对抽取到的候选属性进行可信度排队,[24]将可信度高的候选属性排在队列的前端。伍星等采用基于弱监督的Bootstrapping方法,只需要提供少量的产品特征作为种子,从这些种子出现的语句中抽取文本模式,利用文本模式来发现新的产品特征,取得了较好的效果。[25]RayidGhani等设计了一个属性抽取系统抽取出商品的显性和隐性属性,来增加给零售商的商品属性数据库,利用一维和多维的半监督学习的学习算法,能[26]对大量的未标注的行业数据进行挖掘。BoWu等用贝叶斯定理训练方法确定属性的名称和属性的值在网页中的成对出现,并在三种不同产品的抽取实验中都取得了很理想的结果。产品属性的抽取可以增加对商品的描述,供应商可用来增加对零售商的商品数据库,搜索引擎也能通过抽取这些产品的属性来为构建购物搜索引擎,Google和有道等搜索引擎已经开通相关的服务。企业属性抽取企业层面的属性抽取,可以抽取企业的基本信息,用来构建企业黄页数据库,也可以对企业的外部环境中相关信息进行及时跟踪抽取,来满足企业舆情监测[3]的需求。张丙奇等根据规则,开发了一个对企业相关属性实体信息进行抽取的CAIES系统,根据中文企业网页对不同企业属性描述的特征,采用了不同策略来对这些企业属性进行识别和抽取,满足从网上获取企业竞争情报的实际需求。舆情监测是企业经营中的重要部分,企业应重视企业自身及外部环境的网[27]络动态,加强网络舆情监测,来增强企业自身的竞争能力。概念属性抽取概念属性的抽取包括通俗概念抽取和学术概念的抽取,对通俗概念的抽取研[28]究较多,吴月萍等针对当今搜索引擎查询准确度不高的问题,提出了概念分析法,利用Google查询的结果作为原始属性集,进行分类模型的过滤和人工测11
第二章属性抽取研究综述[29]评,经过反复的迭代,实现了基于Web的概念属性抽取。李景等利用本体中概念具有的“领域属性”来构建领域本体,对领域本体中的概念的领域属性进行了研究。对学术概念属性的抽取研究相对较少,学术概念是一个学科或领域里面核心的理论、方法和指标等,包括了学科里面核心的名词,在一定程度上能反映一[30]个学科的情况。王璐等针对科技术语的属性研究还不十分广泛,提出了一套科技术语属性的抽取流程:定义获取阶段、属性获取阶段、属性值计算阶段和分析阶段。然后通过对市场营销领域科技术语和属性之间的对应分析,确定了市场营销领域的科技术语的属性分布情况。学术概念的属性主要分布在学术文献里面,学术文献比普通文本和网页信息有着更好的质量和更高的权威性,因此学术概念的抽取研究有着很大的潜力和价值。通过上述综述,发现学术概念属性抽取与普通概念属性抽取存在着各自的目的:学术概念属性抽取是将某一概念的特点、特征和优缺点等属性信息或知识单元抽取出来,实现语义上的检索服务和构建知识库,将不同文献中对于某一概念的属性集中起来,对这些概念的属性进行抽取有助于更加全面地了解这些概念;普通概念属性抽取中人物属性信息的抽取用来构建人物信息库,构建专家系统,还能为搜索引擎提供信息源,产品属性的抽取有助于增加商品的属性信息,方便人们使用,构建商品数据库,还能为购物搜索提供信息源,企业属性信息的抽取,可以为企业提供舆情监控,还能用来构建企业黄页数据库。此外,学术概念的属性相对普通概念的属性有其特殊性,普通概念的属性多为事物客观特征的描述,如打印机的属性包括其“打印速度”“打印分辨率”等客观性质,而学术概念的属性多为作者对学术概念的主观评价,如h指数“计算简便”、“忽视了低被引文献”,这些具有作者主观的观点,蕴含着作者思考的结晶和智慧,是学术概念中非常有价值的一部分内容。属性抽取的对象属性抽取当前的研究热点是网页信息抽取,网页是一种半结构化的文本。在相关的属性抽取研究中,%的文献抽取对象都是WWW上面的信息,包括个人主页上的人物信息,企业网站上的企业信息,购物网站上的产品信息,Web数据库深层网络信息,以及Google搜索结果的信息。此外还有一些对自由文本和标注文本的属性抽取研究等。但是,以学术文献作为抽取对象的研究还很少,学术文献里蕴含着丰富的知识,凝结了科研工作者的巨大成果,人们需要对这些知识进行有效的组织和管理,但目前的组织与利用还都是以篇章为单位的,如何能打破以篇章为单位的[1]组织方式,以更小的粒度进行组织与管理,是文献处理的一种潜在发展趋势。12
第二章属性抽取研究综述属性抽取的方法属性抽取的方法是指属性抽取系统中抽取规则构建的方法,主要分为基于规则和基于统计两类方法,基于规则是一种知识工程的方法,依靠人工建立规则[31]来进行系统构建;而基于统计是一种机器学习的方法,具有很好的智能性。基于规则的抽取基于规则的方法是通过模式匹配,人工定义抽取的规则和模式,侧重领域分析和匹配模式定义,往往依赖于专业的领域背景知识。抽取人物属性时,把描述人物属性的所有可能出现的模式来进行匹配,虽然也能有较好的抽取效果,但是这个模式匹配的规则较多,不容易归纳完整,工作量非常庞大,遇到新的属性时,无法直接进行处理。所以基于规则的抽取存在着一些瓶颈:规则非常复杂,规则的设计过程工作量较大,而且很容易出错,难以涵盖所有的语言现象,需要领域专家的协助完成,同时规则系统的兼容性、灵活性和可移植性也较差。基于统计的抽取基于统计的方法是利用人工标注的语料或者生语料进行训练和学习,信息的获取大部分是通过机器完成,客观性比较强,也是一种自动抽取的技术。基于统计的属性抽取中很常用的是弱监督方法,即将语料库中少量标注属性作为种子,使用统计知识来发现新的候选属性。基于弱监督方法只需要提供领域相关少量的正确实例和领域相关的语料库,通过迭代方式自动学习文本模式,迭代过程中使用提供的少量的正确实例作为知识对新产生的文本模式和新的实例进[24]行评估。这种方法在产品属性的抽取中使用较多,采用弱监督学习方法,对于新的产品的属性,只需提供少量的该类产品的属性就可以抽取出来,因此,这种方法具有较好的移植性。信息抽取中其他常用的统计机器学习方法有最大熵方法、隐马尔科夫模型方法、条件随机场方法等,但在属性抽取的相关研究中,这些方法的使用的还较少。属性抽取的结果测评属性抽取的相关研究基本都是通过衡量准确率(Precision)和召回率(Recall)这两个指标来评测属性抽取系统的性能。准确率是指系统正确抽取的属性占所有抽取属性的比例;召回率是指系统正确抽取的属性占事物所有的属性的比例。因为准确率和召回率都是介于0和1之间,而且两者经常是存在反比的关系,所以为了综合的来测评属性抽取系统的性能,还采用F指数来对属性抽取系统13
第二章属性抽取研究综述[32]进行综合的测评,其定义如下:(公式)如果想对准确率或召回率有所侧重,可以将上面这个公式扩展,这样就可以预先设置一个β值,它表示准确率和召回率的相对权重。这种F指数的定义如[32]下:(公式)若β>1,准确率的权重较大;若β<1,召回率的权重较大。这样可以按照评测的需求来更侧重某个指标,然后再进行对属性抽取结果的综合测评。属性抽取相关研究结论随着抽取技术的发展,国内外属性抽取的相关研究也越来越多。属性抽取的研究范围较广,涉及到人物信息、产品信息、企业信息和概念特点等方面的抽取,抽取的属性集有很好的应用性,可以用来构建信息库和为搜索引擎提供服务。属性抽取目前的研究主要表现为以下三点:第一,抽取的对象比较集中在结构化和半结构化的文本,以网页信息抽取居多;第二,抽取的方法很多还是基于人工的模板匹配,虽然准确性比较好,但效率比较低,可移植性也较差;第三,对属性抽取结果的评测延用了信息检索的评测指标(包括准确率和召回率),缺乏专门针对抽取的评测指标。属性抽取研究已经取得了一些进展,但还存在着一些不足:从学术文献中的属性抽取还比较少,学术文献蕴含着大量的知识,也具有很高的质量,对学术文献的抽取值得去深一步研究;可移植能力较差,目前的抽取仅局限在某个领域或学科里面进行,不能将系统直接移植到其他领域或学科进行使用。将属性抽取的对象延伸至学术文献和提高属性抽取系统性能以增强移植性,这是属性抽取未来的两个方向。14
第三章学术概念属性抽取的规则构建3学术概念属性抽取的规则构建学术概念属性抽取的规则构建方法和流程学术概念属性抽取的规则构建方法对学术概念的属性进行抽取,首先是要构建出学术概念属性的描述规则,再通过构建的规则对学术文献进行抽取。而学术文献中学术概念属性的表达方式是多种多样的,没有一个统一规范的方式,而且对属性进行描述的主体可能是一句话或几个短语,也有可能是几个句子甚至是几段文字,所以对学术概念属性描述规则的构建是非常重要和困难的。属性抽取的规则构建是属性抽取中最重要的一个环节,直接影响着抽取系统的抽取系能。一般而言,抽取规则形成主要分为基于人工的规则构建和基于统计的自动学习方法,属性抽取是从大量的学术文献中抽取出学术概念的属性特征等相关知识单元,鉴于目前还没有大量属性抽取训练语料供机器学习,本文采用的人工构建抽取规则的方法,通过大量领域内文献的阅读、分析和归纳总结属性描述的规则。人工构建的方式依靠领域人员的专业背景,通过对领域内大量文章的阅读总结规则,比较容易处理特定领域内的抽取问题。人工构建抽取规则的方法是通过对规则进行初步的判断,了解规则本身的含义和所涵盖的范围,初步的熟悉规则的表达形式;然后对大量的领域文献进行阅读,找出描述相关内容的语句,对这些句子进行分析,归纳出它们比较共性的表达方式,并形成规则;再对这些规则进行不断的调整和修改,并添加到抽取系统中,通过抽取系统对抽取规则进行实验,找出当前规则抽取不出来的句子和抽取出来不相关的句子,通过不断的改进和完善规则,从而逐渐形成准确率和召回率较高的抽取规则。学术概念属性抽取的规则构建流程(1)阅读分析文献。阅读大量的学术文献,对文章采取篇章阅读和逐句阅读的方法,从中找出描述学术概念属性的句子,选取的阅读对象是《情报理论与实践》2009年的387篇论文,《情报理论与实践》是情报学中一定代表性的核心期刊,具有丰富的情报理论知识,对于学术概念属性的描述也比较典型,适合从中总结出抽取规则。对每篇文章逐句阅读的过程中,提炼出描述学术概念属性的句子,并对这些句子进行记录。(2)分析相关句子。阅读文献的过程中,对属性描述的相关句子进行分析,15
第三章学术概念属性抽取的规则构建如“片断代码标引方法的优点是简单……”,找出这些句子描述属性时的规律(……的优点是……),提取出句子中除了学术概念和属性描述以为的前后限定词或者相关特征词,并进行记录分析,找出其中比较共性的特征,并对类似的描述的规律进行归类。(3)统计规则。经过大量的文献阅读和句子分析,总结出相关的属性描述的规律,然后对这些规律进行总结形成规则,找出属性描述句子中比较共性的形式,并以此形成规律。描述属性最常见的方式有“(学术概念)…特征…”,比如“…能够保持h指数计算简便的特征。”就说明h指数有一个特征是计算简便,此外,还要对规则进行扩展,利用同义词来扩充规则的可能表达形式,例如对“特征”词进行扩展,还有“特点”、“特性”、“属性”、“性质”等词,能抽取出来“而h指数的取值为整数,具有简单、明晰、易于记忆的特点。”之类的句子。(4)规则优化。初步形成的规则还比较粗糙,简单的认为具有了学术概念和特征词就是描述属性的句子,而实际过程还要对学术概念和特征词在句子中出现的次序和位置长度进行设定,即判断词语的顺序关系和所相隔词语的位置关系,一般情况中学术概念在特征词前面,而且经常是在一句话中,描述的方式有“(学术概念)具有……的特征”和“(学术概念)的特征有……”等形式,而且前面一种情况的准确率比后面一种高。(5)识别噪声。实际的规则总结过程中还有很多例外情况,对此还要进行噪声识别。一种情况是句子中多学术概念属性抽取的问题,句子中的特征词可能不是对这个学术概念的描述而是对其他学术概念的描述,例如句子“82位学者g指数的取值范围为49~1,较ha指数和h指数的数值范围都大,但仍未能有效克服指数区分度不强的缺点,依然有67位学者存在多人同值的情况。”这个句子中虽然包含“h指数”和“缺点”,但实际上描述的是“g指数”的缺点,而不是h指数的缺点,要对这种类型的句子进行处理。另外一种情况是没有对学术概念属性具体描述,描述学术概念属性的句子一般需要满足以下三个条件:①包含领域内的某个学术概念;②要有对其属性描述的特征词;③要有具体的属性描述内容。因为属性抽取的目标不只是判断出学术概念的特征词或情感信息,而是要找出对属性的具体描述内容。比如只是简单说“h指数有很多优点。”这句的信息量是不够的,没有具体对h指数什么优点的描述内容,达不到我们抽取的需求,这些句子要对其进行过滤掉,因为我们以后要对属性抽取的结果构建数据库,需要的不仅仅是某个学术概念有没有优缺点,而是具体存在什么属性,并结构化的显示出来。(6)完善规则。规则的构建是个复杂的过程,要尽量使规则能够抽取出尽量多而且是要相关的句子,这就要求规则不断的进行修正和完善,规则的完善是一个“—规则—修正—新的规则—再修正—”不断重复的过程,进行的周期越多,规则越完善,最后形成一个比较高效的抽取规则。例如“学术概念.*可扩16
第三章学术概念属性抽取的规则构建展性”的规则在进行不断的完善之后,最终的规则是“学术概念.{0,20}具有.{0,20}可扩展性”,使得规则有着更高的准确率。在规则初步形成后,规则已具备基本的抽取能力,这时可以把规则带入到抽取系统中,对一定量经过人工识别的学术文献进行抽取,对其中的抽取结果进行研究,对抽取错误的句子的错误规则进行剔除,并增加文献中存在但未能被当前规则识别的新规则,通过抽取系统的反复测试,不断的细化和优化规则,直到规则的抽取性能达到一个相对稳定的程度,至此,规则构建完成。描述概念属性的规则构建流程图按照上述规则构建的六个步骤,规则构建的流程图如下图所示,在规则进行初步形成之后,通过规则优化和噪声规则识别进行不断循环,来逐渐完善规则,最后形成一系列比较成熟稳定的抽取规则。阅读分析文献分析属性描述句子寻找属性描述的规律对规律进行统计形成规则规则优化噪声规则识别否规则完善?否是形成规则图描述概念属性的规则构建流程图学术概念属性抽取的规则构建特色在规则形成后,针对属性的特殊性,还要对属性描述的规则进行细化:属性描述中学术概念和属性的数量关系可能是一对一或者是一对多的;属性抽取出17
第三章学术概念属性抽取的规则构建来的属性在情感色彩上可以有正面、负面和中性的。学术概念与属性的数量关系学术概念和其属性之间的数量关系,有一对一和一对多这两种情况。常见的是一对一的描述关系,就是一句话中只对学术概念一个方面的属性进行描述,这种是比较普遍也是作者比较随意的描述方式,比如“能够保持h指数计算简便的特征”一句话中就只讲了h指数的一个属性特征,此时学术概念和属性之间是一一对应的关系。同时,属性是一种多集合性的,一个概念有着多个属性,一句话或一段话中也会对一个概念进行多个属性的描述,存在这样一对多的数量关系,使用像(学术概念)的特点有:“第一…第二…第三…”、“(1)…(2)…(3)…”、“首先…其次…最后…”、“一方面…另一方面…”等描述方式。这些情况要对属性的抽取首先识别出多个属性出来,作者在句段中一次性描写了概念的多个属性,此外还有是通过大标题引出几点来描述学术概念的属性,比如下图中的例子:图属性描述存在于标题中的举例上述例子中的情况是通过段落标题来进行属性描述,这种类型的属性描述内容涉及到很多句子甚至段落,需要对文章的进行篇章分析来识别。学术概念属性的情感信息概念和属性之间是一对多的关系,所以一个概念的属性的描述是多方面多角18
第三章学术概念属性抽取的规则构建度的,这些多角度的属性描述还蕴含着作者丰富的情感信息,通过对属性的情感信息进行分析,可以挖掘作者对于此概念的态度,持正面负面还是情感倾向性不明显的中立态度,通过属性情感信息的挖掘不仅可以对学术概念的属性进行更为直观的了解和判断,还可以判断出学术圈对于此概念的一个整体评价,有助于以后的综述和报告等参考。学术文献中学术概念属性的情感信息也可以通过规则进行判断,比如“h指数在科研评价上有着明显的优点…”,“优点”二字说明h指数对科研评价中是很有好处的,说明此概念具有的这种正面的性质,进而暗示“h指数”的提出对科研评价是有益的。对属性的细分识别出隐藏在其中的情感信息,可以把属性的情感信息划分为正面、负面和无态度的中性三个情感:概念正面属性的描述词语有“优点”、“优势”、“好处”、“正面”等,负面属性描述的词语有“缺点”、“劣势”、“负面”、“局限”、“缺陷”、“不足”等,也有一些对概念属性的中性描述的词语,如“特点”、“特征”、“性质”、“属性”等。综合上述对属性描述按数量可以分为一对一的描述和一对多的描述,按情感信息又可以划分为有感情色彩的描述和无倾向性的中立态度描述,针对这几种情形,可以用下面这个四象限图形象的进行表示:无感情多个属性,一个属性,色彩无感情色彩无感情色彩多个属性一个属性有多个属性,一个属性,感情有感情色彩有感情色彩色彩图属性按照数量关系和情感信息的四象限图19
第三章学术概念属性抽取的规则构建学术概念属性抽取的规则构建学术概念属性规则的种类划分属性的规则按照规则和属性的关系又可以分为两类:描述内容前后的规则和[33]描述内容本身的规则。对属性的规则进行总结可以按照上面两类进行,描述内容前后的规则是指对学术概念描述片段上下文的特征词进行概括,如“特征”、“特点”、“优点”、“缺点”这些都术语描述片段上下文的特征词;描述内容本身的规则是指描述片段本身的词语,也就是属性的具体描述内容,这个说法比较繁多,有的是句子有的是短语,所以只能找出一些具有代表性的词语,比如“可靠性”、“安全性”、“稳定性”、“合理性”、“适应性”等词语,对于前面有“不”字的,例如“不稳定性”,则表达与词语相反的意思和感情信息,此外,还有“大”、“高”、“好”、“快”、“强”等也是对描述内容本身中常见的用词。目前,对于描述学术概念属性的词没有一个权威性的概述,因此还得对描述属性的词进行过滤,过滤的目的消除一词多义和不相关句子等情况,去除仅仅是因为表面的规则匹配造成的误抽取。比如很多句子虽然包括统计中的词语,但经过语法和语义的判断,不是表达的学术概念的属性,这里将属于构建的抽取规则但又明显不属于我们需要的属性描述的句子的规则称为“逆规则”,我们在进行属性抽取的同时要将这些“逆规则”也进行统计,并将符合这些“逆规则”的结果进行剔除。例如规则“学术概念……存在的问题”后面如果是标点符号,一般是没有实质内容的属性描述,我们在抽取过程中把没有具体描述内容的这类句子进行过滤。学术概念属性抽取的规则形成利用上述的规则构建方法和流程对属性描述的规则进行构建,通过对属性表达方式的归纳统计和《情报理论与实践》中大量文献的阅读,按照上述的规则构建流程进行阅读分析文献、分析相关句子、统计规则、规则优化、识别噪声、完善规则,对属性描述的规则进行构建。经过总结,并按照属性的情感信息和规则的类型进行细分,构建出学术概念属性抽取九大类的规则,具体属性抽取规则和例句如下表:20
第三章学术概念属性抽取的规则构建表学术概念属性抽取的规则和相关例句中性正面负面描述具有.*(特征|特性|特的(优势|优点|正面特的(劣势|不足|滞后|缺内容点)征|好处)点|负面特质|缺陷性|局前后的(特点|特征|特性|(很好的|能帮助|有利限|坏处|弱点|不便之处|的规属性|性质|优缺点)于|可以清晰|更加|加强弊端|缺陷)|(存在.*问则|(可以.*提高)|提升).*题)|(面临着.*问题)性(不支持|降低了|解决了|失去了|减少).*性例句核心专利的特征有:主题图作为一种信息由于电子文件管理方面①是制造某个技术领组织技术,它汲取了传缺乏权威的、位阶较高域的某种产品必须使统索引、图书馆科学、的法律规范,无论是中央用的技术所对应的专知识表示以及多种知还是地方,我国的电子文利;②不能通过一些识组织方法的的优点,件管理工作均面临着各规避设计手段绕开;由于它所具有的灵活种各样的问题。例如,电③被后继专利引用的性和丰富的表现力,目子文件的凭证作用不明次数相对较多;④引前已经被国外广泛应确、电子文件的归档要证其他专利的数量较用于知识管理、Web应求不统一、电子文件的少;⑤专利申请的时用、语义挖掘等领域。使用及管理存在各种程间相对较早。度的风险等。描述(.{2,10}性.{2,10}(大|高|好|强|快|具(小|低|差|弱|慢|存内容性.{2,10}性)|(具有).{2,20}(可扩展性|可在).{2,20}(不稳定性|分本身有.{0,10}性)靠性|可移植性|持续性|散性|不适应性|模糊性|的规适应性|精确性|灵活性|不灵活性|不安全性|不则安全性|稳定性|合理性|合理性|不先进性|封闭先进性|开放性|实用性|性|不合理性|不全面性|合理性|超前性|全面性)不兼容性|无序性)例句通过实例验证,该方引文量的改变一定会非文本信息主要包括静法能够提高h指数科引起影响因子的改变,态图像(如图片、绘画和研评价的科学性、完但h指数只对引文量在照片)、动态图像(如录像整性和公平性。h值附近的论文的被引和电影)和声音资料(如频次的改变较为敏感,录音和电台播音),它们而对于高被引论文和具有广泛性、无序性、低被引论文被引频次分散性和多媒体等特征,的变化具有良好的稳所以对它们进行目录控定性和抗干扰能力。制更加困难。21
第三章学术概念属性抽取的规则构建表的规则集合是对学术概念属性抽取规则的构建,在属性描述的过程中,通过阅读发现比较常用的模式是描述内容前后的规则,表现为“的特点”、“的优点”、“的缺点”等说法,而描述内容本身的规则由于说法非常多样的,有词语的描述,如“可靠性”、“稳定性”,也有句子的表述,没有典型的说法,不能被总结完全。在规则构建的过程中,发现学术文献中属性常常有一些隐晦的描述,不能够归纳出规律,也不会出现“特点”、“特征”、“有利于”、“存在……问题”这些描述属性的特征词,有待后续深入的阅读分词来研究其规律。抽取规则的构建是对学术文献中属性描述规律的一种总结,通过大量论文的阅读、分析、归纳形成规则,再通过反复的规则优化和完善使得规则更富有代表性,但规则仅能对文本的字面情况进行匹配,不能做到对文本深层内容的分析,所以规则可能存在“不能以偏概全”的问题,而且学术文献中对于属性的描述形式非常的复杂和繁多,不能被总结完全,所以规则构建完成只是属性抽取中的第一部分,属性抽取还需要良好的抽取系统支持。22
第四章学术概念属性抽取系统的设计4学术概念属性抽取系统的设计属性抽取系统是知识抽取体系中的一个模块,是在知识抽取系统基础上的一个应用,属性抽取系统有着和知识抽取系统类似的框架结构,并有着其特殊性。属性抽取系统的目的和功能属性抽取系统的目的是实现学术文献中属性描述知识点的自动抽取,通过对学术文献的解析,并对解析后的文本实现文本处理,识别出其中相关的属性描述的知识点,并将相关知识单元抽取出来,存到指定的数据库里面,以便以后对这些知识单元的查询和进一步组织,系统开发是对知识抽取技术使用的一个探索。本文抽取的对象是学术文献,学术文献是科研人员研究成果的展示,具有内容新颖、论述详实、数量庞大、可挖掘性强等优点,凝结着丰富的知识。人们需要对这些知识进行有效的组织和管理,目前只能以篇章为单位进行组织,通过知识抽取系统,可以对学术文献里的知识点进行提取,以知识单元的方式来组织和管理其蕴含的知识。学术文献的撰写具有比较统一的格式,一般包括标题、姓名、单位、摘要、关键词、正文、注释或参考文献等,对属性抽取系统而言,最重要的是文献的正文部分和摘要部分,正文是文章撰写的主要部分,摘要是对文章内容的浓缩和概括,这两部分是学术概念属性描述的主要位置。属性抽取系统的主要的功能是实现学术概念的属性抽取,包括对学术文献的解析、对文本的预处理、对学术概念属性描述的抽取、对抽取结果的统计和分类、对抽取结果的查询等功能。知识抽取系统的框架知识抽取系统是一套把文献中的知识经过识别、理解、抽取、结构化,能够把文献中的知识点抽取出来,并结构化成知识库的系统。本文设计的知识抽取系统中学术概念属性的抽取,系统的目标是将学术文献中知识进行结构化抽取,抽取出所需要的相关知识点,系统以输入PDF学术文献,通过规则的构建和学术概念的选取,抽取这些学术文献中的学术概念属性,并存以数据库中,为以后的综述和报告等提供参考。国内外相关的抽取系统已经很多,但多数对信息实体或关系进行抽取的系统,对学术文献进行抽取还较少,抽取系统也有较为成熟的处理流程和模型。23
第四章学术概念属性抽取系统的设计当前国内外抽取系统通用的体系结构主要是这样几个流程:文本分块→预处理→过滤→预分析→分析→片段组合→语义解释→词汇消歧→共指消解→模块生[34]成,这个通用的流程为大多数抽取系统指明了设计的方向,当然不同的系统由于侧重和算法不一样,也存在着一些方法上的不同。目前的系统主要以基于规则的分析方法为主,统计方法在近年也开始使用,但由于成熟语料少、标注难度大等原因,尚不占主导地位,对实体和实体关系的抽取已经达到了很好的水平,但由于涉及到自然语言处理的难题,仍有很多问题需要探索。知识抽取系统是一个复杂又庞大的系统,项目组在参考自然语言处理平台的基础上,提出来基于NLP知识抽取系统的框架结构:[35]图基于NLP的知识抽取的系统架构由上图架构可以看出知识抽取系统主要分为对数据的自然语言处理部分和对文献的知识抽取两部分。自然语言处理部分主要从语言的角度对文本内容进行预处理的分析,可分为八个模块:句子切分、自动分词、词性标注、词义标注、句法分析、句义分析、语段分析及语用分析。句子切分、自动分词、词性标注、词义标注四个模块是基础,句法分析与句义分析是对文本自然语言处理24
第四章学术概念属性抽取系统的设计的核心部分,语段分析与语用分析是对文本内容分析的扩展。在这八个模块的处理过程中需要关键词库、概率词典、语义词典、句法规则、领域叙词表与领域本体六类资源的支撑。对文献的知识抽取过程主要在前面自然语言处理的基础上,利用抽取匹配算法对内容进行知识抽取,主要包括论文类型分析、篇章结构分析、知识抽取、知识表示四大模块,其中前论文类型分析和篇章结构分析两个模块是基础,知识抽取模块是系统核心,知识表示是扩展。在这四个模块的运行过程中,需要论文正文元数据、指示词与句子功能关系、句型与句子[35]功能关系、文献学本体以及语言学本体五类资源的支撑。知识抽取系统总体上采取对文本预处理、知识抽取算法优化的技术路线,是一个复杂的自然语言处理系统。学术概念属性抽取系统的设计属性抽取是知识抽取系统的一个应用,知识抽取系统除了属性抽取还有学术定义的抽取、研究方法的抽取、创新点的抽取等。属性抽取作为知识抽取系统中的一个模块,有着和知识抽取系统类似的框架结构,它是具体对学术概念的属性进行抽取,旨在抽取出文献中的属性描述知识点,构建学术概念属性知识库。属性抽取系统设计的处理流程如下:首先进行数据准备,获取到待抽取的学术文献,然后使用工具对选取的PDF学术文献进行解析,生成TXT文本,再对这些TXT进行文本预处理,包括篇章结构分析、文本分词、句子切分处理等,之后还要对一些不需要的句子进行过滤,如作者单位、参考文献和乱码等句子。同时把构建好的规则和学术概念词典用正则表达式进行表达,把自然语言转成机器可识别的语言,然后在属性抽取系统里面进行循环匹配,把输出的结果插入到数据库里面,字段包括:学术概念、情感信息、匹配规则、相关句段、文章标题、文章作者,最后对抽取的结果进行结果召回率准确率的实验测评,总结出当前的不足并对抽取规则和抽取系统的处理进行不断的改进。属性抽取系统的具体流程图如图所示:25
第四章学术概念属性抽取系统的设计PDF文献阅读分析文献学术概念规则构建PDFBoxTXT文本词典构建词典文本分词(by刘)学术概念规则篇章分析句子切分正则表达过滤器对术语、规则、匹配句子三层循环插入数据库结果查询查全率、查准率结果测评数量关系、情感信息图属性抽取系统流程图如图所示,属性抽取系统按照处理流程来划分,主要分为四个模块:文献内容解析模块、文本预处理模块、规则构建模块和属性抽取模块。文献内容解析模块文献内容解析模块是实现学术文献PDF解析生成TXT的过程,目前,国内三大全文数据库商清华同方、万方数据和重庆维普都主要采用了PDF等格式来传播学术文献,因为PDF文件具有很多优点:大众化,PDF文件容易制作和利用;通用性,PDF文件支持跨平台应用;格式稳定,PDF文件在不同的平台和系统中格式保持一致,方便高效的浏览和打印;版权保护,PDF文件防复制,[36]具有高安全加密特性。PDF学术文献的产生方式比较多样化,按照产生的类型主要可以分为三种:一是Word直接生成,这种方式很好的保留了Word中的文本特征,能够被方便转换;二是采取的是扫描识别的方式,早期的学术文献往往都这样产生,这种方式部分文字识别会有误,如果是仅扫描未识别就无法进行解析,比如万方数据上《情报理论与实践》基本都是这种形式;三是加密的PDF文本,这种类型的PDF就无法拷贝和转换,但在学术文献中较少见。在进行具体的系统抽取时,选择的是Word直接生成的PDF文献,不存在PDF解析的文字错误,方便进行解析和后续的抽取。26
第四章学术概念属性抽取系统的设计目前对PDF文献的解析工具有很多,主要的开源项目有:Xpdf、PDFBOX、iText、easyPDF、PDF2TX等,本文对其中比较热门的两个工具Xpdf和PBFBox进行了实验比较:表和PDFBox的实验比较XpdfPDFBox简介xpdf是一个开源的PDF文档浏览器,它PDFBox是Java实现的PDF文档协作是一个软件,可以通过Java采用命令行类库,提供PDF文档的创建、处理以调用,并获取输出结果,下载地址:及文档内容提取功能,也包含了一些
第四章学术概念属性抽取系统的设计句子甚至几个段落里面,对于一个句子中的属性描述可以通过单个句子直接进行匹配,而对于属性存在于几个句子中的匹配,首先是要识别出篇章中具体描述的某个概念的属性的句段。学术概念的属性可能是以“第一”“第二”“第三”等说法呈现在几个句子中,要对这些特征进行识别,在确定出具体几个句子一并描述后,再进行下一步的句子切分工作。此外,还要对文献的类型进行判断,学术文献常见的类型有综述型、实验型、计量型、报告型和观点陈述型等,不同类型的文献有着不同的写作结构:综述型中对于学术概念属性的描述较多,整篇文章都可能出现,例如《情报理论与实践》2009年第5期的《个性化信息检索技术综述》一文中,文章在开头、结尾都提到了“个性化信息检索”带来的好处和还存在的不足,论文中间还讨论了“显式获取方式”相对隐式获取方式的优缺点;而实验型一般只有在开头和结尾部分会出现属性的介绍,例如《情报理论与实践》2009年第7期的《基于SOM聚类的文本挖掘知识展现可视化研究》一文中,作者只在文章的开头引言和结尾结束语部分对“可视化”的属性进行了简单的描述;计量型的文章中很少会出现对文章属性的描述;报告型和观点陈述型等文章中描述属性的句子比较难统计,需要进一步的判断。对文章段落结构的分析有望提前挖掘出属性最快能存在于正文中的位置,方便抽取时针对性的对文章的知识点进行抽取。完成篇章分析之后,接下来是对文本进行句子切分,普通的文章主要是按照标点符号进行的切分,表示一句话结束的标点符号有“。”、“?”、“!”、“……”(句号、问号、感叹号、省略号),这样就以句子为单位对文本进行了分段。但在切分过程中还需要注意有些特殊文章的处理过程:对学术概念属性的描述有时是一对多的关系,即一个学术概念进行了多个属性的描述,属性描述可能存在着几个句子甚至几个段落中,所以针对这种情况,要进行判断,对符合这种条件的情况进行另外提前处理。然后对切分后的句子进行过滤,过滤掉一些不需要的句子和内容,包括:文章的关键词、分类号、英文的摘要、期刊的页眉页脚、作者、基金信息、参考文献以及一些空格乱码等,把这些不相关的句子和信息过滤掉,有望提高抽取的效率和减少一些不必要的工作,使得过滤后的文本内容比较接近于文章的正文部分。在对文本的预处理完毕之后,再通过抽取规则的正则匹配完成对文本的抽取。规则构建模块规则构建模块是按照规则构建的流程,进行文献的阅读分析、相关句子的分析、规则统计、规则优化、规则识别噪声、完善规则,然后把经过大量文献阅读构建的属性抽取规则与学术概念用正则表达式表达出来,把归纳总结出来的自然语言规则转换成计算机可以理解的形式,这一模块主要是人工定性分析的28
第四章学术概念属性抽取系统的设计成果,是从自然语言表达的学术文献中提取出来的关于学术概念属性的描述。在规则初步形成后,把规则导入到抽取系统中,对一定量经过人工识别的学术文献进行抽取,对其中的抽取结果进行研究,对抽取错误的句子的错误规则进行剔除,并增加文献中存在但未能被当前规则识别的新规则,通过抽取系统的反复试验,不断的细化和优化规则,直到规则的抽取性能到一个相对稳定的程度,最终形成抽取规则。对于基于规则的文本抽取,最重要的部分就是构建规则,规则的精准与否直接影响到抽取的召回率和准确率。属性抽取模块属性抽取模块是将构建好的属性抽取规则与预处理过的文献文本进行模式匹配,将抽取规则和文本以句子为单位进行依次匹配,通过句子、学术概念和规则的循环,抽取出文本里面符合规则的句子,并细化出具体是属性里面的哪种情感色彩的属性,然后插入到数据库里面,后续还要对抽取结果进行召回率准确率的评测。学术概念属性抽取的规则匹配算法是用正则表达式将学术概念和属性抽取的规则正则表达出来,正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,规则匹配算法的目的是把总结出来的属性规则用计算机语言表达,然后添加到抽取系统里面进行抽取的实验,根据Java中正则表达式的规范,学术概念属性的抽取规则的正则表达如下:1.学术概念.{0,30}具有.{0,30}(特征|特性|特点)2.学术概念.{0,30}的.{0,3}(特点|特征|特性|属性|性质|优缺点)3.学术概念.{0,30}的.{0,3}(优势|优点|正面特征|好处)4.学术概念.{0,30}的.{0,3}(劣势|不足|滞后|缺点|负面特质|缺陷性|局限|坏处|弱点|不便之处|弊端|缺陷)|(存在.{0,20}问题)5.学术概念.{0,30}很好的.{2,8}性|能帮助.{2,8}性|有利于.{2,8}性|可以清晰.{2,8}性|更加.{2,8}性|加强.{2,8}性|提高.{2,8}性|提升.{2,8}性6.学术概念.{0,30}不支持.{2,8}性|降低.{2,8}性|解决了.{2,8}性|失去了.{2,8}性|减少.{2,8}性7.学术概念.{0,30}(.{2,10}性.{2,10}性.{2,10}性)|(具有.{0,10}性)8..{0,30}(|||||).{2,20}(||学术概念大高好强快具有可扩展性可靠性可移植性|持续性|适应性|精确性|灵活性|安全性|稳定性|合理性|先进性|开放性|实用性|合理性|完善性|超前性|全面性)9.学术概念.{0,30}(小|低|差|弱|慢|存在).{2,20}(不稳定性|分散性|不适应性|模糊性|不灵活性|不安全性|不合理性|不先进性|封闭性|不合理性|不全面性|不兼容性|无序性)29
第四章学术概念属性抽取系统的设计属性抽取模块是在文本预处理和规则形成的基础上,对文本自动抽取结构化知识的处理方式,以输入文本、规则集、术语词典,输出以结构化的句段,实现对自由文本的抽取。属性抽取的系统设计主要就是以上四个模块,文献内容解析模块主要是把PDF转成方便抽取的TXT文本,文本预处理模块是对文本进行分词、句子切分,句子过滤等文本处理,规则构建模块主要是规则构建形成的过程,属性抽取模块就是在上述已经准备的基础上进行实质的抽取工作,并把抽取的结果插入数据库和召回率准确率等测评。在对属性抽取系统的设计之后,就开始进行属性抽取系统的具体实现。30
第五章学术概念属性抽取系统的实现5学术概念属性抽取系统的实现前两章对抽取进行了规则构建和系统设计,为了更好的阐明属性抽取系统的抽取过程,本文对学术概念属性抽取系统进行了具体的实现,并进行了抽取结果的评测和结果分析。属性抽取系统中的关键技术属性抽取系统中规则构建是核心环节,它是对学术文献中学术概念属性描述规律的总结和分析,规则构建方法的好坏直接影响到后续的抽取效果,规则是属性描述规律的模式化,是对学术概念属性描述规律的总结。除此之外,属性抽取系统的实现过程中,还有文本中文分词、篇章分析、正则表达式匹配等关键技术。中文分词在英文文本中,单词以空格自然分割,方便匹配和处理,而中文由于语言的特殊性,句子都是以连续的字符串的形式出现的,很多词语连在一起形成句子,词语之间没有空格,这就要对文本进行分词处理。中文文本自动分词的研究从20世纪80年代初开始,目前比较常用和实用的主要有最大匹配法(TheMaximumMatchingMethod,MM)、反向最大匹配法(TheReverseDirectionMaximumMatchingMethod,RMM)、二次扫描法、联想-回溯法、基于词频统计的分词法,以及基于知识的专家系统方法、神经网络方法等。目前,中文分词的项目已经有很多,例如中国科学院计算技术研究所在研制出了分词系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),能实现中文分词、词性标注、命名实体识别、新词识别和支持用户词典等功能。对中文来讲,不论是检索还是抽取,分词都是对文本自然语言处理的第一步,分词能有效提高后续抽取过程中文本匹配的准确性。本文采用基于字符串匹配进行文本分词,利用嵌套的向量切分方法,其分词的关键是待切分串的截取技术、词典的组织技术以及词典的匹配技术,分词的词典使用的是四万词的情报学期刊关键词和八万词的北京大学《现代汉语语法信息词典》。分词部分的具体实现是由项目组的刘一宁开发,然后封装类库以给其他成员使用。篇章分析学术概念属性的描述过程中,经常是蕴含在几个句子甚至几个段落里面,对31
第五章学术概念属性抽取系统的实现于一个句子中的属性描述可以通过单个句子直接进行匹配,而对于属性存在于几个句子中的匹配,首先是要识别出篇章中具体描述的某个概念的属性的句段。因此抽取时要先识别篇章中句子之间的关系,例如一些关联词“而且”“但是”表明上下句子之间存在某种关系。本文的属性抽取中,学术概念的属性可能是以“第一”“第二”“第三”等说法呈现在几个句子中,我们要对这些特征进行识别,在确定出具体几个句子一并描述后,再进行下一步的抽取工作。实际过程中,对文本篇章分析还是相当困难的,文章中可以通过某些连词、代词或深层关系表示篇章中句子的关系,很难通过某种规则来识别出具体几个句子或段落讲的一层含义,对篇章的分析涉及到对自然语言的深入理解,是关系到抽取系统召回率的一个主要因素。正则表达式匹配正则表达式(RegularExpression)是用某种模式去匹配一类字符串的一个公式,是用来匹配某些字符串的单个字符串。正则表达式由一些普通字符和元字符组成,普通字符包括大小写字母和数字,而元字符则具有特殊含义。很多语言中,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表达式实现高级“搜索-替换”功能。在Java中,正则表达式是由的Pattern和Matcher类实现的,指定为字符串的正则表达式首先必须被编译为Pattern类的实例,然后可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可以与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。正则匹配是将抽取规则的正则表达和文本内容进行匹配,并根据属性抽取的实际情况加以其他方面的循环控制,循环控制算法实现相同的匹配算法对于不同的文本和规则间的不同抽取效果。系统中主要通过类对抽取规则和预处理后的文本进行匹配,首先是读取已经构建的规则,存到数组里面以供后续调用,然后读取学术概念的术语词典,也将其存入数组中,然后通过对句子循环、规则循环和术语循环,通过Java中的Pattern和Matcher类对每个句子进行正则匹配,然后将相关的句子抽取出来,并将句子和句子相关元数据,包括关键词、情感信息、匹配规则、句子、文章题名、文章作者插入到数据库里面,以便后续查询使用。正则匹配的方法流程图如下:32
第五章学术概念属性抽取系统的实现开始是否还否结束有句子是否读取下一个句子(段)否句子中是否包含学术概念是对句子利用规则匹配是否匹配是将匹配的抽取结果插入到数据库里图抽取循环控制算法系统开发环境与数据库设计系统开发环境本文抽取系统的开发工具和开发环境如下:系统具体实现采用Java编程,Java是一种简单易用、完全面向对象、既有平台无关性、且安全可靠性等特点。开发环境为,Eclipse是一个开源的基于Java的可扩展开发平台,是一个集成Java的开发环节,数据库是33
第五章学术概念属性抽取系统的实现OralceXE,文献解析用的是Java开源PDF库PDFBox工具。测试本系统运行效果的实验环境为:ThinkPadR400,带有酷睿2双核P8600的CPU,2GRAM,Windows7操作系统为。数据库设计属性抽取系统抽取出来的知识点要进行储存,方便以后的查询和使用,所以本文采用了Oracle数据库,Oracle是美国甲骨文公司的一种关系数据库管理系统,它使用SQL(Structuredquerylanguage)作为它的数据库语言,它功能强大、性能卓越,在当今大型数据库管理系统中占有重要地位。本文中使用的是Oracle提供一种免费的简易的版本OracleXE,数据库中数据表结构如下:表抽取结果数据表的设计字段名类型说明idint(4),auto_increment主键keywordnotnullvarchar2(10)学术概念patternnotnullvarchar2(20)抽取的匹配模式motionnotnullvarchar2(5)属性的情感信息sentencenotnullvarchar2(1000)匹配的句子集titlevarchar2(30)文章标题authorvarchar2(20)文章作者上述数据表设计中id是记录的主键,用于唯一识别,学术概念和抽取匹配模式是为了方便后续对数据库中概念属性的查询,情感信息是用于对抽取结果的分类和筛选,匹配的句子或句子集是我们抽取的主体,是属性描述具体存在的知识单元,文章的作者和标题是为了查询的过程中如果对句子集感兴趣,想深入阅读该文章的内容,可以通过作者和标题进行查询阅读。系统实验实验数据的选取属性抽取的领域选定的是情报学领域,对情报学领域中学术概念进行抽取研究,因为基于规则的抽取采用的人工获取规则的方法,这种方式要依靠领域人员的专业背景,所以选择的是作者本领域的文献。数据源选择的是情报学理论较多的《情报学报》和《情报理论与实践》这两种期刊,两种期刊分别已在万方数据和中国知网上有Word生成版的全文PDF,方便对其进行内容解析。34
第五章学术概念属性抽取系统的实现《情报学报》和《情报理论与实践》都是情报学领域著名的核心期刊,《情报学报》是情报学最核心的学术期刊,由中国科学技术情报学会和中国科学技术信息研究所主办,主要报道情报科学的理论研究和实验研究的学术论文,以及优秀的综述评论。《情报理论与实践》是中国国防科技信息学会和中国兵器工业集团第210研究所联合主办的国家级情报学理论与实践工作前沿性指导性学术刊物。主要报道国内外情报科学与信息技术发展动态,研究探讨情报科学理论方法、信息服务实践和科技信息工作。选取的学术概念术语词典是把四万词的情报学关键词和中国情报学百科全书词条、图书馆学情报词典进行整合,再经过人工粗糙过滤后产生11633条术语词典,为了保证抽取的效果,对一些比较通俗的词语进行了剔除,例如“信息”、“知识”,这些词虽然也是情报学的学术概念,但概念的单一性不强,常常会造成错误的抽取。评测结果的来源属性抽取目前还没有专门的评测语料库,本文实验评测结果是委托第三方人工阅读分析的标记结果。第三方人员经过对属性描述的充分理解之后,对《情报学报》2007年140篇和2008年113篇全文文献进行人工逐句阅读,对文献的属性描述句子进行人工识别,把相关的结果标记出来,标注的内容主要有文章题名、学术概念、属性描述句段、属性的情感信息等。经过第三方人员的标记,《情报学报》2007年和2008年的文章分别共有121条和110条相关属性描述句段,同时通过对第三方标记结果的抽查,认为第三方结果具有较高的准确性。然后把系统抽取的结果和这些权威的结果进行评测,本文抽取规则的构建来自于《情报理论与实践》的阅读和试验,而试验使用的是《情报学报》的文献,是为了保证构建规则的适应性。评测指标理想的抽取结果就是系统能将需要的句子完全抽取出来,而抽取出来的句子中不含有不相关的句子,但这不可能实现,最有总会发生抽取不完全和误抽的句子,因此我们使用召回率、准确率指标来对抽取结果进行科学的评测,准确率是指系统正确抽取的属性占所有抽取属性的比例;召回率是指系统正确抽取的属性占事物所有的属性的比例。因为准确率和召回率都是介于0和1之间,而且两者经常是存在反比的关系,所以为了综合的考虑这两个因素,还使用了F-Score这个指标综合的对结果进行评测。(公式)除了延用了常见抽取的评测指标(包括准确率和召回率),还根据属性一对多的数量关系和属性具有情感信息的特色,对属性的数量关系进行测评,统计35
第五章学术概念属性抽取系统的实现出数量关系中几个数量描述的情况较多;对属性情感信息的测评,统计出描述属性的内容里面,正面、负面和不带情感色彩的中性描述各占的比例。实验结果与分析本文利用《情报理论与实践》文献阅读构建的规则,对《情报学报》2007年140篇文章和2008年113篇文章进行实验,通过句子匹配对系统进行了抽取实验,得到的抽取结果如图所示:图系统抽取结果在Eclipse中显示图将系统抽取的结果和第三方人工标记的结果进行测评,得到的抽取结果统计如下:表系统抽取实验的结果准确率召回率F值《情报学报》%%%2007年文章《情报学报》%%%2008年文章抽取结果中数量关系以一对一的数量关系为主,在一对多的数量关系中以三个属性的描述居多;对抽取结果情感信息的统计结果为:中性描述占%、正面描述占%、负面描述占%。从上述实验的结果可发现,通过严格的规则控制,实验的准确率能控制在60%以上,保证了抽取的准确率,说明构建的规则具有适应性,错误的类型主要是没有具体的属性描述和内容描述的不相关;但召回率还较低,尤其是2008年的文章召回率只有%,原因是很多属性描述存在于多个句子中,并且200836
第五章学术概念属性抽取系统的实现年文章中上下文指代词的使用也较多,遗漏了很多相关的正确结果。另外,在实验术语词典中增加了实验文章中的新术语时,抽取的召回率得到了很大程度的提高,说明术语词典的完全与否直接影响到抽取的结果。从实验结果可以看出,当前抽取规则还比较粗糙,会产生一些误抽取和抽不出的情况,错误抽取中的几种典型的类型有:(1)术语词典存在干扰词。学术概念的术语词典里面包含着一些不是或者不能够代表情报学领域学术概念的词语,如“利用信息”“发现知识”等词语。(2)学术概念指代错误。如句子“基于正式组织的竞争情报知识流具有两个主要特点:其一,正式组织中的竞争情报知识流有强弱之分……”描述的是“基于正式组织的竞争情报知识流”的特点,而不是抽取出的“竞争情报”的特点。(3)没有属性的具体描述。如句子“并探讨了网络影响因子这一计量指标的缺点。”这个句子仅仅是通过“(学术概念)……的特点”这种规则匹配,没能够对句子的内容进行深层次分析,所以抽取出来虽然表面符合规则,但实际没有对“网络影响因子”缺点的具体描述,是经常出现的错误抽取类型之一。(4)规则难识别。自然语言是人类的思维语言,其表达方式非常多,很难将其所有的规则都概括完全,这就造成了部分相关的句子无法通过构建的规则被抽取出来,如句子“网络不仅是企业的一种宝贵的、具有战略价值的知识资源,更是企业挖掘其自身拥有的社会网络中的知识、特别是隐性知识的一项基本能力。”在当前的抽取规则中无法被抽取。(5)上下文代词指代较难识别,上下文代词的指代在学术文献中很常见,常用“它”“其”来指代上句中的某个词语,这就需要对文本篇章进行分析来确定某一知识单元的构成句子,如句子“智能知识服务是知识服务的高级形式,它可以密切联系用户当前工作实际,采用智能的知识采集、加工、组织、服务等各种智能技术对资源进行知识化处理,最终面向用户提供知识服务。它的显著特点是人工智能技术的引入。”这里用“它”指代了上句中的“智能知识服务”这一概念,后面一句是对其特点的描述。从实验结果可以看出,当前属性抽取的抽取效果还不是很好,一方面是对属性抽取的规则还没进一步的细化,很多相关的句子不能被识别抽取出来,还有对抽取的“逆规则”总结还较少;另一方面是自然语言处理能力较弱,抽取系统还不能理解文本深层次的语义信息,这些方面的问题都需要在抽取系统不断的改进过程中来解决。37
结论结论本文总结学术文献凝结着科研人员的巨大成果,蕴含着丰富的知识和智慧,但当前对于学术文献中知识组织还是以篇章为单位,本文通过知识抽取尝试以知识单元的方式对学术文献中的知识点进行组织和管理。学术文献是以自然语言的方式进行的描述,自然语言是人类智慧的结晶,对自然语言的处理是非常困难也是非常具有挑战的,知识抽取作为对文本自然语言处理的一种,对知识组织和知识管理会产生深远影响。本文对学术概念属性范畴和抽取技术进行了介绍,对国内外属性抽取的研究热点、对象、方法和结果评测等方面进行综述分析,提出一套学术概念属性规则构建的流程,并通过《情报理论与实践》里大量文献阅读分析构建了属性抽取的九大类规则,并设计和实现了学术概念的属性抽取系统,对《情报学报》2007年和2008年的文献进行了抽取实验,还把系统抽取的结果和第三方人工标记的结果进行测评和分析。本文的创新点是针对当前学术文献以篇为单位进行组织和使用方式的不足,采取了以知识单元的方式从学术文献中抽取知识点,利用属性规则抽取出所相关的概念属性,此外本文通过《情报理论与实践》阅读和分析来构建抽取规则,并对《情报学报》上的文献进行了实验,还对属性的描述进行了数量关系和情感信息方面的分析。同时,本文的研究还存在着一些不足:PDF文献解析和术语词典不全,学术文献PDF解析时会造成一些内容、排版方面存在问题,影响后续的抽取效果,术语词典中分词词典一些新的概念和说法没有,会造成新的概念属性无法被抽取出来;规则构建难度较大,属性的描述方式很多,规则分析、整理、统计较为复杂,且不容易归纳完整;对文本自然语言处理的能力较弱,缺少对文本进行句法语义分析等深层次的自然语言处理,对一些仅通过字面规则匹配的句子无法进行剔除。下一步工作当前的属性抽取系统效果还不甚好,表现为准确率和召回率还较低,还存在到很多方面的问题,在下一步的工作中,首先是完善并维护一个核心学术概念的术语词典,并能够实现词典对新的概念、说法的实时更新;在规则构建方面38
结论尝试用一些统计模型利用自动化方式构建规则,或者构建出规则的规则,让规则的构建具有可移植性,方便不同领域学科进行各自的抽取规则构建学习;在抽取方法方面,加强对文本自然语言处理分析,解决抽取过程中上下文指代词之间的抽取遗漏,并对文章写作结构、句型结构等进行规律性的总结。此外,还将对不同文献中的学术概念属性进行筛选、综合,并对不同概念的属性描述进行分析比较,挖掘出一些相似概念之间的关系等。属性抽取只是整个知识抽取大的体系里面的一个部分,在以后的工作里,通过对学术文献中学术概念属性的抽取研究,研究出一种套路,方便对学术文献中其他知识点的抽取,做到知识抽取体系之间的可移植。总之,本文的属性抽取的研究是知识抽取研究的一个探索,是对当前知识组织和管理方式的一个尝试,随着研究的进步与深入,知识抽取系统将会越来越成熟和完善。39
参考文献参考文献[1]化柏林,张新民.从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J].情报科学,2010,28(2):311-315.[2]百度百科-术语[EB/OL].(2007-12-01)[2011-02-25].
参考文献23(3):226-229.[17]李蕾,王楠,钟义信.基于向量空间的中文概念检索技术研究[J].情报学报,2000,19(5):525-531.[18]常宝宝.自然语言处理研究中常用的机器学习技术[EB/OL].(2010-09-13)[2011-02-25].
参考文献[32][EB/OL].(2006-02-09)[2011-02-25].
参考文献作者简介姓名:丁君军性别:男民族:汉出生年月:1987-11-18籍贯:江苏省盐城市教育经历:2005-09—2009-06厦门大学软件工程专业学士2009-09—2011-06中国科学技术信息研究所情报学专业硕士参加项目:国家自然科学基金青年项目《基于句子匹配分析的知识抽取研究与实现》(项目编号:70803048).攻读硕士学位期间发表的学术论文丁君军,郑彦宁,化柏林.国内外属性抽取研究综述[J].情报科学,2011,29(5):793-79643
致谢转眼间,来中信所读研已经快两年了,两年的学习和生活,不仅学到了很多情报学专业知识,其他方面的能力也得到了提升,比如学术研究能力提升、工作动手能力的进步。在这里,向这段时间里帮助和陪伴过我的人表示真挚的谢意。感谢我的导师郑彦宁研究馆员,郑老师渊博的学识和高屋建瓴的指导,开阔了我的视野,让我对学术研究有了迅速的入门,同时形成了好的学习方法和能力,为我以后的继续研究和学习提供了良好的基础,感谢郑老师给我提供了良好的学习环境和各种帮助。其次要特别感谢项目组的化柏林老师,化老师给予我的毕业论文很大指导和帮助,教会我研究的方法,并让我加入到他的国家自然科学基金项目中,化老师博学的智慧给我的论文理顺了思路,建立了我做毕业论文研究的兴趣和信心。此外,还感谢情报方法研究中心陈峰老师、赵筱媛老师、刘志辉老师、杨阳老师在学习中给予我的指导和帮助,感谢刘一宁同学在毕业论文的研究阶段给我的帮助。感谢研究生部的罗勇、张泽玉、郝文英、刘敏、王桂凤等老师,你们在我毕业论文创作期间给了我很多帮助,给了我良好的学习环境,还要感谢前研究生部的张德、吴运高、赵琳、雷同玲老师,你们也曾经给我的学习和生活提供了很多帮助,再次一并感谢。感谢我的家人,父母永远是我最坚强的后盾,无论我做什么,他们总是默默的在支持着我,尤其在我最艰难的时刻给了我莫大的支柱,永远感激你们为我所做的一切。最后我要感谢中国科学技术信息研究所的所有老师和同学,要特别感谢江山同学的一直陪伴,你给了我鼓励和支持,默默的支持我、陪伴我,给了我很大快乐。此外,感谢二十多年来默默支持和帮助我的人们,没有你们的关心和帮助,就没有我今天的成绩。45