第十一章 信息集成服务
§ 信息集成服务的组织形式
§ 信息集成服务的内容组织
§ 信息集成服务中的系统互操作
§ 信息集成服务的协同实现
§ 信息集成服务的组织形式
一、以资源为中心的信息集成服务
二、以技术为中心的信息集成服务
三、以机构合作为中心的信息集成服务
四、以用户为中心的信息集成服务
一、以资源为中心的信息集成服务
以资源为中心的信息集成服务,是一种面向信息资源的,并以信息资
源的发现、采集、加工与集成作为服务工作中心的信息集成服务类型。
二、以技术为中心的信息集成服务
以技术为中心的信息集成服务,是一种面向信息集成技术应用的,以
信息集成技术的研发为依据的信息集成服务类型。(如图11-2)
三、以机构合作为中心的信息集成服务
以机构合作为中心的信息集成服务,是以信息服务机构之间的多种形
式的合作为基础,通过合作达到机构之间信息资源的集成与共享、服务技
术的集成与共享、服务人员的集成与共享,从而增强各个服务机构的服务
能力的一种服务(如图11-3)。
四、以用户为中心的信息集成服务
主要是个性化集成服务,是由用户个性化的需求为导向进行信息服务
要素的动态集成的一种服务。强调用户的个性化体验,以提供用户满意的
服务为目标,从用户角度进行服务的集成组织,因此,信息服务机构在提
供信息集成服务时,一切从用户活动与行为出发,不仅强调信息用户现实
信息需求的满足,同时也关注和挖掘用户的潜在信息需求(如图11-4)。
§ 信息集成服务的内容组织
一、 集成化信息动态发布
二、 集成化信息检索
三、 信息集成化推送服务
四、 基于神经网络集成技术的专家系统服务
一、集成化信息动态发布
集成化信息发布平台能够自动根据其动态库中信息的变化、网上相关
信息源的变化和深层开发的结果适时发布相关信息并及时提供相关资源。
图11-5以新闻动态发布为例,显示了集成化发布的过程。
一、集成化信息动态发布
Web信息资源发布通常使用两种简单模型:一是
页面发布(如图11-6),二是数据库发布(如图11-
7)。无论是哪种模型,其发布的对象都具有一致性:
被发布的对象是Web上的信息资源;
利用常规的Web技术实现信息发布,即将Web作为信息
发布渠道;
用户采用类似于通常信息浏览的方式即可浏览被发布的
信息;
受众不确定和不可控制性,即对Web用户访问发布的资
源不做限制。
一、集成化信息动态发布
二、集成化信息检索
集成化信息检索是以信息集成与服务集成为依据,以达到知识共享
的最大化为目的,实现对互联网连接起来的数字资源库群的分布式存
贮及跨平台、跨语种的网络化检索。
集成化信息检索顺应用户的需求,本着截面无缝化、统一化的检索
理念,为解决异构数据库的统一检索问题而提出。信息集成化检索的
必要性表现在如下4个方面:
① 资源分散阻碍了知识共享。
② 用户面临检索困境。
③ 现行检索方式的弊端。
④ 数字图书馆服务的推动。
二、集成化信息检索
现代网络环境和技术条件从多个方面保证了集成化信息
检索的实现,关键技术包括标准与协议支持、数据库技术
的发展、网络化检索的实现等。
① 标准与协议支持:基于网络的集成化信息检索系统
的开发和运行得益于通用的网络协议,更依赖于和信息处
理、传输与检索等有关的标准与协议
② 数据库技术的发展:面向对象的技术与公共对象请
求代理体系结构(Common Object Request Broker
Architecture,CORBA);动态数据库访问技术
③ 网络检索工具的发展
三、信息集成化推送服务
与传统的信息服务形式和信息服务模式相比,针对用户对
信息服务提出的全面、准确和深入的要求,集成化信息服务中
必须开发自动预测需求、自动跟踪、主动发布信息等功能以适
应用户,这正是信息推送服务的优势所在。在用户特征和需求
特征库建立之后,系统便可以根据用户的特殊偏好或需要,定
期通过网络搜索获取的相关信息,通过智能化的筛选、分类,
然后提供给相关用户,这相当于为每位用户编制一部完全符合
其需求、适应其特点、属于他个人的动态信息集。这样才能最
大程度地提高用户获取信息的能力,做到按需推送,以使从被
动变为主动,更好的服务于用户。
三、信息集成化推送服务
根据系统集成和扩充程度的不同,推送服务功能的实现可以分为三种
形式(具体模型如图11-8所示):
三、信息集成化推送服务
① Web服务器扩展(CGI)方式。这种方式利用服务器
扩展(CGI)来扩充原有Web服务器功能,实现信息推送。
② 客户智能代理(Agent)方式。这种方式使用“智能
代理(Agent)”定期自动的对预定的Web站点进行搜集,
以收集更新信息并发送给用户。
③ 推(Push)服务器方式。这种方式对原有系统的改动
最大,它提供包括推(Push)服务器、客户端及开发工具等
一整套集成应用环境。
还需要说明的是,信息推送服务是基于用户注册的服务,
依据注册用户定制信息,按照其个性化需求,采用推送至终端
或推送至邮箱的方式来实现。简要的流程是:未注册用户在注
册过程中提供用户信息和需求特征信息,登录后自行设置定制
信息,系统将服务器定期扫描用户定制信息之后的产品,定期
提供给用户所需信息。
四、 基于神经网络集成技术的专家
系统服务
专家系统是一种智能的计
算机程序,它运用知识和推理
步骤来解决只有专家才能解决
的复杂问题,它主要由知识库
和推理机构成。
基于神经网络集成的专家
系统由基本部件和核心部件两
大部分组成。基本部件即传统
的专家系统的组件集成,主要
包括用户界面、知识库、知识
库管理系统、推理机、数据库、
解释机等,核心部件包括神经
网络集成知识自动获取模块
(神经网络集成、规则抽取机
构),其系统基本结构如图11-
9所示。
如图11-9所示,几个基本模块运行如下:
用户界面:人机交互的平台,服务提供方、资源提供方和用户可以方便地
交流。
解释机:对给用户提供的答案进行包括采用事实依据、逻辑推理路线、系
统分析方式以及答案的肯定程度等给予必要的集成说明。
推理机:模拟领域专家的思维过程,控制并执行对问题的求解。。
系统管理模块:系统管理员通过该模块对整个专家系统包括数据库和知识
库行使存储、排序、检索、维护、更新等基本管理职能。
数据库和知识库:数据库是用于存放从用户提问-问题分析-经验采纳-逻辑
推理-初步结果-结果验证-最终结果-结果提交全过程的事实和数据,而
知识库则存放着领域专家专门知识,库中还存储着从神经网络中抽取的
规则,这也是基于神经网络集成的专家系统与普通专家系统的区别之一。
四、 基于神经网络集成技术的专家
系统服务
§ 信息集成服务中的系统互操作
一、系统异构与基于资源集成的系统互操作
二、系统异构与互操作环境
三、系统互操作的技术实现
一、系统异构与基于资源集成的系统互操作
目前关于信息系统互操作的研究主要集中在以下领域:
• 电子政府领域的互操作研究
英国政府UK e-GIF是第一个系统化的电子政务互操作框架,将相应的标准规范
分为:系统互联(Interconnection)、数据整合(Data integration)和信息获取
(Information access)三个方面,包括了通信协议、安全机制、数据编码、数据标
记、元数据、数据交换格式等层面的互操作.
• 电子商务领域的互操作研究
UN/CEFACT及OASIS共同推进的ebXML电子商务标准体系
• 数字图书馆领域的互操作
OCLC关于DSpace Harvesting、Dublin Core Metadata Initiative、Open
Archives Initiative、 OpenURL Activities、 RDF Interoperability、
Terminology Services、互操作的研究等,推动世界范围内图书馆界
的系统互操作和合作。
• 多媒体出版领域的互操作规范
信息用户在使用信息系统时出现两大鸿沟:信息获取鸿沟
和信息理解鸿沟,客观上提出了系统互操作的要求。系统互操
作是达到共享目标的系统和系统间的有效交互能力。互操作的
主要特征包括:
①自治性(Autonomy)。自治性是系统互操作的最重要的特征。其基
本特征是,各个系统的每个构件本质上可独立于环境中其它构件进行操作,
即具有一定程度的独立性和可局部管理性。
②服务性(Service)。这里的服务是靠构件实现的,即构件或一组协
同操作的构件,它代表用户执行的一个活动或一组活动。
③物理分布性。
④开放性(Openness)。开放性是指构件与服务可在任何阶段加入到
系统,或从系统中撤去。
一、系统异构与基于资源集成的系统互操作
一个理想的信息系统操作应该满足 :
①支持丰富多样的资源和功能形式,能容纳各种各样的信息资源体系
和服务体系。
②支持分布的各个系统的自主性,能持续支持支持各个系统的自主建
设与发展,能有效保证对知识产权资源使用的本地控制,能支持专门的本
地客户端机制和服务,能支持专门的甚至本地化的元数据格式和系统协议。
③保证整个分布式数字信息机制的低成本和进入该体制的低成本。保证
在分布式数字信息机制中增加新的资源和服务系统的方便性和低成本;保
证在分布式数字信息机制中使用任何一个资源和服务系统的方便性和低成
本。
④提供整个机制的可伸缩性,能容纳甚至动态组合任意数量和类型的资
源或服务体系。
一、系统异构与基于资源集成的系统互操作
信息系统互操作的目标是向用户屏蔽分布的、异构的各个信息系统间
的差别,实现用户对多个信息系统的交叉浏览和交叉检索,提供统一入口
的多个信息系统间检索和浏览服务,实现信息共享。
当前环境下,信息集成服务要解决互操作的以下主要问题:
屏蔽分布的各信息系统之间的差别,通过统一界面为用户提供一致的服
务;
为信息资源和信息系统提供一种灵活的集成机制,即允许各个相对独立
的信息系统能自由增加新的服务,或修改以前的服务;
信息资源整合和集成服务协议的制定,包括元数据协议、数字对象存储
协议、信息搜索协议、付费协议、信息资源服务的运行管理协议等等;
开发信息资源整合与集成服务系统高层协议中间件,实现分布子系统间
各项服务的互操作。
一、系统异构与基于资源集成的系统互操作
二、系统异构与互操作环境
信息集成服务处于分布、异构数字化信息环境中,众多
不同地域、不同技术平台、使用不同组织检索方式的系统并
存,迫切需要建立有效的互操作机制来整合整个分布环境中
的资源和服务。
制约系统互操作的因素非常复杂,其中异构性是制约信
息系统实现互操作的关键因素。
信息系统异构主要可以概括为两个层面:信息资源层面、技术 层面。
①信息资源异构,资源是信息系统提供服务的基础,信息资源的异
构问题主要表现为:
命名问题
格式问题
描述体系的问题
②技术层面的异构,指信息系统所依赖的应用系统、数据库管理系统
乃至操作平台之间各不相同,形成异构的技术环境。
二、系统异构与互操作环境
信息集成服务的系统互操作环境
从宏观环境而言,信息集成服务互操作处于异构、集成和动态环境中。
从微观环境而言,信息集成服务要跨越分布异构的资源集合和集成服务体系,
实现一致的服务。图11-11详细说明了信息集成服务互操作的微观环境。
二、系统异构与互操作环境
三、系统互操作的技术实现
应用信息系统互操作的关键技术主要包括:
应用层面的互操作技术:包括信息系统软件互操作技术、基于协议的互
操作技术;
资源层面互操作技术:主要包括元数据互操作技术和知识本体互操作技
术。图11-13展示了一个信息系统互操作的技术框架。
三、系统互操作的技术实现
应用层面的信息系统软件互操作的技术实现
软件互操作技术的核心是通过克服不同软件构件所采用
的实现语言、运行环境和基本模式的差异,实现信息系统相
互通信和协作,完成某一特定任务。
①外部协调(mediator)或中间件(middleware)技术。
②基于软件代理的互操作技术。
③分布式对象请求技术。
④基于描述得互操作技术。
④基于描述的互操作技术
三、系统互操作的技术实现
应用层面的基于协议的互操作技术实现:
协议是实现互操作的基础。在信息资源整合与服务中,
信息系统互操作的实现需要相关协议的一致性应用,对信息
系统集成与互操作影响较大的协议包括:
LDAP
WHOIS++等。
是信息检索应用服务定义和协议规范(Information Retrieval
Application Service Definition and Protocol Specification)的简称。起源于
图书馆界,最初是针对图书馆机读目录(MARC)数据库共享而开发的标准,
通过对编码方式和内容语义的标准化来实现不同系统间的互操作。
是一个模块化的标准(图11-14)。为了满足不同的应用程序之
间的互操作性,不同的应用领域就某些检索和查询的细节达成一致,业已形成了若
干“Profile(大纲)”。
WHOIS++
WHOIS++协议最初作为目录服务开发,并提供简单的、
基于模板的、分布式的和可扩展的信息查询服务。
WHOIS++ 同时提供了为建立分布式数据库索引的通用架构
。WHOIS++协议部署简单,并提供灵活的方式实现跨平台、
数据集的查询;多语言支持。需要注意问题的是:
(1)WHOIS++只提供有限的检索方式,因此部署相对简单的服务
时,可以采用WHOIS++协议。
(2)需要以CIP协议结合使用,WHOIS++协议和CIP协议结合使用
才能实现查询路由和分布式索引,才能提高检索效率。
(3)以一定的安全认证机制相结合。WHOIS++协议和它提供的检
索路由机制,目前已经在ROADS软件平台和TERENA的TF-CHIC架构中
实现。
三、系统互操作的技术实现
语义互操作技术
语义上的异构是实现信息系统互操作面临的最大挑战之
一,也是研究互操作的难点所在。实现信息系统的语义互操
作主要通过两个途径:
• 元数据互操作技术
• 共享本体
元数据功能包括对资源的描述、管理和定位,以及对资源的评估。当
在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用
时,就存在元数据的互操作性问题。
元数据的互操作是指多个不同元数据格式的释读、转换和由多个元数
据格式描述的数字化信息资源体系之间的透明检索。针对元数据互操作有
多种解决方案,其中包括:
• 元数据映射:(Metadata Mapping)又称元数据转换。从语义角度提供
元数据的互操作,从而实现跨资源库的统一检索。目前已有大量的映射程
序存在,如DC与USMARC、DC与EDA、DC与GILS、GILS与USMARC等。
• 开放描述:建立一个标准的资源描述框架(Resource Description
Framework),来描述所有元数据格式,那么只要一个系统能够解析这个
标准描述框架,就能解读相应的 Metadata格式。实际上,XML和RDF从
不同角度起着类似的作用。
三、系统互操作的技术实现
知识本体(Ontology)互操作
基于Ontology的信息互操作方法主要是研究如何理解所获取的信息,
重点解决不同部门、不同个人之间对信息理解的差距。解决的手段是通过
在不同部门、不同个人之间建立共识的Ontology,使部门与部门及个人与
个人之间对异构信息达到一定程度的共同理解,并能在此基础上进行相应
的分析运用。
知识本体(Ontology)是共享概念模型的明确的形式化规范说明。把每
一个知识领域抽象成一套概念体系,再具体化为一个词表来表示,包括每
一个词的明确定义、词与词之间的关系(例如用代、属、分、参关系)以
及该领域的一些公理性知识的陈述,并且能够在这个知识领域的专家之间
达成某种共识,即能够共享这套词表,所有这些就构成了该知识领域的一
个“知识本体”。最后用一定的编码语言(例如RDF/OWL)明确表达上述
体系(词表、词表关系、关系约束、公理、推理规则等)。
三、系统互操作的技术实现
§ 信息集成服务的协同实现
一、机构协同模式
二、项目协同
三、技术支撑协同
四、资源组织协同
一、机构协同模式
“协同”反映了事物之间、系统或要素之间的配合性和依
赖,以及由此而引发的合作 。目前,机构协同已成为推进信
息集成的一种重要方式。就整体而论,国外信息机构基于资源
共享集成的协同服务强调资源共享的潜在战略利益。国内信息
机构在协同服务中,主要是基于信息资源共建共享的信息集成
服务。
以机构协同方式进行的信息集成服务,可以分为线性协同与网络协同两种。
(1)线性协同
线性协同模式根据协同服务的内容又可以分为水平协同和垂直协同。
①水平模式。信息机构根据自己的特点和发展方向,同其他的信息服务机
构合作的协同模式,这种协同是在一个平面上进行的,协同的内容是综合性的。
②垂直协同模式。与水平协同服务模式相比,垂直模式是信息机构为了满足
某一特定群体特定需要而进行的协同。这种协同是在同一系统或同一服务链上
进行的纵向整合式协同。
(2)网络协同
网络协同是面向大众或面向诸多用户群体的信息资源服务机构普遍采用的协
同方式,是既保证大众用户的集成信息需求,又为需要提高信息资源服务层次
的用户提供集成服务的一种协同方式。
以上协同服务方式在信息资源集成共享的协同服务中往往交叉应用。协同服
务需要建立在各成员高度合作的基础上,因此必须有一个有效的协同机制。
一、机构协同模式
二、项目协同
项目协同是以项目为中心,组织资源,提供信
息集成服务的一种方式,这种方式对传统服务形式
和组织结构不作大的调整,仅在垂直管理机构中增
加数条水平管理链和服务链,彼此纵横交叉,形似
矩阵,也称矩阵协同服务。
三、技术支撑协同
在以技术为支撑的信息集成协同服务中,协同技术的
采用具有3方面特征:
① 以互联网为基础。协同技术是在网络技术发展的基础
上发展起来的,它强调的是基于互联网的跨区域、跨组织、
跨部门的协作。
② 以流程协同为主导。
③ 以人为本。协同技术的核心思想是以人为本,这一思
想体现在协同技术应用系统的功能排列、流程组织、操作方
式安排等方面。
三、技术支撑协同
协同技术得以发展的基础是计算机和网络技术的发展,
包括群组通讯技术、协同控制技术、同步技术、安全控制技
术、协同应用共享技术、应用系统开发环境和应用系统集成
技术、多媒体和超文本(Hypertext)技术的发展,这些核
心技术组件为技术协同的实现提供了条件。
此外,协同工作模式及其协同工作平台建设也是协同技
术的重要组成部分。
四、资源组织协同
从传统图书馆的馆际互借服务、文献互传,到网络信息资源的广
泛共享,都是资源协同共建的途径。当然,局限于“共享”的资源
整合并没有真正体现出其全部优势,信息资源集成应在共享基础上
实现信息的共同开发、共同维护和共同利用。从资源组织协同的对
象看,信息集成服务的资源协同组织需要关注以下3个问题:
信息资源整合的信息流结构调整
网络资源与非网络资源的整合
数字化资源与非数字化资源的整合
复习思考题
1.信息集成服务的组织形式有那些?
2. 信息集成服务包括那些内容?
3.基于资源整合的系统互操作有那些特征及目标?
4.信息系统异构主要包括那两个层面?
5.信息集成服务的协同实现包括那几种主要模式?