ITA
●郭金兰,龙 怡,盛 宇,吴 英 (上海政法学院 计算机教研室,上海 201701)
电子政务系统的数据集成研究术
摘 要:数据集成是电子政务系统集成的基础。本文根据电子政务 系统中各种应用对数据集成的不同
需求,结合各种数据集成方法的优缺点,提 出电子政务系统应采用 P2P的模式集成与数据复制相结合的
综合数据集成方法。
关键词:电子政务;数据集成;数据交换
Abstract:Data integration is the basis of e—government system integration.In accordance with the different re
quirement of various applications in e—government system on data integration,and in combination with the advantages
and disadvantages of various data integration schemes,this paper suggests that the e—government system should adopt
the synthesized data integration scheme which combines P2P mode integration with data duplication.
Keywords:e—government affairs;data integration;data exchange
1 背景
电子政务系统的快速发展 ,一方面使得政府机关中电
子化信息急剧增加,数据集 (Data Set)规模 日益扩大;
另一方面由于系统实现技术以及实现时间上的差异,造成
了在不同的电子政务系统中存有大量异构数据源。从数据
的存储方式上看,这些数据源 中有结构 化 (Well—Strnc—
tured)数据源,如 DBMS;有半结构化 (Semi—Structured)
数据源,如 XML,HTML文件等;也有非结构化 (Non—
Structured)数据源,如普通的文本文件等。从数据的存储
格式上看,在本质上相同信息的数据,在不同的数据源中
被定义为不同的存储格式,如字段名称定义不同、字段类
型定义不同。异构数据源的存在给实现不同系统间数据的
互访带来了很大不便。为此,解决异构数据源的信息集
成 ,实现方便灵活的互访成为一个很有意义的研究课题。
2 电子政务系统的数据集成需求
政务信息资源数量 巨大、分布宽广,涉及众多的领
域;且随着政府信息化进程的深化,信息量亦将与日俱
增。如何开发、集成、管理这些信息,使之成为各政府部
门的共享资源,以提高政府的行政效率和决策的科学化水
平,是实施电子政务的关键任务。关于政府对政务信息集
成的需求,可以从管理和信息技术两个层面加以分析。
从管理层面上看,当前我国政府组织结构是条块分割
本文受 “上海市高校选拔培养优秀青年教师科研专项基金”
资助。
- - - — — 480 ---——
的二维模式,即纵向层级制和横向职能制的矩阵结构。长
期以来,这种条块模式虽然保证了中央政令的畅通,但是
在数据信息管理方面造成了部门的隔阂、权责不清、利益
不明、关系复杂。许多政府部门在长期的办公 自动化
(OA)系统建设中,都有一套基于自身业务的数据库系
统。这些数据信息从本部门的利益出发,信息的采集、处
理和发布都紧紧围绕着本部门的需求而进行,其他部门根
本不知道某一部门究竟存在哪些数据信息,即使知道也无
法利用,最终形成了数据信息由部门独占的现象。这种现
象导致所需的数据信息要么不足、要么冗余,同时也导致
数据格式不统一、内涵多样、数出多门、管理不规范、安
全性差、重复建设、不易整合等诸多问题。
从信息技术层面上看 ,由于电子政务系统发展阶段性
和历史地理等原因,政府各部门中并存多个应用系统。这
些应用系统可能分布于不同的网络节点,基于不同的操作
系统,使用不同数据库管理系统。可能有 Foxpro,Paradox
等桌面型数据库管理系统,也有SQL Server,Oracle之类
的大中型数据库系统。同时,随着 Web技术的发展,出
现了许多新的数据形式 (文本、音频、图像、动画、视频
数据等),这些大量存在的异构数据,制约 了各部门间的
信息传输和互用,给各级政府的信息资源共享带来极大的
困难,从而对政府部门的正确决策造成重大影响。
3 数据集成方法
3.1 模式集成方法
模式集成 (Schema Integration)是人们最早采用的数
据集成方法,也是其他数据集成方法的基础。其基本思想
· 第3O卷2007年第4期 ·
维普资讯
ITA
是,在构建集成系统时,将各数据源共享的数据视图集成
为全局模式 (Global Schema),供用户按照全局模式透明
地访问各数据源的数据。
模式集成要解决的两个基本问题是 :构建全局模式
与数据源共享数据视图间的映射关系;处理用户在全局模
式基础上的查询请求。模式集成过程需要将原来异构的数
据视图作适当的转换,消除数据源间的异构性 ,映射成全
局模式。全局模式与数据源数据视图间映射的构建方法有
两种 :全局视图法和局部视图法。全局视图法中的全局
模式是在数据源数据视图基础上建立的,它由一系列元素
组成,每个元素对应数据源的一个查询,表示相应数据源
的数据结构和操作;局部视图法先构建全局模式,数据源
的数据视图则是在全局模式基础上定义 ,由全局模式按一
定的规则推理得到。文献 [3]给出了两种方法的比较。
3.1.1 联邦数据库 联邦数据库是早期人们采用的一种
模式集成方法 。联邦数据库中数据源之间共享自己的一
部分数据模式,形成一个联邦模式。联邦数据库系统按集
成度可分为两类 :采用紧密耦合联邦数据库系统和采用
松散耦合联邦数据库系统。紧密耦合联邦数据库系统使用
统一的全局模式,将各数据源的数据模式映射到全局数据
模式上,解决了数据源 间的异构性。这种方法集成度较
高,用户参与少;缺点是构建一个全局数据模式的算法复
杂,扩展性差。松散耦合联邦数据库系统比较特殊,没有
全局模式,而是提供统一的查询语言 ,将很多异构性问题
交给用户自己去解决。松散耦合方法对数据 的集成度不
高,但其数据源的 自治性强、动态性能好。
3.1.2 中间件集成方法 中间件集成方法是另一种典型
的模式集成方法,它使用全局数据模式。与联邦数据库不
同,中间件系统不仅能够集成结构化的数据源信息 ,还可
以集成半结构化或非结构化数据源中的信息,如 Web信
息。基于中间件的数据集成系统主要包括中间件和包装
器 ,其中每个数据源对应一个包装器 ,中间件通过包装器
和各个数据源交互。用户在全局数据模式的基础上向中间
件发出查询请求。中间件处理用户请求 ,将其转换成各个
数据源能够处理的子查询请求,并对此过程进行优化 ,以
提高查询处理的并发性,减少响应时间。包装器是对特定
数据源进行封装,将其数据模型转换为系统所采用的通用
模型,并提供一致的访问机制。中间件将各个子查询请求
发送给包装器,由包装器来和其封装的数据源交互,执行
子查询请求 ,并将结果返回给中间件。
中间件注重于全局查询的处理和优化,相对于联邦数
据库系统的优势在于:它能够集成非数据库形式的数据
源,有很好的查询性能,自治性强;中间件集成的缺点在
于它通常是只读的,而联邦数据库对读写都支持。
· 情报理论与实践 ·
3.1.3 Peer—to—Peer数据集成方法 Peer—to—Peer(P2P)
数据集成方法是在新兴的 P2P计算技术的基础上 ,对原
有的模式集成方法的扩展。P2P是一种基于对等网络的架
构,是计算机系统的结构从传统的集中式发展为松散耦合
分布式的新模式。在 P2P数据集成方法中,参与集成的
各个数据源节点分别被视作一端,每个节点可以将自己的
一 部分本地数据模式映射成为端共享模式,向其他节点共
享 自己的数据。纯粹的 P2P数据集成方法没有全局数据
模式,各节点可以直接通过 P2P映射使用其他节点共享
的数据模式,从而形成各节点之间对等的数据共享与访问
机制。P2P数据集成方法 已成为当前数据集成研究的一个
热点。
3.2 数据复制方法
数据复制方法⋯将各个数据源的数据复制到与其相关
的其他数据源上,并维护数据源整体上的一致性,提高信
息共享和利用的效率。数据复制可以是整个数据源的复
制,也可以是仅对变化数据的传播与复制。数据复制方法
可减少用户使用数据集成系统时对异构数据源的数据访问
量,提高数据集成系统的性能。最常见的数据复制方法就
是数据仓库方法 。该方法将各个数据源的数据复制到同
一 处——数据仓库,用户则直接访问数据仓库获取数据。
3.3 两种方法比较与综合使用
以上两种数据集成方法各有优缺点及适用范围。模式
集成方法为用户提供了全局数据视图及统一的访问接 口,
透明度高;但该方法并未实现数据源间的数据交互,用户
查询时经常需要访问多个数据源,因此该方法需要系统有
很好的网络性能。数据复制方法在用户使用某个数据源之
前,将用户可能用到的其他数据源的数据预先复制过来 ,
用户使用时仅需访问某个数据源或少量的几个数据源,这
会大大提高系统处理用户请求的效率;但数据复制通常存
在延时,使用该方法时,很难保障数据源之间数据的实时
一 致性。
模式集成方法适用于被集成的系统规模大、数据更新
频繁、数据实时一致性要求高的情况。当很难预测用户的
查询需求时,也适合采用这种方法。在模式集成方法中,
人们通常采用中间件方法。由于联邦数据库在集成时需要
为每个数据源单独编写大量的通信接口,因此现在单纯的
联邦数据库方法已很少被采用。
数据复制则适用于数据源相对稳定、用户查询模式已
知或有限的情况。当数据分布性 比较广,网络延迟较大,
同时又需要有很短的处理时间时,也可考虑采用数据复制
集成方法。有些应用场合需要对数据进行备份,这时通常
采用数据复制方法;还有一些场合出于机密性的考虑,数
据不允许复制,这时就要使用模式集成方法了。
一 48】一
维普资讯
ITA
为了突破两种方法的局限性,人们通常将这两种方法
混合使用,即所谓的综合方法。综合方法通常是想办法提
高基于中间件系统的性能,该方法仍有虚拟的数据模式视
图供用户使用,同时能够对数据源间常用的数据进行复
制。对于用户简单的访问请求,综合方法总是尽力通过数
据复制方式,在本地数据源或单一数据源上实现用户的访
问需求;而对那些复杂的用户请求,无法通过数据复制方
式实现时,才使用虚拟视图方法。
4 电子政务系统数据集成方案选取
我们总结了数据集成的基本方法 :模式集成法、数据
复制方法和二者的综合方法。模式集成方法不存在数据库
之间的数据复制,查询时依据数据模式访问远程数据库 ,
因此又被称作虚拟视图集成方法。数据复制方法也使用数
据模式,所不同的是该方法利用数据模式将一个数据库的
数据复制到另一个或几个数据库中,使数据在多个数据库
中都有备份。数据复制方法的查询处理通常直接使用本地
数据库。电子政务应用系统较为复杂,存在多种数据集成
需求,采用何种数据集成方法需要根据具体的需求。
1)政府部门应用系统间的协同办公的数据集成需求。
这里的协同办公指在面向公众的一站式电子政务服务时 ,
多个电子政务系统参与的协同工作。例如,面向公众的注
册户口服务,可能需要公安系统和档案系统同时参与,一
个电子政务系统可能需要另一个电子政务系统的数据。这
种情况需要访问的数据通常是与服务客户相关的小规模数
据,数据模式和政务的业务类型结合紧密,需要参与协作
的电子政务系统共同遵守数据模式传送数据。通常是一个
电子政务节点的应用程序直接访问其他节点的共享的数据
模式 ,并不需要数据库之间的数据复制,因此可以采用模
式集成方法。
2)上下级政府或部门间的批量数据传输需求。政府
经常存在下级部门向上级部门传输业务报表,或上级政府
向下级政府或部门批量发送业务数据的情况。这些都可以
通过政府部门内部电子政务系统的协同工作来实现。与第
一 种应用的不同之处在于一次应用的数据传输量大,通常
表现为将一个电子政务系统数据库中的数据按照某个数据
模式传输到另一个电子政务系统的数据库中,适合采用数
据复制的方法。数据复制的过程中可能要经过适当的数据
变换,解决两个数据库之间的数据异构性问题。
以上两种应用中,节点数据库保持较高的自治性,数
据集成系统没必要也不允许构建代价昂贵的全局数据库,
数据模式适合采用松散耦合的方式管理。这两种应用均是
电子政务节点间数据的相互访问,可以直接通过共享数据
模式和数据访问接口实现端到端数据访问。这种方式适合
..— — — 482 ...——
采用 P2P的模式集成方法。政府管辖范围内各电子政务
系统节点共享的数据模式和访问接口可由一个充当注册中
心角色的中心节点统一管理。参与集成的各节点向中心节
点注册,发布自己的数据模式和数据访问接口,各节点也
通过注册中心发现其他节点的数据模式和数据访问接口,
进而与其他节点绑定,形成松散耦合的 P2P数据集成。
3)国家级分布式数据库系统数据集成的需求。如 国
家级地理信息数据库系统、国家级人 口档案管理系统等。
由于这些系统的数据量大、分布性广,必须采用分布式存
储结构。与前两种应用不同之处在于:前两者是在已有的
电子政务系统之上建立数据集成系统,是一种从下到上的
设计过程;而分布式数据库系统是从上到下的设计过程。
系统的数据模型由最上层统一制定,下层在统一的数据模
型基础上构建数据库,存储管理本地数据,并为整个系统
提供远程数据访问服务。由于这种分布式数据库系统具备
相同的数据模式,适合采用模式集成方法来处理客户的数
据查询请求。又由于其存储的数据量大、分布性强,不宜
在整体上采用数据复制方法。但是国家级数据库可以在小
范围内对下级数据库采用数据复制方法。国家级分布式数
据库系统层次化结构的特点要求每个上层节点要具备中心
节点的功能,具有一个代表其下级数据库的全局数据模
式,可以将用户的查询请求转发给下级数据库节点。
5 结语
通过上述分析可以看出,由于多种应用同时存在,电
子政务数据集成系统适合采用综合数据集成方法。口
参考文献
[1] Call A,Calvanese D,Giacomo G D,et a1.Accessing data inte·
gratinn systems through conceptual schemas[C]//Proceeding
ofER,2001:270-284
[2] HalevyAY.Theoryof answering queries using views[J].SIG-
MOD Record,2O0o,29(4):40-47
[3] Ullman J D.Information integration using logical views[C]//
Proceeding of ICDT97,Volume 1186 of LNCS,1997:19-40
[4] Sheth A P,Lars0n J A.Federated databases for managing dis—
tributed,heterogeneous,and autonomous databases[J].Com—
puting Surveys,1990,22 (3):183-236
[5] Convey C,Karpenko O,Tatbul N.Data integration services
[EB/OL]. http://www.CS. brown.edu/people/tatbul/
cs227/chapter. pdf
[6] 周傲英,凌波.Peer—to—Peer系统及其应用 [J].计算机科
学,2002,29(8):200-202
[7] Benefitsoftransformational dataintegration[EB/OL].http://
www. grcdi. hi/benefits. pdf
[8] Chaudhuri S,Dayal U.An overview of data warehousing and
OLAP technology[J].SIGMOD Record,1997,26(1)
作者简介:郭金兰,女,1976年生。发表论文9篇。
收稿 日期 :2007—02—05
· 第3O卷2007年第4期 ·
维普资讯