1、设计的依据与意义
随着企业信息化和网络技术的迅猛发展,越来越多的企事业单位都建立了自己的信息系统。由于这些信息系统在不同阶段不同环境下开发,而且大都建立在面向各自部门内部业务处理的基础之上,因此每个系统有各自的运行环境和数据存储方式。同时在信息组织上面,往往各个部门之间又存在交叉信息。而这些交叉信息的组织无疑导致了大量的重复劳动;甚至,由于获取信息的渠道、时间等的差异,而导致表征相同信息的数据出现歧义,无法确定信息的正确版本。为了更好地实现资源共享,提高资源管理效率,迫切需要建立1个公共的集成环境,对用户提供统1和透明的访问界面。
在打破各信息系统间的彼此封闭,实现数据交换和共享的努力中,往往会遇到以下这些问题:
(1)数据库建立的时候没有考虑到数据共享的问题。
(2)不同的数据库采用了不同的DBMS,甚至是不同的操作系统。
(3)不同数据库中表征相同信息的表或表征相同属性的字段可能命名各异。
(4)各数据库可能不在同1个网络中。
为解决上述数据共享问题,我们在此提出在统1安全框架下,面向各自信息描述、分布式异构数据环境下数据集成的概念。通过数据的标准化,相关分布式异构数据源得以共享数据资源,并保持实时同步更新。
在数据集成环境下,当某个数据源数据有变动时,必须把数据变动信息及时传递给相关目标数据源。这就需要为每个数据源分别建立1个叫数据源伺服器的组件来实现异构数据源间的同步通信。具体来说数据源伺服器负责异构数据差异监控信息的保存、异构数据源同步客户端用户的信息维护、实时安全的更新信息的主动式同步分发,以及接收更新信息后向本地数据源的数据同步。可见数据源伺服器在异构数据集成中是必不可少的,这正是设计研究它的意义所在。
2、国内外同类设计的概况综述
数据集成是指1种中间件(Middle-Ware或Mediator),它屏蔽了各种异构数据间的差异,提供1个访问异构数据的统1接口。能够使应用程序以统1的方式访问各种分布的、结构各异的数据源,就如同访问单1数据源1样。并能为数据和内容源提供实时的读和写,能变换这些数据以进行商业分析和数据交换。
集成平台与集成框架技术是在20世纪80年代末90年代初,随着企业信息集成与系统集成复杂度的提高,采用常规的集成方法已难以适应集成的要求,于是作为先进的应用集成工具,集成平台与集成框架技术就应运而生。
目前常用的数据集成方法有:联邦系统、数据仓库和Mediated系统。
(1)联邦系统
将所有数据源统1到1个单1的集成系统中。该方法比较简单,集成系统有统1的模式,不用考虑分布数据的转化和统1。但是,构造这样的集成系统需要很长的开发时间,要求高性能的主机设备,实现代价较高。
(2)数据仓库(DataWarehouse)
将所有数据源的数据都抽取出来进行预处理,合成1个全局模式,并存储在单1的数据仓库中供用户查询。数据仓库支持对历史数据的访问,用户也可以通过数据仓库提供的统1数据接口进行决策支持的查询。这种方法查询处理性能高,但数据可能缺乏时效性,并且创造数据仓库比较费时费力(数据仓库中的数据在存储之前必须经过1定的筛选处理)。
(3)Mediated系统
通过提供所有异构数据源的虚拟试图来完成数据集成,集成的数据源可以是数据库、遗产系统和Web数据源等。系统提供用户1个全局模式,用户的操作只针对该模式,不必关心数据源的位置、模式和访问方法。虚拟数据库不存储任何自己的数据,而是将用户的查询翻译成1个或多个对数据源的查询,然后中介器(Mediation)对各个数据源的查询结果进行综合处理,将结果返回给用户。该方法并不将各数据源的数据集中存放,而是通过中介器/包装器(Mediation/Wrapper)体系结构满足上层的集成应用需求。Mediation/Wrapper方法解决了数据更新的问题从而弥补了数据仓库方法的不足。但是,由于针对各个数据源的包装器(Wrapper)要分别建立,因此异构数据源的Wrapper建立问题又给人们提出了新的挑战。
通过对以上数据集成方法的分析比较,Mediated系统性价比高,时效性强,是较合理的集成方法。随着组件技术的发展,还可将组件技术应用到数据集成中。WebServices是1个崭新的分布式计算模型,利用XML、SOAP、UDDI、WSDL和WSFL等标准构造1个松耦合的分布式计算环境,实现各个异构平台的通讯和数据共享。
在此背景下,本文提出的异构数据集成框架是采用中介器/包装器体系结构的Mediated系统。该系统基于面向对象的Java和XML技术,以元数据为基础、WebService为实现手段。Mediated异构数据集成系统主要采用数据源伺服器屏蔽各种数据源的差异,通过1个XML接口引擎作为低层关系数据库或其他数据源的包装,在不改变数据源数据类型和结构信息的前提下,完成某种数据类型与系统集成模(XMLSchema)之间的双向映射,并实现集成模式操作至低层数据源操作的转换,为用户提供了对数据源的查询和更新机制。
3、课题设计的内容
本课题主要研究基于WebServices面向服务的公用异构数据集成平台的搭建、统1安全认证、异构数据共享与安全传输。本人侧重于数据源伺服器的设计。数据源伺服器完成异构数据差异监控信息的保存、异构数据源同步客户端用户的信息维护(包括:更新状态、在线状态监控等)、实时安全的更新信息的主动式同步分发,以及接收更新信息后向本地数据源的数据同步。
数据源伺服器包含3个主要功能模块:数据接收整理模块、数据差异比较模块与数据同步更新模块。数据接收整理模块对主本数据进行适当的整理和加工,便于后面的模块功能处理;数据差异比较模块扫描经过整理的主本数据,通过数据间的比较获得数据的变化,生成主本数据变动信息;数据同步更新模块根据主本数据变动信息完成对副本的刷新。
数据伺服器接收主本数据源通过TCP连接传过来的数据流暂存在缓冲池,经过整理和差异比较后将变动信息通过UDP协议转发给副本数据源。主本数据变化信息包括变化了的数据以及完成这1变化的数据操作,这些信息保存在"主体数据变动信息"的数据表中。在数据量较大的情况下,可考虑转化成相应XML格式文档后经压缩成jai包再转发给副本数据源伺服器,完成副本数据源选择性的数据同步更新。
4、设计方法
4.1研究方法:
(1)采用Java编程技术,通过TCP协议完成变动信息的接收和临时存储。
(2)采用Java编程技术,通过UDP协议完成同步客户端的更新数据高速传输。
(3)采用JDBC和XML技术,实现本地数据源选择性的数据同步。
4.2研究措施:略
因篇幅问题不能全部显示,请点此查看更多更全内容