数据集成中间件是用于连接数据仓库,使用户实施分析、发现信息或者进行数据可视化的软件。数据集成中间件本质上可以为分布、自治、异构的数据源提供可靠转换、装载与统一访问服务。在数据集成中,数据集成中间件作为数据集成系统的一种实现方法,用以实现基于全局数据模式的异构数据源访问。
数据集成的核心任务是将互相关联的分布式异构数据源集成到一起,使用户能够以透明方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。
数据集成包括3个阶段:①数据访问。从数据源中访问和提取数据。②数据合并。不同数据源间的业务集成。③变化捕捉。基于企业数据源变化的识别、捕捉和传送。
数据集成的挑战主要来自数据源的异构性、分布性和自治性。异构性是指数据在数据模型上、模式结构上和语义上的异构,这增加了数据集成中数据转换的难度。分布性是指数据源是异地分布的,依赖网络传输数据,这就存在网络传输的性能和安全性等问题。自治性是指各个数据源可以在不通知集成系统的前提下自主地改变自身的结构和数据,给数据集成系统的鲁棒性提出挑战。
在企业数据集成领域,已经有了很多成熟的方法可以利用,通常采用联邦数据库、中间件模式和数据仓库等方法来实现数据集成。这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持:①联邦数据库。它是由半自治数据库系统构成,相互之间分享数据,联邦各数据源之间相互提供访问接口,同时联邦数据库系统可以是集中式数据库系统或分布式数据库系统或其他联邦式数据库系统。在这种模式下又分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比较困难;松耦合不提供统一的接口,但可以通过统一的语言访问数据源,其中核心的问题是要解决所有数据源语义上的异构性问题。②中间件模式。它是通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等。中间件位于异构数据源系统(数据层)和应用程序(应用层)之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成它们的任务,中间件模式则主要集中为异构数据源提供一个高层次检索服务。美国斯坦福大学G.莫丽娜(Garcia Molina)等人在1994年开发的TSIMMIS系统就是一个典型的中间件模式系统。中间件模式是比较流行的数据集成方法,它通过在中间层提供一个统一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看作一个统一的整体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数据源之间能映射到这个中间层。③数据仓库。它是在企业管理和决策中面向主题的、集成的、与时间相关的和不可修改的数据集合。其中,数据被归类为广义的、功能上独立的、没有重叠的主题。
以上几种方法在一定程度上解决了应用之间的数据共享和互通的问题,但也存在以下不同之处:联邦数据库主要面向多个数据库系统的集成,其中数据源有可能要映射到每一个数据模式,当集成的系统很大时,对实际开发将带来巨大的困难;数据仓库在另一个层面上表达数据之间的共享,它主要是为了针对企业某个应用领域提出的数据集成方法。
在生产和经营中,数据集成能够帮助企业整合企业内部和企业外部的数据,实现降低成本、技术提升和高效运营。在科学研究领域,数据集成能够实现数据资源的共享,促进团队间的合作。在政府管理领域,数据集成能够使政府的不同机构更好地协同工作,提高工作效率。