信息集成通常对在不同概念、上下文和拼写的表述上具有异构性的信息源进行整合处理。信息集成处理的对象主要包括文本与数值形式的数据信息,以及多媒体形式的数据信息。标准化是信息集成的基础,主要包含通信协议标准化、数据标准化、网络标准化、电子文档标准化,以及交互图形标准化等。
在数据库领域,信息集成主要是指对异构数据源的集成与融合的过程,主要实现方法是使用包装器、中介模式或数据仓库对数据进行复制和聚合。信息集成工具是将来自异构数据源的信息进行整合的工具软件或平台系统。具体实现方法包括:①专用集成接口。通过开发一对一的专用集成接口实现不同系统之间的信息交换与集成。这种集成方式易于实现,适用于信息源数量较少的情况。②共享数据库。通过建立共享数据库的方式实现不同应用之间的数据共享,这个集成方式需要定义共享的信息模型。共享数据库可以采用公共数据库方法,也可以采用联邦数据库方法实现。③集成平台。用集成平台支持的中间件的方式进行信息共享,这种方式可以实现应用对数据的透明访问,解决应用对于操作系统和数据存储方式的依赖性。
信息集成工具主要的应用对象是企业信息集成。企业信息集成支持关系数据库、Web服务以及多维数据库之类的多个数据源间的实时数据集成,帮助企业实现不同应用系统之间的信息共享和协作。为此,信息集成工具在企业应用中需要解决包括融合异构的数据集、简化理解、简化部署和处理高阶信息等问题。随着企业信息集成工具的出现,虚拟的数据集成也变得可能。信息集成工具能够在数据消费应用与服务和异构数据存储之间建立松散耦合的关系。这些数据消费应用与服务可以包括:桌面工具,如电子表格、文字处理和演示软件等;开发环境与构架;商业智能应用;企业资源管理;客户关系管理;商业过程管理等软件。
在面向企业的信息集成工具领域,已经有了很多成熟的工具帮助企业对信息进行逻辑上或物理上的整合,并支持分布式处理。典型的产品包括IBM公司的InfoSphere系列产品、Informatica公司的Informatica平台,以及Oracle公司的Oracle Data Integrator(ODI)、Oracle GoldenGate和Oracle Data Service Integrator等。
与信息集成相关的概念是信息融合。信息融合是指将多源、多模态、异构的信息合并成为一个消除冗余、不确定性和数据缺失等数据质量问题的新信息集合的过程。