数据源分析的任务是让用户能够发现包含相关数据的数据源,并且有满足用户需要的足够高的数据质量。数据源分析的目标是帮助用户理解数据源内容。数据源选择技术可以用来推理关于获取和集成数据的效益和代价,进而识别出值得集成的数据源子集。
给定数据源集合,具有属性
。令
代表一个知识库,
表示数据质量度量的集合。数据源分析问题描述为:①映射
,它与知识库的概念,以及实体和关系的每个数据源中的属性子集有关。②映射
,它可以量化根据知识库来描述数据源不同部分的数据质量。
数据源分析的典型应用包括:①贝尔曼(Bellman)系统。帮助分析人员理解复杂的、不熟悉的相关数据源的内容和结构。在数据源的内容和结构上执行挖掘过程来快速识别具有潜在数据质量问题的属性,判断具有相似取值的属性,使用连接路径构建复杂的实体等。②数据源模式摘要。对一个相关数据源给定一个模式图,大小为
的
的摘要是一个相关数据源中表的一个
聚类
,使得对每一个聚集
可以定义一个表的中心
。这个摘要可通过函数表示成一组标记
,该函数可以把相关数据源中的每个表分配到一个簇中。其3个组成部分包括表重要性模型、表间距离函数以及用于概述数据源模式进行适当聚类的加权
的选择。