在ISO/IEC 25012:2008国际标准化组织标准规范中,将数据质量定义为“在特定条件下使用时,数据特性能满足明确的和隐含的要求的程度”。此标准定义了一个数据质量模型,模型将质量分为内部视角和系统依赖视角,并细分了准确性、完整性、一致性和可信性等15个质量维度。
针对具体的数据集合,可通过质量度量来评估数据质量。在ISO/IEC 25024:2015国际标准化组织标准规范中,根据度量对象的不同,分为过程度量、数据度量和数据使用度量。此标准对于ISO/IEC 25012:2008给出的质量维度,定义了一系列具体的度量指标,每个指标包含一个度量函数以及适用的数据实体。
传统数据质量是软件产品质量的一部分。而在大数据场景中,来源于多个软件系统的数据多次融合,形成面向不确定场景的独立可用的数据。因此,大数据质量虽然在内涵上与传统数据质量统一,但外延有诸多差别。
一是重要性,大数据的分析与智能应用的性能高度依赖于高质量的大数据。二是严重性,大数据由于类型多、来源多、变化快与数量大等特点,给数据的一致性和正确性带来了巨大的问题。三是度量困难,如大数据一旦涉及文本、图像与语音等多媒体数据,则需要理解这些数据的语义。四是质量视角的变化,大数据的软件系统独立性与应用场景的不确定性,使得ISO/IEC 25012:2008中定义的系统依赖视角以及在ISO/IEC 25024:2015中补充的数据使用视角难以适用于大数据质量。五是质量控制与追溯的困难,由于大数据使用方与大数据提供方割裂,以及异源数据多次融合构成大数据集,使数据质量难以控制和追溯。