数据一词首次出现于1640年,意为给定或认定的事实,最初被用于表示作为数学问题计算基础的事实,之后被定义为以备将来之用所收集的数值事实。这是早期的数据定义,强调了数据的记录客观事实的作用。早期的数据从观察总结而来。随着计算机的发明和迅速发展,人类产生、获取和处理数据的能力得到极大的提升。于是,数据概念也有了新的演进,认为数据是通过观测得到的数字性的特征或信息,是一组关于一个或多个人或对象的定性或定量变量。为了便于计算机的数字化存储和处理,数据以二进制信息单元0、1的形式表示,单位为比特。因此,数据的定义被引申为执行计算机操作的可传输和可存储的信息,是所有能输入计算机并被计算机程序处理的符号的介质的总称。数字化存储的数据的一大优势是:利用数据保存技术,数据不会随着时间而损坏或丢失。
数据具有4个基本属性:语义性、分散性、多样性与价值性。数据的表现形式还不能完全表达其内容,需要对数据的含义进行解释;数据的含义即数据的语义。数据与其语义是不可分的。分散性是指数据的分散记录,分别记录客观事实的不同方面或状态。因此,需要多渠道采集数据,并寻找零散的数据中的关联,还原客观事实的完整全貌。多样性是指数据的记录形式是多样的,如文本、图像、音频、视频等。数据的多样性保证了人们可以通过多种形式感知数据。数据的价值性凸显了数据的资产属性,数据中蕴含着巨大的潜在价值,但是它的价值密度却很低。因此,需要透过现象看本质,对数据进行深入的分析和解读,挖掘其背后的价值。
数据本身是客观存在的,但是它的范畴是随着社会发展不断演进的。数据的范畴十分广泛,按性质分为:①定位的。如各种坐标数据。②定性的。如表示事实属性的数据。③定量的。反映事实数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量。④定时的。反映事实时间特性的数据,如年、月、日、时、分、秒等。按表现形式分为:①数字数据。在某个区间内是离散的值,如各种统计或测量数据。②模拟数据。由连续函数组成,是指在某个区间连续变化的物理量,如声音的大小和温度的变化等。按记录方式分为文本、图像、音频、视频、地图等。按结构分为结构化数据、半结构化数据和非结构化数据。
数据和信息既有联系,又有显著的区别。数据和信息是不可分离的,是形与质的关系。数据是信息的符号表示或称载体;信息则是数据的内涵,是数据的语义解释。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现形式,信息是数据有意义的表示。
数据的生命周期包含以下阶段:①产生或获取。通过信号接收或外部数据源采集原始数据。②数据维护。对数据进行预处理以提高数据质量,并对数据进行存储和管理。③数据使用。数据被用于达成特定的任务和目标。④数据发布。数据被发往组织或企业的外部。⑤数据存档。将数据进行存档以供未来所需,并将存档数据从所有活动生产环境中删除。⑥数据清除。将数据的所有备份删除。
无处不在的信息感知和采集终端采集了海量的数据,而以云计算为代表的计算技术的不断进步,为人们提供了强大的计算能力,这就围绕个人及组织的行为构建起了一个与物质世界相平行的基于数据的数字世界。数据为人们看待世界提供了一种全新的方法,即决策和洞见将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出。数据被广泛用于科学研究、管理决策、政府治理等几乎所有形式的人类组织性活动中。数据可以帮助人们对细节进行详细记录、分析事物的内在规律、找到问题的解决方案、做出明智的决策、评价策略的有效性、快速响应挑战等。
随着现代信息技术的快速发展,数据已经成为构建数字世界和理解现实世界的基础。现代意义上的“数据(data)”概念于1946年提出后,基于数据的概念不断涌现,如数据处理(data processing,1954)、数据库(database,1962)、数据入口(data entry,1970)、数据挖掘(data mining,1983)、大数据(big data,2008)。同时,数据也催生了数据库、数据挖掘、数据分析、数据管理、数据治理、数据科学等一大批新兴学科领域。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们对于海量数据的挖掘和运用,标志着大数据时代的到来。