大数据概念的形成与3个重大的思维转变有关,这3个转变相互联系、相互作用。
人们开始利用所有的数据,而不再仅仅依靠小部分数据。由于记录、储存和分析工具的限制,以前人们只能收集少量数据进行分析,并把与数据交流的困难看成是自然的。为使分析变得简单,随机采样应运而生,采样的目的是用最少的数据获得最多的信息。然而,生活中真正有趣的事情普遍蕴含在细节之中,采样分析无法捕捉到这些细节,无法对特定子类进一步分析。科学技术飞速发展,虽然能够处理的数据依然是有限的,但数据量已大幅度增加,未来也会越来越多。选择收集全面而完整的数据,对其进行深度探讨以正确地考察细节并进行分析成为必然。
人们乐于接受数据的纷繁复杂,不再追求精确性。“小数据”信息的有限性意味着细微的错误将被放大,甚至影响整个结果的准确性,这就要求精确记录数据。但当人们的视野局限在确定的精确数据上,对世界的整体理解就可能产生偏差,从而错过事物的全貌。大数据放松了容错的标准,更强调数据的完整性和混杂性,使接近事实真相成为可能,带来巨大的商业利益。允许不精确的出现成为了一个新的亮点,而非缺点。
人们不再探求难以捉摸的因果关系,开始关注事物的相关关系。大数据时代,先进的技术能够处理人们拥有的海量数据,理解世界不再通过建立现象产生机制和内在机理的假设以了解现象背后的原因,转而直接对大数据进行相关性分析,知道“是什么”就够了,不需要知道“为什么”。
基本内容包括大数据采集、大数据预处理、大数据分析及挖掘和大数据可视化等。①大数据采集。从传感器和智能设备、企业系统、社交网络和互联网平台等获取数据的过程。数据包括射频识别(radio frequency identification,RFID)数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。②大数据预处理。在对大数据挖掘之前,对所收集的大数据进行审核、筛选、排序等必要的处理,包括数据清理、数据集成、数据变换和数据归约等。③数据清理。采集到的大数据规模过于庞大,存在数据不完整、不一致、重复、和噪声,需要补充不完整的数据,修正不一致的数据,去除噪声数据,使得大数据具有一致性、准确性、完整性和可信性。④数据集成。将来自多个数据源的数据,如数据库、数据立方体、普通文本等,合在一起形成一个统一数据集合,以便为数据挖掘的顺利完成提供完整的数据基础。⑤数据变换。把原始数据转换成为适合数据挖掘的形式,如将一个属性取值范围投射到一个特定范围之内,以消除数值型属性因大小不一造成挖掘结果的偏差。⑥数据归约。在尽可能保持大数据原貌的前提下,最大限度地精简数据量,从而使得在归约后的数据集上挖掘更快速,并产生相同(或几乎相同)的分析结果。⑦大数据分析及挖掘。从大数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库等技术,高度自动化地分析数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者作出正确的决策。
从某种意义上说,世界的表征本质就是数据。大数据使数据价值化,开辟了新的价值领域,开启了一次重大的时代转型。