首页 . 理学 . 数学 . 数理统计学 . 数据分析

大数据

/big data/
条目作者柏杨

柏杨

最后更新 2024-12-13
浏览 1504
最后更新 2024-12-13
浏览 1504
0 意见反馈 条目引用

大数据一词从20世纪90年代开始流行,主要包含两层意思:一是指超出主流统计软件存储、处理分析范围之外的海量数据集合;二是指在可接受的时间长度内,对这些海量数据的处理过程。

英文名称
big data
所属学科
数学

无处不在的移动设备、无线传感器、互联网等现代高科技产品每分每秒都在产生数据,大数据的数据量之大可达到千太字节(terabyte,TB),且大部分是非结构化数据或半结构化数据,因此对数据的存储、分析方法都提出了新的挑战和要求。

国际商用机器公司(IBM)公司提出大数据主要有以下5个特征:①数据量。大数据的数据量要足够大。②多样性。大数据的数据种类多样化,包括数据表、文本、图片、影音等结构化数据、半结构化数据以及非结构化数据。③时效性。数据的产生和处理分析过程必须高效,这样才能有效地利用这些数据进行预测分析。④低价值密度。数据价值密度相对较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据最需要解决的问题。⑤可靠性。大数据下,数据来源渠道多种多样,但必须保证数据的质量、可靠程度。

大数据的构建形式多种多样,可以根据不同的目的采取不同的形式存储数据,如早期的并行数据库、基于C++的分布式文件共享框架。Google公司在2004年推出了一项技术——MapReduce,以提供并行计算的模型。在Map步,对数据的操作语句被分配到不同的节点上。在Reduce步,收集、汇总各个节点的处理结果。在MapReduce的基础上发展的一个重要成果就是Hadoop——由Apache基金会所开发的分布式系统基础架构。Hadoop框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。发源于美国加州大学伯克利分校AMPLab的大数据分析平台——Spark是基于内存计算机的大数据并行计算框架,可以提高大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

大数据的分析技术主要包括机器学习、自然语言处理、数据可视化云计算等。机器学习是一种方法,用于设计复杂的模型和算法,使自己能够预测。预测是大数据分析的一个重要目标。自然语言处理是以电子计算机为工具,对人类特有的书面形式和口头形式的自然语言信息进行各种类型处理和加工的技术。数据可视化是指借助图形化手段(如报表、图像等)来清晰有效地传达数据当中的信息。云计算是一种模式,这种模式在最小的管理需求或与服务供应商之间较少的交互下,最快速地提供对可配置的计算资源共享池进行普遍、方便、按需的网络访问,并最快速地释放这些访问。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!