科学数据是以科学证据形式存在的事实,它至少应该包括科学观测与监测数据、实验数据、计算与模型模拟输出数据、对情景或现象的描述数据、对行为的观测或定性的描述数据、用于管理或者商业目的的统计数据,以及描述数据的元数据等。它们通常是科研活动的输入,是证实与证明伪科学发现、科学观点的事实与证据,或者是论证推理的基础。
科学数据的特点主要是产生的速度快,数据量和复杂性高,存在着不确定性和噪声。随着越来越多的诸如500米口径球面射电望远镜、中国散裂中子源等大科学装置的建设和重大科学实验的开展,以及科学传感器和传感器网络广泛应用于天空、陆地和海洋,对自然环境进行全方位的探测、监测,源源不断产生的科学数据将科学研究快速推进到一个前所未有的大数据时代。科学大数据将改变人类几个世纪以来科学研究主要在理解相对简单、未耦合或弱耦合系统这一层面,增强详细表征和描述复杂性的能力,以及分析高度耦合复杂系统的动态行为的能力,催生如希格斯粒子和引力波等重大科学发现。科学大数据在宏观上大大扩展了人类对复杂系统整体性进行研究的能力,在微观上让人类的视线可以深入到复杂系统内部细微的行为和动态变化。
相较于其他类型的大数据,科学大数据除了具有大数据的一般特征外,还具有多层次逐级演化、全生命周期以及流水线处理和应用等特征。科学大数据已成为科学发现的新型战略资源,为了抢占科技竞争的制高点,世界各国已纷纷把科学大数据纳入国家战略,并开始重点部署。