首页 . 管理学 . 公共管理 . 电子政务 . 智慧城市数据资源 . 智慧城市大数据关键技术

智慧城市数据存储策略

/smart city data storage strategy/
条目作者张聪从

张聪从

最后更新 2023-03-21
浏览 93
最后更新 2023-03-21
浏览 93
0 意见反馈 条目引用

将智慧城市采集的类型复杂众多、数据海量的信息,归类并划分不同特性后,把不同的数据存在指定的存储设备上。从而保障数据更加符合业务、系统的实际需求。

英文名称
smart city data storage strategy
所属学科
公共管理

智慧城市业务单元都会面对来源广泛、数量巨大、形式多样、内容丰富的大数据,意味着需要管理的数据量越来越庞大,且每次可能需要对一部分数据进行分析。为此,如何有效区分和储存时效不同、访问频率不同、重要性不同的数据,做到高效利用数据,智慧城市数据存储策略的作用也就得以体现。

智慧城市数据存储策略由数据归类、数据特征与数据存储策略三部分组成。数据存储策略首先对数据进行归类,再结合业务与系统实际情况,分析数据特性,进而制定有效的存储策略。

数据归类,是结合相关标准规范,对智慧城市各个业务系统的数据进行归类,包括:生产交易型、数据服务支撑型数据与系统数据。生产交易型数据,是智慧城市各业务单元系统所产生、使用的数据,如客服域、资源域、企业管理域、营销域、产品域等;服务支撑型数据,是从智慧城市各业务单元收集,经沉淀加工挖掘后形成的信息数据,主要分布在IT平台中;系统数据是在运行过程中所形成的数据,主要是日志数据、过程数据等。

数据特征,在归类后,不同类别的数据有不同的数据特性,需要根据实际情况进行特性归类。主要包括数据的重要性、访问频率、访问性能要求与数据量。

数据存储策略,是在数据归类并划分不同特性后,将不同的数据存在指定的存储设备上。存储策略主要分为在线存储、近线存储和归档存储。①在线存储,即可以实时读写,满足了计算平台对数据访问的速度要求,通常为内置磁盘和高端磁盘阵列等磁盘设备,价格相对昂贵,性能最好。②近线存储,是位于在线存储和归档存储之间的应用,性能要求相对来说并不高,但又提供相对较好的读取性能,一般采用中低端磁盘阵列设备,并辅以高压缩软件,满足快速读写等访问动作。③归档存储,将不经常使用的数据用一个单独的存储设备来进行长期保存,对涉及的数据进行离线存储,以备非常规查询等,一般采用磁带库、光盘库,以及大容量低端磁盘阵列,价格相对低廉。

存储策略的制定除了满足业务需要之外,还需要考虑存储成本,制定合理的存储策略。例如,生产交易型数据中的客服数据,其数据特点主要是数据重要性高、访问频率高、数据较小,可以采用在线储存;服务支撑型中的原型数据,其数据特点主要是数据重要性不高、访问频率不高、数据量大,可以采用近线存储。

数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。

智慧城市采集数据类型复杂众多、数据量海量,统一的数据平台进行存储管理是必须的,同时还要提供大规模分布式存储与数据备份的支持。Hadoop的HDFS是一个典型的分布式海量存储系统,能够把PB级的海量数据存储在大规模的分布式集群服务器上,同时能够保证数据的读写效率和安全。HDFS的设计目标是为存储超大数据文件,它具有“一次写入,多次读取”的功能,具有降低并发控制、简化数据聚合、支持高吞吐量的访问的特点,在安全性方面,具有硬件错误检测并自动恢复功能,使某些结点发生故障时,整个集群的工作不受影响。

在大数据时代到来下,需要存储和计算的数据越来越多、数据量越来越大,传统的数据中心也面临着许多新的问题、新的挑战。比如能源消耗高,据相关统计,数据中心电费基本上已经占到数据中心成本50%以上,4年左右的电费有可能超过当初数据中心建设当中所投入的基础设施费用。另外数据中心时时刻刻存在数据损坏的风险,传统办法是定期更换硬盘,把数据从硬盘迁移到新硬盘当中,在数据量小的时候是完全可以的,但是一旦数据量上到1P级别的时候,定期重新建议的话,有点耗时耗力,也是越来越不可能了。由于存储在数据中心里面的数据存储在网络中,造成非法访问,数据存在被篡改、删除的可能,特别是对于公共安全,有可能造成危害。

可以将数据中心数据按照访问频率的高低分为热数据、温数据、冷数据。访问频率比较高的热数据存储在高速硬盘当中。温数据存储在磁盘阵列当中,冷数据存储在磁带库当中。热数据存储在高速磁盘当中是十分合理的,可以供用户随时访问,但是,把这种温数据放在磁盘当中,即使没有用户访问的时候,这个磁盘也同样在产生热量、需要大量空调为其制冷,同时,数据存在损坏风险。特别是在某些数据中心当中,这种温数据可以占到整体数据总量80%左右,通过大量磁盘来存储这些80%数据,可见产生的电力的浪费也是巨大的。离线数据保存在磁带库里面,容易造成数据丢失,并且存在着定位时间长、介质寿命短等缺点。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!