智慧城市建设中产生的数据是海量的,传统的数据存储与管理方式已经很难满足其在容量、性能、存储效率和安全性等方面的要求,因此海量数据存储技术在智慧城市中的重要性越发显著。智慧城市数据存储主流的技术包括;直连式存储(direct-attached storage; DAS)、网络接入存储(network-attached storage; NAS)、存储区域网络(storage area network; SAN)。
智慧城市大数据存储技术
将感知层采集的大量数据信息以某种格式记录在特定存储介质上的过程,反映系统中动数据流到静态数据的一种行为特征。
- 英文名称
- smart city big data storage technology
- 所属学科
- 公共管理
直连式存储是指将存储设备通过小型电脑系统接口(SCSI)直接连接到一台服务器上使用。存储介质直接挂接在内部总线上,数据存储是整个服务器结构的一部分。直连式存储更多的依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括中央处理器、系统IO等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源20%~30%,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。
直连式存储与服务器主机之间的连接通道通常采用SCSI连接,随着服务器中央处理器的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道将会成为IO瓶颈;服务器主机SCSI ID资源有限,能够建立的SCSI通道连接有限。
直连式存储的优点是安装简单,存储设备便宜。直连式存储在生产、生活中是常见的,尤其是在中小企业应用中,是最主要的应用模式,存储系统被直连到应用的服务器中,在中小企业中,许多的数据应用是必须安装在直连式存储上。但缺点是不具备灾备能力,仅适合小规模(家用、小企业使用),不适合对性能要求高的场景。无论直连式存储还是服务器主机的扩展,从一台服务器扩展为多台服务器组成的群集(cluster),或存储阵列容量的扩展,都会造成业务系统的停机,从而给企业带来经济损失,对于银行、电信、传媒等行业7×24小时服务的关键业务系统,这是不可接受的。并且直连式存储或服务器主机的升级扩展,只能由原设备厂商提供,往往受原设备厂商限制。
网络接入存储本质就是将本地主机的文件系统迁移到IP网络的设备上,多个用户节点可以共用一个网络接入存储上的同一个文件系统,对用户提供文件系统访问的能力,同时管理存储介质和负责数据备份。网络接入存储是文件级的存储方法,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求。如今,用户采用NAS较多的功能是用来文档共享、图片共享、电影共享等,而且随着云计算的发展,一些网络接入存储厂商也推出了云存储功能,大大方便了企业和个人用户的使用。
网络接入存储产品是真正即插即用的产品。网络接入存储设备一般支持多计算机平台,用户通过网络支持协议可进入相同的文档,因而网络接入存储设备无须改造即可用于混合Unix/Windows NT局域网内,同时网络接入存储的应用非常灵活。但网络接入存储有一个关键性问题,即备份过程中的带宽消耗。与将备份数据流从LAN中转移出去的存储区域网(SAN)不同,网络接入存储仍使用网络进行备份和恢复。网络接入存储的一个缺点是它将存储事务由并行SCSI连接转移到了网络上。这就是说LAN除了必须处理正常的最终用户传输流外,还必须处理包括备份操作的存储磁盘请求。
存储区域网络是通过专用高速网将一个或多个网络存储设备和服务器连接起来的专用存储系统。可以分为光纤信道(即FC_SAN)和基于iSCSI获IP的SAN(IP_SAN)两种类型。
FC_SAN:使用光纤通道传输数据,其采用的是SCSI协议。其优势在于传输带宽高,有1Gb/s、2Gb/s、4Gb/s和8Gb/s四种标准,主流的是4Gb/s和8Gb/s;性能稳定可靠,技术成熟,适用于关键应用领域和大规模存储网络。缺点则是成本极其高昂,需要光纤交换机和大量的光纤布线;维护及配置复杂,需要培训完全不同于LAN管理员的专业FC网络管理员。
IP_SAN:通过IP网络传输数据,采用iSCSI传输标准传输SCSI协议数据。相比于FC_SAN的优势是成本低廉,购买的网线和交换机都是用以太网,甚至可以利用现有网络组建SAN;部署简单,管理难度低;万兆以太网的出现使得IP_SAN在与FC_SAN竞争时不再逊色于传输带宽;基于IP网络的天生优势使得IP_SAN很容易实现异地存储、远程容灾等穿越WAN才能实现的技术。缺点则是在性能各方面相比FC_SAN还是有差别的,专有领域还是FC_SAN的天下。
面向连接的模式 | 数据传输通道 | 信号传输校验方式 | 特点 | 传输延迟 | 传输距离 | RAID方式 | |
光纤通道 | 连接业务 | 物理电路 | 可靠的硬件传输 | 高速 | 低延迟 | 较短距离 | 基于硬件 |
网络 | 无连接 | 逻辑电路 | 不可靠的硬件传输 | 高连接 | 更高的延迟 | 更远的距离 | 基于硬件 |
存储区域网络综合了直连式存储和网络接入存储两种存储解决方案的优势,可以实现存储的集中管理,并且能够充分利用处于空闲状态的空间。但其缺陷在于成本高和具有复杂性,特别是在光纤信道中这些缺陷尤其明显。
对于3种储存技术的应用场景:直连式存储适用于数据量不大、对磁盘访问速度要求较高的中小企业;网络接入存储多适用于文件服务器,用来存储非结构化数据,虽然受限于以太网的速度,但是部署灵活,成本低;存储区域网络则适用于大型应用或数据库系统,缺点是成本高、较复杂。