铁路大数据平台包括基础数据管理、数据集成、数据共享、大数据存储与分析等四个部分。
基础数据管理部分实现铁路基础数据的统一、规范管理,包括铁路主数据、地理信息数据以及元数据信息。
数据集成部分提供结构化数据和非结构化数据等不同数据类型的数据接入能力,对原始数据进行清洗、抽取、转换、标注及标准化处理。
数据共享部分提供关系型数据库、分布式数据库、分布式文件系统等多种存储方式,汇总业务数据,为各业务应用系统提供数据共享服务,并对数据进行准实时分析,为数据仓库提供整合数据。
大数据存储与分析部分按照主题域将数据抽取到数据仓库中并形成数据集市,提供数据分析、多维报表、管理员驾驶舱、数据挖掘等功能。
铁路大数据平台总体架构如图1。
图1 铁路大数据平台总体架构图
铁路大数据平台主要提供8项功能:
①数据集成。提供轻量化和可扩展的数据接入方式,实现结构化、半结构化、非结构化数据接入大数据平台。
②数据治理。提供一个面向铁路数据的元数据管理、主数据管理、数据质量管理、数据标准管理的数据治理功能。
③数据资产。提供资产大屏和资产目录两种数据的展示方式,可以提供统一的资产视图,实现铁路大数据的分类管理。
④数据共享和安全。提供用户对数据查看、使用权限的申请、审批、授权功能,控制用户对数据的查看、使用权限。
⑤数据分析。提供基于机器学习模型的铁路数据处理自助分析功能、基于多因素分析的多维交互式分析功能和支持多种开发语言的自定义脚本开发功能。
⑥数据可视化。提供基于分析结果的丰富的可视化数据展现功能,可以快速创建可交互的、直观形象的数据集合,并提供丰富的可视化方法来展现数据,具有灵活的扩展能力。
⑦用户中心。提供租户管理、用户管理、角色管理、权限管理等功能,可以通过授权的方式管理租户和用户的数据权限和资源权限。
⑧运维中心。提供服务管理、主机管理、告警管理、菜单管理、系统管理等功能,方便运维人员对大数据集群进行平台管理和性能监控。
铁路大数据平台技术组件以集成成熟开源产品为主。平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储(HDFS、HBase、Hive等)、分布式计算框架(MapReduce),及Spark等开源产品或技术,如图2。
图2 铁路大数据平台技术架构图
中国铁路大数据平台是拥有自主知识产权的软件产品。于2016年荣获国际铁路联盟(UIC)数字化奖,于2017年通过中国信息通信研究院的大数据平台基础能力测试及性能测试。主要应用领域包括铁路数据汇集、铁路专业数据治理、铁路大数据分析与应用、铁路安全风险管控等。铁路大数据平台已经在国铁集团及多个铁路局实现部署。平台稳定运行,为各级铁路公司的数据汇集、治理、共享、分析提供了可靠的底层保障。