地面观测数据要求永久保存 传统IT架构不能支撑
国家气象信息中心副总工程师沈文海在接受记者的采访时说,目前整个中国气象局所保存的数据在4~5PB左右,每年大概增加数百个TB左右。“这些数据包含了地面观测、卫星、雷达和数据预报产品等几大类的观测数据。”
国家气象信息中心副总工程师沈文海
其中,地面气象站观测所获取的数据是需要永久保存的,其使用率非常高,除了常规天气预报业务需要用到之外,诸如气候预测、气象农业、环境气象、交通气象以及科研等领域,都需要用到这些数据。
“另外,除了常规的地面观测站之外,以气象卫星和多普勒天气雷达为代表的遥感遥测业务领域近三十年来取得飞速发展,这些领域一方面每天产生着数以TB级的观测数据,另一方面也需要地面观测等实测数据作为其遥感数据的订正依据。”
沈文海告诉记者,这里的地面/高空观探测数据为结构化数据,气象卫星、天气雷达数据则为非结构化数据。以这些数据为主,构成了所谓的“气象大数据”,虽然“气象大数据”与目前业界公认的以“4V”为特征的大数据的存在一定差异,但数据量的巨大以及迅速膨胀的速度则是十年前完全无法想象的。
比如:地面气象观站数量的急速增加。目前,我国地面观测台站已达到约4万个,遍布我国各个地区。由于自动观测技术的发展以及地面自动气象站的推广普及,使地面观测业务摆脱了人工观测所带来的对观测人员居住环境的要求,观测站点可布设到许多环境十分严苛的地域,如:荒岛、沙漠、高原等。同时由于是自动观测,不受人员编制的束缚,可在任何需要布设的地域布设,因此观测台站数量逐年增加,预计到2020年,地面观测台站有可能发展到七万个左右。
另外,从观测频次上看,上世纪五十年代到九十年代是每三小时观测一次,经过近十几年业务规范的不断修订,观测频次逐步修订成数年前的每10分钟观测一次以及目前的每5分钟观测一次。“但这远远不够,按照气象现代化的发展要求,不久的将来地面观测的频次将达到一分钟一次。”沈文海说,观测台站数量的增加和观测频次的增加,使得地面观测数据成为“气象大数据”的典型。
而地面观测数据的结构化数据使用特征,使得其从最初的信息采集和传输,到信息加工处理、存储管理以及最终的提供服务等各个环节,都对气象IT业务提出了严峻挑战。比如在数据检索上,传统的技术架构,已难以满足大量数据信息检索时效的需求。
大数据和云计算带来的是一种新的解决思路。沈文海在采访中说,虽然气象部门还没有充分做好迎接大数据浪潮的准备,但是大数据和云计算带来的新的理念和技术架构却会给这个领域的IT建设一种新的思路和方向。
县级气象业务面临改革
沈文海告诉记者,这么多年积累下来作为基层气象单位的县级气象局都都或多或少地积累起一些计算机设备,而这些设备彼此是并不相关的、能力也参差不齐。究其历史根源,是因为县级气象局近几十年来根据当地社会和政府的气象服务需求、依托各种建设项目,不断地开发建设适应当地服务需求的业务系统,提升自身的气象服务能力。
而气象业务系统是典型的信息系统,因此这些业务系统建设几乎无一例外的都是信息系统建设。“这些业务系统的建设时期不同,功能彼此不同。传统的做法是一套系统配置一套设备”沈文海解释到,因此会形成我们前面提到的参差不齐。
另外,由于业务系统在运行时需要大量相关的观探测数据、预报产品等做支撑,因此在县级气象局诸多业务系统中,还配有一套具有一定规模的数据接收、管理和服务系统,以向各业务系统提供数据支撑。“由于县气象局业务繁杂,人力资源紧张,这些业务系统的日常维护逐渐成为不少县气象局日益沉重的负担。”沈文海介绍道。
为此,2011年起,中国气象局启动了“县级气象业务综合改革”工作,目的在于全面提高做为基层气象业务单位的县级气象局服务当地社会和政府的业务能力。改革的内容很多,其中包括对县级业务信息系统的规范、整合、改进和功能加强。改进后的县级综合业务系统集成度会有很大的提高,然而其需要的数据种类、数量和时效也大幅增加;于是县一级业务系统的运行模式,尤其是是否在县气象局建立规格较高的机房(即所谓的“数据中心“)便成为讨论甚至争论的焦点之一。
数据中心改革的两个选择
提到这个争论,一开始曾经相当激烈。沈文海介绍说,争论焦点主要集中在整个气象部门的数据中心的布局,而布局的方案则由县级业务系统的运行模式而决定,即:
选择一:延续原有思路,所有业务系统仍然在当地运行,于是服务器系统、数据库系统、网络系统、通信系统等均需要配置在当地;由于这些设备对环境条件有一定的规范要求,因此必须在当地建立起相应的能够满足设备正常运行所需环境条件的场地环境,即所谓的“数据中心“(机房),也就是“将数据中心建到县气象局”。
选择二、改变原有思路,将县级业务系统的运行地点集中到省气象局,由专业技术水平较高的省气象信息中心负责运行维护。县气象局业务人员负责提交指令,获取结果。也就是:“把数据中心建到省气象局,实现业务系统在县气象局的终端化”。
“第二套方案的好处是显而易见的,”沈文海描述到,“其最明显的好处之一就是县级气象业务系统的零维护”。
“然而前景美好是一回事,能否实现则是另一回事。以数据环境为例,将省内百余个县的数据环境全部集中到省气象局,由有限的几个数据库管理数百万计日增量的结构化数据以及十数TB级非结构化数据,并提供全省所有地市和县局的业务支持,目前相对传统的技术架构,是无法做到的。” 沈文海补充到。
云计算和大数据的到来,为第二套方案提供了可能。
沈文海说,为给第二套方案打通技术道路,国家气象信息中心于2013年初开始,着手考虑对调整现有IT架构的探索。“我们主要考虑分布式存储和分布式处理的技术,尤其是分布式关系型数据库技术。当然其中虚拟化和云计算的某些技术是必备的。”沈文海透露,目前经过测试,一些主要指标已经能够满足第二套方案所需要的处理和检索性能需求。
“我们对第二套方案越来越有信心了”沈文海介绍到。据了解,如果一切顺利,依照计划,第二套方案将会在2015年年底前全部完成。
在交谈过程中,沈文海一直对“气象大数据”一词的使用十分谨慎,他解释说,气象部门的“大数据”主要产生于“感知”领域,所谓“气象大数据”主要是指气象探测数据。而气象探测数据是那些能够反映气象状态的数据,其内在信息范围是相对固定的。
此外,气象观测数据虽然体积巨大,却是基本可以实时处理以获取内在信息的。这些都与目前业界公认的“大数据”特征存在较大差异。如何将“大数据”的理念和方法运用到气象观测数据中,使之发挥出更大效益,正是目前正在思考和探索的主要问题之一。