气象数据是什么?
大家看到的每天网上或者是电视上看到的天气预报,后面其实有非常大的数据级,包括每天有2000多个地面站、120多个高空探测站、440多个雷达站、6颗在轨卫星、5万多个自动监测站、600多个农业监测站、300多个雷达站、90多个酸雨监测站……
中国气象局纪晓峰
这些数据逐天逐小时甚至到逐分钟扫描着中国发生的各种各样的天气数据,中国海陆空的天气情况几乎可以建成一张虚拟数字网络,我们做气象的每天看到这样的数据觉得非常可爱。
每日监测数据能做什么?
我们拿到这些每天监测的数据要做什么呢?比如说我们拿到雷达,会把雷达绘制成图片,用它来观测台风和雾霾的范围;雷达的一些气象还可以变成地面的温度、湿度形式;通过一些算法模型能够预测大量农作物的长势,比如说每天扫全球的时候关注到南美的大豆、北美的小麦和玉米,观测到乌克兰的玉米和小麦的产量,预测未来一年整个粮食形势——这是一个宏观数据。
为了拿到雷达数据,我们要从500米到几千米的高空不断扫描,看空气中的水汽含量,这些数据是6分钟一次,可以预测风电的发电情况,可以为航空提供负责细致的服务。
这几年,国家不断提供了建设,在密集地面通过一些差值算法我们组成了中国1公里*1公里知道地面的数据,可以知道哪些地方是大雨等等。另外,国际气象数据交换,通过一些国际数据可以了解到中国的小气候环境和全球大环境,进行数据优化。
在过去,拿到这些数据以后,我们用数据的方法就是统计。比如说像刚才主持人说的阴雨绵绵,我们可以知道全国多少天降水分布在什么地方,形成了五年积累数据的气侯分布。在过去的气象大数据里面,我们拿到刚才说的数据统计,把这些数据统计成我们需要的模式,然后人工经验和模拟,把结果带到模型里面,天天做天气预报其实就是数数,就是玩数字游戏,建立数字模型。
在新时代里,我们看到了国外一直在传说的大数据服务,国外一些走得比较前面的气象服务公司给了我们很好的建议,传说大数据在国外是价值连城,很多公司会把所有地区和商品的销量和天气做对比分析,寻找他们的正相关和负相关,发现他们最畅销的是蓝莓烤面包。比如说一方面是天气发生的时候,商场里面没有水或者是其他的东西,也许这个东西真的卖得很好,但是季节分布很明显,可以提前有备货。我们了解到一个案例是美国一个EMC的保险公司,它在国外做冰雹的保险,发现冰雹造成的灾害很多,他们统计了很多数据发现这个地区的冰雹灾害不断降低,通过这个发现很多数据,是用这样的方式不断避免不必要的骗保,在美国也有很多电子公司也关注气象数据。
气象数据的大作用
在诸多案例里面,气象大数据也就是气象数据加上行业数据等于事情能够发生的变化规律和对未来的一些预测,气象数据能做这样的事情是因为客观、稳定,而且量非常大。而且气象数据和各行各业的相关性非常高,气象对环境造成的影响是70%,过去说预测就是观天象,一个是看天,还有就是气象。
在现代一些系统内的学者和社会上的学者研究,我们发现气象通过大数据的应用有非常大的应用,比如说能源,可以观测到电力负荷历史,加上气象条件进行用电量估算,农业也是一样,建筑行业也是,通过工期历史加上历史天气就可以知道工期预测;还有交通,航班准点率历史加上机场历史天气,就可以航班延误预测,准确性非常高;还有公共卫生,通过门诊量和药品销量加上气象历史就可以知道发病率预测;在饮品方面,通过销量和温度就可以知道销量预测;在生产方面,通过经济数据加上气象条件可以知道中国宏观经济判断条件,这是技术性比较成熟;还有旅游,我们通过有客对旅游景区的评价和评价条件可以知道什么样的景区适合什么天气旅游。
气象数据的应用案例
通过对之前的研究,我们也做了一些小小的实践,因为实践时间比较短,经验不太成熟,希望大家批评指正。去年我们和安联进行了“赏月险”的研究,安联的保险没有进行精算,因为没有这个城市阴天或者影响赏月天气的概率,所以不知道赔多少钱,所以只能是拍脑袋算。同时,他们通过天气网站来进行判责,这个判责是不准备的。另外,我们做了喜阳阳的产品,就是用30年的历史数据和安联精算部门进行了合作,通过降水概率知道哪些城市在春节期间降水可以,得出赔偿。未来我们构想,保险服务很有可能是做保险理赔数据和天气数据进行对比,能够实时得出到底是什么样的天气造成了什么样的理赔,这样还是相对比较有价值的。
还有就是对药品,西安杨森有一款息斯敏的药,他们和我们合作,可以通过天气历史数据预测这个地区的过敏源,得出的结果是非常理想。比如说在北京三四月份的时候连续几天温度低温,马上就会造成非常严重的过敏问题。
双十一,过去我们和阿里巴巴进行了尝试,比如说去年双十一的时候,我们把天气对道路交通的影响,分为三个等级和快递到达时间得出了结论分析。
气象数据分析目前存在的难度
过去我们发现大数据在商业应用的问题,比如说数据壁垒,我们需要建立双方的环境进行数据融合,也许各个行业的数据都需要分析。气象数据的相关性也比较难找,也许是单一的,也许是多样的,分析到底是什么原因造成的需要非常大量的数据不断优化、不断完善,我们也设想找一个中心线,把气象数据进行主观分类,比如说到底什么是热天,在过去没有明确的定义,我们尝试和SNS合作,看什么样的形成网友发状态说“热”,就把它定义为“热”。