近年来,被「大数据」这一新词所包围,但是说来说去,由冷到热又趋冷,耳朵都听出茧子来了,除了沃尔玛超市「啤酒与尿布」的老例子,似乎并没有什么新的应用让人切身感受到大数据带来的惊喜,这是因为「大数据」被过度神化甚至妖魔化、故意把概念搅浑、搞的云山雾罩所造成的。
其实,大数据带来的便捷早已深入我们的生活,下面,我将从数据化的角度给大家展示一下大数据的实用及数据化给我们带来的惊喜。
大数据的最早数据化实践
这里我要讲到的是十九世纪的一位美国人,他叫做马修·方丹·莫里 (Matthew Fontaine Maury,1806~1873) ,这哥们曾经是一位前途无量的海军军官,但是一次意外事故让他变成了一位跛足军官,不再能胜任海上工作,于是他就被调任到后方,负责图表和仪器厂。
十九世纪时候,海上行船毫无章法,基本全靠船长的经验,这就导致很多航线明明可以直线到达的却要绕很大的弯儿。费时费力,作为一位年轻的航海家,莫里对此曾请教过很多有经验的船长,而船长们给出的答案是:走熟悉的远路比冒险走不熟悉的近路要保险的多。他们认为海洋是一个不可预知的世界,人随时都可能被意想不到的风浪困死在汪洋大海中。
但是同样有着丰富航行经验的莫里并不完全认同这一说法,因为即使是在同一片海域,不同的时间段也会有残酷的风暴和平静的微风,如果能够根据潮汐、季风和洋流的知识,把沿用百年的陈旧图表做下更新,一定能找出很多更短更安全的航线。
这一想法在他脑中盘算良久,但苦于没有足以支撑他想法的数据。这一难题却被莫里意外解决了,在他清点库房的时候,发现了一些装满航海日志的发霉木箱,里面装的都是以前海军上尉写的航海日志,当莫里将这些海水浸泡过的书籍上的灰尘擦净,凝视着里面的内容的时候,这些被搁置已久的「垃圾」在莫里手中熠熠闪光。
这里有他所需要的所有的信息:特定日期、特定地点、特定季风、特定水域、特定天气下的航海状况,这些正是莫里梦寐以求的,但同时莫里也面临着巨大的困难,这些日志杂乱无章,页面边上还尽是奇怪的打油诗和乱七八糟的吐槽涂鸦,莫里为了提取其中的有用信息,和他的20位助手一起将这些破损的航海日志记录的信息进行了数据整理及处理,并记录在一张表格中。
根据整理的数据,莫里将整个大西洋按经纬度划分为五个板块,并且按照月份标出海洋的温度、风向、风速等信息,根据时间的不同,这些数据都会发生相应的有规律的变化,据此,莫里整理出一份全新的基于众多船长航海日志的粗略航海路线图,这张图带来的最大的好处是给出了一些确定时间段内安全的航线,极大的减少了船队海上航行的冤枉路,能够帮助商人们节省很大一笔费用。
为了获取更多的数据,莫里制作了标准的航海日志表格,发放给美国海军,要求他们在海上记录,并在返航后交回表格,这些数据采集还包括数量众多的商船,莫里让他们用自己的航海日志来交换新的航海路线图,参加莫里行动的船只还会悬挂特殊的旗帜,恐怕这就是病毒营销的原型了。
在数据不断更新完善之下,莫里的新航海路线图不再需要年轻的海员们去摸索、总结经验,能够在图表上轻松获得来自成千上万经验丰富的航海家的指导,平均让船队的航行路程减少了三分之一左右。
这就是大数据很早的一次尝试,没有提「4个V」,也没有提「Hadoop」,只是简单的数据化,将现象描述转化为可制表分析的量化形式,然后数据就给我们带来了明显的实用价值和无限的惊喜。
大数据数据化的威力无穷
其实,这是一个经验数据化、经验可视化的过程,就像我们的中医,传承千年,只是知道这种草药能治疗这种病症;那种草药适用那种病症,这就是经验,但是这种经验没有数据化,没有进一步发展,我们需要的是经验可视化的过程,就像屠呦呦从传统古籍中得知青蒿对治疗疟疾有一定的效果,并在此基础上不断探索,让经验数据化、可视化,提炼出能够治疗疟疾的青蒿素,挽救了数百万人的生命。从经验的传承中找到精华,并不断发扬,这才是传统古籍通过经验数据化、可视化带给人们的大数据的实用及惊喜!
再进一步,经验数据化在现代医学中还有什么更加惊喜的应用吗?有的。
比如说现在我们知道一些已经确定的疾病和基因的关系,如果突发一种疾病,我们并不清楚这种疾病是什么引起的,但是我们可以通过病症的临床表现,比如发烧、腹泻等症状来确定一些可能的基因,圈定了一些可能相关的基因,然后再通过富集分析、查找拓扑模块,确定疾病致病蛋白,然后再针对致病蛋白查找现有的能够靶向治疗的药物。
比如某一疾病爆发,临床表现就是发烧、腹泻,那么就针对引起发烧和腹泻的致病蛋白寻找靶向治疗药物,找到了能够治疗发烧和腹泻致病蛋白的靶向药物,然后将药物进行技术性重混,进行临床实验,看是否对该疾病有效。如果有效,则作为实验性药物再进一步研究,通过不断的尝试药物配比或者增改新药物来到达治疗未知疾病的目的。
这岂不就和莫里通过以往的航海日志数据化,来形成新的航海图帮助改进航线有异曲同工之妙吗?
大数据的数据化能让算命公司上市
如果我们脑洞再开大一点,想想我们生活中的算命先生,每当有客户找到他们请求算命的时候,算命先生都是仰头掐指、念念有词,那么他们是不是也会把某种经验数据化呢?
很有可能,比如一个人出身贫寒、努力奋斗、机遇好,可能成为达官显贵、富甲一方;比如一个人出身高贵、努力奋斗,能够守家业并且可能还会开辟新天地;比如一个人出身贫寒、好吃懒做、怨天尤人,可能就潦倒一生……
这些都是有规律的,把所有这些不同的人的性格和最终归宿进行汇总,是不是就能够得到一个从古至今所有人的性格和最终成就的表格?如果再进一步进行聚类、协同过滤等算法处理,再来一个人算命,你针对他的性格特征在数据表格中搜索类似的人,是不是就可以对他的人生有一个预测?
恍然大悟啊,原来算命还有这么大的学问!
千万不要小看算命,算命公司是可以上市的,新加坡有一家叫做「新天地集团」的公司于2012年6月在伦敦证券交易所AIM板块挂牌上市,公司主营列赫然写着:算命、算卦、看相、看风水……
再想想你们公司,又是科技,又是互联网+,又是共享经济的……什么都是最牛的,但是到头来融资都苦难,更别说上市了。
人家一家搞算命的公司都能上市,是不是感觉很心塞?
算命怎么能算是大数据实践?
读到这里,你是不是有一个疑惑:如果算命真的是靠从古至今积累的大数据检索来做预测的话,算命先生是怎么做到检索速度这么快的呢?
其实,这里面还有一个技术要点,算命先生在算命时候一般轮换着掐手指、45度角仰望天空。
你以为他们那是在干嘛?
掐手指那是使用感应键盘输入指令!至于看天空,自然是在请求云计算资源嘛!既有大数据,又有云计算,算命公司上市,好像也是理所当然的了…… (开玩笑哈)
计量和记录一起促成了数据的诞生,他们是数据化最早的根基,所以我们目前的要点不仅是要做将文字转化为数据、将方位转化为数据、将聊天转化为数据、等等世间万物的数字化,我们更应该重视数据化。
毕竟我们存一堆数是没有意义的,就像你收藏书是没有意义的,只有读了才能发挥作用,正如现在面临困局的滴滴公司,搜集了一堆的用户数据,从家到公司的、从娱乐到休闲场所的、从学校到实习公司的……这么多数据如果单纯的存着是没有价值的,将这些数据化,才造就了现在的滴滴线路智能推荐系统,帮助我们挑选最合适的道路,如果现在滴滴公司能够将这些数据与政府共享,协助政府缓解城市拥堵问题、为解决城市拥堵提出有效建议,估计还能缓和下局面。
有了数据化大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象,我们会意识到本质上世界是由信息构成的,我们更看重的数据所产生的价值,而不是存储一堆数据抱残守缺得给大家画饼,告诉我这大堆的数据将会产生什么价值。
现在很多公司包括一些政府都买了一大堆的硬盘,存了一大堆不知所谓的数据,给投资人、民众鼓吹大数据的价值,你又不是演员,别设计那些情节,简单点,做事的方式简单点,有个做事的样子,不管手里有多少数据,首先发挥出价值来,不要让数据仅仅是到数字化的阶段,比谁家硬盘存的数多有什么意思?
多想想数据化的事,这才是正事!
大数据的落地为何仅仅流于表面?
现在包括企业、政府,很多都仅仅是在炒大数据的概念,这并不是他们不想做好,而是受到了制约,主要是两个方面的制约,一个是数据量小且难以利用,另一个是转化经验少实施困难。
数据量小这个事情可能不好理解,我们那么多数据怎么能说数据量小呢?
我在吉林和山东亲自操刀参与了两个政府主导的大数据项目,无一例外的最后死在数据量小和难以利用上。
为什么我说政府的数据量小,政府数据总量并不小,这里说的政府数据量小是说政府可利用数据量小。
首先是数据化程度很低。只是近几年政府才开始在使用电子信息化办公平台的时候才积累了点数据,早年大量的数据基本都是以文件及纸质的形式存储在政府办公楼仓库里,和莫里发现的仓库里长了毛的航海日志差不多,而纸质的数据我们是无法使用的。想要将这些纸质数据化是一个非常庞大的工程,需要耗费巨大的人力物力,而这关键性的一步恰是一个吃力不讨好的活,所以一般承接政府大数据的公司也都很少去触碰。
那除了这些不能利用的,就没有其他可利用的了吗,有,但是量很少,基本都是一个EXCEl就能解决的问题,根本谈不上大数据。
另外就是数据割裂,各个部门的数据都和宝贝似地保护着,生怕其他部门抢走,这就导致了数据的割裂,无法整合。比如咱们要进行一个智慧城市的建设,至少需要交通数据、气象数据、人社数据等等部门的数据进行综合考量,但是每个部门都把自己手里那点数据看的和宝贝疙瘩似得,碰都不让人碰,又何谈数据整合呢?
所以很多政府大数据工程到最后就流于表面,最后把手头少的可怜的数据做做数据可视化,弄一些大屏幕,展示出来给领导汇报一下就结项了。
第二个就是转化经验少。
比如农业大数据,政府是有不少的农业数据和气象数据,甚至还有粮食收购数据、农产品价格数据等等,但是即使这些数据全部都开放给施工方,如何使用还是一个大的问题,如何利用现有的数据通过数据挖掘、数据分析让这些数据产生价值转化、形成生产力,这又是面临的新的问题。这方面美国有较好的实践,美国的农业生产模式正在从机械化向信息化转变,以精准为特征的农业,正在让种植变得更加容易。
美国是对农业数据收集比较齐全的国家,也是较早进行农业数据开放的国家。目前,有关农业数据的采集、共享和利用正帮助美国农业政策制定者对农业部门的发展制定各种政策。不仅如此,美国各大农场主协会以及涉农企业也不惜投入大量的时间、金钱以及花费巨大的精力去搜集被人们称为“大数据”的涉农数据。
大数据对于农业的作用随着全球人口的增加,天气的波动更加不稳定,以及依赖石油的农业对于石化燃料的价格越来越敏感,必然激励更多地运用新技术来提高作物产量,并管理风险。围绕着基因组学、生物信息学以及计算生物学的研究活动都已经取得了重大的进展,使得科学家和组织能够更好地养活全世界,并提高食品和农作物的质量。
但是中国现在并不具备这种条件,还是家庭为单位的小作坊式的田块化种植,无法集约化管理,这就导致了农民种什么、什么时候种都有自主权,那么现状是什么呢?以现在最大的渤海粮仓为例,在山东几个县市为试点的渤海粮仓项目,最后落地后的成果是什么呢?所谓物联网+大数据的实践到最后就是找几块试验田,插上杆子,装上几个传感器和摄像头,然后做一下数据展示,甚至很多地方的传感器和摄像头都被农民卸走了,如何指导生产,如何将农业机械制造产业链打通,目前我并没有看到有什么实践。
结语
不要一味的好大喜功,也不要政府提出物联网就扑向物联网,政府提出大数据就涌向大数据,政府提出万众创业就又去一窝蜂的弄众创空间,适合自己的才是最好的。
贵州大数据的口号喊了好多年了,大数据交易所也吸引了总理的目光,但是究竟有多少笔交易,实际又产生了多大的价值?好像除了活在官方一次次的政治宣传之外,并没有看到什么实质性的进展。
要搞大数据,不一定就一味的去堆砌机器,上级领导来检查就带着领导逛机房。还是要真抓实干,从源头出发,分析自己的优势,比如山东泰安,结合山东传统农业大省的优势,结合山东农业大学的科研优势,现在依靠自己在农业方面的优势,一点一点来,先从土地复垦、测土施肥开始,慢慢的将苗木交易电子化、渠道化,指导苗木种植户生产种植,给出建议的通知有保价收购,让种植户心理有底,按照政府的数据指导来做真正的能赚到钱!
不一定有多大的数据,即使是依靠着现有的几百万条数据,通过场景化的应用分析,给出老百姓建议,让老百姓切实的得到实惠,让老百姓切实看到大数据带来的好处,这才应该是政府大数据的必由之路。
别再只顾着建机房了,试试将交通数据收集一下,整理一下,数据化,搞一个路路通的惠民小事情,在红绿灯旁给司机提出前方是否拥堵的实时通知,给出如何绕道才能更省时间的建议,甚至在此基础上,给城市下一步道路规划提出如何才能更加友好的解决拥堵问题的建议是不是更有益,如果早这么做了,也就不至于出现北京西直门立交桥空中拍摄像蝴蝶很漂亮,实际出行绕晕人找不到路的怨声载道的尴尬局面了。