即将过去的2013年,“雾霾”几乎成为许多都市人最扰心的一个热词。在北京,政府甚至不得不以工地停工、公车停驶、工厂停产等种种措施,尽力减少各种污染物的排放。
十面“霾”伏的敌人来自何方?大数据时代的到来或许可以寻根溯源,因为它能帮助人们更准确地了解、判断生存环境中最重要的一面—空气质量。
未来大数据的价值核心在于预测。中科大信息科学技术学院院长李卫平介绍,中科大先进技术研究院中正在进行着一项科研,通过收集和分析雾霾天气产生的各种数据,找到产生雾霾天气最主要的原因。“这是一些看上去杂乱无章的数据,我们建立一个大数据库,从中找寻规律性的东西。”这个科研项目与微软合作,一旦找到其中规律,有望为政府治理雾霾天气提供科学依据。
2013年10月30日,在微软亚洲研究院创新日上透露的一种新技术,试图让人们了解所在地区空气质量的真实情况。在此基础上,人们就能做出更明智且更有利于健康的决策,例如何时何地最适合户外运动,或者何时应戴上口罩或关上窗户。
“这些工作都是在大数据的基础上才能够进行,无论模式如何先进,没有海量的数据进入,都不能达到很好的效果。”中国气象局公共气象服务中心高级工程师唐千红说。
在大数据时代,数据并非单纯指人们在互联网上发布的信息。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、温度、湿度乃至空气中化学物质的变化。
微软根据现有监测站所提供的空气质量数据以及城市里的其他多种数据来源(包括气象情况、交通流量、人员流动趋向、路网结构、人口集中点等),运用数据挖掘和机器学习技术,对大数据加以充分利用,并在监测信息和对应结果之间建立一个隐式映射,从而可以实时推断出包含细颗粒物信息的城市空气质量数据。
大数据时代下的气象服务是什么样子?唐千红认为,在看得见的未来,融入了地理信息、社会经济数据的气象服务,能够让人们知道任意时间地点可能会发生什么,例如这阵风是否会吹翻门口的广告牌,前面一个高速路口是不是在下雨、会不会发生山洪。
其实大数据就在脚下,尽管很多时候我们没有意识到。
全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化。事实上,从城市交通到空气质量,从建筑设计到影视制作,大数据分析应用已经渗透到生活的方方面面。大数据到底怎样改变了人们的生活轨迹?为此我们采访了微软研究院院长Peter Lee、微软亚洲研究院院长洪小文、微软全球资深副总裁周以真,揭开大数据的神秘面纱。
数字商业时代:什么是大数据与机器学习?这一技术的商业应用前景如何?
洪小文:我常常举一个例子,譬如说你妈妈明天要来北京看你,她在邮件里告诉你航班的号码,明天下午5点钟会到。可是你那天下午在开会,三四点的时候计算机就自动把邮件里面的航班号码抽出来,自己去航空公司的网站一查,告诉你班机晚点,要7点才来。而且它还会根据交通状况决定什么时候通知你出发,以什么方式出发。它可以建议你坐出租车、坐地铁要多少分钟,甚至可以在你的社交网络里找到附近的朋友开车来载你。
这些自动化都可以做得到,但是今天还没有这样的系统和服务,所以就只能隔几分钟看一看,很浪费时间,而且在很多场合不允许。这样的东西其实是大数据与机器学习的表征,需要很多不同种类的数据,有邮件的数据、地图的数据、飞机的数据、交通的数据。大数据不仅是大,还要有多样性和集成性。
大数据还应用在其他方面,比如报刊杂志上的文章到底有多少人看,大家有什么评价,转发给谁。以前这些东西可能要做问卷才能得到,今天通过互联网更有机会获取。如果搜集的大数据都是零散的、繁杂的,你怎么去看?这就需要数据可视化,这一点对管理者非常重要。管理者在做一个决定之前,想看看这个东西在某一个区域大家的反应会怎么样,调出来一看就知道。
大数据与机器学习真的是在每一个行业都有类似的应用。
数字商业时代:有人说,大数据与云计算是一个问题的两面,云计算是支撑大数据时代的基础。但当大数据和云计算真正落地,或是走向消费者的过程中遇到的障碍和挑战有哪些?
周以真:实际上,普通用户已经享受到很多大数据和云计算所带来的利益和好处,只是我们并没有清晰地意识到而已。比如用Windows Phone进行文字输入,输入前一个字,就会有下一个字或词汇的提示联想。或者用手机或PC收发邮件时,垃圾邮件的过滤功能。这些都是集成大数据和机器学习的技术才能得以实现。
类似的应用无处不在,甚至可能存在的地方太多了,我们都已经忽略它了。
另外一个典型的例子是关于云。比如我们把手机上的照片存储在云端,即使手机丢失再换一个新的,你仍可以从云上重新把照片下载下来。
数字商业时代:可穿戴设备就像“人体的物联网”,通过传感技术可以检测出用户的体温、血压、心率等数据,这些个人的身体数据库非常有价值。那么微软未来在可穿戴设备这一块最大的机会是在哪儿,是在硬件设备,是在云端,还是在软件上?
Peter Lee:这三个领域都有,但是我最感到振奋的就是云端。之所以说是云端,是因为云计算的环境当中有大量的数据、大量的计算能力,再加上机器学习的功能,可以展示出非常高级智能的产品。比如说从云端可以看到你过去一年运动量够不够,判断你所吃的食物是否足够健康,还可以把信息反馈给你的医生。这些都需要有非常好的云架构。