5个大数据实践项目

数据库
由于大多数被过度炒作的技术趋势已经褪去了他们最初的光环,而且这种退潮的速度很快,因而一些怀疑论者对于大数据技术也持有一种保守的看法。然而,大数据目前已被看成是能够改变世界的最新技术趋势,且实际上,那些怀疑论者对于大数据的质疑程度远远低于对云计算和社交的质疑。

 

[[118374]]

这可能是因为大数据已为那些拥抱大数据的企业带来了实际的收益。而且,大数据分析也正在从根本上改变着一些不同的领域,如药物研究、市场营销和产品开发等。

像智慧城市和无人驾驶汽车这样的用例的研究和发展,也是为了满足我们生活中的各种需求而存在。而大数据技术的未来可能也是如此——逐步发展以满足人们的需求,但目前大数据还没有发展到它应该发展的阶段。

Infobright的首席执行官Don DeLoach说:“技术上的可行性和实际执行力存在很大的差别。我们来看看拉动大数据的两种趋势,即物联网和机对机通信,这两种趋势都已经存在了很长时间,而随着传感器越来越复杂、价格逐渐降低,以及各种无线技术的选择越来越多样化,理论上的技术可行性正在逐渐变得更富实践性。”

我们很多雄心勃勃的大数据梦想目前都还没有进入到实际的应用阶段,比如,我们研发无人驾驶汽车的技术已经有了,但却不具备实际的基础设施的支持而真正得到量产、普及。即使这样,无人驾驶汽车仍然引人注目。

DeLoach说:“如果你想探知大数据究竟产生了什么样的影响,那么你看投资到大数据技术上的资金就可以了。因为投资回报率(ROI)最高的领域,也是越吸引人们去投资的领域。”

在医疗、车载通信技术和线上营销等领域大数据投资回报率已日趋清晰,但是这并不意味着我们最终会创造出无人驾驶汽车和超级智慧城市,而是说,目前大数据技术在这些领域的发展还不足以达到实际应用的程度,从而吸引大规模的投资。

本文描述了五个横跨实际应用和技术可行界限的大数据项目,这些项目,或那些与之类似的项目能够真正地给我们的生活带来变化,让生活变得更加美好。

人类基因组计划变革了医疗行业

20世纪90年代初,人类基因组计划开始实行,但那时我们并没有意识到它实际就是一种大数据[注]项目。2003年,一张完整的基因组图绘制完毕,一些大数据运动的先驱者已经开始将大数据的理念在技术领域慢慢传开。

由于人类基因组这一早期的成功实践,因此医疗和制药是最早采用大数据技术和工具的两个领域也就不足为奇了。

人类基因组计划在一定程度上也阐明了大数据的摩尔定律。只要花100美元(或者更少)就可以从一些网站上,如23andMe购买到个人的局部基因组图。而且对于推动降低整个人类基因组图绘制的价格的行动也在进行中,其价格每年都在降低。现在,绘制一个人整个的基因组图的价格在1000美元到5000美元之间,而在2007年,它的价格最少也是100万美元。

一些初创公司如Life Technologies(最近被Thermo Fisher Scientific收购)和InVitae正在这一领域努力,以使每个人都能够担负起基因组图的绘制。同时,这也将引导关于一些疾病,如癌症、风湿性关节炎的个性化治疗。

埃默里大学医院和IBM共同创建未来ICU病房

目前,埃默里大学医院(Emory University Hospital,简称埃默里)使用的是IBM和EME医疗电子产品公司的软件产品以支持一项研究计划,该计划的目标是通过对实时数据流的分析对那些重症病人实行先进的、可预测性的医疗保健。

埃默里正在测试一个新的系统,该系统能够识别出生理学数据中的模型,以便在病人出现危险情况时及时提醒医生。在传统的ICU(重症病房)中,病人床边的显示器上显示一堆不同的医疗数据流,包括心脏机能、呼吸、脑电波和血压。这些实时的生命体征会以波状或数字的形式传输出来,并显示在每个病床边上的电脑屏幕上。而现在,医生和护士可以快速处理并分析这些数据信息以制定合理的治疗方案。

事实上,数据信息的任何一个小偏差都是一个预警信号,而这些小偏差往往会被人忽略。

埃默里目前正在试行该系统,同时采用EME的BedMasterEX,IBM的InfoSphere Streams和埃默里的分析引擎来收集和分析病人的实时数据。这一新的系统可以使医生们更快地获取、分析和关联医疗数据信息,而且速度要比他们几年前梦想的速度还要快。

埃默里紧急护理部门主管Tim Buchman博士说:“是否能够正确评估和分析实时医疗数据往往决定着一个病人的生死。通过这一新的系统我们可以分析成千上万个流数据点,并分析这些数据信息,以制定更好的医疗计划,清楚地知道哪些病人我们需要实时关注,以及怎样治疗。它能够让我们的医生在重症护理过程中更有效地治疗病人。”

软件识别的数据模型可以显示一些严重的并发症,如败血症、心力衰竭、肺炎等,识别出这些数据模型,医生可以得出实时的医疗诊断,并立刻采取医疗措施。

宾夕法尼亚州的Salis Lab帮助研究员设计创造合成生物

Howard M. Salis是美国宾夕法尼亚州立大学化工学院的一名助理教授,他自学了计算机编程,并创建了一个高性能的计算机门户网站——Salis Lab,该网站旨在帮助那些从事合成生物和代谢工程领域的研究员使用计算方法设计合成生物。

Salis说:“微生物是世界上最好的化学家,如果我们能了解它们,并很好地利用它们的话,相信我们会生产出完整的多样性的产品。而在过去,基因工程的工作更多是修改、实验和错误,相信我们可以改变这些状况。”

换句话说,基因工程更像是生物的自然选择——随机、缓慢,但在基金工程中也分为很多小的主题。

Salis指出:“而另一方面,合成生物更多的是一种工程学科。我们想要量化一切,我们要建立生物物理模型,这样当各种方式的DNA变异发生时,我们可以用这些模型对其产生的结果进行量化预测。”

合成生物需要一种极其复杂的算法,所以这个项目托管在了亚马逊AWS弹性计算云(Elastic Compute Cloud)上,AWS弹性计算云具有良好的伸缩性。一个短的DNA序列,其可能变异的数量要比宇宙中原子的数量多得多。Salis Lab目前发展得很好,其中包含了由2000个生物技术研究员在过去两年中通过该门户网站设计的超过3万个合成DNA序列。

这一工作采用的应用种类就像研究员的想法一样多种多样,目标就是找出实现微生物工程的一种方式,这种方式需要采用的燃料要比采用化石燃料更加经济。

更神奇的是研究员们所挖掘的那种预测能力,Salis说:“利用我们的模型,我们可以实际地预测演变,我们可以模仿DNA变异的影响来预测最有可能出现的演变。”

最终,研究员可以开发那些抗演变的微生物,由此产生的一些可能的用例的影响将是非常惊人的。世界上存在着数十亿的微生物,而且每一个微生物中都有其各自的基因组,我们可以利用这些基因组创造价值。但是,给这些基因组排序将是一个非常巨大的大数据挑战,首先要量化,然后分类,最后预测是否能够以一种有效的方式组合它们。而这一挑战也是Salis这样的研究员迫切希望解决的。

乔治城大学的Global Insight Initiative帮助解决“大问题”

乔治城大学(Georgetown University)的Global Insight Initiative从世界各地获取数据,并从这些数据中洞悉设备趋势。Global Insight Initiative首先从各地获得相关数据,然后组织整理,并对这些数据进行分析,最后从中找到解决复杂问题的答案。

乔治城大学Global Insight Initiative主管J.C. Smart说:“这个世界就是一个复杂的系统,有70亿的人在致力于获取或争夺资源。同时,世界上有4万个城市、1200万英里的道路,以及8亿辆汽车等等。弄清楚这一切如何互相交互、互相影响,并了解他们彼此之间是如何依靠和发展的,将是一个非常复杂的事情,会产生一个非常复杂的系统,而且这一系统还只是众多系统中的一个。这就是大数据,不过更重要的是,这个世界就是一个大的知识库。”

Global Insight Initiative需要数据整合工具以管理数据量,从而丰富他们的知识库。Smart说:“这个知识库可以给出一个关于我们正在讨论的事物的估计值,这些事物包含了上万亿个事物和上千亿种关系。”

Kapow 软件公司和乔治城大学的Global Insight Initiative共同合作,以实现大批量数据整合的自动化来扩展Global Insight Initiative的知识库。这个知识库包含了来自全球162个国家覆盖42种不同语言的2万多个web源码。实现数据整合的自动化之前(+微信关注网络世界),还需要大量的人力资源去寻找、获取,并整理文档和其他web构件。

接下来面临的问题是:如何寻找一个合适的时间或资源来分析这些收集来的数据信息?

Global Insight Initiative使用Kapow公司的软件创建了自动化数据集成流,这个集成流你可以想象成一个信息收集机器人,被称为infobot。部署之后,这些infobot可以让每一个单一用户(这些用户不需要有编程技能)在任何时间运行和管理成千上万的自动数据整合应用,以便对不同的数据有一个完整的考量。

目前,Global Insight Initiative将致力于为那些非常困难的“大问题”寻找答案,如我们如何更好的利用水资源?我们怎样缩小疾病传播的范围?我们如何管理电力分配?如何合理地安排医院或诊所的位置,以尽可能地方便更多的人?以及当灾难来临时,我们如何能够尽快的找到医疗资源?

LA ExpressPark泊车系统帮助减少交通拥堵和环境污染

美国洛杉矶的市中心经过十年的快速发展,从最初的贫民窟变成了娱乐和商业中心。不过在快速发展的同时,这个地区也出现了一些问题,比如道路交通混乱、拥堵严重。如果司机想要寻找一个泊车位,他们得在这个街区至少要转悠30分钟才能找到,有时甚至更久。

更糟糕的是,街道上的泊车费似乎与需求并不匹配。在特定区域内,街道泊车的价格一般都是统一的,有时候和几个街区之外的车库泊车位是一样的,或者更便宜一些。所以,人们肯定不愿意开过几个街区将车停在车库里,尤其是他们开了很长时间的车又很累的时候,况且停在街上还比停在车库里的费用要便宜。美国加州大学洛杉矶分校的教授Donald Shoup曾做过一项调查研究,他发现市中心74%的交通拥堵都是由于司机在街上找泊车位造成的。

为了平衡供求关系,并减少道路交通拥堵,洛杉矶市请施乐公司为其开发LA ExpressPark泊车系统。施乐升级了泊车位上用来检测空间大小的传感器,然后为了更好地平衡供需,施乐开发了一个基于算法的动态价格机制来提高泊车率较高街区的泊车价格(目的是鼓励司机减少这一街区的泊车时间),同时降低泊车较低街区的泊车价格(鼓励司机多在这些街区泊车)。

笔者是后来搬到洛杉矶的,作为一个外来人员,我非常奇怪为什么洛杉矶人为了找停车位宁愿在这个街区多绕两圈,也不愿意把车停在两个街区以外,不愿意多走五分钟的路。我想如果人们知道两个街区之外停车更方便、更便宜,相信他们也会愿意把车停在那里,而我自己从来没有泊车问题的困扰。

为了引导司机们到空的停车区域,施乐又部署了一些新的、多样化的信息提示,这些信息提示会随着停车环境的变化自动更新。同时,这些信息可以在智能手机App,如Parker、Park Me和洛杉矶城市网站上共享。很快,施乐将数据放到汽车导航系统中,可以自动引导司机到距离其目的地最近的空车位停车,甚至还可以自动支付停车费。

这一系列的措施实施之后,成果还是不错的。那些不是很繁忙的街区被利用起来,即使整体的使用率并不高,但是比以前已经提高了2%,而洛杉矶市也开始体会到其中的好处。

而且,交通拥堵的问题也有所缓解,导致了更多的司机来了解和使用LA ExpressPark系统。施乐公司资深副总裁兼管理总监David Cummins说:“停车管理员现在可以很直观,并完整地看到街道上发生的一切,并通过数据分析为所有的事情制定决策。这一系统运用了多个供应商的技术,包括违反票处理、系统维护、数据收集等等这些技术都服务于泊车管理。以这种方式更好地利用这些数据来提高效率,并创造出额外的利益。”

Cummins指出,这个项目产生的早期成果证明了数据决策能够帮助改善司机的行为,同时也能够减少交通拥堵和环境污染。

责任编辑:彭凡 来源: 36大数据
相关推荐

2015-05-12 11:11:23

大数据大数据技术预测

2015-03-12 13:30:42

大数据大数据技术大数据预测

2013-04-23 14:36:54

2017-09-03 12:08:48

大数据数据湖算法

2018-06-13 15:04:43

2020-12-29 11:10:00

大数据数据数据分析

2024-09-11 14:47:00

2018-09-13 15:21:54

2018-08-24 10:28:41

大数据数据分析工具

2019-09-18 18:39:07

大数据电子邮件营销邮件

2015-04-23 16:06:05

大数据

2017-11-10 12:34:38

大数据数据源免费数据

2022-02-10 22:54:25

大数据云计算技术

2020-11-11 10:12:32

大数据

2017-03-17 14:20:01

大数据系统大数据应用

2016-12-15 21:41:15

大数据

2017-01-04 10:29:37

Spark运维技术

2023-12-26 15:53:40

2013-08-12 10:08:06

大数据存储大数据分析
点赞
收藏

51CTO技术栈公众号