不知在什么时候,有人似乎想方设法将数据移到数据中心的外面。不断发展的摩尔定律将人们的重心由数据转向计算。
人们往往尽量减少所要处理的数据,并简化这一任务:处理获得某种可付诸行动的结果所需要的绝对最小子集数据。因而,可用数据完整性的价值随之丧失。重心完全放在了如何可以针对一小批数据执行一些简单的操作上,而且一再以某种固定的方式来加以执行。
如今,最庞大的云和Web 2.0数据中心却在采用一种不同的方法,捕获和分析所有的可用数据。这种方法需要由以计算为中心的数据中心向以数据为中心的数据中心转变。
这种以数据为中心的数据中心架构让数据重新成为数据中心的核心,但是可能更值得关注的是,这能够实现服务器分解,从而能够让数据中心的每个单元(计算、内存、输入/输出和存储)灵活地独立于其他单元进行扩展,并且能够在机架层面、而不是在服务器层面进行优化。这种架构的关键在于,将重心放在数据和高效网络的需要上,这种高效网络能够在数据的整个有用生命周期内吸收、存储、移动和分析数据。
数据具有大、实时和非结构化的特点
现在强调的重心不是处理非常小的一部分数据,而是回到了显然增大的数据――所有数据,每个地方,每秒生成的数据量一直越来越多。实时数据以惊人的速度从成千上万移动设备处加以生成,并从成千上万用户处加以聚合,以提供完全为每一个用户度身定制的极其有用的信息。
谷歌的Waze移动导航应用程序就是个典型的例子。Waze可以从成千上万个随车内用户一同悄然移动的手机收集实时的GPS数据。说是悄然,实际上这些手机在不断生成大量的实时、基于位置的数据,因而提供了数百万Waze订户的旅行模式和速度方面的极其宝贵的信息。
所有这些信息为每一个用户整合起来,在结合当前位置、目的地、可行道路和实时流量模式的基础上,将独特的宝贵信息提供给该用户。要是你还没有试过Waze,就该试一下――你会惊叹于庞大的纯数据数量以及实时进行的处理,以便将你引向你之前根本不知道存在的流量最少的捷径。
Waze的一种尽量缩短个人行驶时间的合理延伸就是,自动驾驶汽车:自动驾驶汽车不仅可以缩短行程,还能消除交通拥塞。设想一下,以每小时150多公里的时间行驶,你与前面那辆汽车相距仅几米之远。这一幕会在我们的有生之年出现,而数量惊人的数据以及这种数据的高速移动和处理会帮助实现这一幕。所以,数据的增长不仅会与日俱增,还会以更快的速度增加。
遗憾的是,传统的数据中心架构当初并不是为处理这一种类和量级的庞大、快速、非结构化的数据而设计的。我会在下一篇文章中介绍新的以数据中心的数据中心模式如何让这大规模的海量数据具有实用性。