第一次听说Hadoop 是在几年前。当时是在旧金山参加Teradata的用户活动,会上很多来自硅谷的技术和以数据为中心的公司积极交流、分享观点。Informatica与Teradata在保险业的共同客户问Teradata的一位数据库行业的资深人士:“你能告诉我更多关于Hadoop的信息吗?我们如何让它有意义?它可以替代传统数据库系统吗?这种技术能让我们在过去几年中的投资增值吗?”
当时,很多人认为Hadoop只是一种硅谷现象,进入广泛采用还为时过早,只有少数公司把Hadoop作为其主要的大数据处理技术。我把这位专家拉到一边悄悄地问:“有哪些Hadoop的消息?我们对它到底需要投入多大的注意力?”这位专家说:“Hadoop目前的成熟度大概类似于7-8岁的Joe Montana(著名的美式足球运动员),具有成为顶尖运动员的特质。”我们应该用心关注这个技术,密切了解它在未来几年中将如何发展。
转眼到了2011年,已越来越多的机构把Hadoop纳入其IT基础架构,用于进行以前难以实现的或成本效益很低的分析,以及用于存储更多的数据——因此,他们现在可以对更大的数据集进行数据挖掘和其他用途,而不用丢弃数据。Hadoop及其子项目和相关的组件已经被开源社区进行了快速的发展。与此同时,基于真实世界的部署,我们正在进一步了解Hadoop的好处和可能的好处。很重要的一点是,现在已经有很多机构更加以数据为中心,因此,我们拥有多个来自Hadoop和其他数据处理平台的新业务需求的前进目标和技术演进方向。
有一点是明确的,对大多数公司来说,Hadoop在企业中是对其他数据技术的补充,而不是替代,因为这种方式可以让企业既能用Hadoop也能用数据基础架构的其他部分来应对大数据,两全其美。Hadoop正在发展,并将继续演进。当Hadoop发展成熟时将会是怎样?