到目前为止,大多数CIO已经注意到大数据技术的发展前景以及将给企业业务带来的全面变革。但残酷的现实无法回避,Hadoop集群在创建、维护及维护等各个方面都难于打理,由此带来的资金及时间压力令企业疲于应对。基于这些理由,Hadoop的全面推广似乎必定会胎死腹中。然而VMware公司此番携宏伟构想而来,意欲将Hadoop集群纳入虚拟化技术的覆盖范畴之中。技术烽火的连城燃起令步入云时代的设想不再只是空谈。
“Hadoop从客观角度来说已经成为大数据处理的统一标准,”VMware公司云应用程序平台产品管理高级主管Fausto Ibarra认为。“但要让Hadoop真正为企业效力,最大的挑战在于如何说服财务部门为Hadoop的部署及维护划拨如此庞大的前期经费。而我们目前所做的努力正是围绕这一难题,旨在最大程度简化Hadoop集群在部署、配置及管理方面的需求,让大数据‘走入寻常百姓家’。”
开源项目Serengeti :虚拟对象直指Hadoop
VMware公司日前高调公布名为Serengeti的全新开源项目,其设计目的旨在打造一套“一键式”部署工具包,借以将Hadoop集群及通用Hadoop组件转化成与VMware 平台上的Apache Pig及Apache Hive相类似的高可用性功能。VMware公司作为项目带头人,还努力与Cloudera、Greenplum、Hortonworks、IBM以及MapR等多家Hadoop发行版供应商联手,希望能让Serengeti项目获得颠覆性使用效能及一鸣惊人的市场反响。
目前,Hadoop的主要部署环境仍然局限于物理基础设施。这类部署工作往往需要耗时数天、数周乃至数月,而且一旦基础设施规模需求过大,IT部门将不得不为获取必要的硬件及在节点上安装发行版而劳神费力;再加上配置过程的繁琐及Hadoop组件的复杂性,整个处理周期将很难加以准确规划。另外,一旦群体规模与企业需求有所偏差,那么整套工作必须要原样再来一遍,几乎没人愿意承受这种二次投入带来的巨大风险。
“在Serengeti的帮助下,我们能够在十分钟以内快速部署Hadoop集群,而且不用学习任何额外的新知识,”Ibarra解释称。“大家完全可以随意选择适合自己的Hadoop发行版,而且不必购置任何新增硬件——只要能运行vSphere的设备都可以满足Serengeti的需要。与此同时,新项目也不会对管理员提出更多新要求,只要能在vSphere上实现的操作,都可以通过同样的技能及方式在Serengeti中完成。”
“Hadoop要想成为企业IT领域广泛认同且全民使用的主流基础设施,首先必须要在技术需求及操作技能方面做到彻底亲民,”研究机构OVUM公司首席分析师Tony Baer告诉我们。“大规模大数据集群天然拥有资源密集属性,因此虚拟化技术的介入只是时间问题,在这一点上Hadoop别无选择。VMware公司所参与的Apache Hadoop项目以及最新的Serengeti Apache项目是两项关键性举措,发展战略比较灵活的云供应商必须以此为契机,尝试以实验或正式启用的角度进军Hadoop。”
让Hadoop准备好迎接虚拟化
除了Serengeti项目,Ibarra还宣称VMware公司已经在与Apache Hadoop社区共同协作,希望对Hadoop分布式文件系统(简称HDFS)以及Hadoop MapReduce项目做出调整,以使其进一步“准备好迎接虚拟化”。这些改动会使横跨多套虚拟基础设施之间的数据及计算工作得到大幅优化,并使企业用户获得更具弹性、安全性及高可用性的Hadoop集群处理能力。
VMware公司同时也在对于今年二月推出的开源项目Spring进行调整,希望能为Apache Hadoop带来更多提升空间。在内置了Spring Java应用程序框架之后,Spring for Hadoop将允许企业开发人员轻松创建分布式处理解决方案。Ibarra指出,此次更新将赋予Spring开发人员更强的应用程序开发能力,并能使应用开发成果与Hbase数据库、Cascading库以及Hadoop安全性相协调。
“在一系列更新工作的辅助下,Hadoop已经准备好登上历史舞台了,它注定会成为下一场表演的核心角色,”Ibarra总结道。“Hadoop集群的整备工作将史无前例地简单:只需配置一套新的数据库或服务器,你就迈进了大数据时代的门槛。”
原文链接:http://www.cio.com/article/708351/Does_VMware_Move_Signal_That_Big_Data_Is_Ready_for_Prime_Time_