VMware于美国时间本周三宣布了Serengeti开源项目,旨在为Hadoop在VMware虚拟化环境中的使用进行优化。
VMware官员称,给Hadoop这一领先的大数据分析工具赋予云功能,会使其更便捷地部署和管理VMware机器上的各种Hadoop发行版。
VMware产品管理总监Fausto Ibarra称,“VMware一直在从事云计算和虚拟化的研发,而大数据也是目前最热门的IT趋势之一。我们现在要做的是将这些东西联系在一起。有了这一次的发布,Hadoop就能成为IT基础设施中最好的客户端。”
有专家指出,VMware这一次的发布,再加上本周和Hadoop有关的一些发布,将会使Hadoop市场进一步合法化,刺激更多企业开始探索大数据分析的潜在价值。
利用Serengeti项目,VMware已对在虚拟化基础设施中运行的Hadoop做了优化。尽管Hadoop集群目前已经在某些实例中运行在虚拟机上了,但VMware称,在其市场领先的虚拟化产品系列中支持Hadoop集群会让Hadoop更容易在企业环境中进行部署。利用虚拟服务器可以更快捷地部署更多的虚拟机,进行弹性扩展,同时又能确保高可用性和高效的硬件使用率。
Hadoop支持的初期计划是在VMware vSphere虚拟产品上使用,并可与来自Cloudera、MapR、IBM和Greenplum的Hadoop发行版兼容。Ibarra称,他们将会继续推进Serengeti项目,未来可将支持扩展到新的Hadoop发行版和功能集。
通过Apache,让Serengeti项目免费使用时VMware拥抱开源标准的一个趋势。它的平台即服务(PaaS)产品,例如Cloud Foundry也是开源项目。Ibarra称,VMware希望Serengeti项目能被Hadoop社区广泛接受,并与各种Hadoop发行版兼容。
Ovum分析师Tony Baer认为,Serengeti项目对于让Hadoop成为企业友好的工具十分重要。“这将有助于让Hadoop成为主流工具。”关于Hadoop在虚拟环境中运行可能带来的好处已经有了不少的使用案例,例如企业希望体验数据集合上的一些新功能,又不想完全披露其集群的情况。
Ibarra称,VMware官员已经在客户那里看到了三种主要的Hadoop使用场合:一是企业正在测试该平台,而且节点数少于20个。这次额客户对于Hadoop的虚拟化发行版来说是很理想的,因为它不需要较高的资本投入,Hadoop可以在现有的vShpere私有云上运行。
二是客户将Hadoop的使用扩展到100个节点左右,这样更能看到Serengeti项目利用Hadoop所带来的动态弹性的优势。第三种使用场合是针对一些早期的Hadoop用户,他们有数百个节点,并正在寻求更高级的使用。他说,今天几乎所有企业都会从Hadoop的使用中发现有益的地方,因为每天通过Web流量所产生的非结构数据十分庞大。
451研究集团的云分析师Carl Brooks认为,VMware并非首家让Hadoop在虚拟机上运行的厂商,所以更有意义的新闻是有更多的厂商正在认识到Hadoop的重要性和发展潜力,并开始提供相关服务。例如HortonWorks周二就发布了可与VMware vShpere兼容的一个Hadoop发行版。
Ovum的Baer指出,Hadoop目前仍处在企业采纳的初期阶段。缺少这方面的技能人才来管理Hadoop集群,解释Hadoop所生成的数据含义,对于众多对此好奇的企业来说都是挑战。