VMware近日宣布了取得的进展,这些进展让vSphere得以管理Hadoop集群。
这样一来,VMware让成千上万的VMware企业客户有办法借助它们已经熟悉的软件来处理部署的Hadoop系统。从技术方面来说,这推进了该公司在虚拟化基础设施上运行Hadoop节点方面所开展的工作,从而将虚拟化的优势带到了大数据平台。
VMware近期宣布推出VMware vSphere大数据扩展件(VMware vSphere Big Data Extensions)的公共测试版,这将让该公司广受欢迎的基础设施管理软件可以控制客户建立起来的Hadoop集群。这些扩展件仍然需要一个基础性的Hadoop平台,而HortonWorks、MapR、Cloudera等厂商或者VMware的合作伙伴Pivotal各处发行的Hadoop平台都基于开源Apache代码。大数据扩展件现在让那些发行版可以通过vSphere来加以管理。市场调研公司Taneja Group的高级分析师Michael Matchett表示,VMware让私有企业能够将自己的大数据作为一项服务来托管。
VMware能推出这些功能还得益于它在Serengeti项目方面开展的工作,该项目旨在优化在虚拟化基础设施上运行上的Hadoop集群。Matchett表示,这是该大数据项目迈出的可能很重要的一步,对部署Hadoop的公司而言更是如此。在虚拟机上、而不是在裸机上运行Hadoop节点带来了与虚拟化计算服务器同样的许多优势:可以更有效地利用硬件资源,而且增强了管理系统方面的灵活性。Matchett表示,用户可以在虚拟环境下托管Hadoop,因为这让用户能够混搭其他工作负载,并且充分利用跨多个客户端的基础设施。
其他公司也在努力对Hadoop集群实现虚拟化。亚马逊云网络服务公司(AWS)提供了Elastic Map Reduce(EMR)解决方案,这基本上是一项类似Hadoop的、基于公共云的服务。不过,VMware主要针对私有云和部署在客户处的系统。
为vSphere增加支持还可能预示着VMware打算作出其他举措。比如说,VMware可能扩展该平台,以便使用该公司即将发布的公共云产品(定于今年晚些时候发布),可以轻松迁移由vSphere管理的Hadoop工作负载。其他公司、尤其是微软可能是下一个将推出支持自身管理软件的功能,以便在Windows Systems Center环境下控制在该公司的虚拟机管理程序:Hyper-V上的Hadoop发行版。
VMware宣布的这些新功能是公共测试版的一部分,使用vSphere 5.1的客户现在可以报名申领公测版;预计这些功能会在年底前正式投放市场。除了宣布这些扩展件外,VMware还表示Serengeti项目支持来自Apache Hadoop的***开源代码,其中包括新的YARN功能:Hadoop社区的一些人认为,这款资源管理器有望为基于Hadoop平台开发的新应用程序打开闸门。