大数据的虚拟化:企业IT发展潮流
大数据的虚拟化是当前大数据以及Hadoop社区的一个发展趋势。Gartner在2013年6月举行的Hadoop Summit大会上提到,为了让Hadoop等大数据技术真正落地企业,我们要从具体业务需求出发,驱动大数据相关技术和产品的进一步发展,逐渐告别之前技术驱动的创新。Gartner同时指出,虚拟化是这个新阶段的重要趋势。随着全球企业IT虚拟化的比例突破三分之二,以虚拟化为基础的软件定义的数据中心对企业来讲变得越来越普及和重要,大数据在这样的浪潮下如何影响和融入现有企业数据中心的基础架构变成了现实的挑战。本博客将围绕这个话题,从运维、技术、和解决方案的角度给出具体内容。
到底什么是大数据的虚拟化?
解答这个问题首先要回顾企业IT为什么要做虚拟化?我认为原因有以下几点:
1. 虚拟化能够显着提升服务器的利用率,通过整合服务器资源达到更佳的利用率。
2. 以x86服务器为代表的虚拟化本身的拥有成本相对小型机和软硬件一体设备来讲,更经济;而且性能表现一点也不逊色,横向扩展更是巨大优势。
3. 虚拟化在云计算(无论是公有云还是私有云)中承担着很重要的基础工作。没有虚拟化技术,云计算的弹性和多租户往往难以得到真正落实。
4. 虚拟化已经可以支撑企业关键应用(如ERP、邮件服务器、业务生产数据库等),这证明在虚拟化和性能稳定性之间已经不再需要二选一。此外,众多成功案例和技术白皮书也可以帮助更多客户加强信心。虚拟化迈向全面成熟的标志已经树立。
显然企业虚拟化的进程不会停止,目前包括VMware在内的领导厂商都在拓展虚拟化2.0。不仅是服务器(计算资源)虚拟化,包括存储和网络等过去相对难以直接被虚拟化所用的孤岛都出现了最前沿的创新推动,例如“软件定义数据中心”、“存储虚拟化”、“网络虚拟化”等热点,都已经出现了具体的产品和解决方案。
大数据的虚拟化,是将大数据的工作负载运行或迁移到虚拟化的基础环境中。除了自然地继承以上所谈到的虚拟化的普遍优点,值得一提的还有几个特殊的好处:
1. 由于大数据基础架构在起步时往往难以确定需要多少计算和数据节点,这些节点用物理服务器需要一一去堆。如果没有专家团队支持,将会非常耗时费力,而且将来扩展非常不方便,利用率极低,管理效率问题相当突出。虚拟化不仅可以快速部署集群,更可以灵活管理它们,同时显着提高利用率。
2. 大数据混合使用共享存储和本地存储,用来提高性能。虚拟化可以完全满足这些需求,并且让我们灵活的扩展和设计策略。
3. 虚拟化可以将大数据从底层向上对外形成多租户和数据分析服务,很好的隔离计算环境,为推动大数据即服务奠定基础。
4. 虚拟化还有利于整合和集成其它的数据应用在统一的虚拟化平台上,大大降低IT基础架构的复杂度和运维成本。
我想以上不仅解释了什么是大数据的虚拟化,也说明了这个市场的存在价值。那么我们还需要什么?知识和技能。企业面临的最大问题不是实在的需求,而是没有专业的人才去发现和处理它;57%的企业认为他们急需掌握具体技术和知识的人才;同时,管理和安全也是一大挑战,占37%。这些数字都印证了虚拟化存在的必要性和价值。(数据来自微软公司在Hadoop Summit 2013上的报告)
关于大数据的虚拟化这个崭新的话题,我想市场上可能还没有多少人可以了解具体如何实现它,需要使用什么样的技术和产品。因为不了解,便容易造成主观臆断,觉得大数据和虚拟化是矛盾的,甚至觉得将两者结合在一起是“不靠谱”的。我将通过即将发布的一系列博文具体阐述如何实现虚拟化上的大数据,让读者知道这两者的关系,帮助他们解开疑虑。所以,接下来的一系列博客文章都属于技术“干货”,将指导有兴趣进一步了解和尝试这个领域的读者或企业进一步探索并动手亲自尝试使用。