国内很多人对Hadoop失宠的言论都不屑一顾,认为无非是常规的厂商运作和技术炒作。开篇,我们有必要了解一下整个事件导火索的这篇Gartner报告——《2017年数据管理技术成熟度曲线》,这篇报告指出Hadoop整个堆栈的复杂性与可用性导致企业重新考虑是否将其纳入基础架构规划中,Hadoop可能在到达“生产成熟期”之前就会过时。到2018年,70%的Hadoop部署无法实现节约成本和收入增长的目标。
很多Hadoop忠实使用者对这篇报告进行了大量抨击,一个比一个理由丰富,言辞激烈。但是,很多人都错误得或者没有完全理解这篇报告。
根据参与该篇报告讨论的专家反馈,Gartner否定的只是Hadoop一体化平台商业模式,而不是全盘否定Hadoop整个生态。Gartner就当前现状给出的结论是,越来越多的工具出现,企业将会有更多的选择,因而看中结果而非绑定一个固定的平台。Hadoop在大数据领域的地位可能会逐渐向边缘移动。
其二,实时性和SQL需求在一定程度上限制了Hadoop在线业务数据管理场景的发展。
最后,几大Hadoop厂商对开源方案的干预性越来越强,使得开源项目在发展路径上发生了变化。
根据Gartner与用户的对话,很多公司正在寻求更有竞争力和更方便的基于云的选项,倾向于选择按需定价的数据处理方案。其实,很多国内外厂商早已做出了相应的变化,比如提供各种跨云供应商的定制方案。亚马逊、谷歌和微软等云服务提供商都提供轻量级的技术来管理和分析多结构化数据。
虽然我们认为Hadoop的地位是稳固的,但我们的使用习惯已经暴露出Hadoop生态的衰落趋势。国内很多厂商已经在寻找各种工具弥补Hadoop在机器学习方面的缺陷,替换Hadoop生态中表现不佳的组件,我们更倾向于根据业务需求选择合适的组件,而不再单单使用Hadoop生态并强调其生态完整的重要性。当被替换的组件越来越多,Hadoop生态这几个字显然不可能代表新的生态体系,这也是在弱化Hadoop一体化平台商业模式。
Hadoop中的不少功能,比如并行数据处理和基于多结构化数据的SQL,重要性和价值也在逐渐凸显。由于云计算的大力推进,在云中运行完整的Hadoop堆栈成本较高,而其强大的简化替代品的可用性同样表明,Hadoop一体化平台商业模式即将在高峰期之前走下坡路。
任何一种技术的发展过程都会几经波澜,对Hadoop而言同样如此。Gartner报告造成的舆论效果对国内厂商的冲击并没有我们想象中那么大。相比于国外厂商而言,国内大数据环境的复杂性(数据量大,场景复杂)早已造就了更加多元的Hadoop生态,国内用户不仅将Hadoop用于批处理等简单场景,更多的是用于构建数据仓库、实时流处理,全文搜索,机器学习,拓扑图分析等。
面对Hadoop中各式各样的组件,各大厂商早已适配出属于自己的最佳解决方案。因此,即便舆论恐慌,但国内厂商基本都反应平淡,并没有因此打算更换大数据底层架构。Hadoop核心组件的超高认可度依然是无法被追赶的。