Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。尤其在过去三年里,它得到***的发展,并被很多公司大规模采用。然而时代在变化,Hadoop在多云的未来该何去何从?
根据市场调研公司Forrester估计,2017年用户将在Hadoop软件和相关服务上花费8亿美元。这并不奇怪,因为在过去这段时间里,Hadoop供应商们充分利用Cloudera、 Hortonworks、和MapR等产品使Hadoop家喻户晓。但是,时代在变化,Hadoop与其它技术一样也受到云计算的影响。
用户们希望借助公有云来处理更多的大数据,所以尽管Hadoop不是专为云而生,Hadoop供应商们还是在努力将Hadoop与云联系起来。就像一位Hadoop供应商的内部人士所言:“如果我们真正理解云,就不会用原来的方式去设计Hadoop。“事实上,所有Hadoop供应商都在通过自家策略使Hadoop与云相结合,尤其是在对象存储和调度策略上。
但是,云供应商似乎并未向Hadoop供应商们敞开怀抱。云供应商正在通过自己的数据解决方案代替Hadoop,这为Hadoop在多云的未来发展蒙上了阴影。
在大数据相关业务上,云供应商们采用了隐藏或替换Hadoop的方式满足用户需求。比如AWS 的Athena,你可以对大数据执行SQL查询,但不用关心底层的服务器。这使“无服务器”产品成为趋势,比如Google云端功能就是一个例子;DataBricks则直接针对S3(亚马逊云服务)使用Spark。看到这个模式了吗?
随着越来越多的公司厌倦了Hadoop的内部复杂性,这些公司正寻求把Hadoop堆栈转移到公有云,这意味着Hadoop供应商的市场和营收将被云厂商蚕食。
公有云中的Serverless架构(无服务架构),以及其它能够替代Hadoop的解决方案,都将削弱Hadoop收入;所以除非Hadoop社区能够给行业一个令人信服的理由,才能说服用户继续使用Hadoop,从而保住Hadoop的市场。
就Hadoop目前的生态而言,各供应商之间系出同源但又各自为战。大数据组件、安全性、元数据及管理等产品及服务都能单独作为不同供应商之间的独特竞争力,这让Hadoop的服务无法形成闭环。而服务闭环却是用户选择将Hadoop作为他们的大数据战略核心最关键的因素。因此,在面对亚马逊、谷歌、IBM和其他公司提供了Hadoop替代方案的多云未来,Hadoop供应商们无法团结起来一起保护Hadoop的地位。
所以我们有理由相信,在未来两三年内,Hadoop将只会提供一个品牌而非一条产业链或具体的产品。可以看到的是,当下的Hortonworks、Cloudera、MapR和Pivotal都纷纷脱离了Hadoop供应商标签,他们也正是看到了这种趋势。
如果再考虑到深度学习和人工智能对Hadoop的影响,那就更加混乱了。就像Hadoop不是为云而生一样,它同样不是为深层学习所需的矩阵数学而设计的。云团队正在忙于创建合适人工智能发展的友好环境,这意味着Hadoop供应商要做更多努力以保持他们软件的兼容性。未来Hadoop供应商们会让Hadoop成为AI的平台吗?大概不会。
所以Hadoop在未来还会保持两到三年的强劲增长,但最终它可能只会留在数据库与大型机身边。数字时代的变化速度太快,没有任何一种技术可以长盛不衰!