看起来Hadoop和大数据的光辉岁月正式走到头了。
Apache软件基金会已在短短11天内宣布报废13个与大数据有关的Apache项目,其中包括Sentry、Tajo和Falcon。
昔日大数据领域的宠儿Apache Hadoop早已过气,最近这已不是什么秘密。不过自4月1日起,Apache软件基金会(ASF)已宣布将至少19个开源项目“束之高阁”(Attic),其中13个项目与大数据有关,其中10个项目属于Hadoop生态系统。
光荣榜
虽然宣布报废单个项目似乎微不足道,可是从整体上来看,它们无异于一起分水岭事件。为了帮助从业人员和行业观察人士充分认识到这次大数据开源重组带来的全面影响,盘点一下似乎很必要。
考虑到这点,与大数据有关的已报废的Apache项目包括如下:
- Apex:这个统一的平台面向大数据流和批处理,基于Hadoop YARN。
- Chukwa:这个数据收集系统用于监控大型分布式系统,基于Hadoop分布式文件系统(HDFS)。
- Crunch,它提供了一套框架,用于编写、测试和运行MapReduce(包括Hadoop MapReduce)管道。
- Eagle:这种分析解决方案用于立即发现大数据平台(包括Hadoop)的安全和性能问题。
- Falcon:这种面向Hadoop的数据处理和管理解决方案,为数据移动、数据管道协调、生命周期管理和数据发现而设计。
- Hama:这种用于大数据分析的框架在Hadoop上运行,基于Bulk Synchronous Parallel范式。
- Lens:提供统一分析界面,将Hadoop与传统数据仓库集成起来,如同一个整体。
- Marmotta:一种面向链接数据的开放平台。
- Metron:专注于实时大数据安全。
- PredictionIO:这种机器学习服务器用于管理和部署生产就绪的预测服务。
- Sentry:这种系统用于对Apache Hadoop中的数据和元数据执行细粒度授权。
- Tajo:Hadoop上的大数据仓库系统。
- Twill,使用Hadoop YARN的分布式功能以及类似运行中线程的编程模型。
房间里的大象
上面这份名单很长,而且是一份还包括非大数据项目的更长名单的一部分。很显然,Apache软件基金会正在做一番清理工作。此外,由于Cloudera和Hortonworks合并,Sentry和Metron实际上已遭弃用,对应的Ranger项目和Spot项目改而受到追捧。两家公司共同支持这所有四个项目,只有一对项目才能取得胜利。
这桩合并本身植根于大数据市场的合并。可以说,这起大数据合并还能解释上述报废项目的整份名单。退一步说,在不到两周的时间内宣布报废所有这些项目值得关注。
官方说法
ZDNet编辑Andrew Brust向Apache软件基金会询问了有关清理大数据项目的情况。Apache软件基金会的营销和公关副总裁Sally Khudairi通过电子邮件回复道:“Apache项目的活动在其一生中起伏不定,这取决于社区的参与情况。”Khudairi补充道:“从项目管理委员会(PMC)内部到投票决定将项目束之高阁的理事会,我们审查和评估数个Apache项目的活动有所加大。”Khudairi还表示,Apache软件基金会Apache Attic副总裁Hervé Boutemy“最近通过‘春季大扫除’,在过去几个月清理掉了准备报废的十几个项目,一直非常高效。”
尽管Apache软件基金会声称这次大数据清理活动只是常规项目报废一下子集中而已,但很明显,大数据领域的形势已发生了变化。Hadoop在开源分析技术的霸主地位已让给了Spark,Hortonworks与旧的Cloudera之间项目无意义重复的现象已被终止,而这些项目当中优胜劣汰的自然选择业已完成。
不妨注意点
同样很显然,在大数据世界,Apache Sentry方面大笔投入的众多供应商和客户现在将需要弥补其损失,继续前进。这个残酷的现实带来了几乎适用于每个技术类别炒作周期的教训:社区为之兴奋,开源技术遍地开花,生态系统确立起来。但是那些生态系统并不是永生的,几乎任何新平台(无论是商业平台还是开源平台)都存在固有的风险。
用Apache软件基金会的Khudairi的话来说:“每个项目背后的社区确保其代码的活力(‘代码不会自行编写’),因此社区在某个项目上改变步伐的情况并不少见。”换句话说,先进技术令人兴奋,但早期采用者要提防:先进技术也存在着变数。要小心,管理好风险。