雅虎对Apache Hadoop到底做了什么

系统 Hadoop
几周前,Hortonworks在博客上强调了雅虎这几年来对Hadoop作出的巨大贡献。这有两重含义:一、向前雇主致敬;二、证实雅虎仍然是Hadoop的主要贡献者。Cloudera回复称这是一个误导性的新闻,但是下面的信息会让大家开朗许多。

几周前,Hortonworks在博客上强调了雅虎这几年来对Hadoop作出的巨大贡献。这有两重含义:一、向前雇主致敬;二、证实雅虎仍然是Hadoop的主要贡献者。

这个星期初,Cloudera回复了我们的博客,称我们报道了一个误导性的新闻。虽然我们通常不回复其他供应商的博客(即使他们说了一些有疑议的事情),但我们觉得这次一定要回复。

在下面的许多文字中,他们声称Cloudera才是本年度Apache Hadoop的***贡献者。

虽然Cloudera在过去的几个月里确实增加了他们投放的补丁数,但将补丁数作为评判一个公司对Apache Hadoop贡献的最重要指标是有误导性的。

为什么?因为根据投入的时间和工作量的不同,补丁是不同的。在贡献者不断获取经验并开始进行更复杂的任务时,他们的补丁通常会变大。一个补定可以像一个新功能或子系统一样复杂,也可以像更正文档里的一行拼写错误一样简单。通常来说,新手贡献小的修复补丁,而专家贡献需要很大工作量的复杂补丁。

我们相信代码的行数是一个重要的更为中肯的标准。虽然改正拼写错误很有用,但它远不如添加新功能或修改重大错误来得重要。

和一两行的补丁比较:

HDFSFederation:将近15000行代码

HDFSEditLogsRe-write:将近10000行代码(由Cloudera的工程师发起)

NextGenMapReduce:超过150000行代码

当你了解到今年Apache Hadoop收到的补丁有将近40%少于10行后,你就会意识到,只用补丁数量作为指标将对事实造成严重的扭曲。

有一个事实就是,Hortonworks和雅虎一起贡献的代码行数达到了Apache Hadoop收到的代码总行数的80%。这个数字(正如Owen在他的方法里描述的那样)归功于那些雇佣开发者完善Apache Hadoop的公司。那些公司通过支持员工为Apache Hadoop编写代码来帮助Apache Hadoop的发展,而这只有在这些企业得到认可时才显得公平。

这里有一个图标展示了2006年以来Apache Hadoop收到的代码的总行数,这表基于在贡献时期雇佣了开发者的公司。

Cloudera声称认可应该给开发者的现任雇主,不应考虑前雇主的投资。我们同意个人,而非公司,才是开源项目贡献者;但我们不认为我们可以忽略公司对建造Apache Hadoop所作出的投入。只有把在雅虎时的作出的贡献和雅虎作出的贡献都考虑进去才显得公平。

不管怎样,我们使用Cloudera的方法计算了从2006年到现在贡献给Apache Hadoop的代码行数,并得到如下结果:

这个图标着重于显示那些最活跃的Apache Hadoop贡献者现在都在那里就职。我们为当时的同事感到骄傲,现在他们去了像Facebook、LinkedIn、eBay等公司去传播他们的知识和经验。值得注意的是这个方法对Hortonworks和其他公司有利,但没有很大地改变Cloudera的贡献。

虽然现在有一个积极的生态网让人才(多为雅虎的人才)在各公司中流动,但Hortonworks和雅虎雇佣的开发者仍然贡献了Apache Hadoop的大部分代码。

如果你只看用Cloudera的方法算出的2011年的结果,那么情况大致一样:

正如你所看到的,Hortonworks和雅虎是Apache Hadoop的两大贡献者,它们目前贡献了大约68%的代码行数。正如Owen在他博客里强调的及我常说的,我们很高兴看到其他公司对Apache Hadoop的贡献率上升。我认为这是一个健康的、正在成长的生态系统的表现。

最近有一些图表带有代码行数和补丁数两个数值,根据贡献者在他们贡献期时的雇主。***个表展示了自2006年来的总数以说明一些历史的观点:

第二个表展示了2011年贡献的代码行数和补丁数:

Cloudera在他们的博客中指出:他们已经增加了贡献给Apache Hadoop的补丁量,对此我们赞赏他们的这一行为。然而,他们省略了很重要的一点,那就是Hortonworks和雅虎仍然是Apache Hadoop项目的***贡献者。这是一个不争的事实。

***,让我指出我们聚焦于Apache Hadoop核心的分析,即是Common、HDFS和MapReduce。每个分布都包含了两个或两个以上这些项目,没有这些项目我们无法建立Hadoop。

雅虎也帮助了其他项目比如ZooKeeper、Pig、HCatalog、Avro及Ambari。雅虎和Hortonworks都有专业的技术并将继续帮助这些项目。其他公司也在其它项目中提供专业技术,比如Facebook对Hive,及Facebook、Stumbleupon和TrendMico对HBase。Cloudera在近期提交给Apache的项目中也有专业技术,包括Bigtop、Sqoop、Whirr和Flume。生态系统中也有一些项目可以加到分析中,包括Azkaban、Cascading、Cassandra、Giraph、Hama、Hypertable、Kafka、JAQL、Mahout、Mesos、OpenMPI、R、Spark及Thrift等等。在Hadoop项目的分析中添加任意一个项目都会改变主题。

总结

让我重申一遍:Hortonworks是Apache Hadoop的重要贡献者,它加速了Hadoop的发展及它在全球的普及度。我们很激动地看到了不断有个人和公司作出贡献。我们很高兴能与Apache Hadoop社区一起工作,对此我们已经做了将近6年。

我们相信,ApacheSoftwareFoundation对Hadoop的持有是Hadoop的一个重要优势。我们为自己不持有代码而感到骄傲。我们把100%的代码都贡献给了Apache。我们没有任何专利软件。我们所有的代码都给了Apache,以此来让Apache变得更好。我们相信这是创造一个有活力的Hadoop社区和生态系统最快***的方法。

***,我们深信我们是Apache Hadoop领域最资深的公司,我们在协助企业和技术供应商与Apache Hadoop中也处于很重要的位置。

【编辑推荐】

  1. SQL Server Hadoop:开拓大数据新疆域
  2. Hadoop掀起大数据革命:三巨头齐发力
  3. Hadoop人才需求高涨 你准备好了吗?
  4. Ubuntu 11.10加速企业安装Hadoop
  5. 大数据竞争加剧 IBM新增Hadoop服务强化影响力
责任编辑:张浩 来源: 移动labs大云开发者社区
相关推荐

2011-04-19 10:04:25

NeopPIshell网站后门

2018-05-22 08:37:02

Ceph存储存储系统

2016-11-17 15:35:51

RxJava操作Subscriber

2017-12-06 14:35:01

OpenStackCeph存储

2013-06-17 09:50:26

雅虎Hadoop大数据

2018-08-09 09:00:34

Hadoop制造行业国内企业

2013-04-19 13:59:00

Apache Hado

2020-04-27 08:33:42

通信5G珠穆朗玛峰

2013-04-19 10:06:51

ApacheHadoopMapReduce计算

2023-01-05 10:16:27

2017-06-06 11:44:45

FuchsiaAndroidGoogle

2009-06-25 09:11:58

鲍尔默雅虎搜索

2013-06-14 09:24:59

Hadoop云服务Altiscale

2010-06-03 18:43:00

Hadoop

2022-12-07 07:33:54

Java启动类项目

2015-10-21 21:47:55

田溯宁

2016-01-29 10:05:13

酒店服务业大数据大数据分析

2015-10-13 11:13:26

2012-05-28 09:23:40

JavaHadoopApache

2022-06-01 13:52:11

开源大数据
点赞
收藏

51CTO技术栈公众号