他将Yahoo!Hadoop从20个节点扩展为42000个节点

云计算 Hadoop
Eric Baldeschwieler,Hortonworks的CTO。Inktomi公司Web服务引擎的技术领导者,雅虎Web搜索总设计师,雅虎Apache Hadoop项目的负责人,并将20个节点的原型系统发展为42000个节点的服务。Eric对Hadoop的前景非常乐观,“大家多贡献一点,Hadoop将会创造奇迹。”11月30日,Eric将来到HBTC 2012!

Eric Baldeschwieler,今年47岁,有很深的计算机技术背景。在卡内基梅隆大学(Carnegie Mellon University)获得应用数学(计算机科学)学士学位后,Eric又在加州大学伯克利分校获得计算机科学硕士学位。作为Inktomi公司Web服务引擎的技术领导者(Inktomi是第二个比较早出现的搜索引擎,Amazon.com,eBay,HotBot,MSN,Overture,WalMart.com,LookSmart,Excite,HotBot都是他的客户,而通过这些顶级的门户网站和目标站点,Inktomi向全世界半数以上的互联网用户提供最新、最相关的搜索结果),由于Inktomi在2003年被雅虎收购,Eric也随之转战雅虎,并最终通过2年的努力,于2005年成为雅虎的Web搜索总设计师。更富传奇的是,Eric在2006年毅然投入雅虎Apache Hadoop项目的怀抱,将其从20个节点的原型系统发展为42000个节点的服务。而后,当雅虎决定全力支持Apache Hadoop项目,并于2011年7月成立新公司Hortonworks时,Eric当之无愧地成为首任CTO。作为资深技术人士,但当CTO的Eric感觉自己面临了诸多挑战。但他对Hadoop的前景非常乐观,“大家多贡献一点,Hadoop将会创造奇迹。”Eric将来到HBTC 2012,并发表关于Hadoop技术经验分享的主题演讲。

从玩游戏到做Hadoop

 

[[102808]]

 

Eric Baldeschwieler骑着“大象”意味深长

问:你从什么时候开始对技术感兴趣?又是怎走上Hadoop之路的?

Eric Baldeschwieler:时间总是有着自己的轨迹。对我而言,后期的工作经历都是对初中学习的补充。那时,在学校中,我们都会通过早期的微型计算机来打游戏。而后,在我父亲的加州理工学院实验室,我学会了一些自动化实验。这很非常有趣,也促成了我离开学校后对第一份工作的选择。那是,我曾经在父亲的一个合作伙伴(关于博士后项目)Steve Crane的手下工作。他是Cubico的联合创始人,后期加入了Digital F/X的企业。从他身上,我学会了电子艺术。我们一起在加州理工实验室的实验室系统中做三维渲染,并通过三维图形处理来实现后期数字视频制作。

所以,在大学中玩游戏,暑期在父亲的实验室工作的历程使我在大学选择专业的时候很自然地就填写了计算机。幸运的是,在研究生院,我有机会与Eric Brewer(Inktomi联合创始人)一起工作。加入Inktomi是我做的非常关键的一个决定。在那里,我得到了来自硅谷的那么多令人兴奋的资源。直到2003年Inktomi被雅虎收购。我转战雅虎,慢慢坐到了Web搜索总设计师的职位(2005年)。而从那时起,我就已经开始关注大数据问题,并在2006年正式参与了Apache Hadoop项目组。

我一直想要做的事情,就是在大数据领域如何理解计算机工作的原理。比如80年代,在PC并不快的时候,你需要透彻了解其原理才能更好地播放视频和做游戏。在搜索领域也是如此,要回答尽可能多的问题,使用尽可能多的数据,实现尽可能高的速度, 了解IT系统的体系架构和运行是必须的。

问:你最敬佩的领导是谁?

Eric Baldeschwieler:我有幸与诸多伟大的技术人物共事。Steve Crane是我的第一个老板,也是很好的朋友和导师,我们一起做了很多事情,从他那里,我学到非常重要的一课,那就是无论做什么,如在不同工作中切换,都需要有不同技术的积累。而在Inktomi另外一个创始人Paul Gauthier的身上,我学到了实用主义。作为一个博学的人,真正的技术顶级专家,他告诉我:计算机越来越强大,最好的解决方案往往是最简单和最直接的一个。有时你可以带上一个“锤子”来解决你的问题(不用害怕用最简单的方案来解决它)。

还有一个是雅虎CTO Raymie Stata,从他那里,我学到的是一种精神——乐观。这很重要,这也是Hortonworks的价值所在。我们对于Hortonworks的前景已经“无以伦比”的乐观了,在他那里,我们还获得了很多的支持和信任。此外,我还最欣赏他的这种想法:开源不是零和游戏,只要你积极参与社区作出贡献就能有很大的回报。这其中,有太多的竞争与合作,你需要寻找到合作伙伴(即使他的目标只是在某些方面与你一致),但你们之间的合作将创造出很多价值。

开源社区的伙伴都是务实而富有激情的,我很幸运地拥有一群志同道合的,面对艰难问题却能发明有趣的解决方案的朋友们。

问:作为CTO,面临的最大挑战是什么?

Eric Baldeschwieler:我想,最大的挑战是如何在短期和长期目标之间实现务实的平衡。短期是寻找客户,创造收入,有生意机会,长期是在此之外的目标,比如研发更好的方案,获得更多技术提升,使企业活的更加长久等。Hortonworks有大量技术项目,但是面临的挑战还很多。而在参与Hadoop之前,我在Inktomi和雅虎的工作中,更多是试图寻找如何通过构建基础社区来抓取页面并建立搜索项目,不过也存在这样的问题,就是如同通过管理一个庞大的队伍和项目,平衡短期目标与长期规划之间的关系。

另一方面,对我个人而言,在技术以外,还有一个很有趣的挑战就是如何做生意。特别是在技术已经可以引发商业变革的如今,现在技术变化更快,企业预算更加有限,所有公司都在寻找新的机会,这给技术尤其是开源市场带来了更多的刺激性的机会,但也有不确定性,比如金融。

所以,你可以有雄心,但必须务实。

问:HBTC 2012哪些最吸引您?

Eric Baldeschwieler:作为Hortonworks的CTO,我的工作不是线性的。大部分时间是在线管理技术团队,和聪明的同事们一起设计下一代技术框架。哈哈,在我看来,作为CTO,如果没有直接领导的团队,那么可能你一点私人空间都没有了。另外,我很喜欢参加国外技术研讨会,比如近期我将参加在中国北京举行的HBTC 2012,在这样的技术会议上,不仅可以分享很多技术观点,还可以学到更多。想想看,当不同国家的技术人员都在纠结一样的问题时,我们的探讨可能会产生真正的聪明的答案,这多令人激动啊。

问:Hortonworks CTO的工作重点是什么?

Eric Baldeschwieler:我需要直接管理的人很少,尽管之前的工作中,我可能需要管理的人有60-100人,但现在反而没有这么多。重点是三方面,画图,定目标及解决问题。我会画一个表,将实现目标、沟通机制以及技术方案做规划,并在随后的执行中保持一致,当特殊情况出现时,作出必要的调整。对于定位,我更多是一个技术领导者而不是过程领导者,这也是我能够很自然地过渡到CTO岗位的原因。

Hortonworks和雅虎关系密切

 

 

“我是一个技术领导者”

问:Hortonworks和雅虎是什么关系?

Eric Baldeschwieler:大约五、六年以前Apache Hadoop只是一个包含20个节点的原型系统。从那时起雅虎开始致力于Apache Hadoop项目,组建了团队并在过去的时间里一直专注于Apache Hadoop项目的推动工作。雅虎构建了所有的发行版本,已经成为了Hadoop所有发行版本的主要的贡献者。作为一个团队,我们已经习惯于支持一个更为广泛的社区。当然,不同之处在于现在我们明确地将雅虎作为一个客户并为其提供支持。而Hortonworks是一家独立的公司,而雅虎是Hortonworks的投资人,顾客以及开发合作伙伴。在雅虎仍将有大量人员继续为Hadoop做出贡献并在Hadoop之上构建应用。目前在雅虎有超过1000人的Hadoop活跃用户。

问:你们在为雅虎做什么服务?

Eric Baldeschwieler:目前我们为雅虎提供3级支持,包括开发者培训,一般的问题甚至是解决Hadoop新开发者遇到的bug。同时我们将提供升级支持,而且如果他们发现了不能解决的有趣问题,我们将提供帮助。

问:除此以外,定位在哪些方面?

Eric Baldeschwieler:Hadoop形势大好。新闻媒体对Hadoop很感兴趣,数以千计的公司或部门已经广泛采用了Hadoop。Hortonworks是一家独立的公司,我们将继续推动Hadoop技术继续前进并围绕Hadoop实现新特性、新技术角色。而从商业模式来看,现在,Hadoop已经提交给Apache基金会而且是开源的,我们认为应该有一个能够从Apache下载的完整版本。我们短期的业务模式是培训与支持,并作为雅虎的战略伙伴。雅虎具有浓厚的兴趣看到Hadoop以某种方式持续演变,他们愿意支付费用让我们进行设计与开发。短期内我们仅关注企业更加容易安装并使用Hadoop,第三方更加容易构建业务(包括软件业务,OEM业务以及围绕Hadoop的集成业务),增加Hadoop的市场份额。凭借丰富的技术经验,我们能够帮助跨越目前存在的障碍,而且在保持核心免费的同时我们所做的存在巨大的机会。

如果人人都奉献一点,Hadoop将会创造奇迹

 

[[102809]]

 

“多奉献点,Hadoop会是个奇迹”

问:目前有一些有资金支持的Hadoop的项目,比如DataMirror, Cloudera以及MapR。有些人使用Apache,有些人并不使用Apache。你怎么看?

Eric Baldeschwieler:这很难简单地说清楚,但是我们相信开源的伟大之处在于你的合作伙伴非常广泛。任何使用Apache Hadoop的公司将产品改进提交给Apache Hadoop,我们致力于与这些人合作。我们的工作就是让Apache Hadoop成长得更加强大。

问:Hadoop还是多种发行版并行吗?

Eric Baldeschwieler:任何健康的生态系统都存在变体,我们只想确保所有人都知道他们能够到Apache网站下载一个不错的Hadoop版本。现在人们仍在存在某些困惑,目前只有真正的专家才能安装并使用Hadoop,因此你想让Hadoop的安装、使用更容易。

问:Hortonworks和其他公司有什么不同?

Eric Baldeschwieler: 在我们的商业模式中,开源是最重要的。很有意思的是,虽然我们已经为Hadoop的项目忙碌了六年,但是公司成立到现在也就是一年多的时间。我的角色实际上就是做开源社区,看Hadoop的发展就是一个合作路线图,所以我需要更努力地去做社交,将我们在做的事情传播出去,将其他人做的事情的信息带回来,并说服大家,贡献一点,就会有奇迹发生。

聪明好奇且有深厚计算机背景的人适合Hadoop

问:现在公司的组织架构如何?

Eric Baldeschwieler:我们大概有25名核心员工是提交者和架构师,他们构建了Hadoop,pig,Zookeeper以及其他一些关键的Apache Hadoop项目。我们总有80名员工具有多年构建Hadoop的经验对外提供服务,这是我们强大的优势所在。首先我们招聘设计与构建Hadoop的员工。因为我们有专家,我们能够发挥纯开源的作用,由于我们的专业知识,与我们合作的所有人都将受益。

问:你喜欢什么样的手下?

Eric Baldeschwieler:我喜欢聪明、好奇的人。我在面试的时候,一般都会问他们具体的事情。比如你曾经失败过吗?当时犯了什么错误,如何客服困难,从失败中获得了什么经验教训。在我看来,从失败中获得经验远比成功要多。如果有人和我说,他们从来没有犯过错,那我很担心。

除此以外,我看中要能与其他人合作。我很珍惜能够合作的团队,因为对于Hadoop而言,并没有剧本。所有的发展都是依靠这些来不同领域、不同学科的工程师们的创造,但扎实的计算机理论基础还是很必要的。有些公司经常会做逻辑谜语之类的考题,我想主要也是为了测试求职者是否有扎实的计算机科学基础。

最后,我们有一个“no-prima donna rule”,主要是淘汰那些过于自我或者说过于天才的人。因为在开源社区,过于自我,难以与人相处的人显然无法实现更好的合作。尽管我也认可,天才和自我是一个硬币的两面。但是那些过于聪明的人往往无法融入企业文化,事实上,这方面,我有着深刻的教训。决不能妥协,因为我们需要的是可以良好相处的队友。

问:紧张的工作之外,如何放松呢?

Eric Baldeschwieler:我有三个孩子,下班后我们经常一起玩,他们让我更加年轻。另外,我喜欢在健身房练习攀岩。攀岩不仅能帮助我锻炼身体,还能让我去思考如何来走一步来实现到达山顶的目标。

问:如果不做Hortonworks的CTO,你会选择做什么?

Eric Baldeschwieler:哈哈,坦白说,还真是没有答案。对于Hadoop,我很兴奋于它的潜力,现在我真是无法想象下一个工作。

责任编辑:王程程 来源: CSDN
相关推荐

2021-01-27 10:03:58

OpenAI机器学习K8S

2010-06-07 12:52:21

Hadoop

2010-05-19 11:29:41

HadoopYahooGoogle

2009-06-12 19:03:41

Hadoop源代码Yahoo

2011-12-26 15:11:36

JavaScript

2013-06-14 09:24:59

Hadoop云服务Altiscale

2022-06-01 06:58:41

节点链表倒数

2013-06-05 10:24:22

2015-03-27 09:52:06

腾讯CDN/CDN

2021-05-10 09:35:58

Kubernetes节点Join

2023-03-08 18:00:00

主从读写分离

2015-05-27 10:29:41

DockerHadoopHadoop集群

2014-07-01 09:53:21

DockerHadoop集群

2022-06-11 23:19:47

数字化转型数字化信息技术

2019-09-27 08:31:55

HDFS集群Hadoop

2022-06-05 23:38:59

数字化转型数字化企业

2020-03-09 09:07:51

Vue根节点Fragments

2023-01-02 18:15:42

PythonC++模块

2012-02-09 15:47:58

云计算微软

2024-06-14 16:00:07

点赞
收藏

51CTO技术栈公众号