研发人员揭秘阿里云如何一飞冲天

原创
云计算
也许你不知道阿里云的底层架构,也许你只听说过阿里云的“5K”集群,然而他们所表达的是一个:阿里云飞天开放平台。在阿里云2015云栖大会上,51CTO记者采访了为阿里云底层做出过突出贡献的飞天人,来讲述飞天背后的故事。

也许你不知道阿里云的底层架构,也许你只听说过阿里云的“5K”集群,然而他们所表达的是一个:阿里云飞天开放平台(以下简称飞天)。

飞天是由阿里云自主研发完成的公共云计算平台,主要解决规模计算的问题。在阿里云2015云栖大会上,51CTO记者采访了为阿里云底层做出过突出贡献的飞天人,来讲述飞天背后的故事。

飞天的由来

在2007年,阿里巴巴集团的业务发展基本上都聚集在数据计算方面,核心的也都和数据相关,例如广告业务,需要知道推荐广告的用户人群,这是数据问题;在比如有着近10亿用户群的淘宝,商品搜索也是数据问题;而支付宝的反欺诈问题,也需要用数据来解决。于是,阿里巴巴决定,希望通过数据的挖掘和数据的运算来解决实际的业务问题,因此,飞天的想法诞生了。

当然,在飞天之前,有很多各种各样的解决方案,但是渐渐的,阿里巴巴发现,IT预算的增长远远超过业务增长的速度,如果没有自己的核心技术,总有一天,赚的钱比不过花掉的钱,这也促使了飞天的产生。

依图科技创始人林晨曦在2008年的时候也在微软工作,进行分布式系统的研发。但当时林晨曦意识到,数据时代就要到来,而阿里巴巴拥有大量的数据资源,会产生大数据平台和业务,于是林晨曦随着王坚博士一起加入到阿里巴巴,成为了飞天最早的负责人。

飞天的核心技术均由阿里巴巴的工程师自主完成,在谈到技术选择时,林晨曦告诉51CTO记者,2008年,阿里巴巴的技术分为三套体系,一是开源技术,采用Hadoop等开源技术,二是雅虎体系,主要集中在搜索和邮箱,三是传统IOE架构。而在飞天的技术选择上,很多阿里人都认为应该采用一些开源的技术,但是,阿里业务在发展的过程中会不断产生技术问题和需求,如果不是自主的知识产权技术来解决,恐怕只能了解皮毛,解决不了实际。因此,阿里巴巴希望技术能够掌握在自己手里,因此,飞天基本上都是阿里巴巴自主研发。

唐洪作为飞天的第二任负责人,对技术的掌控在自己手里也是相当认可的。“如果一开始直接使用开源技术,尝到了甜头,但是能力上没有把握好是非常危险的,在飞天的代码中,有很多独创的东西,这也促使了飞天的工程师成为了中国分布式系统中最强的开发团队。”



左:飞天第二任负责人,阿里云事业群资深总监 唐洪

右:阿里云产品经理 汤子楠

飞天是什么

那么,什么是飞天呢?通俗的说,飞天就是把几千台廉价的服务器整合成一台超级计算机,是阿里云最底层的技术支撑。

飞天开放平台最底层是数据中心,上面是通用服务器搭建的集群,再上层是大规模的通用平台(下图黄色区域),包括远程过程调用RPC(夸父)、安全管理Security(钟馗),分布式协调Naming/Coordination(女娲),资源管理Resource Management(伏羲)、分布式文件系统Distributed File System(盘古),应用调度Job Scheduling(伏羲),分布式部署Cluster Deployment(大禹),分布式检测Custer Monitor(神农)。而再上层(下图蓝色区域)提供的就是阿里云对外的所有云服务,均是通过Web API作为接口进行控制和访问的。

 



飞天开放平台架构

飞天开放平台有两大设计原则,首先是以通用大规模服务的平台作为底层,提供多租户的环境,将资源利用率提到最高;第二,是基于Web API作为提供服务的方式,开发者只需要登录阿里云网站就可以使用阿里云提供的服务。

在谈到飞天的难度时,唐洪对51CTO记者说,“飞天很大程度上要做的事情是要规避故障,并且对数据进行冗余。简单的理解,就是说服务‘永远’不中断,数据‘永远’不丢失。当然,这里‘永远’是打引号的,但是这一台超级计算机一定要比单个服务器的可用性和可靠性要高得多才行。”

同样是是飞天人的汤子楠认为,飞天系统有2个关键作用,首先,在2010年左右,中国的IT公司大多集中在应用层,很少有涉及到IT系统的最底层,毕竟做底层系统会面临着非常大的技术挑战,而中国的IT知识都是被国外垄断,中国人没有自己的技术,因此,能够做飞天是一件很宏伟的目标,会被记入到史册中。其次,在飞天研发过程中,集中基础设施构建,不断解决系统核心问题,例如规模、稳定性、容灾等。在飞天的发展过程中,锻炼了大量分布式系统的人才,这些技术的积累为未来产品的爆发提供了厚积薄发的能力。

有意思的是,飞天系统中各平台的名字基本上都是中国古代的名字,这也标志着飞天是中国自主研发的技术平台。

飞天的未来

2009年2月4日,阿里人写下了飞天的第一行代码;2010年8月27日,飞天在阿里巴巴内部正式成为了五个应用公共平台;2011年7月8日,阿里云官网正式上线,阿里云第一个云服务弹性计算也同时上线;2013年8月15日,第一个5K集群上线,也是中国自主研发的系统中第一个达到如此大规模的系统。

而飞天的下一个目标就是10000。从5000到10000,不只是乘2这么简单,因为各方面能力都在增加,功能上也在叠加,例如因为动态资源调配的问题而增加控制的复杂度。因此,在数据结构优化和关键路径优化方面飞天人还有很多工作要做。

唐洪告诉51CTO记者,10000台集群目前正在研发,预计在今年底或明年初就会正式发布。

51CTO记者将继续发回现场报道,请大家继续关注51CTO云计算频道。也可以点击下面的链接,观看官方直播:2015杭州云栖大会现场直播

相关现场报道:

记者手记:云栖大会2万人挤爆现场为哪般?

阿里王坚:重新定义云计算 计算经济时代到来

阿里云一大波新品、降价来袭

 

 

责任编辑:鸢玮 来源: 51cto
相关推荐

2014-03-20 17:27:45

百会CRM

2018-05-29 13:55:21

2024-03-14 09:46:42

算法检测

2015-09-18 09:29:21

2024-01-24 13:15:00

Redis分布式锁SpringBoot

2018-07-25 09:52:42

2024-09-25 15:02:47

2012-04-10 09:12:38

诺基亚

2009-10-13 08:51:51

Windows 8系统特性

2009-05-26 09:31:59

北电分公司解散

2019-04-15 14:52:02

2009-05-26 09:40:15

研发人员薪酬管理人才流失

2009-07-23 09:24:57

微软必应搜索

2009-11-02 09:35:32

2009-07-22 09:42:33

印度研发人员微软Bing

2019-09-24 09:37:38

软件JavaScriptWindows

2021-03-18 18:59:04

腾讯大数据研发

2023-03-20 16:28:49

大数据云计算腾讯

2017-12-27 08:59:24

程序员途牛裁员

2011-02-23 09:08:10

微软
点赞
收藏

51CTO技术栈公众号