专访阿里巴巴胜通:“双十一”的备战及去IOE这条路

原创
系统
2013年7月13日, 由阿里巴巴集团主办的ADC·阿里技术嘉年华将在杭州海外海国际会展中心隆重开幕。51CTO记者很荣幸受邀参与了本次技术峰会,并采访到了阿里巴巴的DBA陈昭尚(花名:胜通),就淘宝“双十一”促销活动相关技术和 去IOE 相关问题进行交流与探讨。对比感兴趣的朋友,不妨看看本文的采访实录。

【51CTO原创稿件】2013年7月13日, 由阿里巴巴集团主办的ADC·阿里技术嘉年华将在杭州海外海国际会展中心隆重开幕。51CTO记者很荣幸受邀参与了本次技术峰会,并采访到了阿里巴巴的DBA陈昭尚(花名:胜通),就淘宝“双十一”促销活动相关技术和 去IOE 相关问题进行交流与探讨。对比感兴趣的朋友,不妨看看本文的采访实录。

[[82209]] 

以下是采访实录:

“双十一”的前奏和预热

51CTO:胜通您好,首先请做一下自我介绍。

胜通:我是陈招尚,花名胜通。零七年加入阿里巴巴,负责过淘宝的所有的核心系统数据库,经历和参与了淘宝几乎所有核心数据库的改造升级过程,淘宝***个分布式系统、***个核心系统分布式改造、历年双十一的数据库主要负责人。

51CTO:那您在阿里巴巴目前主要职责是什么?

胜通:阿里巴巴这个团队分了很多方向,有的是更专注基础的,有的是专注产品应用的。产品应用就是我们数据库系统应用在具体的产品里面,***事件这种。有的是专注集团核心的层面的,还有是专注一些类似的核心产品研发。比方说我们的数据流技术,这方面的新产品研发。我个人是在产品的应用,就是将数据库应用到***的应用的状态,就是使用上面。

51CTO:阿里巴巴每天数据量那么大,作为一个DBA而言,是不是会感觉比一般企业的DBA更有压力?

 胜通:说实话压力确实有,在阿里来说的确得到很大的磨炼,有的时候,很多问题都是别人追着你来解决,那你就必须顶着这个压力去做。我认为这样有压力其实就有锻炼的机会,我们不能够逃避。

51CTO:在去年淘宝“双十一”促销活动中,淘宝技术支撑受到了很多网民的追捧和认可,请问阿里在购物高峰的时候,怎么样才能保证网站能够正常的运行?你们利用了哪些相关的技术?

胜通:像“双十一”这种非常重要的促销活动,我们为它准备了很多。不是说我用了一个技术,就可以解决这些事情,包括很多方面。我可以简单讲一下我们做了一些主要的准备的事情。这个事情做完过后才能保证在“双十一”当天不会出大篓子。

首先我们对业务要非常熟悉,核心流程的数据量化是***步。

第二步我们系统的,根据业务仔细研究,然后再根据业务的指标,我评估它的压力会有多少,对系统有一个评估。接下来对它进行升级。

51CTO:是不是把升级做好就OK了?

胜通:从去年经历的“双十一”的经验来讲,不是把系统升级就OK的。首先想各种预案,有些预案数据库就可以直接解决的,出了问题数据库解决。另外数据库解决不了,再想办法解决。这种全部弄下来以后,我们需要不停地去演练。

第二点就是我们的容量非常准确地预估出来。我们预案估不是拍拍脑袋预估出来,而是有很多数据作为依据,一次交易会有多少个系统去访问,会带来什么东西?如果中间一步断了,它又会去访问哪里?***量化,***一位到个位数。现在说我我的个位数肯定不准,这个系统会有多少,一天会有多大的数据量,这个容量评估,评估后就是升级。然后再基于所有的各种产品进行演练。容灾这个事情,如果在“双十一”真的遇到这种情况,平时没有演练的话,就会手忙脚乱。只有不停地锻炼才会这样子的结果,因为“双十一”是阿里非常重要的一个活动,我们对它准备要非常地充分。基本上“双十一”搞定了,全年的活动就搞定了一大半。

51CTO:淘宝强大的技术使命会让很多人联想起12306购票,就是一票难求。很多网友就将二者对比,12306能不能应用阿里“双十一”的技术应对抢票的问题,您对这个事情是怎么看待的?

胜通:淘宝也有有压力的时候,在过去并不是说从来就没有出过篓子,不是这样的情况,它也是一步一步锻炼出来。我们看12306在刚出来,在后来一段时间,个人认为是有很大改进的。但这个改进,用这样的技术,用淘宝这种思想去做。我认为假如真的投入这样进去,肯定是能够有很大的缓解。其实12306有的时候可能真的不是技术的问题,客运量就只能拉这么拉这么多人,如果超出了这个范围,真的是没办法。这不是我们计算技术能解决的。

51CTO:可能也是客观的因素,技术不是主要的因素?

胜通:12306怎么说呢?在我们的政府网站中还算是走的比较远的,走的比较快的,政府的其他东西好像还没有它的步伐迈的快是不是?技术上我是觉得,虽然说外面有批评。但是他们后期做了很多改进,我们不能总看到人家一个缺点,看不到他们的改进。其实淘宝也正是因为一次一次的问题,一次次地改进,才有了今天这样的比较完善的架构和技术体系。

51CTO:今年的“双十一”你们有做哪些准备?是阶段性的么?还是说从年初就开始着手做这件事了?

胜通:去年“双十一”过后也遇到很多问题,年后就开始改进。今年正式启动“双十一”,我们已经开始着手做各方面的准备了。去年的部分问题我们都进行修复了。今年为了解决去年一些比较核心的问题也做了很大的改进,甚至成立专门的团队来做这些事。但是有些东西可能还不太方便说。但是我想说的是,今年我们要做的比去年好。去年大家感觉不爽的地方,今年一定不让大家感觉到不爽,这是我们的目标。如果真的还会有,比方说新的业务的变化,有的一些新的东西,问题进来了,我不知道会不会有,但是我们肯定要对这种情况去分析,去做准备。

51CTO:您刚刚提到的规模化运维。规模化运维与自动化运维的关系是?淘宝的规模化运维大概是什么样?

胜通:规模化运维是从面对人的角度来说,自动化运维把我们的系统往自动化运维方向去做。就是用技术的手段来解决规模化问题,是这样的一个结果,它们俩就是这样的关系。提到淘宝的规模化运维,其实之前还没到这么大的规模。我们之前可能只有十几道库,不能算是规模化。但是现在三千套了,一旦达到规模以后,从机器的采购到交付到上架,再到上系统,再到投入使用。每一个环节都要相互衔接好,因为都是不同的人来做。每个环节单独的一方面,包括程序对系统的应用,我们需要做到非常一体化的这种,天衣无缝,人介入其中肯定是越来越少了,就是让系统来实现这样子的。#p#

阿里 去IOE 这条路

51CTO:阿里走上 去IOE 这条路,主要是出于什么原因考虑的?

胜通:我觉得是三个方面的因素推动的:

***方面是直接的因素,我们不会回避,直接的因素是钱的问题。如果再次做一遍成本有点高,这是***点。我们老板讲过一句话,IT这个行业存在的原因就是为了给大家省钱,效率提高,钱就省下来了,这是最直接的原因。但是它不是唯一的原因,它的占比也不是非常高。

第二方面是本身的资源的问题。比方说,在当时的那套系统环境下,可能预计一年后无法满足业务需求,业务的高速发展绝对会突破当时所能够达到的***线,所以我们在整体架构上必须要做这样一个转变。把这个比喻为土地的话,可能更好理解。当土地不够用了,必须得要挖更多的土地出来。

第三个方面是人的因素,也是最重要的一个原因。当时技术把控,掌控力这块,像 Oracle 这么大, IBM 这么大,其实他们的很多技术无法满足我们在推动产品方面的需求。而且他们是一个边缘的市场,再加上我们的技术能力来说,双方都无法满足了。

在这种状态下,就促使我们走上了 去IOE 这条路。

51CTO:阿里 去IOE 这条路也适用于其它企业么?

胜通:首先一点,我们这个方向是正确的。但是并不代表所有的企业都得往这个方向走,假设你的技术没有那么强,而且你还没有那么到必须走这条路的时候,提前做这件事情,其实不太好的。我不是给那些商业公司打广告,他们的确在某些方面做的很好, Oracle 的监控其实做的很好。以前看到他们的报表,我就知道到底是什么问题了。我觉得其实很好,***走了这条路,我们实在是因为到了那个时候,没有办法才走这条路的。所以千万要保持头脑冷静一点,不要一股脑跟风。因为业界上也有一些比较牛逼的、出名的公司,结果因为技术改造改挂了,也有这种出现过。所以一定要谨慎,但是整体方向上,个人认为是不会错的,如果你有那个实力的时候。

个人感觉其实永远没有一个***的技术,只有一个最合适的技术。淘宝早期的时候,业务目标是***的,那么可能需要我们以最快的方式满足业务,因为它是一个粗放性的公司。如果一个粗放性的公司,你说我一开始就走现在这条路可不可以?其实是可以的,但是商业市场是否允许你这样去做,这是自己本身的一个决断。这件事情本身是有很大风险的。中间任何地方出了问题,都可能会产生很大的影响。看你是不是有这个决心去做这件事了,而且做这件事情必须要有个非常强的组织保障,必须要把其它阻力划界,然后来做这样一件事情。

另外一点,从技术上来说,往开放的方向走肯定是正确的。第二要架构上灵活。你往这两个方向上走肯定是正确的,其实 去IOE 并不等于是去掉 IBM 、去掉 Oracle 、去掉 EMC 。它只是技术架构本身的一个革新,我们在走这样一条路而已。

整体上来说,我是认为,从环境、从时势上来看,各公司都有各种不同的策略,还是得根据自己公司的实际情况来衡量一下。公司很小的时候,船小好掉头,如果你有这个精力。

51CTO:在 去IOE 整个过程中,你们遇到的***的困难是什么?或者是遇到了哪些挑战?

胜通:我大致讲一点,***点可能很多人不理解是业务重要还是技术重要?你为什么要做这件事情?毕竟你现在完全满足我一两年以后的市场。这个事情其实你去说服他也很困难,这个首先组织上要有这个意识,你上层领导对你做这个事情的态度很重要。

还会有一些的想法,比方说有的人会说,你说只有合适的***时间对不对?我这个地方到底去不去按照你这条路来走?其实应该根据我来判断对不对?一些东西都是很多的应用,这个时候我是,***总结多做事,你把事情做出来以后,有的事情不是说当时就能够证明你是正确的。可能是两年以后、三年以后才会发现这些。如果当时不走这条路,其实在去年的“双十一”就非常的困难。

好的,访谈就到这里,非常感谢胜通的分享!各位网友如有相关问题,欢迎您留言讨论。

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2013-11-07 11:26:08

2013-08-22 09:41:52

阿里巴巴去IOE王坚

2013-08-22 09:36:45

阿里巴巴王坚阿里云

2012-07-13 02:22:44

褚霸去IOEADC 2012

2013-08-22 09:26:38

去IOE王坚

2016-09-21 20:28:55

阿里巴巴IOE

2012-05-07 10:40:57

阿里巴巴去IOE

2013-11-14 14:49:20

阿里巴巴双十一网购

2013-07-14 13:21:46

去IOE数据库ADC

2018-05-28 13:31:00

职场阿里巴巴

2014-12-15 11:05:36

阿里云双十一

2013-08-28 16:02:45

2013-08-04 21:02:59

实时计算存储阿里巴巴和仲

2010-06-28 10:43:47

2013-11-07 15:23:16

2014-11-06 15:50:25

遨游浏览器

2012-10-29 09:47:24

蘑菇街

2010-04-20 10:07:35

2013-06-02 21:53:51

阿里巴巴Windows Azu淘宝

2015-05-12 15:09:01

阿里巴巴公有云IaaS
点赞
收藏

51CTO技术栈公众号