【连载三】
阿里巴巴如何“去IOE”
2013年5月17日,阿里集团最后一台IBM小机在支付宝下线。这是自2009年“去IOE”战略透露以来,“去IOE”非常重要的一个节点。“去IOE”指的是摆脱掉IT部署中原有的IBM小型机、Oracle数据库以及EMC存储的过度依赖。告别最后一台小机,意味着整个阿里集团尽管还有一些Oracle数据库和EMC存储,但是IBM小型机已全部消失。7月10日,淘宝重中之重的广告系统使用的Oracle数据库下线,也是整个淘宝最后一个Oracle数据库。这两件事合在一起是阿里巴巴技术发展过程中的一个重要里程碑。
在阿里巴巴“去IOE”成功的大背景下,王坚的观点是:“去IOE”存在一定的技术挑战,“去IOE”不是简单改变软件和硬件本身,用另一种软硬件简单地取代已有的软硬件,而是用新的互联网技术和架构取代传统的IT技术和架构。阿里巴巴本身并不卖软件和硬件,但这种技术能力可以用云服务的方式来提供给第三方使用,让云计算彻底改变传统IT的基础架构。对大多数企业而言“去IOE最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。”
作为整个集团的首席技术官,王坚负责每年集团IT预算和规划,他意识到对于传统IT厂商的依赖使得相关技术及其维护已不在阿里自己可管理的范围之内,例如,大存储对客户而言基本就是“黑盒子”,客户都不能自行进行重要的维护,主要依赖厂家通过WAN网络或电话拔号连接上客户内部的大存储进行管理维护。“去IOE”也解决了淘宝和支付宝面临的这类影响长远发展的问题。
为什么阿里能够率先成功?我认为有三点重要原因:一是企业的战略决心是否足够强大,在这一点上没有巧可以取;二是这项工作是否能够坚持到底,并愿意承担技术上、组织上的各种风险;三是,也是最重要的,要有使命感的人和团队去完成一件看起来不可能的事。从去“IOE”,也看得出阿里巴巴在技术上做出的战略投入,当然也包括飞天云计算平台、数据库、云OS操作系统等
Q:阿里巴巴为什么要做“去IOE”这件事?“去IOE”经历了怎样的过程?
A:2008~2009年,在做整个集团的预算时,第一次提出了“去IOE”这件事。每年,我都要负责整个集团技术预算拟定,当看到阿里巴巴对计算需求成指数级增长,并跟业务增长不成比例时,就意识到如没有技术的进步,一定会影响公司长远的发展。
做预算不仅仅是“钱”的问题,而是考虑集团未来如何发展的问题,也是思考技术战略的机会。“去IOE”不是一个人的决定,你需要分析企业业务情况,哪些业务适合尝试“去IOE”,阿里比较幸运,当时淘宝的技术团队愿意创新,去尝试“去IOE”这件事,最早承担这件事的技术和业务风险。“去IOE”的过程也是技术发展的过程,比如以淘宝为基础形成了优秀的Mysql数据库团队,也建立了自己开发数据库Oceanbase的团队,现在的团队来自各事业部,双管齐下,这是一个极大的长期投入,不磨五年是磨不出来的。当支付宝最后一台IBM小机下线时,整个技术团队是非常自豪的!
当时我们考虑“去IOE”并不仅仅出于对成本的考量,成本只是最容易看得到的东西,最重要的是要满足企业未来长期发展的需要。互联网时代,每一家企业都必须拥抱互联网,传统IT架构的软硬件已经无法满足企业在这方面的发展。阿里巴巴的成功经验表明原来依赖IBM、Oracle和EMC的系统是可以构建在Commodity PC上的,这为大多数企业在云计算上搭建IT系统扫清了障碍,让他们可以彻底拥抱云计算,拥抱互联网。
Q:传统企业“去IOE”的可能性有多大?哪些企业具备“去IOE”的条件和动力?
A:如果对云计算带来的冲击认识足够,就会明白“去IOE”不是一次技术的升级,而是一个时代的改变,云计算对传统的IT和“开源软件”都是有冲击的。这是行业的变化,不是一个技术策略的选择。
正是因为这是一次IT基础设施的变革,从硬件和软件底层着手“去IOE”这件事情不该每个企业都做。如果要说一个很直截了当的答案,我会表明一个观点:如果企业觉得已有的云计算服务不能满足IT需求,那么它适合自己完成“去IOE”,我认为大部分传统企业都是没有可能和必要自己实现“去IOE”,其实,要做“去IOE”这件事情,是有技术挑战的,也受市场条件的约束,有机会成本问题,当然也有总体人才资源的限制。所以最好帮助大多数传统企业用户解决“去IOE”的途径是云计算,云计算提供的计算服务可以将“IOE”去掉,对企业来讲这是一个好的可以长期发展的路径。
对传统企业来讲,“去IOE”的根本是在做一个选择,是在选择是否信任云计算是一种公共服务,就像企业信任国家电网供电一样。当你选择了IBM的机器,实际上是觉得IBM的机器和这家企业是可以信任的。
大家经常忽视一个奇怪的现象,一方面我们都承认云计算是一种服务,但是更多的厂商会和你谈“私有云”,想把软件和硬件卖给你,这时候“云计算是服务”就不见了。为了成功卖出软件硬件,唯一可以说的事情就是安全问题,这是我看“私有云“的两大问题。“IOE”本身是软件时代或者说买计算机时代留下的产物,而到了云计算时代,实际上变成一个买“计算”的时代,不是买“计算机”的时代,所以去IOE的方法应该用服务的方式去掉。“去IOE”不是用一个技术替代一个技术,而是一个新的时代到来了。这个过程中的挑战是,你心理是否接受云计算,而不只是技术上是否接受。
企业自己去IOE意味着要重复阿里今天做的很多事情,这是一个长期投入,而阿里云可以给企业“去IOE”帮助的是直接提供云计算服务,我们已经帮助一些小银行做了;阿里也愿意将自己“去IOE”的经验分享,这也是全社会的财富,但没有办法把“去IOE”的积累变成软件硬件卖给企业,我们不是传统的IT设备和软件提供商。
Q:您怎样看待“去IOE”的人才培养过程?
A:我自己觉得,大多数人对阿里巴巴集团技术人员的技术能力还不太了解,阿里巴巴的技术积累一定超出很多人的想象。我用另外一句话来说,“去IOE”这件事情,没做成,肯定是我的责任;今天做成了,跟我一点关系都没有。我们真的有很多很好的人才,比如说像淘宝的一位员工,他对淘宝业务的熟悉,对技术的理解也不是一般人可以比的,更重要的是他愿意“革自己的命”,绝不担心“去IOE“会让自己原来的技能没有用,这时候理想变得比什么都重要。
大多数严重依赖IOE的企业在技术人才培养有点“拿自己的钱给别人交学费,但却给自己带了手铐”,中国企业对技术的需求旺盛,超过世界上任何国家和地区,所以技术上面临的挑战也超过了他们,但我们主要使用的是国外传统IT企业的软硬件,而别人也没有现成的技术能解决你的问题,我们自己也因为这种依赖而失去很多机会。阿里巴巴曾经选用过Greenplum是一个很好的例子,付了很多学费。。“去IOE”的经验表明,现在我们有一次机会把我们的需求和钱用来发展适合长远发展的技术,让IT围绕自己的产品来发展。
对于我们自己的人才选择,阿里很谨慎,很多在国外厂商干过的顶级人才,并没有轻松地收到聘书,这是因为在企业中跟着别人做事,和在阿里用使命感开闯出一片天空有很大不同。“去IOE”需要极其合适的人才,才能带出一支像样的队伍,团队里每一个人的潜力也是逐渐被激发出来的。
连载一:王坚:阿里巴巴为什么“去IOE”
连载二:阿里巴巴双十一的秘密
连载三:阿里巴巴如何“去IOE”
连载四:王坚:云计算是一场革命