亚马逊网络服务(AWS)的经营规模超大――在知名调研公司Gartner***的魔力象限(Magic Quadrant)中,该公司估计AWS的计算能力比该公司14个紧随其后的竞争对手的总和还强五倍。
亚马逊云覆盖全球11个地区,共由28个可用区域(availability zone)组成,每个可用区域至少有一个数据中心,每个数据中心部署的服务器数量在5万台到8万台之间。AWS每天为其云添加的新计算能力足以满足亚马逊网站在2004年的要求,当时它还是一家年收入只有70亿美元的公司。
AWS副总裁兼杰出工程师James Hamilton担心会拖累整个系统的一个环节就是网络。
Hamilton在AWS re:Invent大会上演讲时表示,网络行业出现了一场“***风暴”。“这是问题,是红色警报情形。”
诸多因素让网络成为AWS非常担忧的大问题。首先,相比计算和存储,网络成本在增加。Hamilton表示,服务器价格在下降,而网络价格“历久不变”。
由于计算能力的成本不断下降,每台服务器塞满了数量更多的虚拟机。光这一点就让网络不堪重负,不过现在还在使用更多的网络资源密集型先进数据分析方法,这增添了另外的压力。主要的问题是数据中心内部的流量,也就是所谓的“东西向”流量,与之相对的是出入站流量,又叫“南北向”流量。
AWS应对这个问题的办法其实很简单:该公司构建了自己的网络和设备。Hamilton表示,这是大胆的举动,不过就AWS的规模来看,这又是很自然的解决办法。
多年前,AWS就开始与原始网络设备制造商合作,设计自己的定制网络设备。AWS开发了一种定制的协议,现在用来运行其云。此举不仅降低了成本,还提高了可用性。Hamilton表示,通过直接与制造商合作,AWS获得了优势。如今的许多网络硬件公司无力根据客户的具体要求来定制设备。通过与制造商直接合作,AWS就能做到这点。
不过,这还不足以支持AWS的庞大规模。AWS有自己的专用网络连接其服务地区。这家公司并不是依赖公有云提供商,而是拥有专用的隧道,这就提高了可用性、提高了性能,抖动更少、成本更低。Hamilton说:“变得更可靠了,链路成本更低,延迟更短。用户完全变得更满意。”
相比其他基础设施即服务(IaaS)云服务提供商,AWS拥有一种独特的架构。在每个地区(共有11个地区)的后面是可用区域,可用区域提供了物理上分离的数据中心,以便在每个地区建立容错机制。每个地区的前面是转接中心,它为三个主目的地提供了连接:可用区域与其他地区之间、连接到AWS的直连项目(Direct Connect)合作伙伴,以及连接到公共互联网。
AWS已将冗余路径做入到可用区域里面,那样如果其中一个在某地区出现了故障,该地区仍能正常服务。某地区里面的每个可用区域其彼此之间的延迟不到2毫秒,通常更接近1毫秒。每个可用区域起码有自己的数据中心;至于美国东部地区(US-East),这个AWS历史最悠久的地区其可用区域有五个数据中心。
众所周知,AWS对于其运营系统的内部机制一直保持缄默,但Hamilton透露了这家公司如何顺畅运营、快速创新。今年,该公司预计会向其云发布大约500项更新服务。与此现时,其简单存储解决方案(S3)在使用率方面预计同比增长120%以上,弹性计算云(EC2)每年增长99%。不是每家公司都能够采取AWS那样的措施来解决问题,但也不是每家公司都面临AWS那样的规模和问题。
布加迪编译