亚马逊云如何应对网络界的“完美风暴”？-51CTO.COM

亚马逊网络服务（AWS）的经营规模超大――在知名调研公司Gartner***的魔力象限（Magic Quadrant）中，该公司估计AWS的计算能力比该公司14个紧随其后的竞争对手的总和还强五倍。

亚马逊云覆盖全球11个地区，共由28个可用区域（availability zone）组成，每个可用区域至少有一个数据中心，每个数据中心部署的服务器数量在5万台到8万台之间。AWS每天为其云添加的新计算能力足以满足亚马逊网站在2004年的要求，当时它还是一家年收入只有70亿美元的公司。

AWS副总裁兼杰出工程师James Hamilton担心会拖累整个系统的一个环节就是网络。

Hamilton在AWS re:Invent大会上演讲时表示，网络行业出现了一场“***风暴”。“这是问题，是红色警报情形。”

诸多因素让网络成为AWS非常担忧的大问题。首先，相比计算和存储，网络成本在增加。Hamilton表示，服务器价格在下降，而网络价格“历久不变”。

由于计算能力的成本不断下降，每台服务器塞满了数量更多的虚拟机。光这一点就让网络不堪重负，不过现在还在使用更多的网络资源密集型先进数据分析方法，这增添了另外的压力。主要的问题是数据中心内部的流量，也就是所谓的“东西向”流量，与之相对的是出入站流量，又叫“南北向”流量。

AWS应对这个问题的办法其实很简单：该公司构建了自己的网络和设备。Hamilton表示，这是大胆的举动，不过就AWS的规模来看，这又是很自然的解决办法。

多年前，AWS就开始与原始网络设备制造商合作，设计自己的定制网络设备。AWS开发了一种定制的协议，现在用来运行其云。此举不仅降低了成本，还提高了可用性。Hamilton表示，通过直接与制造商合作，AWS获得了优势。如今的许多网络硬件公司无力根据客户的具体要求来定制设备。通过与制造商直接合作，AWS就能做到这点。

不过，这还不足以支持AWS的庞大规模。AWS有自己的专用网络连接其服务地区。这家公司并不是依赖公有云提供商，而是拥有专用的隧道，这就提高了可用性、提高了性能，抖动更少、成本更低。Hamilton说：“变得更可靠了，链路成本更低，延迟更短。用户完全变得更满意。”

相比其他基础设施即服务（IaaS）云服务提供商，AWS拥有一种独特的架构。在每个地区（共有11个地区）的后面是可用区域，可用区域提供了物理上分离的数据中心，以便在每个地区建立容错机制。每个地区的前面是转接中心，它为三个主目的地提供了连接：可用区域与其他地区之间、连接到AWS的直连项目（Direct Connect）合作伙伴，以及连接到公共互联网。

AWS已将冗余路径做入到可用区域里面，那样如果其中一个在某地区出现了故障，该地区仍能正常服务。某地区里面的每个可用区域其彼此之间的延迟不到2毫秒，通常更接近1毫秒。每个可用区域起码有自己的数据中心；至于美国东部地区（US-East），这个AWS历史最悠久的地区其可用区域有五个数据中心。

众所周知，AWS对于其运营系统的内部机制一直保持缄默，但Hamilton透露了这家公司如何顺畅运营、快速创新。今年，该公司预计会向其云发布大约500项更新服务。与此现时，其简单存储解决方案（S3）在使用率方面预计同比增长120%以上，弹性计算云（EC2）每年增长99%。不是每家公司都能够采取AWS那样的措施来解决问题，但也不是每家公司都面临AWS那样的规模和问题。

布加迪编译

英文原文链接：http://www.networkworld.com/article/2847343/public-cloud/how-amazon-s-cloud-solved-the-perfect-storm-in-networking.html