云负载均衡的关键在于为客户交付可扩展和可靠的服务,可是很多云提供商需要现代化其负载均衡器和应用交付控制器的方法。
亚马逊Web服务(AWS)在圣诞节平安夜经历了年度第四次宕机,由于误删除其弹性负载均衡(ELB)服务配置文件导致此次宕机,该项服务位于北弗吉尼亚的数据中心,主要负责应用到不同计算硬件负责的分布式输入数据,提供商在AWS网站上的事件总结中如是写道。
一旦AWS断定超过6%的负载均衡器不能适当的运行,就关闭剩下的负载均衡器,阻止它们影响其他的。同时客户在AWS云中没有可用的负载均衡技术,大多数对于高调的AWS失望,比如向网飞这样的公司。失败导致视频流媒体提供商四小时局部宕机,其用户尝试通过一些其他设备访问网飞的流媒体视频,该公司在12月24日的推特中说道。
尽管人工错误不能完全根除,但是云提供商可以对其应用交付控制器(ADC)和负载均衡器采取不同的策略,比如通过虚拟设备和改善自动化给客户更多的控制。
云负载均衡:客户主掌控制权
亚马逊的ELB服务是一种多租户服务。当AWS经历硬件失败时会影响一些客户,但不是数据中心的全部客户。但是很多服务提供商为其客户推荐的负载均衡是作为专用服务的,可以由客户代替提供商进行部署,Riverbed Technology Stingray业务部门产品和市场副总裁Apurva Dave说道。
“尽管一些提供商提供完全的管理方法,他们可以获得全部的所有权,包括网络和应用交付,一些云提供商正在选择让其客户通过那些工具的虚拟实例访问这些功能,”Sam Barnett说道,他是Infonetics Research数据中心和云的执导分析师。
Joyent是位于旧金山的云提供商,并且是Riverbed的客户,为其客户提供从Stingray产品线通过提供商管理的服务,比如亚马逊ELB或者客户控制和管理的服务来访问虚拟应用交付和负载均衡,Joyent CTO Jason Hoffman说道。
亚马逊ELB服务共享的架构时平安夜宕机的应先各因素,Hoffman说,“取代了整体的服务和所有客户的扩展,云提供商可以在一个服务失败时在每一个用户的基础上雇佣一个服务,就不会有级联效应。”
“如果Joyent的客户有自己的Stingray软件实例,客户能够控制,会影响其他客户的因素就不会影响数据路径,尽管他们是多租户基础架构,”他说。
更多自动化 更少失败风险
在客户的云基础架构上授权客户更多的控制是清除级联失败的一种途径,但是配置变更和管理网络元素并不一定是用户的职责。
“这实际应该是关于提供商的政策和规程怎么样的东西,才能最小化失败的影响,或者阻止偶发的配置变更失败,”Infonetics的Barnett如是说道。
云提供商需要更多的自动化和变更管理减少导致失败的错误的风险。Infoblox是一家美国的网络管理厂商,提供NetMRI,这是针对企业和服务提供商的一种网络确认自动化工具。
NetMRI能够追踪所有配置、移动和部署变更,并追踪到导致这种变更的员工,Infoblox CTO Stu Bailey说道。该工具也旨在自动化任何云提供商人工每天做的配置流程。
云环境中还有很多流程没有自动化,Bailey说,“这也是网络基础架构和Web服务领域中的多学科自动化需求的增长趋势。”