透过网络故障看冗余准备的重要性

译文
运维 网络运维
针对域名系统(DNS)服务提供商Dyn发动的大规模DDoS攻击表明,许多企业组织并没有认真考虑关键基础设施方面的冗余性。

【51CTO.com快译】冗余性不仅仅对应用程序和内部服务来说很重要,对基础设施和第三方提供商来说也很重要。

[[180598]]  

  随着互联网应用的深入,人们对互联网的依赖也越来越重:对于互联网公司而言,如果因为故障导致用户无法使用Web服务,那么每一分钟的经济损失都会让公司难以承受;如果员工无法访问工作用途的Web应用程序,那么工作效率也随之大大下降……

  似乎在无形中人们因互联网故障加深了一种认知:不能把任何真正重要的东西托付给互联网。

  看一下去年发生的几起互联网故障,就会发现,虽然改用基于云的架构和应用程序已降低了IT基础设施的复杂性,但这是以牺牲弹性(resiliency)为代价。IT部门不得不经常兼顾冗余性与复杂性(冗余性增强了弹性),最近的故障表明冗余性老是被人遗忘。网络基础设施监控公司ThousandEyes的高级主管尼克·凯普哈特(Nick Kephart)说:“IT部门需要为关键服务方面的冗余性作好规划。”

  注重冗余性

  冗余性是一条基准的IT准则。无论是运行同一Web应用程序的多台后端服务器,还是构建组成RAID阵列的磁盘驱动器,IT部门都要定期确保可用性,即便在出现故障的情况下也是如此。不过,针对域名系统(DNS)服务提供商Dyn发动的大规模DDoS攻击表明,许多企业组织并没有认真考虑关键基础设施方面的冗余性。

  那次攻击发送了足够多的垃圾邮件,让Dyn的服务器招架不住,以至于合法的DNS请求再也无法得到响应。依赖Dyn将流量转发到其服务器的其他网站认识到没有备用DNS提供商意味着实际上在此期间与互联网的其余系统断开来,可惜为时太晚。

  那些对DNS域名服务器进行负载均衡,将负载分布到多家提供商上的网络公司,比如亚马逊(同时使用Ultra DNS和Dyn),能够在故障期间切换,并保持不受到影响。

  互联网通常正常运转,没有任何重大问题,但是DDoS的强度越来越大、频次越来越高,这证明了需要把DNS当成关键互联网基础设施来对待,并采取相应级别的措施来保护。针对DNS的攻击并非反常之事――基于云的DNS提供商NS1在去年初遭到了攻击,还有6月攻击全部13台DNS根服务器的那次攻击。网络基础设施监控公司ThousandEyes的经理阿查纳·凯萨凡(Archana Kesavan)说:“那是针对互联网基础设施最关键的部分发动的大规模攻击,导致出现大约三个小时的性能问题。”

  对于许多企业来说,Dyn似乎是为DNS服务确保冗余性的合理选择,因为Dyn已经提供一种分布式架构。IT团队之所以不想要多家DNS提供商,是因为那样会给网络基础设施增添复杂性,但是DNS故障会发生,而且确实在发生,所以IT团队需要在DNS提供商方面做到双保险,或者甚至三保险。IT部门还应该调低DNS服务器在生存时间方面的设置,那样万一主提供商遇到故障,流量可以更快速地重定向至备用提供商。

  树大也会招风

  故障不仅仅是恶意活动或设备故障的结果。要是没有适当的网络和容量规划,很高的知名度同样带来危害。访客数量众多和人人嚷着使用的热门应用软件是好事,但是增加的流量会导致服务器瘫痪、网络因不堪重负而崩溃。

  凯普哈特表示,如果网络架构没有考虑到流量突发(traffic burst)情况,没有内容分发网络(CDN)前端会带来惨重的后果。

  1月份是近几年来彩票头奖最高的月份之一,但是Powerball无力应对中奖数百万美元所带来的高涨热情。应用软件和网络都处理不了流量激增的情况,导致数据包丢失增加,网页加载时间变长。Powerball避免了全面崩溃,采用的办法就是在开奖前夕,将流量分布到韦里逊的Edgecast CDN网络、微软数据中心和州际彩票协会的数据中心。凯萨凡说:“危害已经酿成,用户的网站体验在标准以下。”

  网络架构和不堪重负的目标服务器共同让用户无法玩爆款游戏PokemonGo后,该游戏的服务器遇到了类似的故障。苹果的服务器在竭力处理任天堂发布期待已久的游戏《超级马里奥跑酷》,零星的故障影响了其所有网店,包括iOS应用程序商店、Mac应用程序商店、Apple TV和Apple Music。

  基准测试和容量规划至关重要,尤其是在软件更新和大规模活动之前。不管网络架构设计得多好,CDN和任播服务器都要能够支持网络,最大限度地提升用户体验。

  我们还没有说冗余性?

  基础设施的冗余性同样不容忽视。IT团队忍不住要想:“我的互联网服务提供商(ISP)能处理这个问题,我不需要做其他任何事。”凯普哈特表示,但是连上游提供商也会遇到故障,无论是由于错误配置、硬件故障,还是安全事件。网络本身会遇到故障,面临安全威胁,所以IT部门需要把出现故障后灵活应对的机制设计到网络架构中。企业通常在把冗余性带入到自己的数据中心方面做得很到位,但是忽视了对第三方基础设施提供商采取同样的做法。

  别依赖单单一家提供商,因为那会成为单一故障点。而是应该依赖多家ISP、DNS提供商和主机托管公司。

  原文标题:A lesson from network outages: Redundancy matters

  作者:Fahmida Y. Rashid

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:周雪 来源: 51CTO
相关推荐

2018-07-06 14:14:15

数据中心备份服务器

2011-01-24 13:42:27

网络故障网络故障修复

2017-08-04 08:48:33

公有云云存储故障

2024-04-19 14:53:10

数据中心双电源冗余水冷

2021-07-19 16:23:55

数据安全滴滴大数据

2009-05-19 16:40:41

TTL网络故障科来软件

2015-05-12 15:31:53

2009-12-29 15:24:06

VPN网络建设

2010-07-30 16:28:06

2023-10-24 11:07:57

2021-12-28 00:29:00

网络安全Java编程语言

2023-04-28 09:52:27

2020-01-07 22:26:32

加密网络安全网络流量

2020-11-08 13:38:34

网络日志网络安全漏洞

2023-08-15 14:59:12

2023-07-27 11:07:29

蜂窝连接eSIM 技术

2011-03-14 14:13:28

网络故障

2017-12-29 10:14:48

IT项目

2020-08-27 07:00:00

代码软件应用程序

2013-08-08 10:10:06

备份策略全备份增量备份
点赞
收藏

51CTO技术栈公众号