从凌晨2点到下午1点48分,亚马逊旗下云服务商AWS中国区熬过了漫长的11小时48分。
作为AWS中国区的员工,方远(化名)一早被电话吵醒。一家创业公司的客户过来抱怨自家APP连不上服务器了。
事情比方远想象的严重。挂完电话,方远才发现公司的大小微信群已经炸了锅。
按照AWS中国的官方声明,因为隔夜道路施工中有几处光缆被切断,导致可用区无法链接Internet,使得AWS中国业务大规模出现故障。
包括方远在内的员工们也很懵,几处光缆被切断怎么会影响整个北京区域的这么多服务?
但这一事故的影响已经在不断发酵,包括VIPKID、流利说、三星应用商店等多个用户都均受到不同程度的影响。亚马逊中国官网(www.amazon.cn)的页面也一度崩溃。
因为正逢6·18大促,流利说的助教张丰(化名)正忙着推广自家的促销信息。这边张丰刚向学员介绍完自家的课程计划,就在微信上被学员告知流利说APP的定制课程已经根本打不开。很快,张丰接到公司紧急通知,是因为公司的云计算服务商AWS出现故障。
接下来,张丰的工作重点不得不变成安抚各路学员。直到下午1点多,张丰终于开始群发消息,通知学员们APP“服务”已经逐步恢复中。
类似的尴尬在VIPKID的各个家长群同时上演。
有客户在微信上评论道:“这是我从业以来经历最长的一次故障修复时间,AWS这次事故处理的时间效率太低了,我表示很失望。”
为了保障服务不中断、数据不丢失,一般业务系统、数据都有多个备份。而在云计算中,为了保障数据中心内业务系统的可用性,数据中心基础设施也会采取类似的冗余备份,提高系统可用性。
有业内人士认为,此次AWS光缆被切断导致近12小时大面积服务瘫痪是因为没有做好网络冗余设计。
网络冗余设计主要通过重复设置网络链路和网络设备冗余措施。网络链路冗余是指为确保业务正常运转,除配置主线路外,同时做好第二种、第三种线路的部署。
主备线路隔的位置比较远,因此,一旦主线路出现故障,还有其他线路保证网络的可用性。例如,接入互联网时,同时采用不同电信运营商线路,相互备份且互不影响,但这样一来,成本也会增大。
据悉,AWS北京区域使用的是光环新网的数据中心,记者多次致电光环新网客服电话,均无法接通。据光环新网官网显示,该公司在北京拥有酒仙桥、太和桥、光环新谷、东直门、房山和亦庄6个数据中心,每个都拥有高达100G的BGP总出口带宽,多运营商通信链路。
“本来一个机房,各家运营商链路应该有自己的连通方式。但是也有可能机房在施工时先汇总各家运营商到一条主干线,到某一节点之后再分开。但冗余是有成本的,不是所有场景所有环节都冗余的。对于云厂商来说,网络线路都是租运营商的,都是钱啊。”上述业内人士指出。
因为光缆被切断导致服务瘫痪的并不少见。2015年,因为当地市政建设施工方挖断了光缆,支付宝PC网页和手机客户端都出现无法登录、网络异常等现象。后来,支付宝改成了冗余设计。
2018年9月云栖大会上,蚂蚁金服发布了“三地五中心金融级高可用方案”,并现场演示了“剪网线”,经过26秒容灾切换完成,恢复业务。
而在2018年7月,因腾讯云广州一区的主备两条运营商网络链路同时中断,腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。
2019 年3 月,腾讯旗下多项服务出现服务器未响应问题。随后,腾讯云发布公告称,因上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。
由于有备用链路,腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部T级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。此次光纤故障从发现到恢复只有两分钟,并且所有流程自动化执行,在150秒之内就快速恢复了网络。
不过,即使有冗余备份,对于业务也并非毫无影响,“备用链路一般会慢一些,而且大家都拥到小路上,自然就挤了,体验上就是慢。”一云服务商告诉记者。
此前,UCloud创始人兼CEO季昕华表示“云计算公司有四大谎言,分别是云计算先服务于内部客户,再服务于外部客户;云计算能保证100%的安全;云计算消耗大量资金;云计算是不盈利的。”
“云计算虽然比本地研发更安全,但不可能是100%。就算微软、亚马逊、谷歌、阿里、腾讯一样都会出问题。所以用户更愿意使用多家云来服务,多云战略是未来的重要方向。”他指出。
也有厂商呼吁,随着云计算和数据中心越来越重要,光缆、管道等基础设施的保护也需要跟上,现在破坏的成本太低了。