2013年云计算在中国大范围“降雨”可以说迎来了高速发展的阶段。可以看到,在北京的周边地区众多的云计算产业园已经纷纷落户。云计算作为IT产业的一次革命,对于未来的IT发展有着巨大的推动力。随着AWS在中国的落户,进一步刺激了国内的众多云计算厂商,同时可以看到,云计算在中国市场的巨大潜力。潜力有,同时危险也有,从云计算诞生之初,就被安全问题所纠缠,如何能够保证在云端数据的安全一直是发展云计算的前提,显然在这一方面我们需要小心谨慎。不妨今天我们就来回顾一下,那些在2013年云上发生的那些安全问题。
1、亚马逊AWS云服务宕机
亚马逊的云计算服务,算是云服务领域的第一品牌,然而这个品牌在过去的一年中,却出现了多次宕机事件。而在宕机事件中,Airbnb、Facebook旗下Instagram和Twitter旗下Vine等在内的多家著名网站和社交应用均受到了影响。一些行业观察家估计,一小时的离线时间可能让亚马逊错失了近500万美元的收入。
虽然此次宕机事故仅持续了不到1个小时的时间,但是由于AWS服务是许多网站和社交应用背后的承载平台和计算主链,因此它的这次宕机事故引起了广泛的关注,特别是社交媒体领域的关注。
随后亚马逊在AWS服务状态网页上表示,它在Elastic Block Store存储服务中发现了问题。并在所有的服务均已在太平洋时间下午6点前恢复正常。
2、苹果iCloud
4月23日,苹果公司的iCloud断网,影响到包括登录、电邮、GameCenter和iTunes的各种服务。多数重要业务应用似乎并没有受到影响。用户在访问受影响服务时多数会因验证问题而失败。多数服务几小时后恢复正常,但这以前整个4月苹果用户曾提及过很多小规模的故障。
还有,云发生断网时,很多用户肯定会给渠道合作伙伴打电话。Jim McCool是弗吉尼亚州尚蒂利市一家名为CWPS的系统整合和云服务渠道合作伙伴。他在谈起4月的断网时告诉CRN说,“这种事发生时,会有很多人给我们电话。其实,这些人无论什么事都会给我们打电话的。但是很多时候,最后是我们给客户打电话。我们会随时对系统做预防性的监视,所以有时候断网前我们已经知道这事要发生。”
3、Facebook网站中断
在1月28日早上,全球各地的Facebook用户发现他们无法更新其朋友的状态信息。大量用户经常访问Facebook网站,因此,数小时的停机时间不可能不会被发现。本月早些时候,黑客组织Anonymous发布了一段视频,声称其要攻击Facebook,并在上述同一天让Facebook中断。究竟发生了什么?
在长达两到三小时内,人们无法获取其朋友的状态更新。Facebook声称,这次停机事故源自一个DNS问题,这个问题“阻止在浏览器输入 facebook.com的用户访问到该网站”,这是很容易解决的问题,并没有任何迹象表明Anonymous参与了这个活动。这次事故只是影响了 Facebook的桌面网站,而该公司的移动网站和应用程序则没有受到影响。
4、Dropbox断网
Dropbox是个很有用的工具,可以让用户从不同的设备访问文件。但是要真的实现其价值,正常运行时间是关键。1月10日,Dropbox不幸成为2013年大公司断网的第一家,提供的服务受到重大影响。服务中断了15多个小时,原因是用户终端软件和服务器之间的同步问题。断网期间,Dropbox严重低估了恢复服务的时间,进一步导致了用户的不满,互联网上到处是无奈的用户因为不能访问自己文件而在发泄愤怒。
Dropbox为了让用户实时了解情况,利用推特定时发布推特消息。Dropbox的营运团队元月10号的推特消息说:“受影响的还有:建造目录、访问分享目录及产生分享链接,我们非常感谢各位在我们解决问题恢复服务期间表现的耐心。”
5、Google服务中断
Google鼓励用户多使用Google Drive, Google Docs和 Gmail, 因而服务中断时对依赖这家总部在加州山景城公司的用户影响就更加深刻。4月17日的断网就是一个例子。当天发生了一个短暂的小故障,却显示了服务正常时间比例对Google这三个服务的挑战。据Google说,发生故障的是Gmail云电邮服务,影响到其他三个服务。登录设置里一个缺陷导致服务器超载,据信至少是问题的原因之一。Google说,4.25亿用户里只有“不到0.0007”受到影响。Google发布问题后不到一小时,服务回归正常运作。
6、Google小问题堆成大故障
今年3月,Google在仅仅一个星期内遭受了三次断网。主要原因起始于3月18日,一开始只是一个孤立的小故障,后来导致了大问题。范围之大以至三分之一的客户群收到影响,互联网上基本上是一片叫骂声。3月19日断网2小时,接着3月20日服务中断的时间更长。Google对3次断网的原因三缄其口。不过用户指近几周的服务相对稳定。
7、微软电邮
微软的在线服务名声3月14日这天受到一点打击,当天Hotmailhe和Outlook.com双双遭受服务中断达16小时之久。在同一段时间内,还发现微软的SkyDrive有稳定性问题,不过这些问题得到及时矫正。后来有报道说,问题的起因是某个固件升级导致服务器过热。
微软Windows Services部测试和服务工程副总裁Arthur de Haan在一篇博文中写道,“这个升级以前有成功完成过,但是这一次却出乎意料地没有成功。升级失败导致数据中心温度急剧地大幅度上升。上升得确实太快……最后导致数据中心很多服务器的防卫系统启动。”
各种服务在3月14-15之间逐步恢复,午夜前大多数邮箱回归正常运行。
8、SCORM云服务中断
3月14日,SCROM升级一个云服务提高稳定性和性能,最后却导致降低稳定性,引起3个小时的云服务中断。SCORM隶属Rustici Software,是旨在推广电子学习软件产品兼容性的一套技术标准。升级里的一个错误引起一系列的连锁反应,最后影响到公司在亚马逊服务里几个区的服务。Rustic Software的客户支持经理Joe Donnelly在SCORM支持论坛写道,“我们对SCORM Cloud做了一些改变,目的是增加系统稳定性和性能。由于这些改变的引入,一个亚马逊服务器发生导入问题。这个问题导致了一系列的失败,主要是因为过度的CPU负载,最后出现亚马逊Web Service上SCORM几个区的服务发生不稳定的情况。”
9、澳洲大型通信服务提供商Telstra云服务断网
elstra的高端云计算3月底遭受了大规模的长达一天的断网。公司发言人一周后在一个发言中对媒体证实了断网事件。据澳洲技术通讯网站Delmiter 报道,发言人说,“上个星期,我们的云平台有间歇的服务中断,影响到少数——约20个——客户。”问题的原因似乎是公司在墨尔本的数据中心里一个存储层出现问题,导致一些关键客户在相当长时间内不能使用服务。这位发言人说,“3月25日,我们发现数据存数设备出现问题,使用这些支持设备的客户受到影响。发现问题后,我们立刻联系了我们的存储合作伙伴并开始恢复服务。”据报道, Telstra目前正在进行一个8亿美元的扩展项目,用来做支持云基础设施和市场营销用。
10、Windows Azure全球服务中断
2月22日,微软的Azure Cloud全球服务中断差不多一整天,影响到安全网络交通。互联网上不少人报告说在此期间,Azure项目组合里的服务完全不能用,也有人说能用但速度特别地慢。Azure储存据信是受影响最大的服务。问题的起因经确认是由一个过期的SSL证书引起的。非安全HTTP连接仍然可用。据Kaspersky的 Threatpost博客说, 微软是在2月23日的Windows Azure Service指示板上公布服务中断的。这条信息写道,“Storage的全球服务出现中断,影响到HTTPS运作(SSL交通),是由一个过期证书导致的。”除了“认错”外,微软2月24日在Windows Azure博客上发了一条消息,说会给受影响的客户发放信用值。Windows Azure业务和运营总经理Steven Martin写道,“鉴于这次的断网规模,我们会根据服务水平协议主动为受影响的客户提供信用值。”