自古英雄难过美人关。英雄的卓越功勋在世人眼中是有目共睹的,但是惟独过不了“美人”这一关。而如今,与此类似,谷歌、亚马逊以及微软这样的国际IT巨头,一度是何等的威武,但是在面对云计算“安全”这一关,也显得有些束手无策。从云计算服务诞生的那一天起,频频爆出一些安全事件,让用户本来就有些狐疑的心更加不安了。
就在上个月,云计算服务提供商Amazon(亚马逊)公司爆出了史前最大的宕机事件。4月21日凌晨,亚马逊公司在北弗吉尼亚州的云计算中心宕机,这导致包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。
这些网站都依靠亚马逊的这个云计算中心提供服务。Quora网站周四上午和下午在英国都无法访问。这个网站完全由亚马逊的EC2(弹性云计算)服务托管,就像FourSquare和许多其它网站一样。
受到影响,Hootsuite网站的响应速度很慢,而Reddit网站的搜索服务不能使用。Reddit网站称,亚马逊目前正出现服务下降的情况。亚马逊云服务中断持续将近4天,截止编者发稿时,Hootsuite、Reddit、FourSquare、Quora等网站已经基本恢复正常。
根据分析,亚马逊的云计算状态网页目前显示故障发生在北弗吉尼亚州的云计算中心。这个中心为许多Web 2.0公司提供服务。这次宕机故障发生在美国西海岸的大约凌晨1点40分,英国夏令时上午9点40分,并且从那时起一直有故障。
分析人士称,北弗吉尼亚州云计算中心是亚马逊经营的许多云计算中心之一,按照常规,系统的设计之处应用会考虑,一个中心宕机不会中断其它的云计算中心,也不会影响使用那个服务的用户。
此次,亚马逊云计算中心没有绕过北弗吉尼亚州云计算中心的故障把工作量转移到许多其它的云计算中心,令人生疑。服务器宕机,这在人们预想当中,没有那么严重。最简单的,双机热备,一台服务器宕机,另外一台服务器在短时间内可以启动,并不会影响用户的服务。但是,亚马逊的云计算中心这次不同,宕机影响了这么多用户的正常云服务,而且引起用户服务中断的,还是亚马逊引以为傲的弹性云,这对于云计算服务商刚刚建立起来的信任,绝对是一次沉重的打击。
经过一番紧急的抢救,亚马逊的云服务恢复了正常。但是,这个事件留给用户的恶劣影响有些深远,用户大呼“伤不起”。
好在亚马逊的态度还算坦诚。4月30日,亚马逊为宕机事件向用户发表了5700多字的道歉信,声称亚马逊公司已经知道漏洞和设计缺陷所在的地方,它希望通过修复那些漏洞和缺陷提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。亚马逊已经对EC2做了一些修复和调整,并打算在未来几周里扩大部署,以便对所有的服务进行改善,避免类似的事件再度出现。
在赔偿方面,亚马逊表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),这些点数将自动充值到受影响的用户帐号当中。但是,对于以后如何避免出现类似事件,并没有提到任何法律上的保证。
据了解,亚马逊云服务中断持续了近4天,但是在法律上却没有违反亚马逊EC2服务的服务等级协议(简称SLA)。亚马逊的解释是,亚马逊出现故障的是EBS和RDS服务,而不是EC2服务,从法律上讲,它并没有违反服务等级协议。并且,对于亚马逊提出的应对宕机事件的建议多点备份,仅仅是一个技术规范并非合同保障。这些,似乎都不能给云服务的用户带来信心。
表面看来,亚马逊宕机事件似乎有一个完美结局:厂商及时修复漏洞,书面道歉,赔偿损失。但是,用户心理上对云服务的恐惧似乎并不那么容易康复,未来,亚马逊可能不仅仅要在技术上、还需要在制度和法律上给予用户更多的保证,才能才能渐渐修复被此次宕机事件损坏的名声。
历数频频发生的云服务事件
不仅亚马逊,云计算领域充满竞争的其他公司,如谷歌和微软等,在近几年也频频发生云服务“中断”事件。
#p#
事件一:Google Gmail邮箱爆发全球性故障
Gmail是Google在2004年愚人节推出的免费邮件服务,但是自从推出这项服务以来,时有发生的“中断”事件就成为业界的广泛讨论的话题。
2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。
事件过去数日之后,Google宣布针对这一事件,谷歌向企业、政府机构和其他付费GoogleAppsPremier Edition客户提供15天免费服务,补偿服务中断给客户造成的损失,每人合计2.05美元。
#p#
事件二:微软的云计算平台Azure停止运行。
2009年3月17日,微软的云计算平台Azure停止运行约22个小时。
虽然,微软没有给出详细的故障原因,但有业内人士分析,Azure平台的这次宕机与其中心处理和存储设备故障有关。Azure平台的宕机可能引发微软客户对该云计算机服务平台的安全担忧,也暴露了云计算的一个巨大隐患。
不过,当时的Azure尚处于“预测试”阶段,所以出现一些类似问题也是可接受。提前暴露的安全问题,似乎也给微软的Azure团队敲了一次警钟,在云计算平台上,安全是客户最看重的环节。
2010年,Azure平台正式投入商用,成为开发者喜爱的云平台之一。
#p#
事件三:Rackspace云服务中断。
2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。
为了挽回公司声誉,Rackspace更新了所有博客,并在其中详细讨论了整个经过。但用户并不乐意接受。
同年11月,Rackspace再次发生重大的服务中断后。事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。
在服务中断致使其业务脱机15到20分钟后,博客服务提供商Posterous的创建者之一Sachin Agarwal就发表了自己的观点。Agarwal对此并不生气,相反,他表示Rackspace在这件事上做得“很透明”,处理问题也很及时到位。
看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。
#p#
事件四:Salesforce.com宕机。
2010年1月,几乎6万8千名的Salesforce.com用户经历了至少1个小时的宕机。
Salesforce.com由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforce.com不愿公开的锁定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题,Force.com同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。
这场服务中断还没有对公司造成很大影响,它同VMware合作的VMforce在今年春季引起很大反响,同时Salesforce.com首席执行官在服务中断出现后的一个月内又开始宣称Salesforce.com是“最大的云计算企业”。
这次中断事故让人们开始质疑Salesfore.com的软件锁定行为,即将该公司的Force.com平台绑定到Salesforce.com自身的服务。但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。
#p#
事件五:Terremark宕机事件。
2010年3月,VMware的合作伙伴Terremark就发生了七小时的停机事件,让许多客户开始怀疑其企业级的vCloud Express服务。此次停机事件,险些将vCloud Express的未来断送掉,受影响用户称故障由“连接丢失”导致。据报道,运行中断仅仅影响了2%的Terremark用户,但是造成了受影响用户的自身服务瘫痪。此外,用户对供应商在此次事情上的处理方式极为不满意。
Terremark官方解释是:“Terremark失去连接导致迈阿密数据中心的vCloud Express服务中断。"关键问题是Terremark是怎么解决这个突发事件的,这家公司并没有明确的方案,只是模糊地对用户担保,并对收到影响的用 户进行更新。如果一个运供应商想要说服企业用户在关键时刻使用它们的服务,这样的方式是达不到目的的。
Terremark的企业客户Protected Industries的创立者John Kinsella,在抱怨服务中断让他心灰意冷时称该供应商是“杂货铺托管公司”。Kinsella将Terremark与Amazon做了比较,他抱怨说,Terremark才开始考虑使用的状态报告和服务预警Amazon早已实现。
当然,在对vCloud Director的大肆宣传以及VMworld 2010兴奋地揭幕过后,Terremark服务中断事件似乎只留下了很小的余波。
#p#
事件六:Intuit因停电造成服务中断。
2010年6月,Intuit的在线记账和开发服务经历了大崩溃,公司对此也是大惑不解。包括Intuit自身主页在内的线上产品在内近两天内都处于瘫痪状态,用户方面更是惊讶于在当下备份方案与灾难恢复工具如此齐全的年代,竟会发生如此大范围的服务中断。
但这才是开始。大约1个月后,Intuit的QuickBooks在线服务在停电后瘫痪。这个特殊的服务中断仅仅持续了几个小时,但是在如此短时间内发生的宕机事件也引起了人们的关注。
即使一些用户要求“武装”其品牌,Intuit依旧拥有4百万用户并继续进军PaaS和Web服务供应商之路。公司没有Amazon和Rackspace这样的知名度,中断也没有造成很大的影响。Intuit主要因Quicken而闻名。
#p#
事件七:微软爆发BPOS服务中断事件。
2010年9月,微软在美国西部时间周三对在过去几周时间内出现至少三次托管服务中断向用户致歉。这是微软首次爆出重大的云计算数据突破事件。
最近,用户访问BPOS(Business Productivity Online Suite)服务所遇到的问题,他写道“未预见的问题影响了对某些服务的访问”。通过使用微软北美设施访问服务的客户可能遇到了问题,故障持续了两个小时。虽然微软工程师解决了这一问题,但是没有解决根本问题,因而又产生了9月3日和9月7日服务再次中断。
目前微软有一套RSS反馈系统,当服务受到影响时系统提供故障信息,但有些用户抱怨故障信息太模糊,有时会延迟。寇尔称,微软已经开始对这些故障信息增加更多细节。
微软宣布称,微软BPOS(商务办公在线套装软件)中包含的数据已经被非授权用户下载。
人们对这种事件的直接反应也许是责怪黑客。但是,这次的事件却与黑客无关。微软的Clint Patterson说,这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。BPOS软件中的离线地址簿在"非常特别的情况下"提供给了非授权用户。这个地址簿包含企业的联络人信息。Patterson对于这个错误表示道歉。
微软称,这个错误在发现之后两个小时就修复了。微软称,它拥有跟踪设施,使它能够与那些错误地下载这些数据的人取得联系以便清除这些数据。
然而,整个事件让那些考虑在明年使用云计算的人感到担心,特别是让考虑使用与Office套装软件捆绑在一起的微软主要云计算产品Office 365的那些人感到担心。
业内人士称,在考虑使用任何厂商的提供的云计算服务的时候,有三个基本的威胁会导致数据泄漏:第一,云计算软件的配置错误或者软件中的瑕疵。第二,黑客窃取数据,为了取乐或者赚钱。第三,员工处理数据的疏忽。
云计算的应用还有许多问题。很难相信一些人所说的2011年将是云计算成为主流的一年。
#p#
事件八:谷歌邮箱再次爆发大规模的用户数据泄漏事件。
2011年3月,谷歌邮箱再次爆发大规模的用户数据泄漏事件,大约有15万Gmail用户在周日早上发现自己的所有邮件和聊天记录被删除,部分用户发现自己的帐户被重置,谷歌表示受到该问题影响的用户约为用户总数的0.08%。
谷歌在Google Apps状态页面表示:"部分用户的Google Mail服务已经恢复过来,我们将在近期拿出面向所有用户的解决方案。"它还提醒受影响的用户说:"在修复帐户期间,部分用户可能暂时无法登录邮箱服务。"
Google过去也曾出现故障,但整个帐户消失却是第一次。在2009年出现最严重的一次故障,有两个半小时服务停顿,许多人当时曾向Google投诉需用这个系统工作。接二连三出错,令全球用户数小时不能收发电邮。Google及微软等科技企业近年大力发展云计算,盼吸引企业客户,但云计算储存多次出事,恐打击用户信心。
#p#
事件九:亚马逊云数据中心服务器大面积宕机。
2011年4月22日,亚马逊云数据中心服务器大面积宕机,这一事件被认为是亚马逊史上最为严重的云计算安全事件。
由于亚马逊在北弗吉尼亚州的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。
4月30日,针对上周出现的云服务中断事件,亚马逊周五在网站上发表了一份长达近5700字的报告,对故障原因进行了详尽解释,并向用户道歉。亚马逊还表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),将自动充值到受影响的用户帐号当中。
亚马逊在周五的报告中指出,公司已经知道漏洞和设计缺陷所在的地方,它希望通过修复那些漏洞和缺陷提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。亚马逊已经对EC2做了一些修复和调整,并打算在未来几周里扩大部署,以便对所有的服务进行改善,避免类似的事件再度出现。
此事件也引起人们对转移其基础设施到云上的担忧:完全依靠第三方来去报应用程序的可用性是否可行。
#p#
用户心理承受底线是否被打破?
早在2010年5月份,埃森哲与中国电子学会共同发布了一份名为《中国云计算发展的务实之路》的报告。报告指出,安全问题是全球对云计算最大的质疑。而这种担忧在中国尤为突出,"以至于首席信息官们如履薄冰,特别是面对公有云服务时"。
云安全问题一直是全球政府和企业都较为头痛的难题,如果能够跨越这一关,那么,云服务则能够顺利地得到大范围应用,反之则止步不前。所以,可以断定亚马逊宕机事件,将使得其在全球特别是在中国推广云服务业务更加困难。这里,国内很多企业和政府更加相信私有云的安全性。
宕机事件使得人们进一步思考,公有云面临的安全问题。尽管公共云拥有众所周知的成本优势,但是用户不得不提防其存在的安全性、法规遵从和服务质量的隐患。既然数据由第三方托管,客户就希望服务提供商保证数据安全,既不丢失也不被非法访问,遵从法规对存储系统和数据保存位置的要求,并通过网络提供低延迟、高可用的服务。
一波敢于第一个“吃螃蟹”的企业或政府的CIO,也仿佛成为了人们眼中的“自杀”者。
但是,如果仅仅从这些云服务宕机事件,就得出结论:云计算一无是处,不该被推广!这似乎有些太过于武断。安全事件,并不仅仅是云计算的专利,任何IT系统都将承受来自安全方面的压力,不管是来自于天灾,还是人祸。
可以说,不仅仅是云服务,基本所有的互联网服务都逃避不了“安全”问题。既然不能避免,那么,服务提供商只能勇敢面对。未来云服务提供商除了要在云服务架构和技术上不断完善,还要不断为用户提供服务保障体系。
曾经采访国内一家云服务提供商副总裁,他打趣地说:“非常想给公司提供的云服务上一个保险,这样用户数据受到损失,服务出现了问题,可以给用户实实在在的赔偿。”
俗话说:拿人钱财替人消灾!很多云服务提供商也正在积极寻求一种让用户信赖的服务保障体系。只不过,完善这一过程仍然需要一段时间,2011年可能无法见到多大的进展。
一系列的宕机事件,让我们不禁要问,用户心理承受底线是否被打破了?答案是没有。目前,即使出现了严重的宕机事件,国外一些用户仍然热衷于使用例如亚马逊等公司的公有云服务,他们对于类似亚马逊宕机事件看得很淡,他们认为这样的事件就如同飞机坠毁一样的偶然,相对于开汽车旅游还是飞机旅游安全系数更高。
相对于高速发展的企业对于IT系统的需求成本,有些企业更加愿意尝试创新的IT技术和服务,以换来企业更快速的发展,即使出现数据丢失和泄露,他们也已经做好了应对策略或甘愿承受这种风险。如此看来,尽管云计算服务目前仍然存在诸多不确定因素(天灾、人祸的影响),但是仍然不可否认它的革命性和创新性,它满足了一部分“轻”公司的发展需求。随着其迈过“安全”这最后一道关,必将迎来大规模发展。
【编辑推荐】
- 使用Microsoft Azure 让云迁移变得简便的5种方法
- VMware的混合云迁移工具:vCloud Connector
- 企业CRM等业务系统迁移到 "云"中的最佳实现
- 云计算该“迁移”还是“自建”?
- 云迁移全攻略:哪些应用适合迁移
- 亚马逊 谷歌 微软三大试用云服务大比拼(上)
- 亚马逊推出1年免费云计算服务
- 亚马逊EC2中断 “可用区”遭质疑
- 伤不起!亚马逊史前最大宕机事件的启示
- 云震 -- 亚马逊4.21事故的反思
- 从亚马逊云服务故障中吸取的七个教训
- 云计算与集群:是携手还是争斗?