亚马逊***技术官Werner Vogels表示:“一切都可能出现故障。”
在去年四月,亚马逊遭遇了一次为期四天的服务中断,随后在八月份又出现了一次中断。今年二月,微软公司的Windows Azure云平台出现停机问题。尽管云服务供应商们都在努力改进系统以***限度地减小云中断的风险,相信在2012年和以后,我们仍然将不可避免的会遭遇服务中断。
专家表示企业IT部门应该采取以下五个措施来尽量避免云服务中断带来的风险:
1、使用多个可用区
亚马逊在各个地区为其每个服务都提供可用区(AZ),该公司介绍说,可用区在不同的独立的基础设施上运行,“它们实际上是分开的,即使发生非常罕见的灾难,例如火灾、龙卷风或者洪水,都只会影响单个可用区。”在去年亚马逊的服务中断中,仅使用单个可用区用于关系数据库服务的客户中,大约有45%受到了中断的影响,而使用多个可用区的客户,只有不到3%受到影响。在去年的中断事故后,该公司对可用区服务进行了改善,允许在不同可用区间使用共同的设计和API,让用户可以更容易地使用多个可用区的方法。
2、选择多个地区
亚马逊拥有一个跨八个地区的网络,包括:美国东部(北弗吉尼亚州)、美国西部(俄勒冈州)、美国西部(北加州)、欧洲(爱尔兰)、亚太地区(新加坡)、亚太地区(东京)、南非(圣保罗)和AWS GovCloud。除了采用多可用区的方法获得额外的安全和保护外,用户还可以将工作负载分布在多个地区。但是这并不像将工作负载分布在多个可用区一样简单,因为不同的地区需要单独的API调用。
3、选择多个云服务供应商
采用多可用区、多地区的方法,仍然觉得不够安全?Gartner云分析师Drue Reeves建议说,还可以选择多个云服务供应商。但是需要注意的是,一些云服务供应商共享相同的数据中心资源。Reeves表示,客户可以检查云供应商是否与其他供应商共享资源。
4、服务水平协议
除了采用这些技术措施外,用户还可以利用非技术性的措施,例如与云服务供应商协商有关服务水平协议(SLA)的问题,如果出现服务中断应该支付多少罚款。如果用户使用云服务供应商用于灾难恢复服务,服务水平协议还可以强制要求高达99.999%的可用性。
5、考虑是否应该使用云服务
如果用户非常关心云端数据和应用程序的高可用性,IDC分析师Steve Hendrick表示,也许这意味着客户并没有准备好使用公共云服务。Hendrick表示,这是一个简单的等式:越是关键任务型的数据和计算资源,客户就应该部署更多的保护和确保高可用性。