在过去六个月当中,AWS方面已经两次针对Xen安全漏洞对其云服务器进行了重启。
根据Gartner公司去年作出的估算,Amazon Web Services的总体规模已经达到其后十四家竞争对手基础设施规模总和的五倍。顺带一提,这些设备全部运行有开源Xen虚拟机管理程序的一套定制化版本,这意味着一旦这部分Xen代码存在安全漏洞,AWS将因此受到巨大影响。
在过去六个月当中,AWS方面已经两次针对Xen安全漏洞对其Elastic Compute Cloud(简称EC2)服务器进行了重启。2014年9月,约有10% EC2实例经历了重启,而就在本周AWS再次宣布其总体实例当中约有0.1%需要安装安全补丁并进行重启。虽然这一比例听起来并不算高,但从AWS的运营规模角度看,其涉及的实际设备数字仍然相当庞大。
在发现Xen代码存在安全漏洞后,AWS内部受到了怎样的影响?
Steve Schmidt
答案是Steve Schmidt同志要忙上一阵子了(这并不是说他尚未对此类情况做好准备)。Schmidt是AWS安全工程技术副总裁兼***信息安全官(简称CISO)——他还拥有效力于FBI担任部门主管的经历。目前他主要负责AWS的云安全工作。去年11月,我们曾经在AWS re: Invent大会上与Schmidt进行了一次面对面交流,并请他谈谈在去年9月那场史无前例的大重启事件中、AWS内部的云运营工作经历了哪些变动。
漏洞验证
AWS可谓Xen代码的使用大户,因此该公司各位高层也是开源社区当中***了解到Xen存在安全漏洞问题的群体。状况出现后,Schmidt及其团队的***项任务就是检查该问题是否会对AWS造成影响。该公司已经抢在正式公开之前,就通过其定期检查发现了存在于Xen当中的各项安全漏洞。这样一来,他们就能够提前验证相关漏洞是否会影响到AWS并据此作出补丁开发与安装决策。
“Xen是个规模庞大的软件包,其中有很多部分与AWS的实际运行完全无关,”Schmidt指出。
事实上大部分Xen安全漏洞并不会对AWS造成影响,这是因为该公司已经开发出了自己的一套Xen定制化版本。AWS方面从中移除了全部不必要的Xen功能,这一方面是为了保证定制化开源代码能够在该公司的独特用例当中发挥***性能表现,同时也是为了尽可能降低其存在安全漏洞的可能性。
不过AWS还作出了另一项决策:不单单使用一种Xen版本,而是引入多套版本方案。
“我们刻意在不同服务之间构建起差异化的基础设施方案,”他指出。“我们当然不希望一切都保持一致,因为如果某个问题会对设施造成影响,那么单一版本机制意味着其将影响到一切。”AWS在多种不同服务及地区之间采用不同的定制化Xen版本,而且每套版本所使用的都并非普通开源代码。
内部攻坚
如果AWS云受到了影响,那么该公司则选择出去出击、实施技术攻坚。
“我们构建了一套测试场景,以确定我们能否触发该安全漏洞,”Schmidt表示。在此之后,他们还开展了广泛的测试工作,旨在了解是否已经有恶意人士利用该漏洞侵袭AWS。
与此同时,另一个安全技术团队则已经完成了补丁的构建工作并在AWS所运行的多种Xen版本之上进行测试,希望借此满足其对安全性及性能水平的需要。
有时候安装补丁要求硬件设备进行重新启动,正如过去半年中曾两次出现的情况一样。而且与普通PC机类似,某些更新及补丁在安装后需要重启、有一些则不需要。AWS所采用的大多数补丁都不需要重启; AWS已经对其系统进行了结构调整,旨在尽可能降低由补丁安装带来的服务重启次数。
“我们投入了大量精力以尽可能避免重启,”Schmidt指出。如果Schmidt和他的团队发现无需重启进行安装“在技术上不可行”,那么该公司就会在实施重启之前向客户发出通知。
可怕的重启流程
“其实思路本身非常简单,”Schmidt在谈到去年9月的大规模重启时表示。“我们找不到一种能够无需重启而又实现服务补丁安装的方式,因此我们选择进行重启。”
这种情况下的复杂之处在于,AWS方面必须如实通知客户其部分EC2实例需要进行重启,但他们却又无法坦率地公布理由。AWS绝不能以公开方式宣扬安全漏洞的存在,并将其告知自家或者其他Xen用户。
不过客户应当在此时段内随时做好迎接重启的准备,此外用户们还需要采用一系列措施以确保自有系统不会受到重启或者虚拟机故障的影响。方案之一在于将其系统设计为无状态方案,这样一旦出现重启或者虚拟机故障,那么应用程序会以非破坏性的故障转移方式运行在其它正常虚拟机环境之下。
去年9月,我们曾经就此采访过一系列AWS用户,他们大多表示此次重启并未引必严重问题。针对云环境开发的应用程序往往自带故障弹性能力,不过传统应用程序的迁移过程却有可能带来更多麻烦。
Schmidt指出,AWS一直在努力改进其服务效果:无论是在技术方面还是在避免虚拟机重启方面。此外,该公司也希望能让客户及时获取到相关消息。相关努力包括赞助学术研究以及如何利用研究成果帮助Xen服务器在无需重启的前提下完成热修复。
原文标题:What happens inside Amazon when there’s a Xen vulnerability