在四年才会碰到一次的2月29日,Windows Azure经历了一次不小的灾难,Azure平台的架构与开发服务出现了较严重的断线情况,尤其是服务管理组件,在当天凌晨发生了全世界范围内的大面积无法访问。
经过紧急抢修,Azure Service Dashboard在当天下午3点半发布报告说Windows Azure的服务管理系统服务已经基本恢复正常,包括Access Control 2.0、Azure Reporting和Azure Marketplace等一些其他受到影响的组件。
紧接着,微软在官方博客上发布了对这次断线情况的调查结果。
“在某些地区,Windows Azure监测到一些异常现象而导致计算服务功能停机,”微软服务器与云计算副总裁Bill Laing在官方博客中写到,“问题触发的很快,最终我们把它确认为软件的bug。虽然最终的根源原因还在进一步调查中,但看上去和闰年的时间计算失误有关。”
“问题出现之后,我们立即采取了相应措施,首先是要确保用户已经上线的服务正常运行,然后开始修复工作,”他在博客中继续写到,“绝大多数的用户服务在下午2点57分就已经完全恢复。”
Bill Laing在博客中保证微软将会继续对导致此次断线的技术问题进行进一步的解释,此外对这次断线给用户造成的不便致以诚挚的抱歉。
显然微软的道歉不足以停止Azure用户在官方论坛上继续发泄自己的抱怨,即使是在Azure服务已经恢复之后。“我们至少丢掉了两位正在测试我们系统的潜在客户,”一位用户抱怨说,“我们还算是一家小公司,那些大企业的损失显然更多。我们选择Windows Azure就是看好它的数据冗余技术,可现在该怎么向客户解释呢?”