几个小时前,CloudFlare 由于 DNS 路由配置错误导致使用其 CDN 和安全服务的 785000 多个网站遭受影响,其中不乏 4chan、Wikileaks, Metallica 等大型网站,故障在 30 分钟左右被排除,影响持续了一个多小时。
CloudFlare 首席执行官 Matthew Prince 在刚刚官方博客发文阐述了整个事故发生的过程:CloudFlare 的管理团队发现一处 DDoS 攻击,监测工具显示攻击包大小在 99971 ~ 99985 bytes 左右(正常包大小是 1500 bytes,通常都在 500 ~ 600 bytes),于是将其规则加入 Juniper 的 Junos 防火墙设置中,不过预期大小的包并没有被拦截,因为实际上并不存在这么大的数据包,取而代之的是匹配规则的数据包冲刷到内存中,直到内存耗尽,系统崩溃。
通常系统崩溃会自动重启而恢复工作,但这次例外了。由于系统没有正常启动,管理端口没有响应控制,于是 CloufFlare 的管理中心只能电话通知全球 14 个国家的 23 个数据中心的管理员硬启动机器,这个过程大概花费了 30 分钟。最早恢复的数据中心由于负荷了最多了访问流量,仍然导致了 CloudFlare 服务的不稳定性,加上等待 DNS 缓存更新等,服务恢复时已经影响已持续超过 1 小时。
CloudFlare 最新数据显示,其服务的网站每月 PV 数超过 1000 亿,是全球十大流量网站之一,此次宕机是 4 年中第三大事故。与今早 Evernote 被黑客入侵事件一起,云计算服务可靠性和造成的大规模影响应该引发使用者更多关注和思考。