互联网的脆弱性：Facebook最长宕机事故只因一个小错误-facebook宕机事件

北京时间3月15日消息，美国当地时间周三，Facebook及旗下多项服务出现技术故障，导致Facebook遭遇公司近期历史上最长宕机。在人们的生活越来越离不开互联网的情况下，这次宕机事故凸显出了互联网的脆弱性。

[[259618]]

Facebook在周四表示，公司已经修复了一个技术故障。这个故障导致Facebook及旗下Instagram、WhatsApp以及Messenger应用出现长时间服务中断。

此次中断事故在部分Facebook服务上持续了近24个小时，成为Facebook近期历史上最长宕机事故。这次令人瞠目结舌的宕机事故在提醒着人们，即便是强大的互联网公司，也会受到人为失误的破坏。

最强大公司也躲不过人为失误

“所有大型互联网公司都建立了多条防线，但是有时，一名工程师犯下的一个编码错误就会影响到成千上万台计算机，造成重大故障，”前Facebook CSO、现斯坦福大学讲师亚历克斯·斯塔姆斯(Alex Stamos)表示，“换句话说，要让Facebook这样的复杂计算机网络重启，非常非常困难。”

Facebook发言人表示，周三的一个“服务器配置更改”在公司网络上产生了级联效应。一位现Facebook员工和一位前Facebook员工对此表示，这会导致故障不断循环，牵扯面越来越广，无法立即修复。

这个小错误酿成了大祸。Instagram用户无法查看其他人的资料、WhatsApp用户不能发送消息，Facebook主应用上的信息流变成一片空白。

宕机事故集中在Facebook主要市场

宕机追踪网站DownDetector表示，该公司收到了750万份有关Facebook应用的问题报告。相比之下，当YouTube在去年10月份发生大范围宕机时，DownDetector只收到了270万份问题报告。DownDetector衡量服务是否中断一定程度上取决于计算用户提交的问题报告数量。

“我们从未见过如此大规模的宕机事故，”DownDetector联合创始人汤姆·桑德斯(Tom Sanders)表示，

截至当地时间周四早晨，Facebook的大部分系统服务已经恢复，该公司依旧在试图弄明白这个故障是如何在其网络中“兴风作浪”的。Facebook管理人员强调称，这个故障并不是由入侵或者分布式拒绝服务攻击等网络攻击引发。

小错误酿成大祸

多年来，Facebook一直在招聘工程师，希望在几周内就能发布触及数十亿人的计算机代码。“看到我的工作对这么多人的生活产生了有意义的影响，我很有成就感，”一位员工在Facebook“求职”(careers)招聘网站上推荐Facebook工作时称。

但是，这也意味着一位员工的错误就能造成影响广泛的后果，尤其是在Facebook近期制定详细计划合并“应用家族”基础设施之际。一个计算机网络交织地越紧密，小的技术故障铸成大错的可能性就越高。

和其他互联网巨头一样，Facebook以“从不下线”为傲。这一目标推动Facebook成为了世界上十分有影响力也是受到批评最多的公司之一。有20多亿用户预计每天至少在使用一项Facebook服务。

桑德斯称，随着人们越来越依赖通过Facebook服务与家人和好友聊天，开展工作，他们对于Facebook的服务稳定性寄予了更大希望。

“人们对于宕机事故的容忍度下降，越来越期待Facebook能够每年365天地运行，”他表示。企业受冲击更大

尽管宕机事故激怒了许多用户，但是它对依赖Facebook网络创收的企业造成了更紧急的后果，例如广告。

广告公司GroupM社交业务全球主管凯伊莉·泰勒(Kieley Taylor)表示，她的公司无法访问Facebook系统，这意味着新的广告活动被推迟。“宕机从来不是好事，”她表示，“幸运的是，它持续的时间相较短，但却是全面宕机。”

她的公司依旧在设法确定有多少广告活动受到了宕机事故的冲击。泰勒表示，由于Facebook广告系统采用在现收现付制(Pay-As-You-Go)，所以GroupM不必要求Facebook为尚未兑现的广告活动退款。

GroupM把广告转移到了谷歌搜索、YouTube以及其他网站上。

“由于所有人都在这个平台上，Facebook仍旧是一个真正强大的数字营销平台，”泰勒表示。