又崩了？盘点2023年十大线上事故！-51CTO.COM

又崩了？盘点2023年十大线上事故！

2023 年，互联网世界日新月异，线上应用已成为我们生活中不可或缺的一部分。然而，在这一年里，一系列令人咋舌的线上事故频频发生，“XXX 崩了”成为热搜常客。这些事故不仅给用户带来了不便和困扰，也暴露出线上服务在稳定性、安全性和应对突发事件的能力方面存在的问题。本文将盘点 2023 年的十大线上事故，以期为未来的线上服务提供借鉴和警示。

哔哩哔哩

3 月 5 日晚，B 站出现服务器故障，网页端和移动端的视频均无法加载，转发的视频链接显示“资源失效”。

图片

受影响的主要是“番剧”和“影视”页面，用户反映“追番一直提示获取视频内容失败”、“显示页面加载失败”、“看番看一半加载不出来”。还有用户反映，首页能够加载，但全部是繁体字。

图片

6 月 28 日，不少用户反应“B 站崩了”，该词条随后上了热搜。用户反映“追番一直提示获取视频内容失败”“显示页面加载失败，你们也这样吗？”“看番看一半加载不出来，我以为我的网有问题”。

该问题持续了一个多小时才被解决。

腾讯

3 月 29 日凌晨，大量网友称微信、QQ 等腾讯旗下社交软件出现功能异常。微信包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用，QQ 文件传输、QQ 空间、QQ 邮箱等也同样出现问题。

图片

腾讯客服对此回应称，由于系统故障，部分用户使用微信支付相关功能出现异常，目前正在紧急修复中。用户资金安全不受影响。故障修复后，相关功能使用将恢复正常。

图片

此次事故是由广州电信机房冷却系统故障导致，腾讯将其定义为公司一级事故。

事后，工信部通信管理局就微信“3.29 事件”约谈了腾讯相关人员，听取了情况汇报，并要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施，坚决避免发生重大安全生产事故，切实提升公众业务安全稳定运行水平。

图片

12 月 3 日，腾讯视频突然没有会员了。

图片

对此，腾讯视频官方微博回应：目前腾讯视频出现了短暂技术问题，我们正在加紧修复，各项功能在逐步恢复中。感谢您的耐心等待，由此给您带来的不便我们深感歉意。

图片

唯品会

3 月 29 日，“唯品会崩了”登上微博热搜。唯品会对此进行了回应：

图片

事后，唯品会发布了一份处理公告，将 329 机房宕机故障判定为 P0 级故障。官方在公告中称，此次南沙机房重大故障影响时间持续 12 个小时，导致公司业绩损失超亿元，影响客户达 800 多万。唯品会表示，决定对此次事件严肃处理，对应部门的直接管理者承担此次事故责任，基础平台部负责人予以免职做相应处理。

Boss 直聘

5 月 24 日，网友反映 Boss 直聘崩了。随后 Boss 直聘回应称：今日上午部分用户使用 boss 直聘 pc 端时，部分功能出现异常，经过紧急抢修，目前已恢复。

7 月 6 日，许多用户打开 BOSS 直聘，发现页面中显示“系统服务错误”，无法正确切换身份。还有网友表示，正和求职者聊着，要马上约面试了，结果就崩了。BOSS 直聘也于当天发布消息称，“7 月 6 日上午，BOSS 直聘 APP 出现短时间服务异常，经过团队抢修已恢复正常。期间为用户带来的不便我们深表歉意。我们将持续优化服务保障。感谢大家一直以来的关注与支持”。

9 月 15 日，“BOSS 直聘”突然崩溃，许多用户无法刷新页面，无法查看新的招聘信息，甚至无法进行聊天交流。

在社交媒体上，一位自称是 BOSS 直聘员工表示，金九银十是招聘旺季，2023 年 9 月 15 日 10 点 15 分 26 秒，在线统计超过 4700 万人在刷 BOSS 页面，目前服务器超荷载，正在维护，找工作的人比国庆买票的人还着急。

BOSS 直聘回应称，关注到一张网传截图。服务器崩了，是真的。技术要改进，是真的。网传的数据，是假的。请大家不信谣，不传谣。据最新数据，每月使用 BOSS 直聘的用户，4360 万人。”

图片

语雀

10 月 23 日，蚂蚁金服旗下的在线文档编辑与协同工具语雀发生了前所未有的 P0 级事故，导致平台无法正常访问和使用，持续了近 8 个小时（14:10 至 21:45）

图片

事后，语雀给出了故障原因及处理过程：

10 月 23 日下午，服务语雀的数据存储运维团队在进行升级操作时，由于新的运维升级工具 bug，导致华东地区生产环境存储服务器被误下线。受其影响，语雀数据服务发生严重故障，造成大面积的服务中断。为了尽快恢复服务，我们和数据存储运维团队全力进行数据恢复工作，但受限于恢复方案、数据量级等因素，整体用时较长。具体过程如下：
14:07 数据存储运维团队收到监控系统报警，定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线；
14:15 联系硬件团队尝试将下线机器重新上线；
15:00 确认因存储系统使用的机器类别较老，无法直接操作上线，立即调整恢复方案为从备份系统中恢复存储数据。
15:10 开始新建存储系统，从备份中开始恢复数据，由于语雀数据量庞大，此过程历时较长
19 点完成数据恢复；同时为保障数据完整性，在完成恢复后，用时 2 个小时进行数据校验；
21 点存储系统通过完整性校验，开始和语雀团队联调，最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

以及改进措施：

通过这次故障我们深刻认识到，语雀作为一款服务千万级客户的文档产品，应该做到更完善的技术风险保障和高可用架构设计，尤其是面向技术变更操作的“可监控，可灰度，可回滚”的系统化建设和流程审计，从同 Region 多副本容灾升级为两地三中心的高可用能力，设计足够的数据和系统冗余实现快速恢复，并进行定期的容灾应急演练。只有这样，才能提升严重基础设施故障时的恢复速度，并从根本上避免这类故障再次出现。为此我们制定了如下改进措施：
升级硬件版本和机型，实现离线后的快速上线。该措施在本次故障修复中已完成；
运维团队加强运维工具的质量保障与测试，杜绝此类运维 bug 再次发生；
缩小运维动作灰度范围，增加灰度时间，提前发现 bug；
从架构和高可用层面改进服务，为语雀增加存储系统的异地灾备。

并针对语雀个人用户，赠送了 6 个月的会员服务。

阿里云

11 月 12 日 17 时左右，阿里云突然出现事故，导致阿里云、淘宝、闲鱼、钉钉等几乎阿里全系应用都出现了问题。19 时 20 分左右，经工程师紧急处理，阿里旗下淘宝、钉钉、阿里云盘等应用已全面恢复。

图片

据统计，这次异常的影响范围涉及 API 网关、视频点播、运维事件中心在内的 100 多个产品，北京、硅谷、伦敦等 25 个地域受影响。

事后，阿里云并未对外公布事故原因。不过网上流传着一份事故报告，仅供参考：

图片

滴滴

11 月 27 日晚，滴滴出行出现系统崩溃，至 28 日修复，崩溃时间长达 12 小时。11 月 29 日，滴滴公布了此次超长时间系统故障的致歉声明。初步调查结果显示，这起事故的起因是底层系统软件发生故障，并非网传的“遭受攻击”。

图片

这次事故发生时，上海、北京、广州等多地滴滴用户反馈，滴滴出行 APP 无法使用，地图无法加载。有网友称，使用滴滴呼叫了网约车后，APP 突然无法使用，司机找不到乘客。有网约车司机在社交平台表示，正在送乘客途中，出现导航无法使用，地图无法加载等情况。

图片

喜马拉雅

12 月 19 日，不少网友反馈，喜马拉雅 App 出现崩溃状况，无法正常使用或聆听节目。随后，喜马拉雅官博发文致歉，称目前已紧急修复，不会影响用户的会员等权益。

图片

ChatGPT

11 月 8 日 22:00 开始，不少网友反馈 OpenAI 的 ChatGPT，包括 API 都无法正常使用。OpenAI 出现故障的时间大约持续了 100 分钟，

图片

事后，OpenAI 也已经把这回的故障，定性为了「严重停机」（Major Outage）。OpenAI 表示发现一个问题，导致 ChatGPT 和 API 错误率很高，正在努力解决。直到 23:33，OpenAI 表示确定并实施了修复方案，服务逐渐恢复正常。

图片

OpenAI CEO 奥特曼表示，devday（开发者大会）新功能的使用情况远远超出预期，公司原计划周一为所有订阅者启用 GPT，但仍未能实现。由于负载的原因，短期内可能会出现服务不稳定的情况。

图片

X

12 月 21 日，国外知名社交平台 X（原推特）遭遇突发崩溃事故。许多用户反映无法正常加载页面、浏览个人资料、查看粉丝列表等操作，该社交平台几乎处于瘫痪状态。

这已是 X 平台今年第二次大规模宕机事件。早在今年 3 月，该平台便经历了一次全球性中断。自 440 亿美元收购后，马斯克对其进行了大幅裁员，裁员幅度接近 80%，其中包括许多负责修复和防止服务中断的工程师。