从 B 站崩溃报告看分布式系统的技术栈-51CTO.COM

不知道大家还记得去年 B 站（哔哩哔哩）挂了那次严重的事故不，记得当时在全网也是引起了热议。

离当时过去刚好一年多的时间，今天看到 B 站前两天在公众号上发的复盘报告。2021.07.13 我们是这样崩的文章从八个方面全链路再现了当时事故发生和处理的全过程：

包括至暗时刻，初因定位，故障止损，根因定位，原因说明，问题分析，优化改进，总结。

不知道大家看过没，我全文看了一下，看完还挺唏嘘的，最终原因竟然是一个字符串类型的数字参数 0 导致的死循环。

不过文章本身写的还是非常专业和严谨，对于咱们技术的同学，好嘛，也是一次难得的学习机会。

只是，看到文章最后一段代码，我实在忍不住多说几句，一个求最大公约数的GCD 函数，居然就是导致 B 站崩溃的元凶..

因为，下面这段代码对我来说实在太熟悉不过了，在学校搞过程序竞赛的同学应该对它都不陌生吧。

看到上面的报告，第一感觉是因为没有做好类型转换带来的死循环，是个弱类型设计的坑，如果除零是抛出异常而不是变 NaN，应该很快就能定位到问题所在。

另外，从官方的这份报告里，我看到了多次提及多活，容灾，分布式这个词汇，异地多活是常见的分布式系统保证架构稳定性的一个方案。

毕竟这么体量的公司，系统架构肯定和分布式是绕不开的。那咱们以此来看看，分布式系统里面都有哪些技术栈呢？

之前记得在左耳朵耗子叔的专栏《左耳听风》里专门有写分布式架构，我把里面的部分内部摘抄在这里给大家分享。

构建分布式系统的目的是增加系统容量，提高系统的可用性，转换成技术方面，也就是完成下面两件事。

大流量处理。通过集群技术把大规模并发请求的负载分散到不同的机器上。
关键业务保护。提高后台服务的可用性。

说白了就是干两件事。一是提高整体架构的吞吐量，服务更多的并发和流量，二是为了提高系统的稳定性，让系统的可用性更高。

提高架构的性能

咱们先来看看，提高系统性能的常用技术。

缓存系统。加入缓存系统，可以有效地提高系统的访问能力。比如从前端的浏览器，到网络，再到后端的服务，底层的数据库、文件系统、硬盘和 CPU，全都有缓存，这是提高快速访问能力最有效的手段。对于分布式系统下的缓存系统，需要的是一个缓存集群。比如用一个 Proxy 来做缓存的分片和路由。

负载均衡系统。负载均衡系统是水平扩展的关键技术，它可以使用多台机器来共同分担一部分流量请求。

异步调用。异步系统主要通过消息队列来对请求做排队处理，这样可以把前端的请求的峰值给“削平”了，所谓削峰填谷。而后端通过自己能够处理的速度来处理请求。这样可以增加系统的吞吐量，但是实时性就会有影响。同时，还会引入消息丢失的问题，所以要对消息做持久化，这会造成“有状态”的结点，从而增加了服务调度的难度。

数据分区和数据镜像。数据分区是把数据按一定的方式分成多个区（比如通过地理位置），不同的数据区来分担不同区的流量。这需要一个数据路由的中间件，而数据镜像是把一个数据库镜像成多份一样的数据，这样就不需要数据路由的中间件了。可以在任意结点上进行读写，内部会自行同步数据。然而，数据镜像中最大的问题就是数据的一致性问题。

提高架构的稳定性

接下来，咱们再来看看提高系统系统稳定性的一些常用技术。

服务拆分。服务拆分主要有两个目的：一是为了隔离故障，二是为了重用服务模块。但服务拆分完之后，会引入服务调用间的依赖问题。

服务冗余。服务冗余是为了去除单点故障，并可以支持服务的弹性伸缩，以及故障迁移。然而，对于一些有状态的服务来说，冗余这些有状态的服务带来了更高的复杂性。其中一个是弹性伸缩时，需要考虑数据的复制或是重新分片，迁移的时候还要迁移数据到其它机器上。

限流降级。当系统实在扛不住压力时，只能通过限流或者功能降级的方式来停掉一部分服务，或是拒绝一部分用户，以确保整个架构不会挂掉。这些技术属于保护措施。

高可用架构。通常来说高可用架构是从冗余架构的角度来保障可用性。比如，多租户隔离，灾备多活，或是数据可以在其中复制保持一致性的集群。总之，就是为了不出单点故障。

高可用运维。高可用运维指的是 DevOps 中的 CI/CD（持续集成 / 持续部署）。一个良好的运维应该是一条很流畅的软件发布管线，其中做了足够的自动化测试，还可以做相应的灰度发布，以及对线上系统的自动化控制。这样，可以做到“计划内”或是“非计划内”的宕机事件的时长最短。上述这些技术非常有技术含量，而且需要投入大量的时间和精力。

正如不想当将军的士兵不是好士兵，不想当架构师的程序员不是一个好的程序员，哈哈，道阻且长，慢慢加油吧。