不知道大家还记得去年 B 站(哔哩哔哩)挂了那次严重的事故不,记得当时在全网也是引起了热议。
离当时过去刚好一年多的时间,今天看到 B 站前两天在公众号上发的复盘报告。2021.07.13 我们是这样崩的 文章从八个方面全链路再现了当时事故发生和处理的全过程:
包括至暗时刻,初因定位,故障止损,根因定位,原因说明,问题分析,优化改进,总结。
不知道大家看过没,我全文看了一下,看完还挺唏嘘的,最终原因竟然是一个字符串类型的数字参数 0 导致的死循环。
不过文章本身写的还是非常专业和严谨,对于咱们技术的同学,好嘛,也是一次难得的学习机会。
只是,看到文章最后一段代码,我实在忍不住多说几句,一个求最大公约数的GCD 函数,居然就是导致 B 站崩溃的元凶..
因为,下面这段代码对我来说实在太熟悉不过了,在学校搞过程序竞赛的同学应该对它都不陌生吧。
看到上面的报告,第一感觉是因为没有做好类型转换带来的死循环,是个弱类型设计的坑,如果除零是抛出异常而不是变 NaN,应该很快就能定位到问题所在。
另外,从官方的这份报告里,我看到了多次提及多活,容灾,分布式这个词汇,异地多活是常见的分布式系统保证架构稳定性的一个方案。
毕竟这么体量的公司,系统架构肯定和分布式是绕不开的。那咱们以此来看看,分布式系统里面都有哪些技术栈呢?
之前记得在左耳朵耗子叔的专栏《左耳听风》里专门有写分布式架构,我把里面的部分内部摘抄在这里给大家分享。
构建分布式系统的目的是增加系统容量,提高系统的可用性,转换成技术方面,也就是完成下面两件事。
- 大流量处理。通过集群技术把大规模并发请求的负载分散到不同的机器上。
- 关键业务保护。提高后台服务的可用性。
说白了就是干两件事。一是提高整体架构的吞吐量,服务更多的并发和流量,二是为了提高系统的稳定性,让系统的可用性更高。
提高架构的性能
咱们先来看看,提高系统性能的常用技术。
缓存系统。加入缓存系统,可以有效地提高系统的访问能力。比如从前端的浏览器,到网络,再到后端的服务,底层的数据库、文件系统、硬盘和 CPU,全都有缓存,这是提高快速访问能力最有效的手段。对于分布式系统下的缓存系统,需要的是一个缓存集群。比如用一个 Proxy 来做缓存的分片和路由。
负载均衡系统。负载均衡系统是水平扩展的关键技术,它可以使用多台机器来共同分担一部分流量请求。
异步调用。异步系统主要通过消息队列来对请求做排队处理,这样可以把前端的请求的峰值给“削平”了,所谓削峰填谷。而后端通过自己能够处理的速度来处理请求。这样可以增加系统的吞吐量,但是实时性就会有影响。同时,还会引入消息丢失的问题,所以要对消息做持久化,这会造成“有状态”的结点,从而增加了服务调度的难度。
数据分区和数据镜像。数据分区是把数据按一定的方式分成多个区(比如通过地理位置),不同的数据区来分担不同区的流量。这需要一个数据路由的中间件,而数据镜像是把一个数据库镜像成多份一样的数据,这样就不需要数据路由的中间件了。可以在任意结点上进行读写,内部会自行同步数据。然而,数据镜像中最大的问题就是数据的一致性问题。
提高架构的稳定性
接下来,咱们再来看看提高系统系统稳定性的一些常用技术。
服务拆分。服务拆分主要有两个目的:一是为了隔离故障,二是为了重用服务模块。但服务拆分完之后,会引入服务调用间的依赖问题。
服务冗余。 服务冗余是为了去除单点故障,并可以支持服务的弹性伸缩,以及故障迁移。然而,对于一些有状态的服务来说,冗余这些有状态的服务带来了更高的复杂性。其中一个是弹性伸缩时,需要考虑数据的复制或是重新分片,迁移的时候还要迁移数据到其它机器上。
限流降级。当系统实在扛不住压力时,只能通过限流或者功能降级的方式来停掉一部分服务,或是拒绝一部分用户,以确保整个架构不会挂掉。这些技术属于保护措施。
高可用架构。通常来说高可用架构是从冗余架构的角度来保障可用性。比如,多租户隔离,灾备多活,或是数据可以在其中复制保持一致性的集群。总之,就是为了不出单点故障。
高可用运维。高可用运维指的是 DevOps 中的 CI/CD(持续集成 / 持续部署)。一个良好的运维应该是一条很流畅的软件发布管线,其中做了足够的自动化测试,还可以做相应的灰度发布,以及对线上系统的自动化控制。这样,可以做到“计划内”或是“非计划内”的宕机事件的时长最短。上述这些技术非常有技术含量,而且需要投入大量的时间和精力。
正如不想当将军的士兵不是好士兵,不想当架构师的程序员不是一个好的程序员,哈哈,道阻且长,慢慢加油吧。