通过滴滴技术博客:探寻造成此次P0故障的真正原因

新闻
虽然滴滴有能力基于K8S二次开发,但是由于版本跨度较大,细节点较多,原地升级风险我觉得比替换升级 大不少。比如集群版本已经升级为1.20,但是Node节点的kubelet的版本还是 1.12,如果api不兼容,那么这个影响是非常大的,集群回滚又没有那么快。

2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉。

图片图片

                       来源:https://weibo.com/2838754010/NuMAAaUEl

目前问题故障已经恢复,根据最新的消息得知造成此次事故的原因,是由于升级K8S 集群导致。

图片图片

1. 集群体量大

最大集群规模已经远远超出了社区推荐的5千个 node 上限,有问题的爆炸半径大。

图片图片

2. 版本升级跨度大

直接从1.12 升级到了1.20,跨越多个版本,有可能存在api不兼容的问题。

3. 升级方式应该选择了原地升级

虽然滴滴有能力基于K8S二次开发,但是由于版本跨度较大,细节点较多,原地升级风险我觉得比替换升级大不少。

比如集群版本已经升级为1.20,但是Node节点的kubelet的版本还是 1.12,如果api不兼容,那么这个影响是非常大的,集群回滚又没有那么快。

图片图片

至于为什么采用原地升级方案,估计还有很多细节我们不得而知,但是此种方式确实有点激进,船大不好掉头。

责任编辑:武晓燕 来源: 架构成长指南
相关推荐

2023-12-05 09:46:30

2021-08-05 06:46:39

P0故障公司

2020-04-09 10:43:12

长事务P0故障

2013-02-25 10:48:53

RubyWeb

2010-01-06 09:57:34

华为交换机故障

2023-06-07 07:27:32

唯品会冷冻系统故障

2022-03-13 22:50:47

P0故障HBase

2021-04-30 07:09:48

SQLP0事故

2023-03-06 18:34:44

存货库存模型

2021-01-28 09:48:39

UPS电源数据中心

2020-06-04 08:03:37

MySQL事故P0

2009-12-23 09:37:38

集线器故障

2011-06-28 16:18:37

网站收录

2015-04-17 10:12:58

光纤光纤衰减光纤损耗

2022-10-17 08:31:03

生产环境P0项目

2010-08-02 16:51:54

2010-07-28 10:21:44

统一计算

2011-12-24 18:14:02

Symbian

2012-07-27 16:08:33

2018-10-11 09:00:09

点赞
收藏

51CTO技术栈公众号