2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉。
图片
来源:https://weibo.com/2838754010/NuMAAaUEl
目前问题故障已经恢复,根据最新的消息得知造成此次事故的原因,是由于升级K8S 集群导致。
图片
1. 集群体量大
最大集群规模已经远远超出了社区推荐的5千个 node 上限,有问题的爆炸半径大。
图片
2. 版本升级跨度大
直接从1.12 升级到了1.20,跨越多个版本,有可能存在api不兼容的问题。
3. 升级方式应该选择了原地升级
虽然滴滴有能力基于K8S二次开发,但是由于版本跨度较大,细节点较多,原地升级风险我觉得比替换升级大不少。
比如集群版本已经升级为1.20,但是Node节点的kubelet的版本还是 1.12,如果api不兼容,那么这个影响是非常大的,集群回滚又没有那么快。
图片
至于为什么采用原地升级方案,估计还有很多细节我们不得而知,但是此种方式确实有点激进,船大不好掉头。