GitHub又双叒宕机,背后原因揭秘!

安全
代码托管平台故障影响了GitHub的大部分主要服务,曾导致GitHub大范围的数据库连接和认证失败长达十小时。

GitHub的首席安全官和工程部高级副总裁今天分享了关于上周代码托管平台发生的一系列故障的更多细节。

虽然这些事件的根源不尽相同,但从5月9日到5月11日,它们影响了GitHub的大部分主要服务,曾导致大范围的数据库连接和认证失败长达十小时。

上周,GitHub经历了几次可用性事件,既有长时间运行的,也有持续时间较短的。目前这些情况均已经得到缓解,所有系统现在都已经在正常运行。

5月9日,GitHub提供Git数据的内部服务的配置发生了变化,导致8个主要服务中断。

第二次故障发生在5月10日,该故障影响了GitHub应用的认证令牌的发放,造成故障的原因是由于负责管理GitHub应用权限的API的高负荷和低效率实施造成的。

5月10日,为GitHub App认证令牌提供服务的数据库集群出现了GitHub App权限写入延迟7倍的情况(状态为黄色)。

在这次事件的大部分时间里,这些授权令牌请求的失败率为8-15%,在短时间内甚至达到76%的峰值。

5月11日,GitHub出现第三次故障,造成故障的原因是服务于Git数据的数据库集群崩溃并触发了自动故障转移机制,导致读取副本丢失。

1684292564_646443d49798cf73887cb.png!small

事件历史 (GitHub)

GitHub方面表示,目前正在解决Git数据库崩溃的问题,这个问题目前已经引起了不止一次的事件。这项工作已经在进行中,并将优先得到处理。同时,GitHub也在解决关于数据库故障转移的问题,以确保故障转移总是在没有干预的情况下完全恢复。

GitHub将在5月份可用性报告中分享有关这些中断情况的详细信息,以及目前正在采取哪些措施来解决导致这些中断的问题。同时还会公布事件进展细节,以及如何提高GitHub可用性进展的一般更新等问题。

2022年3月,GitHub也曾遭遇过多次中断,当时该公司表示事件原因是由平台主数据库集群的资源争用问题引起的。

GitHub还在2022年2月发生过一次重大故障。当时一度导致GitHub平台在全球范围内关闭,并且一切访问网站的请求均被阻止。

责任编辑:赵宁宁 来源: FreeBuf.COM
相关推荐

2017-03-13 16:58:05

戴尔

2021-11-26 09:55:09

微软漏洞补丁

2019-06-06 15:44:21

人工智能寒冬AI

2021-10-30 19:01:17

磁盘字节文件

2018-11-08 17:57:22

华为

2021-09-10 10:33:32

LinuxGithub合并

2023-05-29 09:42:39

ChatGPTAI

2024-04-03 15:41:53

服务器

2019-01-06 15:51:51

春运车票网络安全网络购票

2018-08-29 14:00:45

云测评

2023-01-10 11:37:22

Python 库PySnooper项目

2018-01-17 16:36:40

Windows 10Windows免费升级

2020-10-25 08:52:19

Unix操作系统TrueOS

2017-11-21 10:13:11

微软打印机补丁

2018-03-27 14:56:05

互联网

2023-12-15 09:19:44

百度飞桨文心大模型大模型

2018-11-12 11:47:49

2017-08-23 17:59:57

ROOBO
点赞
收藏

51CTO技术栈公众号