2023年11月12日,晚6点又发生重大故障了,早在2022年12月18日,阿里云香港Region可用区C发生大规模服务中断事件,对很多客户业务产生重大影响,影响面扩大到香港可用区C的EBS、、OSS、、RDS等更多云服务。
这次影响更大,在这一个多小时里 ,饿了么都下不了单,骑手进不了系统,点不了外卖、停车场不抬杆、超市无法结账 !
受影响产品包括:机器学习、图像搜索、智能推荐AlRec、智能开放搜索OpenSearch、云行情、数据总线DataHub、检索分析服务Elasticsearch版、企业级分布式应用服务、 消息队列MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版;
图计算服务Graph Compute、实时计算Flink版、智能数据建设与治理Dataphin、开源大数据平台E-MapReduce、云原生大数据计算服务MaxCompute、实时数仓Hologres.大数据开发治理平台DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、API 网关、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6网关、专有网络VPC、云企业网、VPN网关、FPGA云服务器;
超级计算集群、批量计算、无影云桌面、文件存储HDFS版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服 务、运维安全中心(堡垒机)、 容器镜像服务、容器服务Ku bernetes版、弹性伸缩、弹性容器实例、弹性裸金属服务器、资源编排;
云原生数据仓库Analyti cDB PostgreSQL版、图数据库、云原生内存数据库Tair、云 数据库Redis 版、云原生关系型数据库PolarDB、云数据库专属集群、云数据库MySQL版、云原生数据仓库AnalyticD B MySQL版、云原生分布式数据库PolarDB-X、云数据库 ClickHouse、云原生多模数据库L indorm、云数据库Postgr eSQL版、云数据库SQL Server 版、云数据库MongoDB版、云数据库HBase版;
云服务器EC S、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理。
影响服务之多,涉及范围之大,已经刷新阿里云史上最大事故!阿里系的产品影响面这么广,其他互联网大小厂不知道都遭受什么大影响。
在阿里云最近的大规模服务中断事件中,我们见证了技术不稳定性的直接后果。从饿了么无法下单到超市结账系统瘫痪,影响之广泛令人震惊。这不仅是技术故障的问题,更是阿里云管理策略和技术投入的问题。长期以来,人员流动和技术疏忽导致了系统的脆弱性,这次事故是必然的结果。
难以置信的是,阿里云作为技术巨头,其技术水平如今竟然饱受质疑。不仅如此,此次故障也暴露了许多互联网公司在研发资源上的短视和节约。他们忽视了一个基本事实:在技术稳定性面前,任何节约都是短视的。只有投入足够的资源和精力,才能确保系统的稳定和可靠。
作为行业的一部分,我们必须吸取这次事件的教训。我们需要重视技术研发,保持团队的稳定,不断追求技术革新。只有这样,我们才能避免未来出现类似的灾难,确保我们的服务稳定可靠,满足用户的需求。这不仅是对我们自身的要求,更是对社会的责任。