淘宝崩，淘宝崩，淘宝崩完12306崩......-51CTO.COM

【51CTO.com原创稿件】3月20日下午，阿里系多款产品短时无法正常运作，大概从下午 15 点 46 左右开始，包括淘宝、天猫、淘宝直播、闲鱼等 App 均出现了“重新加载”字样，直到 15 点 56 分左右，页面逐步恢复正常。

接着，有网友反映铁路订票系统 12306 网站出现崩溃。记者从铁路客服中心了解到，21 日确收到旅客反映手机 App 无法查询余票信息，目前已上报后台部门核查，正在逐步恢复中，建议旅客过半小时后再试。

前天下午#淘宝崩了#也上了热搜，要知道如今阿里系产品对多少人来说都是不可或缺的，这一崩溃，你说广大网友能不激动么!

于是有网友联想到前日杭州上空的一声巨响，难道是这一声把阿里震崩了，对此浙江省地震局表示，这个锅咱不背!

也有不想还花呗的网友：

直至 20 日下午 16:23 分，微博@淘宝、@飞猪发布微博表示：修好了。知情人士称，此次问题，影响阿里系 10 多个产品线，不过具体原因并没有说明!

整体来说，此次崩溃，阿里修复效率非常快，总的时间加起来不到半小时!

有网友戏 3 月为“宕机月”。今天，一起来谈谈宕机背后的云安全问题。

经过十余年的发展，中国的云计算市场已经初具规模，各种新技术、新应用、新场景、新架构成为公有云/私有云平台市场能够保持快速、持续增长的助推器。

目前越来越多的企业将其业务系统、数据部署在云上，云服务器一旦宕机，企业业务必然会受波及。因而安全被各企业视为头等要务。

理论上不存在“永不宕机”的云

事实上，多家云服务提供商也都出现过宕机事件。仅 2018 年一年，全球主流云计算厂商曾发生数十起宕机事故。虽然宕机的原因不尽相同，但宕机却时有发生。

据悉，云服务产生故障的原因一般分为两类：

中国信息通信研究院云计算与大数据研究所所长何宝宏也表示，目前发生的宕机事故约 80% 是因为技术人员操作不规范或误操作导致的，相比于“误操作”，云平台故障的技术问题仅占 20%。

云服务提供商的云平台可提供服务器快照、数据库备份和日志备份等诸多功能，这些功能为企业带来了便利，远比企业自己构建类似的服务简单好用，但是涉及到权限问题就值得思考了。

使用云平台上的账户权限管理时，严格地避免无意或者恶意的“误操作”很重要，因为如果云服务管理权限每个人都有，那么很容易出现“误操作”的问题，所以要严格控制账户管理的权限。

无论是传统的环境，还是云环境，都不能做到绝对的“持续可用”。何宝宏对此表示，理论上任何技术或者服务出现中断都是不可避免的，仅是概率大小的问题。

虽然所有的云服务都不是绝对安全的，没有办法 100% 保证正常的系统。但是大部分情况下，云环境的可用性和可靠性都比传统环境高，这主要是因为云平台的运维更加专业。可见，尽管云会发生故障，但云仍然是值得信任的。

服务可靠性、业务连续性需不断加强

未来云服务或将像水电煤一样成为基础设施。停电 1 分钟，对于一般家庭而言，也许只意味着少看一会儿电视、少吹一会儿空调，但对于企业而言，或许意味着一条生产线的瘫痪、整个生产流程的推倒重来。

同理，云服务器宕机 1 分钟，对于云服务提供商来说是一次运维故障，但对企业而言，或许意味着客户的流失甚至破产，特别是不可逆的故障不是云服务提供商赔偿就能挽回的。

对于频繁的宕机事件，作为企业我们能做的只有为自己数据做好备份，毕竟天有不测风云，有“备”才能无患。

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】