【51CTO.com原创稿件】3月20日下午,阿里系多款产品短时无法正常运作,大概从下午 15 点 46 左右开始,包括淘宝、天猫、淘宝直播、闲鱼等 App 均出现了“重新加载”字样,直到 15 点 56 分左右,页面逐步恢复正常。
接着,有网友反映铁路订票系统 12306 网站出现崩溃。记者从铁路客服中心了解到,21 日确收到旅客反映手机 App 无法查询余票信息,目前已上报后台部门核查,正在逐步恢复中,建议旅客过半小时后再试。
前天下午#淘宝崩了#也上了热搜,要知道如今阿里系产品对多少人来说都是不可或缺的,这一崩溃,你说广大网友能不激动么!
于是有网友联想到前日杭州上空的一声巨响,难道是这一声把阿里震崩了,对此浙江省地震局表示,这个锅咱不背!
也有不想还花呗的网友:
直至 20 日下午 16:23 分,微博@淘宝、@飞猪 发布微博表示:修好了。知情人士称,此次问题,影响阿里系 10 多个产品线,不过具体原因并没有说明!
整体来说,此次崩溃,阿里修复效率非常快,总的时间加起来不到半小时!
有网友戏 3 月为“宕机月”。今天,一起来谈谈宕机背后的云安全问题。
经过十余年的发展,中国的云计算市场已经初具规模,各种新技术、新应用、新场景、新架构成为公有云/私有云平台市场能够保持快速、持续增长的助推器。
目前越来越多的企业将其业务系统、数据部署在云上,云服务器一旦宕机,企业业务必然会受波及。因而安全被各企业视为头等要务。
理论上不存在“永不宕机”的云
事实上,多家云服务提供商也都出现过宕机事件。仅 2018 年一年,全球主流云计算厂商曾发生数十起宕机事故。虽然宕机的原因不尽相同,但宕机却时有发生。
据悉,云服务产生故障的原因一般分为两类:
- 因为误操作导致的问题(其实用不用云服务都有这个问题)。
- 云平台故障导致的问题。
中国信息通信研究院云计算与大数据研究所所长何宝宏也表示,目前发生的宕机事故约 80% 是因为技术人员操作不规范或误操作导致的,相比于“误操作”,云平台故障的技术问题仅占 20%。
云服务提供商的云平台可提供服务器快照、数据库备份和日志备份等诸多功能,这些功能为企业带来了便利,远比企业自己构建类似的服务简单好用,但是涉及到权限问题就值得思考了。
使用云平台上的账户权限管理时,严格地避免无意或者恶意的“误操作”很重要,因为如果云服务管理权限每个人都有,那么很容易出现“误操作”的问题,所以要严格控制账户管理的权限。
无论是传统的环境,还是云环境,都不能做到绝对的“持续可用”。何宝宏对此表示,理论上任何技术或者服务出现中断都是不可避免的,仅是概率大小的问题。
虽然所有的云服务都不是绝对安全的,没有办法 100% 保证正常的系统。但是大部分情况下,云环境的可用性和可靠性都比传统环境高,这主要是因为云平台的运维更加专业。可见,尽管云会发生故障,但云仍然是值得信任的。
服务可靠性、业务连续性需不断加强
未来云服务或将像水电煤一样成为基础设施。停电 1 分钟,对于一般家庭而言,也许只意味着少看一会儿电视、少吹一会儿空调,但对于企业而言,或许意味着一条生产线的瘫痪、整个生产流程的推倒重来。
同理,云服务器宕机 1 分钟,对于云服务提供商来说是一次运维故障,但对企业而言,或许意味着客户的流失甚至破产,特别是不可逆的故障不是云服务提供商赔偿就能挽回的。
对于频繁的宕机事件,作为企业我们能做的只有为自己数据做好备份,毕竟天有不测风云,有“备”才能无患。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】