5月12日,Salesforce遭遇电力故障导致宕机;7月22日,支付宝华南机房故障;8月4日,微信8天内3度发生故障。业务的不连续性会导致多大的损失?据IBM的数据显示,业务中断小于20分钟,损失金额大约是100万美元,业务大于7小时,损失金额大约是1420万美元,其中还不包括品牌的影响。据不完全统计,只有6%的公司可以在数据丢失后生存下来、43%的公司会彻底关门、51%的公司会在两年内消失。因此,解决业务的不连续性刻不容缓。
8月20日,由英方股份主办的“跨越不连续性”主题活动在深圳软件产业基地深圳湾论坛举办,活动邀请了华为灾备技术产业联盟副秘书长周锦才、“虚拟人”创始人吴秋林、英方股份PR总监程权、云之讯运维总监夏伟,从概念、技术、行业相关政策、具体实践等多个角度针对业务连续性话题与现场观众进行了分享与交流。
图1 云之讯运维总监—夏伟
业务连续性的前世今生
自从17世纪以来,“一切自然过程都是连续的”这条原理,似乎被认为是天经地义的。莱布尼兹和牛顿创立的无限小数量的演算,微积分学的基本精神正体现了这一点。在19世界末20世纪初,这一原理被打破,量子理论告诉我们:世界是不连续性的!因此,业务必然也会有不连续的现象,大量案例提醒我们必须确保业务运行的连续性,否则将会导致巨大的损失。
那么,什么是业务连续性呢(Business Continuity)?它是在中断事件发生后,组织在预先确定的接受水平上连续交付产品或提供服务的能力。它明确一个机构的关键职能以及可能对这些职能构成的威胁,并据此采取相应的技术手段,制定计划和流程,确保这些关键职能在任何环境下都能持续发挥作用。
业务连续性针对的事件场景包括三类:一般故障(Outage)、紧急事件(Emergency)和灾难事件(Disaster)。实现业务连续性所需的IT措施包含三个方面:业务状态数据的备份和复制、业务处理能力的冗余和切换、外部接口冗余和切换。
实现业务连续性的技术手段包含高可用性和灾难恢复两种。高可用性指的是通过技术手段,尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。高可用技术通过对网卡、CPU、内存、系统软件设置不同的可用性检测点,在这些节点发生故障时实现冗余切换,持续提供服务。而灾难恢复是在信息服务终端后,调动资源,在异地重建信息技术服务平台(包括基础架构、通信、系统、应用及数据)。
云之讯如何保障业务连续性
云之讯是一个全通信能力开放平台,通过构建一张开放式的融合通信网络,把融合通信的能力(短信、互联网音视频、IM、隐号通话、多方通话及呼叫中心等)通过简单可靠的通信接口调用,为企业和开发者提供云通信服务,广泛应用于互联网企业、SAAS企业及虚拟运营商。
图2 云之讯平台产品
云之讯运维总监夏伟以隐号方案为例,向大家分享了云之讯业务连续性的技术。隐号产品具有高可用、高并发、稳定性、区域性等要求。优化前的产品架构具有质量要求极高、线路调度要求不高、区域性明显等特点。同时,具有两大风险:第一,跨越多个IDC网络,单一IDC故障都会影响业务;第二,长途传输较多,受南北互通影响大。
图3 优化前的隐号产品架构
为了解决骨干网络异常、机房被攻击、南北互通、资源过于分散、产品不稳定、公网异常丢包延时等问题,云之讯采用阿里云的多节点(包括API组件、缓存集群、统计监控平台),优化隐号产品架构。云之讯同时使用公有云和其他服务商的技术(比如阿里云),将数据量分散,降低业务中断带来的损失。
图4 优化后的隐号产品架构
随着电子政务、物联网、三网合一、云计算、安防监控、数字化医院等趋势在国民经济各领域应用的日益广发,数据量呈爆炸式增长,而随着数据集中、数据挖掘、商业智能、协同作业等技术的成熟,数据价值呈指数上升,数据一旦中断,造成的损失是无法挽回的。作为一家PaaS平台服务提供商,云之讯为应对业务不连续带来的灾难,不断提高自己的PaaS层灾备能力。云之讯的PaaS层的灾备主要是通过对用户服务器进行多机房部署和异地容灾,进而在基础设施上保障了高可用性,使灾难事件给企业带来的损失最小化。