在“上云”已经成为共识之后,如何保障云上企业业务的连续性和可用性,成为业界关注的一个重要话题。
根据明尼苏达大学的研究,在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%的的企业在两到三年后退出市场,而随着企业对数据处理依赖程度的递增,该比例还有逐渐上升的趋势。
IDC在全球范围内,针对多个行业的中小型企业(员工数小于1000名)的调研显示,近80%的公司预计每小时的停机成本至少在2万美元以上,而超过20%的企业估算其每小时的停机成本至少为10万美元。
目前,不管是对于云计算厂商,还是对于上云企业,高可用都已经成为业务架构设计中必须考虑的因素之一,它通常是指通过技术手段,尽可能缩短因日常维护操作(计划)和突发的故障(非计划)所导致的停机时间,以提高业务的可用性。
以国内领先的云计算厂商腾讯云为例,腾讯云目前在高可用性这块做了很多的努力,无论是技术架构还是落地实践都走在国内公有云厂商的前列。架构上,腾讯云高可用包括客户端接入、外网接入、云内网络、云上服务器、中间件、数据层等多个层面。
详细来说,在客户端引入腾讯云全球领先的接入层技术(云解析、httpdns和IP直连), 通过腾讯云智能调度系统,可以保证任意节点发生故障均能无缝切换到其他节点;针对外网接入,高达40+ BGP线路和跨区域容灾能力,能够及时对故障快速调度切换,防止骨干网故障;云内网络通过跨区域数据中心互联互通,形成双环路保护。
最核心的云上服务器,腾讯云目前支持宕机迁移无感知,同时,云硬盘三副本存储策略,可以消除单点故障;腾讯云中间件能够实现跨区域集群,在保障数据正确的同时,减少业务感知;腾讯云数据库支持实时热备,读写分离,实现了同城多可用区、异地灾备和两地三中心,满足跨地域容灾金融级需求。
除了上述六层高可用方案保证之外,在最关键以及最主要的基础设施层,腾讯云也具备高可用方案。比如,依托遍布全球五大洲25个地区的53个可用区,腾讯云为国内外用户提供强有力的技术支持,助力业务飞速拓展。另外,部署全球的超1300+个加速节点,超过100T的带宽储备,能够将服务内容分发到全网加速节点,支持千万用户并发,有效解决跨运营商、跨地域高延迟访问等问题。
对于越来越多的上云企业而言,除了选择有高可用架构的云服务商之外,更要搭建符合自身业务特色的高可用架构,才是业务稳定性的重要保证。
比如,作为目前国民级短视频社区快手。短视频和直播业务是快手最重要的业务,其中访问量,突发,高性能处理等并发要求高,平台服一旦故障,将会对其产生巨大的损失。
为了确保平台服的高可用,腾讯云从接入层、逻辑层、以及数据层帮助快手建设高可用解决方案。在接入层,通过专线链接各大机房,利用腾讯云的安全产品,保障全站的网络攻击;逻辑层和数据层针对核心的业务做异地多活,定期演练,以应对机房灾难性故障的快速恢复。通过多项高可用方案,腾讯云全面护航快手业务连续性和稳定性。
电商平台由于自身的业务特性,需要应对节假日等流量高峰和高并发冲击,其对高可用的需求更为强烈。在移动电商领域,每日优鲜是这个领域最典型的案例。作为致力于重构供应链,连接生鲜生产者和消费者的领导电商,每日优鲜目前在北上广深等10多个城市构筑了“城市分选中心+社区配送中心”的极速达冷链物流体系,为全国数百万客户提供会员1小时送货服务。
每日优鲜之前业务全部部署在单一云服务商之上,一旦出现网络故障,将会导致业务全部中断,没有容灾切换能力。腾讯云通过多云热备部署,DNS应急切换,保障业务连续性,实现业务容灾切换。双云之间通过专线打通,实现双线冗余,系统异常时,流量切入腾讯云,并通过技术手段实现数据一致性。
游戏场景对于高可用方案的需要则更为迫切,一款热门游戏,在极短的时间内需要应对10倍以及百倍的用户量增长。完善的高可用解决方案对于保障游戏的顺利运营,起到极为重要的作用。作为国内知名的游戏平台,乐逗游戏承载数款热门网络游戏,其最重要的业务模块为游戏平台服务系统,为了确保该系统的高可用,腾讯云为乐逗游戏平台提供了一整套异地容灾高可用解决方案。
为了实现游戏平台服的跨城异地容灾,规避机房故障等灾难性故障对业务造成的影响,腾讯云通过负载均衡接入,并将BGP高防包绑定负载均衡做抵御网络攻击;同时,为应对业务用户激增方便扩展,系统接入自动扩容,根据业务流量动态扩缩容;另外,在关键的数据层采用数据库读写分离架构和主备容灾架构做好高可用。
随着越来越多的企业将业务部署在云上,故障已经成为企业不得不重点关注的重点,采用高可用架构和方案也成为企业运维人员必须思考的话题,除此之外,作为企业技术人员,如何保证企业业务和服务的稳定性,值得业界一起探索。