支撑百万级流量并发,揭秘快手+阿里云混合云弹性调度系统背后的技术实践

云计算
快手电商在2023年某大V大促直播活动中,首次采用混合云弹性调度架构,应对大V百万级别秒杀峰值的计算资源需求。此次为【快手容器云 + 阿里云】的深度技术结合,在【快手电商直播秒杀】场景下的大规模首次应用。既解决了大V活动中短时间内快速弹性扩容、峰值结束后快速缩容的问题,又提高了系统应对峰值的快速伸缩、系统稳定性、高并发诉求,并能大大减少资源的持有成本。​

快手APP是一款用户量极大的短视频应用。目前平均日活跃用户达3.76亿,平均月活跃用户达6.73亿,累计互关用户对数超过311亿对,日均互动(包括点赞、评论和转发等)总量达80亿次。为了支撑如此庞大的用户规模、业务量级,快手建立了多个庞大的数据中心,海量的服务器集群来承载每日数亿用户的访问。

快手技术面临的挑战,除了用户规模庞大带来的分布式架构的复杂性,更大的挑战来自于直播间秒杀场景,瞬时海量用户的抢购并发极高。直播是快手技术挑战最大的场景,而快手直播电商的秒杀活动为之最,具有并发量大、要求极高的特点。在秒杀活动期间,大量用户会同时访问快手的电商平台,对系统的并发处理能力提出了极高的要求。对于上亿粉丝的大V直播间秒杀期间,单件秒杀商品可能达到数百万件,单品最高秒杀请求达每秒百万次,下单交易链路系统同时支撑每秒百万次的并发。从下图可以看出,大V直播期间的秒杀尖峰与日常相比,提交订单接口的峰值流量是日常的90多倍。

为了应对并发量极高的秒杀场景,快手采用了如下图所示的分布式系统架构、负载均衡技术、缓存技术、消息队列、服务限流排队、热点缓存优化等技术手段,以提高系统的并发处理能力和扩展性;在数据中心能力上,提高服务器的处理能力和可靠性,以确保系统的稳定性和可用性。此外,还加强对系统的监控和运维,及时发现和解决问题,确保系统的高可用性。同时,也不断优化系统的性能,提升用户体验和满意度。

为了解决大促秒杀尖峰时刻的资源不足问题,快手建立了弹性容器云能力。快手的弹性容器云平台基于Docker建设的平台,它能够根据业务需求自动扩展和收缩容器实例,以满足高并发和大流量场景下的业务需求。通过使用弹性容器云,快手可以在大促秒杀期间快速扩展容器实例,以应对突然增加的流量和请求。当流量和请求减少时,弹性容器云又可以自动收缩容器实例,以节省资源成本。这种弹性伸缩能力可以帮助快手更好地应对业务的突发变化,提高系统的可靠性和可用性。弹性容器云为快手解决大促秒杀期间的弹性伸缩问题提供了有力的支持。

图:全量使用自建IDC资源的电商业务架构

为了应对峰值,快手容器云平台构建了快手IDC+阿里云的混合云架构通过专线打通双方网络互联互通,利用阿里云丰富的产品能力和弹性优势进行业务“削峰填谷”阿里云计算资源具备快手弹性和库存优势,为快手容器的弹性和扩展提供了强有力的支持,从而更好地应对峰值,满足高并发和大流量场景下的业务需求。

在扩展公有云资源的过程中,会基于时延和容灾域将相应公有云上不同可用区资源合入到快手内部不同可用区内,并优先将非高频访问缓存类的服务扩容到公有云机房,以优化业务性能。当发生单可用区的故障时,可通过可用区级的快速切流来完成业务恢复。同时为了加速业务的启动耗时,在公有云机房建立了镜像仓库缓存节点,结合p2p镜像下载机制,显著加速公有云上的容器实例的启动速度。

图:启用弹性混合云资源的电商业务架构

其中的混合云调度平台,通过打通预算管理、容器资源运营及资源交付等多平台,实现了混合云弹性资源的快速交付,满足业务突发流量的算力资源诉求。整体过程中实现了如下平台能力:

  • 弹性云服务器资源快速纳入容器集群:可实现10万核计算资源30分钟内接入快手容器云并达到业务可用状态;
  • 快手自建机房与公有云机房资源通过容器集群统一纳管:提供一致化的算力交付,业务侧不感知底层资源差异;
  • 智能化的资源调度策略:平台统一托管资源分配策略,突发流量所需要的业务扩容优先使用云上资源,活动结束缩容优先退还云上资源并自动下线主机;

图:混合云弹性资源交付流程示意图

据了解,阿里云已经连续十来年保障了天猫双11的平稳运行,扛住了零点过后的流量峰值,阿里巴巴业务100%运行在阿里云上。那么,快手容器云+阿里云的组合模式是否能经受住另一个大促考验呢?

在2023年某大V大促活动中,快手电商为了应对大V秒杀峰值的资源计算需求,快手的弹性容器云快速利用以上打通阿里云的系统,进行了峰值资源的扩容,扩充总量级达到数万核CPU,将下单的峰值吞吐能力提高了1倍,秒杀期间实际峰值流量达到每秒百万次请求,系统各项指标稳定,系统100%可用,阿里云顺利通过了快手大促考验,可以平稳支撑快手顶流大V大促直播。下图中峰值的请求,即为通过阿里云弹性资源应对的峰值计算资源,解决了短时间内快速弹性扩容、峰值结束后快速缩容的问题,既提高了系统应对峰值的快速伸缩、系统稳定性、高并发诉求,又能大大减少资源的持有成本。

通过【快手容器云 + 阿里云】的技术深度结合,在【快手电商直播秒杀】场景下的大规模首次应用,也论证和验证了快手弹性容器云能力在应对高峰弹性上的实际效果,也为快手未来借助阿里云解决资源成本优势、快速扩缩容提供了坚实的基础,为快手引领直播电商技术的趋势提供了有力的支持。

快手在直播电商技术方面的不断创新和引领,为行业的发展和变革也带来了重要的意义。快手电商直播,应用弹性容器云+阿里云的混合云模式应对秒杀,不仅对于快手自身具有重要意义,也为整个行业带来了积极的影响。它引领了直播电商技术的发展趋势,为其他企业提供了借鉴和启示。未来,随着技术的不断进步,快手将继续发挥技术优势,为用户带来更好的购物体验。

责任编辑:庞桂玉
相关推荐

2011-08-23 17:12:22

MySQL支撑百万级流

2021-04-12 10:07:06

云计算边缘云阿里云

2019-01-08 09:34:05

苏宁金融红包流量

2021-05-26 14:43:50

技术

2019-09-23 08:46:04

零拷贝 CPU内存

2011-11-29 09:34:51

弹性云计算云计算

2018-08-22 17:06:24

阿里云混合云灾备

2022-03-15 10:20:00

云原生系统实践

2020-09-28 15:59:41

云计算混合云IT

2013-07-09 10:38:21

腾讯云陈磊云服务

2019-12-31 10:33:57

Netty高性能内存

2017-08-25 18:17:48

互联网

2016-06-21 16:25:26

京东京东云云计算

2012-11-19 10:35:18

阿里云云计算

2016-08-16 00:40:37

IT支撑系统云计算资源池

2013-09-22 09:43:57

混合云灾难恢复

2013-09-18 08:27:52

混合云混合云灾难恢复

2015-01-19 09:50:12

阿里云12306云计算

2016-07-07 15:38:07

京东
点赞
收藏

51CTO技术栈公众号