京东抢购服务高并发实践

开发 开发工具
限时抢购又称闪购,英文Flash sale,起源于法国网站Vente Privée。

服务介绍

限时抢购又称闪购,英文Flash sale,起源于法国网站Vente Privée。闪购模式即是以互联网为媒介的B2C电子零售交易活动,以限时特卖的形式,定期定时推出国际知名品牌的商品,一般以原价1-5折的价格供专属会员限时抢购,每次特卖时间持续5-10天不等,先到先买,限时限量,售完即止。顾客在指定时间内(一般为20分钟)必须付款,否则商品会重新放到待销售商品的行列里。

模式特征:

品牌丰富 —— 推出国内外一二线名牌商品,供消费者购买选择;

时间短暂 —— 每个品牌推出时间短暂,一般为5—10天,先到先买,限量售卖,售完即止;

折扣超低 —— 以商品原价1—5折的价格销售,折扣力度大。

摘自【百度百科】,通过这段简介相信对限时抢购有了一定的了解,我们内部称之为抢购系统。

对于抢购系统来说,首先要有可抢购的活动,而且这些活动具有促销性质,比如直降500元。其次要求可抢购的活动类目丰富,用户才有充分的选择性。618(6.1-6.20)期间增量促销活动量非常多,可能某个活动力度特别大,大多用户都在抢,必然对系统是一个考验。这样抢购系统具有秒杀特性,并发访问量高,同时用户也可选购多个限时抢商品,与普通商品一起进购物车结算。这种大型活动的负载可能是平时的几十倍,所以通过增加硬件、优化瓶颈代码等手段是很难达到目标的,所以抢购系统得专门设计。

服务主要功能

创建促销服务:采销创建促销后,促销管理系统审核通过后,会调用抢购系统创建促销;

抢服务:为符合条件的订单操作剩余数,主要是扣减剩余数;

针对哪些SKU

目前主要为单品促销,直降或者一口价,比如:

主要渠道

移动APP、微信、手Q和主站

限购类型

限数量、限ip、限pin和限制ip与pin

系统设计要点

如何实现实时库存?

这里说的库存不是真正意义上的库存,其实是该促销可以抢购的数量,真正的库存在基础库存服务。用户点击『提交订单』按钮后,在抢购系统中获取了资格后才去基础库存服务中扣减真正的库存;而抢购系统控制的就是资格/剩余数。传统方案利用数据库行锁,但是在促销高峰数据库压力过大导致服务不可用,目前采用redis集群(16分片)缓存促销信息,例如促销id、促销剩余数、抢次数等,抢的过程中按照促销id散列到对应分片,实时扣减剩余数。当剩余数为0或促销删除,价格恢复原价。

如何设计抢购redis数据结构?

采销人员发布促销后,在抢购redis中生成一笔记录,给抢服务提供基本信息。每一个促销对应一个促销id,促销信息是Hashes结构。

例如促销A,对应的类型为单品促销,我们暂且认为类型值为1,对应redis中的key为 C_A_1,数据结构内容类似于如下:

  1. o: 100 // 原始数量  
  2. b: 99 // 可抢购数量,假如抢购了一个剩下了99  
  3. c: 1 // 抢购次数记录,用来限流,后面会介绍到 

如何保证不超卖?

因为扣减资格是一组操作,我们利用EVAL操作redis剩余数实现原子化操作,伪代码如下:

  1. local key = KEYS[1] 
  2. local tag  = "b" 
  3. local num   = tonumber(ARGV[1]); 
  4. local lastNum = redis.call('HINCRBY',key,tag,-num); 
  5. if业务性判断ortonumber(lastNum) == 0then 
  6.    return lastNum 
  7. end 

如上代码会返回剩余数,如果小于等于0了,则没有库存了。

如何提高吞吐量?

减少网络交互(一次抢数据通过 EVALSHA 一次性提交给redis集群);数据库操作异步化(使用JMQ异步记录日志)。

如何保证可用性?

采用JSF(京东内部SOA框架)对外开放服务(抢服务和发布促销服务),可降级为系统自身webservice服务;

抢购系统主要依赖于redis集群,redis采用一主三从集群方案,部署在两个机房,每个集群16个分片,每两分片共用一台物理机,可通过配置中心切换主从;

如果Redis挂掉了,如何恢复呢?通过汇总MySQL中的抢购和取消流水日志,并恢复Redis的抢购数量。

系统架构

这里主要涉及抢服务架构剖析,因为它具有典型的高并发特性,下面是基本架构概图:

注:此处的库存是可抢购数量设置,或者叫做资格/剩余数,并非真正的实际库存。

抢服务流程

Redis使用单个Lua解释器去运行所有脚本,并且Redis 也保证脚本会以原子性(atomic)的方式执行:当某个脚本正在运行的时候,不会有其他脚本或Redis命令被执行。这种特性很好的解决了抢服务流程中并发带来的问题。

REDIS+LUA抢购子流程:

此流程通过lua Script脚本实现,我们暂时命名为q.lua(主要功能限流和扣减促销活动剩余数)。这样把抢购流程与Script脚本结合,一次性提交给Redis减少网络交互,使得性能大大提升。

q.lua伪代码:

  1. --[[ 
  2. --!@brief 促销Id下限流:可以防止某个促销过热导致服务不可以用 
  3. --]] 
  4. local function limited() 
  5.     -- todo: 实现 
  6. end 
  7. --[[ 
  8. --!@brief 限制逻辑(ip和pin):比如有的促销是限制ip,这里校验ip是否存在,如果为限ip类型抢购活动,存在抛出异常告知ip已经存在不能抢购 
  9. --]] 
  10. local function check_ip_pin() 
  11.     -- todo: 实现 
  12. end 
  13. --[[ 
  14. --!@brief 记录订单号:主要目的实现抢方法幂等性,调用方网络超时可以重复调用,存在订单号直接返回抢购成功,不至于超卖 
  15. --]] 
  16. local function record_order_id() 
  17.     -- todo: 实现 
  18. end 
  19. --[[ 
  20. --!@brief 扣减剩余数 
  21. --]] 
  22. local function scalebuy() 
  23.     -- 
  24.     local lastNum = redis.call('HINCRBY',key,tag,-num); 
  25.     -- 
  26. end 
  27.   
  28. -- 调用顺序不可调整 
  29. -- 1 限流 
  30. local status,msg = limited() 
  31. if status == 0then 
  32.     return msg 
  33. end 
  34. -- 2 校验 
  35. status,msg = check_ip_pin() 
  36. if status == 0 then 
  37.     return msg 
  38. end 
  39. -- 3 记录订单 
  40. status,msg = record_order_id() 
  41. if status == 0 then 
  42.     return msg 
  43. end 
  44. -- 4 扣减剩余数 
  45. status,msg = scalebuy() 
  46. if status == 0 then 
  47.     return msg 
  48. end 
  49. -- 5 返回成功标示 
  50. return 1 

子流程具体如下:

1、解析请求参数,根据促销Id按照Jedis中MurmurHash算法获取分片,然后按照分片包装Pipeline批量发送请求参数argList;

2、获取系统初始化时SCRIPT LOAD加载q.lua返回的串shaValue;

3、执行EVALSHA,伪代码如下:

  1. // 其他操作 
  2. Pipeline p; 
  3. // 初始化p 
  4. p.evalsha(shaValue,keyList, argList); 
  5. // 其他操作 

4、处理返回结果,只要有一个分片失败,本次抢购就失败。

补充:详细Script操作可以参考Jedis中 ScriptingCommandsTest。

JMQ发送子流程:

执行REDIS+LUA抢购子流程成功仅仅代表着操作redis成功,发送jmq(京东mq基础服务)成功(后端异步将实时库存更新到MySQL)才算一笔抢购成功,否则算抢购失败。这么设计的原因主要是保证抢购redis和mysql记录最终一致,发送失败需要回滚REDIS+LUA抢购子流程(恢复Redis的库存和抢购资格)。当然要考虑降级,jmq不可用时,直接切到jsf服务模拟jmq,也就是直接写MySQL库,前提是限流次数调小,否则数据库有压力过大的风险。这样虽然用户体验下降了,但是服务依然可用。开关都在配置中心操作,一分钟内生效。

资格回滚子流程:

发送JMQ失败必须回滚,否则就出现了超卖现象,具体流程同REDIS+LUA抢购子流程类似,是它的逆向流程,只不过运行脚本不同罢了。

限流处理

方法级限流,限流阈值通过配置中心配置,一分钟生效,伪代码如下:

  1. private static AtomicInteger atomic = new AtomicInteger(0); 
  2. public void test() { 
  3.     try { 
  4.          // 限流 
  5.         int limitNum = XXX.getLimitNum(); 
  6.         int nowConcurrent = atomic.incrementAndGet(); 
  7.         if(nowConcurrent > limitNum) { 
  8.             // 异常处理 
  9.         }   
  10.         // 正常业务逻辑 
  11.     } catch(Exception e) { 
  12.         // 异常处理 
  13.     } finally { 
  14.         atomic.decrementAndGet(); 
  15.     } 

q.lua中促销级别的限流,主要利用C_A_1中c的抢次数和阈值比对。比如促销A,60秒内只能抢60000次,超过阈值60000该促销就会抢购失败。

到此抢购系统的核心逻辑就介绍完了,这里边还有一些细节问题需要大家在设计时思考,如限购(如每个人限购2个)、真实库存不足取消、用户取消订单归还资格、Redis挂了恢复数据、停促销(时间过期停、库存不足停)等等。

作者:张子良,京东高级开发工程师,在京东负责抢购后端服务系统架构和开发工作。

【本文来自51CTO专栏作者张开涛的微信公众号(开涛的博客),公众号id: kaitao-1234567】

 

戳这里,看该作者更多好文

责任编辑:武晓燕 来源: 开涛的博客
相关推荐

2022-03-18 09:11:56

高并发抢购系统架构

2019-03-18 05:02:30

高并发京东架构

2021-10-28 09:36:12

高并发数据实践

2022-03-26 08:47:57

高并发架构设计缓存击穿

2017-12-28 09:41:29

微服务网关容错

2019-12-24 09:30:59

苏宁高可用高并发

2018-02-05 09:30:23

高性能高并发服务

2020-07-29 07:28:14

分布式限流系统

2016-11-28 09:58:53

京东服务闭环实践

2012-10-23 18:54:39

索尼SW125投影机

2020-10-14 15:53:45

秒杀秒杀系统流量

2018-09-12 10:21:12

价格保护高并缓存

2022-05-17 11:46:48

高并发服务数据库

2018-05-19 18:24:02

WOT2018微服务容器

2015-06-23 11:20:12

京东618

2022-10-28 17:35:57

架构网络拓扑

2021-05-13 21:58:00

高并发应用Asyncio

2022-10-24 00:04:57

飞天茅台架构抢购

2019-06-28 10:55:04

预热高并发并发高

2018-02-27 14:30:17

点赞
收藏

51CTO技术栈公众号