转转一体化推送平台的实践-51CTO.COM

1 背景

转转不同业务会根据各自业务特点，经常性地向不同用户推送各种消息。例如：

每天向部分图书新用户发放红包，并推送站内卡片消息，以刺激新客增长；
每周向部分奢侈品用户发送站内系统消息，以召回老用户；
在世界图书日推送站内消息，同时发布图书微信公众号消息；
在指定日期，向游戏线索商家推送push，并发送短信提醒等等。

图片

随着各业务的不断成熟，“消息推送”类型的需求逐渐累积，我们从中总结出了如下特点：

不同业务的推送主体不同，例如：图书、游戏、奢品等。
每次推送面向的用户群不同，例如：浏览过某些页面的用户、提交过某种订单的用户、新注册的用户等。
用户数据来源不同，有些是通过执行HiveSQL生成的，有些是通过用户画像平台圈定的，有些是产品同学人工指定的Excel表格。
推送渠道多种多样，包含红包、push&IM消息、短信、公众号消息等。此外，还包含组合发送的情况，例如：先发红包再发push，站内消息和短信同时推送等。
每个推送对应各自的推送内容，包含：标题文案、落地页、图片等。同时，可能会伴随文案的动态替换。例如：点击消息，跳转至订单详情页，需要根据不同用户替换不同落地页链接。
不同推送有各自的推送频次，有些是定时周期性推送，有些是临时一次性推送。此外，周期维度各不相同，有些是每天发送，有些是指定一周中的某几天推送。
推送需求的业务目的不同，有些是为了拉新，有些是为了召回，还有些是为了提醒用户。

痛点在于，每次面对新的推送，我们都需要针对上述特点，编码一个新的推送任务，而每个任务的实现过程，都伴随着重复搬砖：

都需要增加一套推送配置，进而生成一套消息上下文；
为了保证可靠性，都需要做防重频率校验；
为了提升效率，都需要通过异步方式提升速度；
为了保证高数据量级下的系统能力，还需要同时进行速度控制。
都需要统计对成功率、触达率、打开率做统计。

上述的重复能力的实现会造成冗余代码和人力成本。此外，每个推送配置分散在各个角落，也不方便代码维护。因此，需要一个较为通用的推送平台，将这一类需求进行统一管理。

2 设计思路

整体设计思路为：将“可变的”配置化，将“不变的”系统化。

2.1 将"可变"的配置化

维护一张推送配置表，为每一个推送需求创建一条配置记录。上述背景中提到的“特点”即为“可变的”，将其抽象为配置表中的一个字段。例如：

“业务方”字段：将推送主体抽象成一个枚举类，每个业务方对应枚举类中的一个值。
“推送类型”字段：将不同推送渠道抽象成不同推送类型，该字段存储的是渠道列表，允许同一推送需求选择多个推送渠道。
各推送内容字段：标题、文案、落地页、图片、红包计划id等。此外，针对上述类似“订单详情页”的推送，需要在配置项中加入占位符，例如：不同用户根据订单id区分落地页，则需要在链接的相应位置中加入${订单id}占位符。
用户来源相关字段：若为HiveSQL生成的，则需要填写“文件id”和“API key”，以触发sql任务执行；若来自用户画像平台，则需要填写“人群id”，以从拉取圈定数据；若为人工指定，则需要上传excel文件，由系统解析。

2.2 将"不变"的系统化

将上述“重复编程”的工作内容，抽取成一套代码，沉淀为通用的系统能力。例如：

维护一张推送用户表，记录用户id、对应的配置id、推送结果、失败原因等。
将配置表中的配置项和用户表中的用户信息，根据不同推送渠道，映射成推送上下文实体。
执行推送前，进行用户维度的防重和频率校验，若系统判断重复推送，则直接将失败结果写回。
执行推送时，开启线程池异步，并限制远程服务接口调用QPS。
推送后，记录推送结果，并分批将结果回写至用户表。

整体设计

按照上述思路，将开发后的推送工具可视化之后，当新增一个推送需求时，产品同学只需在后台添加一个配置，将推送需求填充至各配置项即可。若用户来源为HiveSQL生成，研发同学只需编写SQL语句圈定用户群，添加至用户表。接下来的工作全部交给系统，即可满足新的推送需求。一方面，将研发同学从重复搬砖中解放出来，省时省力；另一方面，所有推送配置集中交给后台管理，方便维护。

3 实现细节

3.1 速度控制

异步化：由一个主线程顺序执行推送，显然效率低下。为保证推送速度，我们使用线程池开启异步推送：主线程只负责从库表读取推送数据，分批将推送任务提交至线程池任务队列。

异步推送过程

分片：当面对百万甚至千万级数据量时，推送任务集中在单节点上，一方面容易造成单机过载，另一方面容易达到性能上限。为进一步提升系统效率，并实现负载均衡，我们使用分片广播调度：将推送任务分布至集群中各机器上，分片执行。分片策略：各机器分批从用户表中读取相同数据量的用户，表主键id%机器数，若命中当前机器号，则执行推送。

分片调度

断点重试：用lastId记录上一批次推送数据的结束位置，每台机器将各自的lastId缓存至redis，用来标识执行进度。若任务异常中断，将根据lastId进行断点重试，避免全表扫描。
接口限速：消息推送依赖平台能力，因此在提升效率的同时，会在RPC接口调用处通过架构组件设置全局QPS限制。

3.2 资源分配策略

无论线程池、机器数还是配置的QPS限速为多少，单时段的推送资源都有上限。因此，在面对同一时段多个配置执行推送时，必然要解决资源分配问题。主要考虑如下几种策略：

按优先级顺序

按优先级顺序

这样分配的好处在于，策略比较简单，只需配置优先级即可解决资源分配问题。但同时会引入新的问题，例如：设置优先级时应该考虑哪些因素？当优先级相同时该如何处理等。此外，优先级低的配置可能始终没机会被执行。

按数据量大小

每个时段执行推送前，先计算当前时段各命中配置的数据量大小，按比例分配可执行的推送量。

例如：共有3个配置，总数据量分别为：40、20、20，每个时段最大推送量为：30。

时段1：命中配置为前2个，则按比例划分的数据量分别为：20、10。推送结束后，3个配置的余量分别为：20、10、20。

时段2：待推配置为3个，将余量按比例划分后的数据量为：12、6、12。推送结束后剩余：8，4，8。

时段3：将剩余数据推送完毕。

按数据量大小

按数据量分配的好处在于，可以根据推送进度，实时动态分配占比，保证每个配置都有机会推送数据，更加公平。但是策略相对复杂，每次推送前需要重新扫表计算数据量，一定程度上影响推送性能。

均匀分配

每个时段推送前，根据当前命中的配置数，均匀分配推送量。例如：共有3个配置，总数据量分别为：40、20、20，每个时段最大推送量为：30。

时段1：待推配置为前2个，则均匀分配的数据量分别为：15、15。推送结束后，3个配置的余量分别为：25、5、20。

时段2：待推配置为3个，将余量均分30后的推送量为：10、5、10。推送结束后，第2个配置的5条数据全部推送完毕，其他配置的余量分别为：20、10。

时段3：剩余配置均分30后的推送量：15，10。剩余配置1的5条数据。

时段4：将配置1的数据全部推送。

均匀分配

综上，对比优先级策略，均匀分配可以保证公平性，每个配置都有机会执行一定数据量的推送，此外，均匀分配有一个默认优先级：数据量越小越先推送完成，符合业务场景要求；相比按数据量策略推送，均匀分配不需要二次读表计算数据量，效率更高。因此，我们最终选择均匀分配策略。

3.3 问题解决

现象

系统上线后，面对千万级的推送量，持续Full GC。

异常监控

原因

主线程不断读取库表，获取用户信息，分批提交至线程池执行推送。由于执行推送的耗时大于数据读取，导致线程池任务队列累积，进而造成内存积压。

改进

改用生产者-消费者模式

图片

维护一个固定长度的阻塞队列，队列不空时，由消费者从队列中取数并执行推送；队列不满时，由生产者扫表取数并放入队列。当生产者速度过快，即队满时，生产者线程阻塞，等待消费者推送数据完成后，队列不满时，再次唤醒。

效果

Full GC问题不复存在。
老年代使用明显下降。

4 上线效果

目前，已将上述功能可视化至业务后台，开放给多业务方。

图片

至此，每产生一个推送需求，产品同学只需在后台新建一条推送配置，并根据需要填写各配置项，即可完成推送。

图片

上线至今，已支持转转多业务方日常及活动推送，日均达百万级推送量，最高可达两千万推送量。

5 总结

本文介绍了转转一体化推送平台的实现，现已成为多业务日常推送的通用工具。未来会在诸如推送目标转化率、推送结果定向通知等方面继续完善和丰富系统能力。

关于作者

陈曦，转转订单业务研发工程师。