实现一个刷数任务,需要思考哪些维度?

开发 后端
如果我们是按照一个客户维度去刷数的,你要确认A​客户刷失败,是不是不能影响B​客户。这时候建议try...catch 包住可能的异常,这样即有利于分析错误原因,又可以不不因为未知异常导致刷数中断。

前言

大家好,我是田螺。

相信很多后端开发的伙伴们,都做过刷数任务了吧。今天跟大家聊聊,做好一个刷数任务,需要具备哪些后端思维。

1. 数据的备份和还原

我们做刷数任务的时候,首先要考虑的是,这些被刷的数据是否还要还原的。或者刷出问题时,需要回滚的。如果是的话,我们就要做好备份。

如果你是把数据迁移到新的表,则有可能不需要备份,这个具体问题具体分析的哈。

通常,我们在一个事务内,先备份数据,再操作刷数逻辑。

图片图片

当然,备份数据的方式有多种方式,可以数据库备份,比如搞一个备份表。或者文件系统快照等,在需要的时候,就还原数据。

2.刷数维度是什么?是否支持灰度?

我们刷数的时候,先确认下具体的业务需求和数据模型。然后需要确定刷数的维度是什么。

图片图片

  • 客户维度:比如刷数的维度可以是一个客户。刷数的时候,把这个客户的所有数据捞取出来,在一个事务内,把客户的所有数据,按照业务的规则,刷到一个表。
  • 账号维度:刷数的维度是账号,在执行刷数的时候,就是把这个账号的所有数据捞取出来,在一个事务内,把账号的所有数据,刷到另外一个表。

当然,还有其他维度,比如产品维度等等都可以,就看业务需求和你们的数据模型。

确认了刷数维度后,需要思考你的刷数是否支持灰度。比如确认客户维度刷数后,你实现的代码,是否支持灰度刷数,也就是说,是否支持先刷一部分客户,确认没问题后,再根据配置刷全量客户。

3. 并发考虑,刷数过程是否需要加锁。

比如,你要给一个客户相关的业务表刷数,需要考虑并发场景,简单点说,就是你在刷数的过程中,客户是否可能在做交易请求,这时候,是否可能产生脏数据。

一般情况下,可以考虑给客户维度加分布式锁,比如加锁的key是customerId。但是我们加锁的时候,肯定是不希望影响客户太久的,因为加锁后,整个刷数的过程中,系统是处理不了这个用户的交易请求的,也就是说影响交易了。

图片图片

所以也一般刷数任务,我们会选择在夜深人静的时候执行,这时候用户发生交易的概率很低,影响相对较小。

4. 刷数失败怎么办?是否支持重试?

我们在刷数的时候,有可能会刷失败。比如因为网络问题、或者目标表结构等等。失败后,我们有哪些措施保证呢:

图片图片

如果刷数失败的话,我们要确保数据的完整性和一致性,一般一个刷数维度,需要加事务,确保失败可以回滚,保证数据一致性。刷失败之后,首先确认分布式锁要被移除(如果有加锁的话),因为要确认即使失败后,交易也是能正常进行的。

还要考虑失败支持重试。可以自动重试或者手动重试,比如通过xxl-job定时任务捞取,继续重试。有时候,可以设置重试次数和重试间隔,确保任务在一段时间内尝试恢复。

5. 恰到好处的事务处理

我们第4小节提到,如果失败了,需要保证数据的完整性和一致性。其实,一般我们刷数,就是通过加事务处理去保证的。

事务需要加到恰到好处,比如我们不能所有的刷数业务都放到一个事务内。如果我们是按照客户维度来刷数的,我们就一个事务把一个客户所有的数据刷的逻辑放到一块,当然,有些查询是可以放到事务外处理的,一些更新或者修改、删除操作则放到事务内。

图片图片

如果你的数据是分库处理的,则有可能刷数的时候要考虑分布式事务了。

6. 性能优化,考虑多线并行执行。

如果我们的刷数任务数据量很大,执行耗时比较久的话。就建议可以多线程并行执行。

比如你是分库分表的,是有30个表,你可以A线程执行1-10的表,B线程执行11-20的表,C线程执行21-30的表。

图片图片

7. 日志记录

我们执行一个刷数任务,一定要做好日志记录。

我记得我们技术领导说过一句话,很有道理:评价你的日志是否打印得是否够好。就是你根据控制台打印出的日志,能知道你的复杂业务执行到什么流程。如果异常中断,你能根据日志快速知道什么异常,哪个业务数据有问题,那就够了。

刷数日志打印,一般包括:

  • 记录详细的刷数任务日志
  • 包括执行的步骤
  • 刷数成功与否
  • 刷数耗时等信息

8.监控告警

我们开发刷数逻辑的时候,如果某种返回不符合预期的时候,就需要告警上报监控(比如插入数据库返回跟预期插入条数不一致)。

又或者是你刷数失败,需要包这个异常日志打印出来,并且上报监控(比如普罗米修斯,和企业微信通知)。比如这块代码:

try{
    flushService.flushDataCustomerLevel(customerNo);
}catch(Exception e){
  Logger.error("flush customer data fail: {}", customerNo, e);
  prometheusMonitor.report("刷数失败",customerNo);
  notify();
  weChatWorkSend();
}

9. 数据量大的时候,最好压测

如果你刷的数据量很大的时候,最好做压测。压测通常包括模拟多种负载情况,以确保系统在不同条件下都能正常运行。

做刷数任务压测,主要考虑这几方面:

  • 数据量:使用大量数据进行测试,以确保系统在处理大规模数据时的性能。这可以包括数据量的增长、查询和写入的吞吐量等。
  • 网络延迟和吞吐量:在模拟网络延迟和限制吞吐量的情况下进行测试,以了解系统在这些条件下的表现。
  • 错误处理:引入模拟的错误场景,例如数据库连接中断、请求超时等,以验证系统对错误的处理能力。

刷数压测的好处:

图片图片

  • 性能评估:压测可以帮助评估系统在处理大量数据时的性能。通过模拟真实负载,可以更好地了解系统的响应时间、吞吐量和资源利用情况。
  • 容量规划:通过压测,可以更好地了解系统在不同负载条件下的容量需求。这有助于进行容量规划,确保系统能够应对未来的增长。
  • 发现潜在问题:压测可以帮助发现系统中可能存在的潜在问题,如内存泄漏、并发问题、资源瓶颈等。通过在模拟环境中发现并解决这些问题,可以避免它们在生产环境中引起严重后果。
  • 验证容错能力:压测可以测试系统在出现错误、超时、网络故障等异常条件下的容错能力。这有助于确保系统能够适应不可预测的情况。
  • 性能优化:压测结果提供了性能瓶颈的线索,帮助团队进行性能优化。通过分析性能数据,可以识别需要改进的部分并优化系统。
  • 规遇风险:通过压测,可以更早地发现潜在的性能问题和瓶颈,有助于规遇系统上线后可能面临的风险。

10. 实战压轴汇总:做一个刷数任务,如何更好保护你的系统

10.1 设置个配置时间,可以控制任务跑多长时间后终止。

有些时候,我们如果担心刷数任务跑太久,可能会影响交易,这时候我们可以搞个配置变量,比如apollo配置变量,控制刷数多长时间后,可以停止。

10.2 循环分页查询,设置最大次数告警监控

我们做刷数任务的时候,经常是分页循环扫描某个客户/用户表,然后一批一批出来执行刷数逻辑。比如伪代码像这样:

long minId
 while(true){
   List<CustomerDo> customerList =  customer.pageQueryAscID(pageSize,minId);
   flushCustomerData(customerList);
   if(customerList.size()< pageSize){
     break;
   }
   minId = customerList.get(customerList.size()-1).getId();
 }

这块代码,其实没啥问题。有些时候,我们可能手抖写错了,可能导致死循环。

其实为了保护我们的系统,我们可以先确认下客户有多少,然后设置个循环次数,当超过最大循环次数之后,就告警排查确认。

long minId;
 Integer maxCycleNum =1000;
 Integer cycleNum = 0;
 while(true ){
   List<CustomerDo> customerList =  customer.pageQueryAscID(pageSize,minId);
   flushCustomerData(customerList);
   if(customerList.size()< pageSize){
     break;
   }
   minId = customerList.get(customerList.size()-1).getId();
   if(cycleNum>= maxCycleNum){
    //告警
   }
   cycleNum ++;
 }

当然这只是个一种后端思路哈。

10.3 如果定时任务是xxl-job ,路由规则是什么,并发问题考虑

大家如果使用过xxl-job作为定时任务,应该抖配置过它的路由规则吧。比如是分片的,还是第一个/最后一个等等。

如果是分片的,就是多个pod都可能执行到你的业务逻辑。这时候你要考虑并发执行,你的业务是否收影响。

10.4 SQL是否命中索引,是否存在慢SQL

我们做刷数任务的时候,很多时候,都要跟SQL打交道。

我们要确保查询、更新、或者删除的数据量大的表,都要有索引了。要确保没有慢SQL。

常规的我们可以用explain分析SQL,我们还可以通过压测分析出来。

10.5 如果加了分布式锁,锁时间考虑

如果你是按照客户维度刷数,加了客户维度的分布式锁,你要考虑锁时间是多久,锁时间是否可以配置(一般这种最好配置一下。)

如果你时间设置小,那这时候刷数还没完成,锁就超时释放了,那不就有问题啦。

如果你时间设置过长也不太好,当然,你在刷完数,finally执行释放锁也可以。

finally {
    redisService.deleteKey(customerNoKey);
  }

10.6 大事务考虑,事务是否太多?是否可以拆分为小事务

我们在刷数的时候,为了保证数据的完整性和一致性,一般要求加事务的。

但是,切忌事务不要太大,我们可以把一些查询放到事务外,把计算逻辑也放事务外,把数据库的更新、新增、删除操作放到事务内就好。

就是把大事务拆分为小事务。

10.7 打印耗时时间,如果时间够长

一般来说,做刷数,尽量打印一下耗时,这样我们可以根据日志,观察是否有哪些问题需要及时处理的。

比如打印刷一个客户要多久。或者打印一批客户要多久,等等。

10.8 是否可以加个配置,减少扫描

有些时候,我们需要配置一定的灰度规则来支持灰度刷数。如果刷数流程是先扫描所有客户,然后接着判断客户是否命中灰度。这样每次任务执行,都会扫描客户表。

我么可以考虑加个配置,传特定的客户号,根据客户号列表,去查客户列表,然后开始刷数逻辑,不用再全表扫描客户表了。

10.9 是否考虑校验逻辑

有些时候,我们没法确认我们刷的逻辑是否正确,这时候,可以考虑是否加校验逻辑。

你可以异步进行校验,也可以同步校验(当然,如果耗时不大的时候)

10.10 try...catch 包住可能的异常

如果我们是按照一个客户维度去刷数的,你要确认A客户刷失败,是不是不能影响B客户。这时候建议try...catch 包住可能的异常,这样即有利于分析错误原因,又可以不不因为未知异常导致刷数中断。

责任编辑:武晓燕 来源: 捡田螺的小男孩
相关推荐

2023-03-01 09:39:40

调度系统

2017-10-30 13:27:35

缓存代码解决

2022-04-27 07:15:36

中台产品微服务

2021-09-01 08:58:15

项目 UTFailed

2011-08-25 09:03:40

2024-05-08 10:20:00

Redis分布式

2013-12-19 09:58:36

移动应用产品市场

2020-07-10 09:55:15

程序员技能开发者

2022-10-27 10:09:59

东数西算布局

2023-09-16 18:16:57

Python系统

2022-04-25 15:01:07

系统程序员调度

2012-11-12 10:46:37

2024-04-30 00:00:00

数仓维度建模

2012-09-10 14:08:40

高效率的服务台

2014-01-26 14:24:25

开源项目

2021-04-09 09:45:33

GitOps环境应用程序

2021-09-08 15:43:03

在线写作协作文档办公软件

2022-06-06 08:42:04

spring-boo开发接口防盗刷

2021-06-06 16:15:57

地区接口项目

2023-09-26 16:44:14

光模块
点赞
收藏

51CTO技术栈公众号