本文转载自微信公众号「猿天地」,作者尹吉欢。转载本文请联系猿天地公众号。
一位读者跟我说,最近去某个公司面试,面试官非得问他MQ挂了如何处理?这位读者说当时也比较懵,因为在日常工作中也没去想过这样的问题,就回答:挂了就报错了呗,马上重启呗,还能咋处理。
其实这个问题也并不是说这位面试官是一种抬杠的行为,因为MQ确实有可能挂掉,是一种正常现象。只不过是说这个挂的概率非常小,毕竟都是集群模式。
如果是平时跟朋友,同事聊这个问题,怎么回答都没问题。如果是在面试过程中,还是得仔细想想如何去回答比较好,不能太随意,否则面试结果可能没那么理想了。
第一步:统一封装MQ的操作
如果MQ挂掉,势必会影响你发消息的逻辑。我们可以仔细思考下这个问题,MQ不像数据库,挂了就没办法进行任何操作了。MQ本身就是用于多系统解耦,异步处理等场景的,就算MQ挂了,也不会影响到主流程。所以这其实就相当于是一个降级的处理,没什么特殊的点。
要进行降级处理,那么肯定得统一进行处理。不太可能每个发送消息的地方都去处理一遍,只有逗比才会去这样做。所以第一步就需要先对MQ的操作进行统一封装,然后在这个封装里面去做统一的降级逻辑,不要让使用方去关注你的这个降级逻辑。
第二步:降级处理,数据存储
降级可以有两种方式,一种是将要发送的消息存储到数据库中,另一种就是直接写本地磁盘。
写数据库
写数据库相对来说比较简单,本身程序中都会用到数据库,这个时候只需要单独加一张表即可。当消息发送异常的时候,将消息进行存储。
写磁盘
写磁盘跟数据库的作用是一样,写磁盘相对来说更加独立,不依赖数据库。不好的点在于写磁盘还得考虑写入的格式,比如消息量大要不要分多个文件写入之类的问题,整体需要考虑的点比数据库要多。
写日志
写日志可能是最简单的方式了,但是在后期消息补发的时候就需要人工介入,将失败的消息捞出来然后重新发送。
第三步:重发消息
可以单独起一个定时任务,周期性的去将这些失败存储的消息进行重发,如果你的MQ服务故障后几分钟就恢复了,那么重试的时候消息就能够成功发出去了。
也可以人工处理,最重要的是当MQ故障的时候,消息发送不出去,这些消息要存储起来,不能丢失,这才是重点。
完整流程如下:
总结
本文只是给大家提供一些思路,实际上对任何中间件的依赖都需要考虑异常情况,如何回退。当然还有最重要的就是监控,在故障后及时发现问题,快速修复。然后再加上兜底的回退逻辑将发送失败的消息重新发送,保证业务的完整性。
关于作者:尹吉欢,简单的技术爱好者,《Spring Cloud微服务-全栈技术与案例解析》, 《Spring Cloud微服务 入门 实战与进阶》作者, 公众号 猿天地 发起人。
原文链接:http://cxytiandi.com/blog/user/1