框架篇:分布式全局唯一ID

开发 架构 分布式
每一次HTTP请求,数据库的事务的执行,我们追踪代码执行的过程中,需要一个唯一值和这些业务操作相关联,对于单机的系统,可以用数据库的自增ID或者时间戳加一个在本机递增值,即可实现唯一值。

[[407823]]

本文转载自微信公众号「潜行前行」,作者cscw。转载本文请联系潜行前行公众号。

前言

每一次HTTP请求,数据库的事务的执行,我们追踪代码执行的过程中,需要一个唯一值和这些业务操作相关联,对于单机的系统,可以用数据库的自增ID或者时间戳加一个在本机递增值,即可实现唯一值。但在分布式,又该如何实现唯一性的ID

  • 分布式ID的特性
  • 数据库自增的ID
  • Redis分布式ID
  • Zookeeper分布式ID
  • 全局唯一UUID的优缺点
  • Twitter的雪花算法生成分布式ID

分布式ID的特性

  • 全局唯一性,必须性
  • 幂等性,如果是根据某些信息生成,则需要保障幂等性
  • 注意安全性,ID里隐藏一些信息,不能被猜出来,也不能被猜出来 ID 如何生成
  • 趋势递增性,在查询比较时,可以判断业务操作的时间顺序

数据库自增的ID

实现简单,ID单调自增,数值类型查询速度快,但是单点DB存在宕机风险,无法扛住高并发场景

  1. CREATE TABLE FLIGHT_ORDER ( 
  2.     id int(11) unsigned NOT NULL auto_increment, #自增ID 
  3.     PRIMARY KEY (id), 
  4. ) ENGINE=innodb; 

集群下如何保证数据库ID的唯一性

  • 当随着业务发展,服务拓展到多台的大集群时,为了解决单点数据库的压力,数据库也会相应的变成一个集群,那如何保证集群下数据库ID的唯一性
  • 每一台数据库实例都设置一个起始值和增长步长

缺点:不利于后续扩容,如果后续需要扩容还需要人工介入修改 起始值和增长步长

Redis 分布式ID

假如系统有亿万的数据,依靠数据库的自增ID在分表分库之后,需要人工修改每台数据库实例,扩容性差,维护性不好

基于Redis INCR 命令生成分布式全局唯一ID

  • 服务向redis获取Id,ID则和数据库解耦,可以解决ID和分表分库的问题,而且redis比数据库性能更快,可以支撑集群服务并发获取ID的需求
  • redis的INCR命令具备了 INCR AND GET 的原子操作;redis是单进程单线程架构,INCR 命令不会出现 ID 重复
  1. @Autowired 
  2. private StringRedisTemplate stringRedisTemplate; 
  3. private static final String ID_KEY = "id_good_order"
  4. public Long incrementId() { 
  5.     return stringRedisTemplate.opsForValue().increment(ID_KEY); 

HINCRBY 命令

  • 实际上,为了存储序列号的更多相关信息,可以使用了 Redis 的 Hash 数据结构,Redis 同样为 Hash 提供 HINCRBY 命令来实现 “INCR AND GET” 原子操作
  1. //KEY_NAME 是 hash结构对应的Key,FIELD_NAME 是hash结构的字段,INCR_BY_NUMBER是增量值 
  2. redis 127.0.0.1:6379> HINCRBY KEY_NAME FIELD_NAME INCR_BY_NUMBER  

宕机序列号恢复问题

  • redis是内存数据库,在没有开启RDB或AOF持久化的情况下,一旦宕机ID数据将会有丢失。即便开启了RDB持久化,由于最近一次快照时间和最新一条 HINCRBY 命令的时间有可能存在时间差,宕机后通过RDB快照恢复数据集会发生ID取值重复的情况
  • redis宕机序列号恢复方案
    • 利用关系型数据库来记录一个短时内 最大可取序列号 MAX_ID,从redis获取ID时只能取小于 MAX_ID 的序列号
    • 为了计算最大值,需要一个定时任务定期计算ID消费速度RATE,存于redis。当客户端取得 CUR_ID、RATE 和 MAX_ID,则根据 ID 消费速度 RATE 计算 CUR_ID 是否逼近MAX_ID,如果是则更新数据库的MAX_ID

Zookeeper 分布式ID

  • 利用zookeeper的持久性有序节点,可以实现自增的分布式ID,而且zookeeper是个高可用的集群服务,提交成功的消息具有持久性,因此不怕机器宕机问题,或者单机问题
  1. <dependency> 
  2.     <groupId>org.apache.curator</groupId> 
  3.     <artifactId>curator-framework</artifactId> 
  4.     <version>4.2.0</version> 
  5. </dependency> 
  6. <dependency> 
  7.     <groupId>org.apache.curator</groupId> 
  8.     <artifactId>curator-recipes</artifactId> 
  9.     <version>4.2.0</version> 
  10. </dependency> 

 

  • 示例
  1. RetryPolicy retryPolicy = new ExponentialBackoffRetry(500, 3); 
  2. CuratorFramework client = CuratorFrameworkFactory.builder() 
  3.       .connectString("localhost:2181"
  4.       .connectionTimeoutMs(5000) 
  5.       .sessionTimeoutMs(5000) 
  6.       .retryPolicy(retryPolicy) 
  7.       .build(); 
  8. client.start();   
  9. String sequenceName = "root/sequence/distributedId"
  10. DistributedAtomicLong  distAtomicLong = new DistributedAtomicLong(client, sequenceName, retryPolicy); 
  11. //使用DistributedAtomicLong生成自增序列 
  12. public Long sequence() throws Exception { 
  13.     AtomicValue<Long> sequence = this.distAtomicLong.increment(); 
  14.     if (sequence.succeeded()) { 
  15.         return sequence.postValue(); 
  16.     } else { 
  17.         return null
  18.     } 

UUID的优缺点

  • 基于数据库,redis,zookeeper的分布式ID都高度依赖一个外部服务,对于某些场景,假如不存在这些外部服务又该怎么生成分布式的ID
  • JDK里自带一个唯一性的ID的生成器,具有全球唯一性,这就是UUID,不过它是串无意义的字符串,存储性能差,查询也很耗时,对于订单系统,不适合作为唯一ID,常见优化方案为「转化为两个uint64整数存储」或者 「折半存储」(折半后不能保证唯一性)
  • 但对于日志系统,或只是为了作为数据里可以唯一识别序列号的关联属性时,可以用UUID
  1. String uuid = UUID.randomUUID().toString().replaceAll("-",""); 

Twitter 的雪花算法生成分布式ID

  • 和UUID一样,雪花算法并不依赖外部服务
  • 雪花算法是 Twitter 公司内部分布式项目采用的ID生成算法,广受国内公司好评。不依赖第三方服务,效率高

Snowflake ID组成结构:正数位(占1比特)+ 时间戳(占41比特)+ 机器ID(占5比特)+ 数据中心(占5比特)+ 自增值(占12比特),总共64比特组成的一个Long类型。

1:第一个bit位(1bit):Java中long的最高位是符号位代表正负,正数是0,负数是1,一般生成ID都为正数,所以默认为0。

2:时间戳部分(41bit):毫秒级的时间,不建议存当前时间戳,而是用(当前时间戳 - 固定开始时间戳)的差值,可以使产生的ID从更小的值开始

3:工作机器id(10bit):也被叫做workId,这个可以灵活配置,机房或者机器号组合都可以。

4:序列号部分(12bit),自增值支持同一毫秒内同一个节点可以生成4096个ID

  1. //Twitter的SnowFlake算法,使用SnowFlake算法生成一个整数 
  2. public class SnowFlakeShortUrl { 
  3.     //起始的时间戳 
  4.     static long START_TIMESTAMP = 1624698370256L; 
  5.     //每一部分占用的位数 
  6.     static long SEQUENCE_BIT = 12;   //序列号占用的位数 
  7.     static long MACHINE_BIT = 5;     //机器标识占用的位数 
  8.     static long DATA_CENTER_BIT = 5; //数据中心占用的位数 
  9.     //每一部分的最大值 
  10.     static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT); 
  11.     static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT); 
  12.     static long MAX_DATA_CENTER_NUM = -1L ^ (-1L << DATA_CENTER_BIT); 
  13.     //每一部分向左的位移 
  14.     static long MACHINE_LEFT = SEQUENCE_BIT; 
  15.     static long DATA_CENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT; 
  16.     static long TIMESTAMP_LEFT = DATA_CENTER_LEFT + DATA_CENTER_BIT; 
  17.     //dataCenterId + machineId 等于10bit工作机器ID 
  18.     private long dataCenterId;  //数据中心 
  19.     private long machineId;     //机器标识 
  20.     private volatile long sequence = 0L; //序列号 
  21.     private volatile long lastTimeStamp = -1L;  //上一次时间戳 
  22.     private volatile long l currTimeStamp = -1L; //当前时间戳 
  23.      
  24.     private long getNextMill() { 
  25.         long mill = System.currentTimeMillis(); 
  26.         while (mill <= lastTimeStamp) mill = System.currentTimeMillis(); 
  27.         return mill; 
  28.     } 
  29.     //根据指定的数据中心ID和机器标志ID生成指定的序列号 
  30.     public SnowFlakeShortUrl(long dataCenterId, long machineId) { 
  31.         Assert.isTrue(dataCenterId >=0 && dataCenterId <= MAX_DATA_CENTER_NUM,"dataCenterId is illegal!"); 
  32.         Assert.isTrue(machineId >= 0 || machineId <= MAX_MACHINE_NUM,"machineId is illegal!"); 
  33.         this.dataCenterId = dataCenterId; 
  34.         this.machineId = machineId; 
  35.     } 
  36.     //生成下一个ID 
  37.     public synchronized long nextId() { 
  38.         currTimeStamp = System.currentTimeMillis(); 
  39.         Assert.isTrue(currTimeStamp >= lastTimeStamp,"Clock moved backwards"); 
  40.         if (currTimeStamp == lastTimeStamp) { 
  41.             //相同毫秒内,序列号自增 
  42.             sequence = (sequence + 1) & MAX_SEQUENCE; 
  43.             if (sequence == 0L) { //同一毫秒的序列数已经达到最大,获取下一个毫秒 
  44.                 currTimeStamp = getNextMill(); 
  45.             } 
  46.         } else {  
  47.             sequence = 0L; //不同毫秒内,序列号置为0 
  48.         } 
  49.         lastTimeStamp = currTimeStamp; 
  50.         return (currTimeStamp - START_TIMESTAMP) << TIMESTAMP_LEFT //时间戳部分 
  51.                 | dataCenterId << DATA_CENTER_LEFT       //数据中心部分 
  52.                 | machineId << MACHINE_LEFT             //机器标识部分 
  53.                 | sequence;                             //序列号部分 
  54.     } 
  55.      
  56.     public static void main(String[] args) { 
  57.         SnowFlakeShortUrl snowFlake = new SnowFlakeShortUrl(10, 4); 
  58.         for (int i = 0; i < (1 << 12); i++) { 
  59.             //10进制 
  60.             System.out.println(snowFlake.nextId()); 
  61.         } 
  62.     } 

Reference

[1]github地址:https://github.com/cscsss/learnHome

[2]常见分布式全局唯一ID生成策略及算法的对比:

https://blog.csdn.net/u010398771/article/details/79765836

[3]基于 Redis 的序列号服务(分布式id)的设计:

https://blog.csdn.net/carryxu123456/article/details/82630029

[4]9种 分布式ID生成方案,让你一次学个够:

https://segmentfault.com/a/1190000022717820

 

责任编辑:武晓燕 来源: 潜行前行
相关推荐

2021-06-05 07:33:09

ID分布式架构

2022-02-23 07:09:30

分布式ID雪花算法

2023-12-13 09:35:52

算法分布式

2021-07-07 07:14:48

分布式ID分布式系统

2017-04-12 09:29:02

HiveMapReduceSpark

2021-11-08 19:25:37

Go生成系统

2021-07-02 06:54:43

分布式环境ID

2021-06-02 22:16:56

框架CAPBASE

2020-07-21 11:35:21

开发技能代码

2023-09-03 22:14:23

分布式ID

2024-02-02 10:57:12

Java分布式算法

2019-09-03 09:22:08

数据库Redis算法

2022-09-28 07:58:06

MongoDB分布式ID

2024-10-31 13:51:58

2021-06-06 12:45:41

分布式CAPBASE

2023-01-12 17:46:37

分库分表id如何生成

2017-07-01 16:02:39

分布式ID生成器

2021-08-04 10:38:51

分布式 ID策略

2024-03-28 10:01:38

2024-03-13 08:23:08

分布式系统随机
点赞
收藏

51CTO技术栈公众号