一文搞懂Redis的三种集群方案

数据库 其他数据库 Redis
虽然现在各大云平台有提供缓存服务可以直接使用,但了解一下其背后的实现与原理总还是有些必要(比如面试), 本文就一起来学习一下Redis的几种集群方案。

 在开发测试环境中,我们一般搭建Redis的单实例来应对开发测试需求,但是在生产环境,如果对可用性、可靠性要求较高,则需要引入Redis的集群方案。虽然现在各大云平台有提供缓存服务可以直接使用,但了解一下其背后的实现与原理总还是有些必要(比如面试), 本文就一起来学习一下Redis的几种集群方案。

Redis支持三种集群方案

  •  主从复制模式
  •  Sentinel(哨兵)模式
  •  Cluster模式

主从复制模式

1. 基本原理

主从复制模式中包含一个主数据库实例(master)与一个或多个从数据库实例(slave),如下图

客户端可对主数据库进行读写操作,对从数据库进行读操作,主数据库写入的数据会实时自动同步给从数据库。

具体工作机制为:

  1.  slave启动后,向master发送SYNC命令,master接收到SYNC命令后通过bgsave保存快照(即上文所介绍的RDB持久化),并使用缓冲区记录保存快照这段时间内执行的写命令
  2.  master将保存的快照文件发送给slave,并继续记录执行的写命令
  3.  slave接收到快照文件后,加载快照文件,载入数据
  4.  master快照发送完后开始向slave发送缓冲区的写命令,slave接收命令并执行,完成复制初始化
  5.  此后master每次执行一个写命令都会同步发送给slave,保持master与slave之间数据的一致性

2. 部署示例

本示例基于Redis 5.0.3版。

redis.conf的主要配置 

  1. ###网络相关###  
  2. # bind 127.0.0.1 # 绑定监听的网卡IP,注释掉或配置成0.0.0.0可使任意IP均可访问  
  3. protected-mode no # 关闭保护模式,使用密码访问  
  4. port 6379  # 设置监听端口,建议生产环境均使用自定义端口  
  5. timeout 30 # 客户端连接空闲多久后断开连接,单位秒,0表示禁用  
  6. ###通用配置###  
  7. daemonize yes # 在后台运行  
  8. pidfile /var/run/redis_6379.pid  # pid进程文件名  
  9. logfile /usr/local/redis/logs/redis.log # 日志文件的位置  
  10. ###RDB持久化配置###  
  11. save 900 1 # 900s内至少一次写操作则执行bgsave进行RDB持久化  
  12. save 300 10  
  13. save 60 10000   
  14. # 如果禁用RDB持久化,可在这里添加 save ""  
  15. rdbcompression yes #是否对RDB文件进行压缩,建议设置为no,以(磁盘)空间换(CPU)时间  
  16. dbfilename dump.rdb # RDB文件名称  
  17. dir /usr/local/redis/datas # RDB文件保存路径,AOF文件也保存在这里  
  18. ###AOF配置###  
  19. appendonly yes # 默认值是no,表示不使用AOF增量持久化的方式,使用RDB全量持久化的方式  
  20. appendfsync everysec # 可选值 always, everysec,no,建议设置为everysec  
  21. ###设置密码###  
  22. requirepass 123456 # 设置复杂一点的密码 

部署主从复制模式只需稍微调整slave的配置,在redis.conf中添加 

  1. replicaof 127.0.0.1 6379 # master的ip,port  
  2. masterauth 123456 # master的密码 
  3. replica-serve-stale-data no # 如果slave无法与master同步,设置成slave不可读,方便监控脚本发现问题 

本示例在单台服务器上配置master端口6379,两个slave端口分别为7001,7002,启动master,再启动两个slave 

  1. [root@dev-server-1 master-slave]# redis-server master.conf  
  2. [root@dev-server-1 master-slave]# redis-server slave1.conf  
  3. [root@dev-server-1 master-slave]# redis-server slave2.conf 

进入master数据库,写入一个数据,再进入一个slave数据库,立即便可访问刚才写入master数据库的数据。如下所示 

  1. [root@dev-server-1 master-slave]# redis-cli   
  2. 127.0.0.1:6379> auth 123456  
  3. OK  
  4. 127.0.0.1:6379> set site blog.jboost.cn  
  5. OK  
  6. 127.0.0.1:6379> get site  
  7. "blog.jboost.cn"  
  8. 127.0.0.1:6379> info replication  
  9. # Replication  
  10. role:master  
  11. connected_slaves:2  
  12. slave0:ip=127.0.0.1,port=7001,state=online,offset=13364738,lag=1  
  13. slave1:ip=127.0.0.1,port=7002,state=online,offset=13364738,lag=0 
  14. ...  
  15. 127.0.0.1:6379> exit  
  16. [root@dev-server-1 master-slave]# redis-cli -p 7001  
  17. 127.0.0.1:7001> auth 123456  
  18. OK  
  19. 127.0.0.1:7001> get site  
  20. "blog.jboost.cn" 

执行info replication命令可以查看连接该数据库的其它库的信息,如上可看到有两个slave连接到master

3. 主从复制的优缺点

优点:

  1.  master能自动将数据同步到slave,可以进行读写分离,分担master的读压力
  2.  master、slave之间的同步是以非阻塞的方式进行的,同步期间,客户端仍然可以提交查询或更新请求

缺点:

  1.  不具备自动容错与恢复功能,master或slave的宕机都可能导致客户端请求失败,需要等待机器重启或手动切换客户端IP才能恢复
  2.  master宕机,如果宕机前数据没有同步完,则切换IP后会存在数据不一致的问题
  3.  难以支持在线扩容,Redis的容量受限于单机配置

Sentinel(哨兵)模式

1. 基本原理

哨兵模式基于主从复制模式,只是引入了哨兵来监控与自动处理故障。如图

哨兵顾名思义,就是来为Redis集群站哨的,一旦发现问题能做出相应的应对处理。其功能包括

  1.  监控master、slave是否正常运行
  2.  当master出现故障时,能自动将一个slave转换为master(大哥挂了,选一个小弟上位)
  3.  多个哨兵可以监控同一个Redis,哨兵之间也会自动监控

哨兵模式的具体工作机制:

在配置文件中通过 sentinel monitor来定位master的IP、端口,一个哨兵可以监控多个master数据库,只需要提供多个该配置项即可。哨兵启动后,会与要监控的master建立两条连接:

  1.  一条连接用来订阅master的_sentinel_:hello频道与获取其他监控该master的哨兵节点信息
  2.  另一条连接定期向master发送INFO等命令获取master本身的信息

与master建立连接后,哨兵会执行三个操作:

  1.  定期(一般10s一次,当master被标记为主观下线时,改为1s一次)向master和slave发送INFO命令
  2.  定期向master和slave的_sentinel_:hello频道发送自己的信息
  3.  定期(1s一次)向master、slave和其他哨兵发送PING命令

发送INFO命令可以获取当前数据库的相关信息从而实现新节点的自动发现。所以说哨兵只需要配置master数据库信息就可以自动发现其slave信息。获取到slave信息后,哨兵也会与slave建立两条连接执行监控。通过INFO命令,哨兵可以获取主从数据库的最新信息,并进行相应的操作,比如角色变更等。

接下来哨兵向主从数据库的sentinel:hello频道发送信息与同样监控这些数据库的哨兵共享自己的信息,发送内容为哨兵的ip端口、运行id、配置版本、master名字、master的ip端口还有master的配置版本。这些信息有以下用处:

  1.  其他哨兵可以通过该信息判断发送者是否是新发现的哨兵,如果是的话会创建一个到该哨兵的连接用于发送PING命令。
  2.  其他哨兵通过该信息可以判断master的版本,如果该版本高于直接记录的版本,将会更新
  3.  当实现了自动发现slave和其他哨兵节点后,哨兵就可以通过定期发送PING命令定时监控这些数据库和节点有没有停止服务。

如果被PING的数据库或者节点超时(通过 sentinel down-after-milliseconds master-name milliseconds 配置)未回复,哨兵认为其主观下线(sdown,s就是Subjectively —— 主观地)。如果下线的是master,哨兵会向其它哨兵发送命令询问它们是否也认为该master主观下线,如果达到一定数目(即配置文件中的quorum)投票,哨兵会认为该master已经客观下线(odown,o就是Objectively —— 客观地),并选举领头的哨兵节点对主从系统发起故障恢复。若没有足够的sentinel进程同意master下线,master的客观下线状态会被移除,若master重新向sentinel进程发送的PING命令返回有效回复,master的主观下线状态就会被移除

哨兵认为master客观下线后,故障恢复的操作需要由选举的领头哨兵来执行,选举采用Raft算法:

  1.  发现master下线的哨兵节点(我们称他为A)向每个哨兵发送命令,要求对方选自己为领头哨兵
  2.  如果目标哨兵节点没有选过其他人,则会同意选举A为领头哨兵
  3.  如果有超过一半的哨兵同意选举A为领头,则A当选
  4.  如果有多个哨兵节点同时参选领头,此时有可能存在一轮投票无竞选者胜出,此时每个参选的节点等待一个随机时间后再次发起参选请求,进行下一轮投票竞选,直至选举出领头哨兵

选出领头哨兵后,领头者开始对系统进行故障恢复,从出现故障的master的从数据库中挑选一个来当选新的master,选择规则如下:

  1.  所有在线的slave中选择优先级最高的,优先级可以通过slave-priority配置
  2.  如果有多个最高优先级的slave,则选取复制偏移量最大(即复制越完整)的当选
  3.  如果以上条件都一样,选取id最小的slave

挑选出需要继任的slave后,领头哨兵向该数据库发送命令使其升格为master,然后再向其他slave发送命令接受新的master,最后更新数据。将已经停止的旧的master更新为新的master的从数据库,使其恢复服务后以slave的身份继续运行。

2. 部署演示

本示例基于Redis 5.0.3版。

哨兵模式基于前文的主从复制模式。哨兵的配置文件为sentinel.conf,在文件中添加 

  1. sentinel monitor mymaster 127.0.0.1 6379 1 # mymaster定义一个master数据库的名称,后面是master的ip, port,1表示至少需要一个Sentinel进程同意才能将master判断为失效,如果不满足这个条件,则自动故障转移(failover)不会执行 
  2. sentinel auth-pass mymaster 123456 # master的密码 
  3. sentinel down-after-milliseconds mymaster 5000 # 5s未回复PING,则认为master主观下线,默认为30s 
  4. sentinel parallel-syncs mymaster 2  # 指定在执行故障转移时,最多可以有多少个slave实例在同步新的master实例,在slave实例较多的情况下这个数字越小,同步的时间越长,完成故障转移所需的时间就越长 
  5. sentinel failover-timeout mymaster 300000 # 如果在该时间(ms)内未能完成故障转移操作,则认为故障转移失败,生产环境需要根据数据量设置该值 

 一个哨兵可以监控多个master数据库,只需按上述配置添加多套

分别以26379,36379,46379端口启动三个sentinel 

  1. [root@dev-server-1 sentinel]# redis-server sentinel1.conf --sentinel  
  2. [root@dev-server-1 sentinel]# redis-server sentinel2.conf --sentinel 
  3. [root@dev-server-1 sentinel]# redis-server sentinel3.conf --sentinel 

也可以使用redis-sentinel sentinel1.conf 命令启动。此时集群包含一个master、两个slave、三个sentinel,如图,

我们来模拟master挂掉的场景,执行 kill -9 3017 将master进程干掉,进入slave中执行 info replication查看, 

  1. [root@dev-server-1 sentinel]# redis-cli -p 7001  
  2. 127.0.0.1:7001> auth 123456  
  3. OK  
  4. 127.0.0.1:7001> info replication  
  5. # Replication  
  6. role:slave  
  7. master_host:127.0.0.1  
  8. master_port:7002  
  9. master_link_status:up  
  10. master_last_io_seconds_ago:1  
  11. master_sync_in_progress:0  
  12. # 省略  
  13. 127.0.0.1:7001> exit  
  14. [root@dev-server-1 sentinel]# redis-cli -p 7002  
  15. 127.0.0.1:7002> auth 123456  
  16. OK  
  17. 127.0.0.1:7002> info replication  
  18. # Replication  
  19. role:master  
  20. connected_slaves:1  
  21. slave0:ip=127.0.0.1,port=7001,state=online,offset=13642721,lag=1  
  22. # 省略 

可以看到slave 7002已经成功上位晋升为master(role:master),接收一个slave 7001的连接。此时查看slave2.conf配置文件,发现replicaof的配置已经被移除了,slave1.conf的配置文件里replicaof 127.0.0.1 6379 被改为 replicaof 127.0.0.1 7002。重新启动master,也可以看到master.conf配置文件中添加了replicaof 127.0.0.1 7002的配置项,可见大哥(master)下位后,再出来混就只能当当小弟(slave)了,三十年河东三十年河西。

3. 哨兵模式的优缺点

优点:

  1.  哨兵模式基于主从复制模式,所以主从复制模式有的优点,哨兵模式也有
  2.  哨兵模式下,master挂掉可以自动进行切换,系统可用性更高

缺点:

  1.  同样也继承了主从模式难以在线扩容的缺点,Redis的容量受限于单机配置
  2.  需要额外的资源来启动sentinel进程,实现相对复杂一点,同时slave节点作为备份节点不提供服务

Cluster模式

1. 基本原理

哨兵模式解决了主从复制不能自动故障转移,达不到高可用的问题,但还是存在难以在线扩容,Redis容量受限于单机配置的问题。Cluster模式实现了Redis的分布式存储,即每台节点存储不同的内容,来解决在线扩容的问题。如图

 

Cluster采用无中心结构,它的特点如下:

  1.  所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽
  2.  节点的fail是通过集群中超过半数的节点检测失效时才生效
  3.  客户端与redis节点直连,不需要中间代理层.客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可

Cluster模式的具体工作机制:

      1.  在Redis的每个节点上,都有一个插槽(slot),取值范围为0-16383

      2.  当我们存取key的时候,Redis会根据CRC16的算法得出一个结果,然后把结果对16384求余数,这样每个key都会对应一个编号在0-16383之间的哈希槽,通过这个值,去找到对应的插槽所对应的节点,然后直接自动跳转到这个对应的节点上进行存取操作

      3.  为了保证高可用,Cluster模式也引入主从复制模式,一个主节点对应一个或者多个从节点,当主节点宕机的时候,就会启用从节点

      4.  当其它主节点ping一个主节点A时,如果半数以上的主节点与A通信超时,那么认为主节点A宕机了。如果主节点A和它的从节点都宕机了,那么该集群就无法再提供服务了

Cluster模式集群节点最小配置6个节点(3主3从,因为需要半数以上),其中主节点提供读写操作,从节点作为备用节点,不提供请求,只作为故障转移使用。

2. 部署演示

本示例基于Redis 5.0.3版。

Cluster模式的部署比较简单,首先在redis.conf中 

  1. port 7100 # 本示例6个节点端口分别为7100,7200,7300,7400,7500,7600   
  2. daemonize yes # r后台运行   
  3. pidfile /var/run/redis_7100.pid # pidfile文件对应7100,7200,7300,7400,7500,7600   
  4. cluster-enabled yes # 开启集群模式   
  5. masterauth passw0rd # 如果设置了密码,需要指定master密码  
  6. cluster-config-file nodes_7100.conf # 集群的配置文件,同样对应7100,7200等六个节点  
  7. cluster-node-timeout 15000 # 请求超时 默认15秒,可自行设置 

分别以端口7100,7200,7300,7400,7500,7600 启动六个实例(如果是每个服务器一个实例则配置可一样) 

  1. [root@dev-server-1 cluster]# redis-server redis_7100.conf  
  2. [root@dev-server-1 cluster]# redis-server redis_7200.conf  
  3. ... 

然后通过命令将这个6个实例组成一个3主节点3从节点的集群, 

  1. redis-cli --cluster create --cluster-replicas 1 127.0.0.1:7100 127.0.0.1:7200 127.0.0.1:7300 127.0.0.1:7400 127.0.0.1:7500 127.0.0.1:7600 -a passw0rd 

执行结果如图

可以看到 7100, 7200, 7300 作为3个主节点,分配的slot分别为 0-5460, 5461-10922, 10923-16383, 7600作为7100的slave, 7500作为7300的slave,7400作为7200的slave。

我们连接7100设置一个值 

  1. [root@dev-server-1 cluster]# redis-cli -p 7100 -c -a passw0rd  
  2. Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.  
  3. 127.0.0.1:7100> set site blog.jboost.cn  
  4. -> Redirected to slot [9421] located at 127.0.0.1:7200  
  5. OK  
  6. 127.0.0.1:7200> get site  
  7. "blog.jboost.cn"  
  8. 127.0.0.1:7200> 

注意添加 -c 参数表示以集群模式,否则报 (error) MOVED 9421 127.0.0.1:7200 错误, 以 -a 参数指定密码,否则报(error) NOAUTH Authentication required错误。

从上面命令看到key为site算出的slot为9421,落在7200节点上,所以有Redirected to slot [9421] located at 127.0.0.1:7200,集群会自动进行跳转。因此客户端可以连接任何一个节点来进行数据的存取。

通过cluster nodes可查看集群的节点信息 

  1. 127.0.0.1:7200> cluster nodes  
  2. eb28aaf090ed1b6b05033335e3d90a202b422d6c 127.0.0.1:7500@17500 slave c1047de2a1b5d5fa4666d554376ca8960895a955 0 1584165266071 5 connected  
  3. 4cc0463878ae00e5dcf0b36c4345182e021932bc 127.0.0.1:7400@17400 slave 5544aa5ff20f14c4c3665476de6e537d76316b4a 0 1584165267074 4 connected  
  4. dbbb6420d64db22f35a9b6fa460b0878c172a2fb 127.0.0.1:7100@17100 master - 0 1584165266000 1 connected 0-5460  
  5. d4b434f5829e73e7e779147e905eea6247ffa5a2 127.0.0.1:7600@17600 slave dbbb6420d64db22f35a9b6fa460b0878c172a2fb 0 1584165265000 6 connected  
  6. 5544aa5ff20f14c4c3665476de6e537d76316b4a 127.0.0.1:7200@17200 myself,master - 0 1584165267000 2 connected 5461-10922  
  7. c1047de2a1b5d5fa4666d554376ca8960895a955 127.0.0.1:7300@17300 master - 0 1584165268076 3 connected 10923-16383 

我们将7200通过 kill -9 pid杀死进程来验证集群的高可用,重新进入集群执行cluster nodes可以看到7200 fail了,但是7400成了master,重新启动7200,可以看到此时7200已经变成了slave。

3. Cluster模式的优缺点

优点:

      1.  无中心架构,数据按照slot分布在多个节点。

      2.  集群中的每个节点都是平等的关系,每个节点都保存各自的数据和整个集群的状态。每个节点都和其他所有节点连接,而且这些连接保持活跃,这样就保证了我们只需要连接集群中的任意一个节点,就可以获取到其他节点的数据。

      3.  可线性扩展到1000多个节点,节点可动态添加或删除

      4.  能够实现自动故障转移,节点之间通过gossip协议交换状态信息,用投票机制完成slave到master的角色转换

缺点:

  1.  客户端实现复杂,驱动要求实现Smart Client,缓存slots mapping信息并及时更新,提高了开发难度。目前仅JedisCluster相对成熟,异常处理还不完善,比如常见的“max redirect exception”
  2.  节点会因为某些原因发生阻塞(阻塞时间大于 cluster-node-timeout)被判断下线,这种failover是没有必要的
  3.  数据通过异步复制,不保证数据的强一致性
  4.  slave充当“冷备”,不能缓解读压力
  5.  批量操作限制,目前只支持具有相同slot值的key执行批量操作,对mset、mget、sunion等操作支持不友好
  6.  key事务操作支持有线,只支持多key在同一节点的事务操作,多key分布不同节点时无法使用事务功能
  7.   不支持多数据库空间,单机redis可以支持16个db,集群模式下只能使用一个,即db 0

Redis Cluster模式不建议使用pipeline和multi-keys操作,减少max redirect产生的场景。

总结

本文介绍了Redis集群方案的三种模式,其中主从复制模式能实现读写分离,但是不能自动故障转移;哨兵模式基于主从复制模式,能实现自动故障转移,达到高可用,但与主从复制模式一样,不能在线扩容,容量受限于单机的配置;Cluster模式通过无中心化架构,实现分布式存储,可进行线性扩展,也能高可用,但对于像批量操作、事务操作等的支持性不够好。三种模式各有优缺点,可根据实际场景进行选择。 

 

责任编辑:庞桂玉 来源: 奇妙的Linux世界
相关推荐

2022-03-24 08:51:48

Redis互联网NoSQL

2020-06-08 18:02:50

Redis集群雪崩

2023-12-04 16:24:23

2023-11-01 11:06:18

2020-09-04 06:35:28

Redis复制哨兵

2024-04-12 12:19:08

语言模型AI

2020-04-21 10:37:41

Apply数据参数

2024-11-05 14:00:56

2022-03-01 20:41:00

机器学习特征人工智能

2021-03-22 10:05:59

netstat命令Linux

2023-09-08 08:20:46

ThreadLoca多线程工具

2023-09-15 12:00:01

API应用程序接口

2023-07-25 09:53:00

LGACPU数字

2024-08-05 00:05:00

操作系统内存管理

2022-05-05 16:47:24

Docker网络空间容器

2018-07-10 08:42:45

Oracle高可用集群

2023-07-04 08:56:07

指针类型Golang

2020-05-15 16:37:13

PowerBI数据分析

2023-05-09 11:13:09

IO模型语言

2023-08-24 16:50:45

点赞
收藏

51CTO技术栈公众号