不会吧？还在用 MHA 做 MySQL 高可用？-mysql的mha高可用原理

Orchestrator 是一款成熟的 MySQL 高可用中间件。采用 Go 语言编写，支持拓扑发现、集群重塑、拓扑恢复等功能。

主要功能

拓扑发现：Orchestrator 主动搜寻并记录 MySQL 节点的主从配置、复制状态等基础信息并进行拓扑映射。即使发生故障，它依然可以提供出色的可视化拓扑图。

集群重塑：Orchestrator 了解复制规则。它能准确识别复制类型：Binlog 位点复制、GTID 复制、伪 GTID 复制、Binlog Server。Orchestrator 还提供了复制检查功能，保证了副本的移动安全可靠。

拓扑恢复：Orchestrator 定义了 30 种故障模型，根据集群拓扑信息可精准识别故障类型。针对不同的故障类型还提供了 15 种恢复执行计划，大大降低了恢复失败的概率。

相较于 MHA 它有以下优势：

Orchestrator 高可用的实现主要分为两步：

函数入口：ContinuousDiscovery --> CheckAndRecover --> GetReplicationAnalysis

故障检测的工作周期为 1 秒，它的主要工作如上图所示：

函数入口：ContinuousDiscovery --> CheckAndRecover --> executeCheckAndRecoverFunction

故障恢复的工作周期也是 1 秒，它的主要工作如下：

Orchestrator 定义了 15 种执行计划，本次详解故障类型 DeadMaster

故障定义：主节点无法访问，且所有从节点的复制都处于失败状态;

判断标准：1、主节点访问失败;2、从节点访问正常，且所有从节点复制都失败;

DeadMaster 的执行计划为：checkAndRecoverDeadMaster

函数入口：CheckAndRecover --> executeCheckAndRecoverFunction --> checkAndRecoverDeadMaster

详细流程如上图：

注册本次故障恢复;
调用 PreFailoverProcesses Hook ;
获取恢复类型：GTID、伪 GTID、Binlog 位点;
集群重塑：选主、集群拓扑调整;
给故障节点打上维护标签;
切换前地理位置检测：如果我们做了不允许跨 DC 故障转移的设置，本次恢复将中断;
检查新主的复制延时是否超过阀值，如果超过将中断本次恢复;
解析本次恢复，为本次恢复打上成功或者失败的标签;
新主执行：stop slave; 和 reset slave all;
新主执行：set read only false;
尝试旧主执行：set read only true;
在新主执行分离操作：在新主上利用 change master to master_host="//host" ... 命令给 master_host 加上注释标签，防止旧主复活后新主重新挂载。这一步和第 9 步互斥;
替换集群名;
调用 PostMasterFailoverProcesses Hook;

执行计划中最为关键的就是 RegroupReplicasGTID (集群重塑)这一步，接下来我们继续分析 Orchestrator 的集群重塑;

集群重塑一共有三个主要工作：选主、复制检查、结构调整;

同 DC、同物理环境检查
提升权限检查：must > prefer
副本有效性检查：检查副本是否开启 Binlog、检查副本是不是伪副本( Binlog Server)
提升权限被禁止检查：候选副本被禁止参与选主(被禁止包含：PromoteRule 禁止和配置文件中 PromotionIgnoreHostnameFilters 参数禁止)
版本检查：版本不低于集群中大多数版本
Binlog 格式检查：Binlog 格式不小于集群中的最大 binlog 格式(比较规则：ROW>MIX>STATEMENT)

主要是执行有效从节点到新主节点的复制可行性检查，具体如下：

检查新主是否开启 Binlog 日志;
检查新主是否开启 log_slave_updates 参数;
从节点和主节点版本比较：从库是否比主库版本小、从库是否是 Binlog server;
从库在开启 Binlog 和 log_slave_updates 的情况下检查从库的 Binlog 格式是否低于新主;
排除被复制筛选掉的从节点(VerifyReplicationFilters 参数控制开关);
检查 sever id 是否相等;
检查 uuid 是否相等且不得为空;
检查是否从库 sqldelay < 新主 sqldelay 且主库 sqldelay > ReasonableMaintenanceReplicationLagSeconds 参数;

结构调整主要分为三步：
StopReplication：1、从节点有效性检查;2、执行 stop slave;
ChangeMasterTo: 1、检查从节点 io 线程和 sql 线程是否停止;2、新主 hostname 解析;3、执行 change master to master_host=?, master_port=?;
StartReplication：执行 start salve;

本文转载自微信公众号「悦专栏」，可以通过以下二维码关注。转载本文请联系悦专栏公众号。