通过延时从库+binlog复制，恢复误操作数据，你学会了吗？-51CTO.COM

一、介绍环境

数据库版本	实例角色	ip地址	端口
GreatSQL 8.0.32-26	master	192.168.134.199	5725
GreatSQL 8.0.32-26	slave	192.168.134.199	5726

二、主库配置

shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5725.sock -p
greatsql> CREATE USER 'repl'@'%' IDENTIFIED BY '123';
greatsql> GRANT REPLICATION SLAVE ON . TO 'repl'@'%';

三、配置延时从库

greatsql> CHANGE MASTER TO
    master_host='192.168.134.199',
    master_port=5725,
    master_user='repl',
    master_password='123',
    master_auto_position=1,
    master_delay = 7200;
greatsql> START SLAVE;
greatsql> SHOW SLAVE STATUS\G

图片

四、模拟主库误删除数据表

shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5725.sock -p sysbench
greatsql> DROP TABLE sbtest2;

五、延时从库恢复数据到主库故障前

1、为了防止恢复失败，先备份一下从库。

可以使用Xtrabackup/mysqldump，进行备份从库，这里演示使用 Xtrabackup 备份从库

$ xtrabackup --defaults-file=/data1/greatsql/greatsql5726/my5726.cnf -S /tmp/greatsql5726.sock --backup --slave-info \
--stream=xbstream --target-dir=/backup/full.xb

2、我们找到主库误操作在哪个binlog里面，并需要确认误操作的binlog位置信息。

$ /usr/local/greatsql/bin/mysqlbinlog --no-defaults --base64-output=decode-rows -vvv ./* | grep -rli 'drop'
$ /usr/local/greatsql/bin/mysqlbinlog --no-defaults --base64-output=decode-rows -vvv mysql-bin.000002 |less

图片

3、停止sql_thread线程，设置不延时复制，设置复制停止在误操作binlog位置点。

shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5726.sock -p
greatsql> STOP SLAVE;
greatsql> CHANGE MASTER TO master_delay = 0;
greatsql> START SLAVE io_thread;
greatsql> START SLAVE sql_thread until SQL_BEFORE_GTIDS='2fc5a82c-2ac3-11ee-9f7f-00163e402951:187';
greatsql> SHOW SLAVE STATUS\G

4、等待复制到需要的停止的位置点，sql_thread 已经停止

图片

5、查看从库误操作的表，备份出来恢复到主库

greatsql> SHOW TABLES FROM sysbench;
greatsql> SELECT COUNT(*) FROM sysbench.sbtest2;
shell> /usr/local/greatsql/bin/mysqldump -S /tmp/mysql5726.sock --set-gtid-purged=OFF --single-transaction --master-data=2 --max-allowed-packet=32M -q sysbench sbtest2 > sbtest2.sql

6、将 sbtest2 表备份数据恢复到主库里

shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5725.sock -p -A sysbench
greatsql> SET sql_log_bin = off;
greatsql> SOURCE sbtest2.sql;
greatsql> EXIT;

7、从库跳过误操作的gtid，重新设置延时从库，从库继续复制主库

shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5726.sock -p

greatsql> STOP SLAVE;
greatsql> SET gtid_next='2fc5a82c-2ac3-11ee-9f7f-00163e402951:187';
greatsql> BEGIN;COMMIT;
greatsql> SET gtid_next='automatic';
greatsql> CHANGE MASTER TO master_delay = 7200;
greatsql> START SLAVE;
greatsql> SHOW SLAVE STATUS\G

六、总结防范误操作

如何避免误删库、删表等误操作，以及如何提高数据库的安全性。

1.常见危险误操作

在线上生产环境中的任何操作都要十分谨慎，可能因为微小疏忽造成无法挽回的巨大损失。

比较常见的线上误操作有几种：

想要删除当前目录下的文件，却不小心执行了 rm -fr /，把整个系统中的所有文件都给强行删了。
误以为是测试环境，想要删除某个数据对象，却把线上生产环境的数据库、表等数据对象给删除了。
误以为是测试环境，想要关闭或重启数据库实例，甚至是关闭或重启主机操作系统。
服务器更换硬盘等热插拔操作，现场工程师搞错信息，把正常的服务器给插拔了。
只想更新或删除部分数据，但由于还没来得及写好 WHERE 条件，不小心按下了回车键，导致全表被更新或删除。

可以防范的方法有几个：

总是确认每个数据库是否有可靠的备份策略，以及备份文件的有效性。
配置好一个延迟复制实例，避免在主节点上误操作删除数据后，还可以在从节点上实现快速恢复。
避免层层跳转的服务器连接方式，每跳转一次，就会多误操作的可能性。
完成操作后立即退出生产业务服务器，减少犯错误的机会。
经常性确认服务器、数据库和路径标示，并且在每次操作前都要反复确认服务器信息。
每个服务器主机系统上都要设置唯一的主机名，提高辨识度。
生产环境和测试环境要物理隔绝开，使之不能相互连接。
连接生产环境使用专门的操作机或必须先拨VPN等，多加一道防护门槛。
避免同时打开多个终端或操作窗口，这非常容易导致犯错。
所有重要操作执行前，都先在文档中写清楚，并逐一检查确认无误。
每个数据库的账号只授予必要的权限，避免权限过高而有了更多破坏的机会。
不要在生产环境执行删除操作，而是改成RENAME操作，先改名，确认无误后再删除，而不是直接删除。
在数据库中设置 sql_safe_updates=1，尽量避免被全表更新、删除的风险。

2.数据安全维护建议

为了让 GreatSQL 数据库运行更安全，建议遵循以下几点规范：

在应用端，所有用户请求及输入数据都要做预处理，不能直接提交到数据库，避免被SQL注入。
定期扫描应用端用户请求日志，扫描异常请求并及时处理。
应用服务器端部署防火墙，阻断用户非法请求。
应用程序上线前，都需要进行必要安全扫描，避免常见SQL注入等风险。
数据库端定期扫描请求特征，判断是否有符合安全隐患的请求，及时阻断处理。
数据库端启用审计（AUDIT）、SQL防火墙等组件，及时发现并阻断非法请求。
数据库中存储的敏感数据，务必先进行单向加密，避免被破解、信息泄漏。
生产环境中的数据，导入开发测试环境前，要先进行转码脱敏操作，避免信息泄漏。
做好连接请求检测和监控，发现有异常频繁请求时，及时阻断处理。