一、介绍环境
数据库版本 | 实例角色 | ip地址 | 端口 |
GreatSQL 8.0.32-26 | master | 192.168.134.199 | 5725 |
GreatSQL 8.0.32-26 | slave | 192.168.134.199 | 5726 |
二、主库配置
shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5725.sock -p
greatsql> CREATE USER 'repl'@'%' IDENTIFIED BY '123';
greatsql> GRANT REPLICATION SLAVE ON . TO 'repl'@'%';
三、配置延时从库
greatsql> CHANGE MASTER TO
master_host='192.168.134.199',
master_port=5725,
master_user='repl',
master_password='123',
master_auto_position=1,
master_delay = 7200;
greatsql> START SLAVE;
greatsql> SHOW SLAVE STATUS\G
图片
四、模拟主库误删除数据表
shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5725.sock -p sysbench
greatsql> DROP TABLE sbtest2;
五、延时从库恢复数据到主库故障前
1、为了防止恢复失败,先备份一下从库。
可以使用Xtrabackup/mysqldump,进行备份从库,这里演示使用 Xtrabackup 备份从库
$ xtrabackup --defaults-file=/data1/greatsql/greatsql5726/my5726.cnf -S /tmp/greatsql5726.sock --backup --slave-info \
--stream=xbstream --target-dir=/backup/full.xb
2、我们找到主库误操作在哪个binlog里面,并需要确认误操作的binlog位置信息。
$ /usr/local/greatsql/bin/mysqlbinlog --no-defaults --base64-output=decode-rows -vvv ./* | grep -rli 'drop'
$ /usr/local/greatsql/bin/mysqlbinlog --no-defaults --base64-output=decode-rows -vvv mysql-bin.000002 |less
图片
3、停止sql_thread线程,设置不延时复制,设置复制停止在误操作binlog位置点。
shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5726.sock -p
greatsql> STOP SLAVE;
greatsql> CHANGE MASTER TO master_delay = 0;
greatsql> START SLAVE io_thread;
greatsql> START SLAVE sql_thread until SQL_BEFORE_GTIDS='2fc5a82c-2ac3-11ee-9f7f-00163e402951:187';
greatsql> SHOW SLAVE STATUS\G
4、等待复制到需要的停止的位置点,sql_thread 已经停止
图片
5、查看从库误操作的表,备份出来恢复到主库
greatsql> SHOW TABLES FROM sysbench;
greatsql> SELECT COUNT(*) FROM sysbench.sbtest2;
shell> /usr/local/greatsql/bin/mysqldump -S /tmp/mysql5726.sock --set-gtid-purged=OFF --single-transaction --master-data=2 --max-allowed-packet=32M -q sysbench sbtest2 > sbtest2.sql
6、将 sbtest2 表备份数据恢复到主库里
shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5725.sock -p -A sysbench
greatsql> SET sql_log_bin = off;
greatsql> SOURCE sbtest2.sql;
greatsql> EXIT;
7、从库跳过误操作的gtid,重新设置延时从库,从库继续复制主库
shell> /usr/local/greatsql/bin/mysql -S /tmp/mysql5726.sock -p
greatsql> STOP SLAVE;
greatsql> SET gtid_next='2fc5a82c-2ac3-11ee-9f7f-00163e402951:187';
greatsql> BEGIN;COMMIT;
greatsql> SET gtid_next='automatic';
greatsql> CHANGE MASTER TO master_delay = 7200;
greatsql> START SLAVE;
greatsql> SHOW SLAVE STATUS\G
六、总结防范误操作
如何避免误删库、删表等误操作,以及如何提高数据库的安全性。
1.常见危险误操作
在线上生产环境中的任何操作都要十分谨慎,可能因为微小疏忽造成无法挽回的巨大损失。
比较常见的线上误操作有几种:
- 想要删除当前目录下的文件,却不小心执行了 rm -fr /,把整个系统中的所有文件都给强行删了。
- 误以为是测试环境,想要删除某个数据对象,却把线上生产环境的数据库、表等数据对象给删除了。
- 误以为是测试环境,想要关闭或重启数据库实例,甚至是关闭或重启主机操作系统。
- 服务器更换硬盘等热插拔操作,现场工程师搞错信息,把正常的服务器给插拔了。
- 只想更新或删除部分数据,但由于还没来得及写好 WHERE 条件,不小心按下了回车键,导致全表被更新或删除。
可以防范的方法有几个:
- 总是确认每个数据库是否有可靠的备份策略,以及备份文件的有效性。
- 配置好一个延迟复制实例,避免在主节点上误操作删除数据后,还可以在从节点上实现快速恢复。
- 避免层层跳转的服务器连接方式,每跳转一次,就会多误操作的可能性。
- 完成操作后立即退出生产业务服务器,减少犯错误的机会。
- 经常性确认服务器、数据库和路径标示,并且在每次操作前都要反复确认服务器信息。
- 每个服务器主机系统上都要设置唯一的主机名,提高辨识度。
- 生产环境和测试环境要物理隔绝开,使之不能相互连接。
- 连接生产环境使用专门的操作机或必须先拨VPN等,多加一道防护门槛。
- 避免同时打开多个终端或操作窗口,这非常容易导致犯错。
- 所有重要操作执行前,都先在文档中写清楚,并逐一检查确认无误。
- 每个数据库的账号只授予必要的权限,避免权限过高而有了更多破坏的机会。
- 不要在生产环境执行删除操作,而是改成RENAME操作,先改名,确认无误后再删除,而不是直接删除。
- 在数据库中设置 sql_safe_updates=1,尽量避免被全表更新、删除的风险。
2.数据安全维护建议
为了让 GreatSQL 数据库运行更安全,建议遵循以下几点规范:
- 在应用端,所有用户请求及输入数据都要做预处理,不能直接提交到数据库,避免被SQL注入。
- 定期扫描应用端用户请求日志,扫描异常请求并及时处理。
- 应用服务器端部署防火墙,阻断用户非法请求。
- 应用程序上线前,都需要进行必要安全扫描,避免常见SQL注入等风险。
- 数据库端定期扫描请求特征,判断是否有符合安全隐患的请求,及时阻断处理。
- 数据库端启用审计(AUDIT)、SQL防火墙等组件,及时发现并阻断非法请求。
- 数据库中存储的敏感数据,务必先进行单向加密,避免被破解、信息泄漏。
- 生产环境中的数据,导入开发测试环境前,要先进行转码脱敏操作,避免信息泄漏。
- 做好连接请求检测和监控,发现有异常频繁请求时,及时阻断处理。