ARIES，数据恢复算法，万变不离其宗...-51CTO.COM

今天来聊两个问题：

首先来回顾一下《预写日志WAL的核心思路...》中相关的一些知识点：

再来介绍两个新的知识点：

其一，在数据库中，需要存储一个信息：flushed-LSN：预写日志已刷盘的最大LSN。

画外音：这是日志刷盘。

其二，每个数据页X，还要包含两个信息：

这是两个边界LSN。

也就是说，在[rec-LSN, page-LSN]之间的所有操作，都将这一页数据变成了脏数据。

画外音：这是数据页刷盘。

如果flushed-LSN >= page-LSN(X)

说明：我们可以将页面X刷到磁盘上，因为在那之前的所有日志，都已经刷到了磁盘上。

画外音：这是WAL原则，先刷日志，才能刷数据。

反之，如果flushed-LSN =< page-LSN(X)

说明：有些对数据页X的操作，还没有被刷到预写日志磁盘上，此时我们不能将数据页X刷到磁盘。

如上图例子所示，共有四个事务：

对于预写日志来说：

对于数据库来说：

对于数据页X来说：

此时，flushed-LSN =< page-LSN(X)

于是，我们不能将数据页X刷到磁盘，因为预写日志还没有完成。我们只能刷盘其他数据页，来腾出缓冲池的内存空间哈。

数据库崩溃后，所有内存buffer（WAL buffer以及buffer pool）中的数据都会丢失，我们如何利用检查点与预写日志，对数据进行恢复呢？

最常见故障恢复（crash recovery）算法是ARIES，Algorithms for Recovery and Isolation Exploiting Semantics，语义恢复与隔离算法。

这个算法的核心包含三个阶段：

阶段一，分析阶段：分析预写日志，对事务进行分类。

分析哪些预写日志？

假设刷新检查点日志的时刻是LSN，需要分析所有检查点LSN之后的预写日志。

如何对事务进行分类？

从检查点LSN开始，从前往后扫描预写日志：

阶段二，Redo阶段：重做检查点LSN之后，预写日志中的所有操作。

从检查点LSN开始，从前往后扫描预写日志：

遇到<Ti, update>记录，修改检查点中对应的数据页X，将对应的数据进行修改，如此一来，就恢复到了数据库崩溃前的缓冲池数据页镜像。

这些数据页能全部刷盘吗？

不能，没有提交的事务的操作，必须进行回滚。

阶段三，Undo阶段：对于没有提交的事务，恢复这些事务对数据页的修改。

从flushed-LSN开始，从后往前逆向扫描预写日志，直到检查点LSN：

遇到<Ti, update>记录，如果Ti在undo-Tx集合中，就将对应的数据页进行回滚修改，如此一来，所有未提交事务的修改，就进行了回滚。

ARIES算法是数据恢复的典型算法，很多消息系统，存储系统，事务系统对算法进行过效率改良，但其内核，万变不离其宗。思路，比结论更重要。