一条数据的漫游奇遇记-漫游奇遇记

数据库存储引擎是一个有历史的技术，经过数十年的发展，已经出现很多优秀成熟的产品。阿里巴巴 X-Engine 团队撰写的论文 "X-Engine: An Optimized Storage Engine for Large-scale E-Commerce Transaction Processing"，详细讲述了团队在数据库存储引擎上所做的原创性工作，今年早些时候已经被 SIGMOD'19 Industrial Track 接收(SIGMOD 是数据库领域最重要也是最有影响力的会议之一)。本文将对这篇论文做一个前导性分析。

[[268792]]

背景

X-Engine 是阿里数据库产品事业部自研的 OLTP 数据库存储引擎，作为自研数据库POLARDB X 的存储引擎，已经广泛应用在阿里集团内部诸多业务系统中，其中包括交易历史库，钉钉历史库等核心应用，为业务大幅缩减了成本，同时也作为双十一大促的关键数据库技术，挺过了数百倍平时流量的冲击。

数据库存储引擎是一个有历史的技术，经过数十年的发展，已经出现很多优秀成熟的产品。各式存储引擎已经在索引组织，缓存管理，事务处理，查询优化方方面面都做过细致的研究。即便如此，这个领域的演进仍在持续，每年都会涌现很多的新技术。

近年来，LSM (Log-Structured Merge-Tree)结构受到越来越多的关注，虽然这个技术本身出现很多年了，不算什么新事物，不过早先在 KV 存储系统中被应用的更多一些，近年开始在数据库存储引擎领域崭露头角，RocksDB 即是典型代表。

LSM 之所以变得流行，一是因为其简单，二是特点鲜明。写入模型是简单的追加，不会更新既有的数据，数据组织为简单的逻辑排序，由此带来的特点是写强而读弱，持久化数据只读的特点便于压缩。但是大多数数据库的应用场景其实都是读多写少的，直接使用 LSM 结构未必合适，想要另辟蹊径，须得扬长辟短。

架构

X-Engine 使用了 LSM 作为基础架构，目标是作为一个通用的高性能低成本存储引擎，追求读写性能更为均衡，因此在其上做了大量的改进，主要围绕几个方向进行：

1. 利用先天优势，持续优化写性能。

2. 优化 compaction 降低对系统性能的冲击，使得系统性能表现趋于平稳。

3. 利用持久化数据层只读特点，发挥压缩优势降低成本。

4. 利用天然分层结构，结合硬件能力使用冷热分层结构，降低综合成本。

5. 利用精细化访问机制和缓存技术，弥补读性能短板。

X-Engine 的整体架构如下图，根据数据冷热进行分层代替 LSM 本身的持久化数据分层，热数据层和数据更新使用内存存储，利用了大量内存数据库的技术(Lock-Free index structure/append only)提高事务处理的性能，设计了一套事务处理流水线处理机制，把事务处理的几个阶段并行起来，提升吞吐。而访问频度低的冷(温)数据逐渐淘汰或是合并到持久化的存储层次中，结合当前丰富的存储设备层次体系(NVM/SSD/HDD)进行存储。

我们对性能影响比较大的 compaction 过程做了大量优化，主要是拆分数据存储粒度，利用数据更新热点较为集中的特征，尽可能的在合并过程中复用数据，精细化控制 LSM 的形状，减少 I/O 和计算代价，并同时极大的减少了合并过程中的空间放大。同时使用更细粒度的访问控制和缓存机制，优化读的性能。

既然 X-Engine 是以 LSM 为基础架构的，所以一切还要从 LSM 本身说起。

LSM基本逻辑

一条数据在 LSM 结构中的旅程，从写入 WAL(Write Ahead Log) 开始，然后进入MemTable，这是 Ta 整个生命周期的第一处落脚点。随后，flush 操作将 Ta 刻在更稳固的介质上，compaction 操作将Ta带往更深远的去处，或是在途中丢弃，取决于 Ta 的继任者何时到来。

LSM 的本质是，所有写入操作并不做原地更新，而是以追加的方式写入内存。每次写到一定程度，即冻结为一层(Level)，写入持久化存储。所有写入的行，都以主键(Key)排序好后存放，无论是在内存中，还是持久化存储中。在内存中即为一个排序的内存数据结构(Skiplist, B-Tree, etc.)，在持久化存储也作为一个只读的全排序持久化存储结构。

普通的存储系统若要支持事务处理，尤其是ACI，需要加入一个时间维度，借此为每个事务构造出一个不受并发干扰的独立视域。存储引擎会对每个事务定序并赋予一个全局单调递增的事务版本号(SN)，每个事务中的记录会存储这个 SN 以判断独立事务之间的可见性，从而实现事务的隔离机制。

如果 LSM 存储结构持续写入，不做其他的动作，那么最终会成为如下结构：

注意这里每一层的 SN 范围标识了事务写入的先后顺序，已经持久化的数据不再会被修改。每一层数据按 Key 排序，层与层之间的 Key range 会交叠。

这种结构对于写入是非常友好的，只要追加到最新的内存表中即完成，为实现 crash recovery，只需记录 WAL(Redo Log)，因为新数据不会覆盖旧版本，追加记录会形成天然的多版本结构。

可以想见，如此累积冻结的持久化层次越来越多，会对查询会产生不利的影响，对同一个 key 不同事务提交产生的多版本记录会散落在各个层次中，不同的 key 也会散落在不同层次中，读操作诸如顺序扫描便需要查找各个层并合并产生最终结果。

LSM 引入了一个 compaction 的操作解决这个问题，这个操作不断的把相邻层次的数据合并，并写入这个更低层次。而合并的过程实际上就是把要合并的相邻两层(或是多层)数据读出来，按 key 排序，相同的 key 如果有多个版本，只保留新(比当前正在执行的活跃事务中最小版本号新)的版本，丢掉旧版本数据，然后写入新的层。可以想见这个操作非常耗费资源。

LSM compaction 操作，有几种作用，一是为了丢弃不再被使用的旧版本数据，二是为了控制 LSM 层次形状，一般的 LSM 形状都是层次越低，数据量越大(倍数关系)，这样放置的目的主要是为了提升读性能。

一般来讲，任何存储系统的数据访问都有局部性，大量的访问都集中在少部分数据上，这也是缓存系统能有效工作的基本前提，在 LSM 存储结构中，如果我们把访问频率高的数据尽可能放在较高的层次上，保持这部分数据量规模，可以存放在快速存储设备中(比如 NVM,DRAM)，而把访问频率低的数据放在较低层次中，使用廉价慢速存储设备存储。这就是 X-Engine 的根据冷热分层概念。

要达到这种效果，核心问题是如何挑选合适的数据合并到更低的层次，这是compaction 调度策略首先要解决的问题，根据冷热分层的逻辑，就是优先合并冷数据(访问频率相对低)。

识别冷数据有很多方法，对于不同的业务不尽然相同，对于很多流水型业务(如交易，日志系统)，新近写入的数据会有更多的概率被读到，冷热按写入时间顺序即可区分，也有很多应用的访问特征跟写入的时间不一定有关系，这个就要根据实际的访问频率去识别冷数据或是热数据。

除了数据热度以外，挑选合并数据还有其他一些维度，会对读性能产生影响，比如数据的更新频率，大量的多版本数据在查询的时候会浪费更多的I/O和CPU，因此需要优先进行合并以减少记录的版本数量，X-Engine 综合考虑了各种策略形成自己的compaction 调度机制。

Refined LSM

上面是 LSM 宏观逻辑结构，如果具体来论读写操作和 compaction 如何进行，就需要探讨每一层的数据组织方式, 每个 LSM 变种的实现各不相同。

X-Engine 的 memtable 使用了 Locked-free SkipList. 求的是简单，而且并发读写的性能都比较高。当然有更高效的数据结构，或者同时使用多种索引技术。这个部分X-Engine 没有做过多优化，原因在事务处理的逻辑比较复杂，写入内存表还没有成为其瓶颈。

持久化层如何组织更显高效，这就需要讨论每层的细微结构。

数据组织

简单来说，X-Engine 的每层都划分成固定大小的 Extent，存放每个层次中的数据的一个连续片段(Key Range). 为了快速定位 Extent，为每层 Extents 建立了一套索引(Meta Index)，所有这些索引，加上所有的 memory tables(active/immutable)一起组成了一个元数据树(Metadata Tree)，root 节点为"Metadata Snapshot", 这个树结构类似于 B-Tree，当然不尽相同。

需要注意的是，X-Engine 中除了当前的正在写入的 active memtable 以外，其他结构都是只读的，不会被修改。给定某个时间点, 比如 LSN=1000, 上图中的 "Metadata Snapshot1" 引用到的结构即包含了(LSN=1000)时刻的所有的数据的快照(这也是为什么这个结构被称为 Snapshot 的原因)。

即便是 Metadata 结构本身，也是一旦生成就不会修改。所有的读都是以这个" Snapshot "结构为入口，这个是 X-Engine 实现 SI 隔离级别的基础。之前讲过随着数据写入，累积数据越多，需要对 memtable 冻结，flush, 以及层与层的compaction. 这些操作都会修改每层的数据存储结构，所有这些操作，都是用 copy-on-write 来实现，方法就是每次都将修改(switch/flush/compaction)产生的结果写入新的 Extent，然后依次生成新的"Meta Index"结构，乃至新的"Metadata Snapshot"，以一次 compaction 操作为例：

可以看到"Metadata Snapshot 2"相对于"Metadata Snapshot 1"并没有太多的变化，仅仅修改了发生变更的一些叶子节点以及索引节点。这个技术颇有些类似"B-trees, Shadowing, and Clones"(https://liw.fi/larch/ohad-btrees-shadowing-clones.pdf)，如果你读过那篇论文，会对理解这个过程有所帮助。

事务处理

得益于 LSM 轻量化写机制，写入操作固然是其明显的优势，但是事务处理远不只是把更新的数据写入系统那么简单，这里要保证 ACID，涉及到一整套复杂的流程。X-Engine 将整个事务处理过程分为两个阶段：读写阶段和提交阶段。

读写阶段需要校验事务的写写冲突，读写冲突，判断事务是否可以执行或回滚重试，或是等锁。如果事务冲突校验通过，则把修改的所有数据写入"Transaction Buffer", 提交阶段包括写 WAL，写内存表，以及提交并返回给用户结果的整个过程，这里面既有 I/O 操作(写日志，返回消息)，也有 CPU 操作(拷贝日志，写内存表)。

为了提高事务处理吞吐，系统内会有大量事务并发执行，单个I/O操作比较昂贵，大部分存储引擎会倾向于聚集一批事务一起提交，称为"Group Commit"，能够合并I/O操作，但是一组事务提交的过程中，还是有大量等待过程的，比如写入日志到磁盘过程中，除了等待落盘无所事事。

X-Engine 为了进一步提升事务处理的吞吐，采用了一种流水线的技术：把提交阶段分为四个独立的更细的阶段：拷贝日志到缓冲区(Log Buffer)，日志落盘(Log Flush)，写内存表(Write memtable)，提交返回(Commit)。我们的事务提交线程到了处理阶段，都可以自由选择执行流水线中任意一个阶段，这样每个阶段都可以并行起来，只要流水线任务的大小划分得当，就能充分并行起来，流水线处于接近满载状态。

另外，利用的是事务处理的线程，而非后台线程，每个线程在执行的时候，要么选择了流水线中的一个阶段干活，要么逛了一圈发现无事可做，干脆回去接收更多的请求，这里没有等待，也无需切换，充分的调动了每个线程的能力。

读操作

LSM 在处理多版本数据的方式是新版本数据记录会追加在老版本数据后面，从物理上看，一条记录不同的版本可能存放在不同的层，在查询的时候需要找到合适的版本(根据事务的隔离级别定义的可见性规则)，一般查询都是查找最新的数据，总是由新的层次(最新写入)往老的层次方向找。

对于单条记录的查找而言，一旦找到便可终止，如果记录还在比较靠上的层次，比如memtable，很快便返回;如果记录不幸已经落入了很低的层次(可能是很随机的读)，那就得经历逐层查找的漫漫旅途，也许 bloomfilter 可以跳过某些层次加快这个旅程，但毕竟还是有更多的I/O操作。

X-Engine 针对单记录查询引入了 Row Cache，在所有持久化的层次的数据之上做了一个缓存，在 memtable 中没有命中的单行查询，在 Row Cache 之中也会被捕获。Row Cache 需要保证缓存了所有持久化层次中最新版本的记录，而这个记录是可能发生变化的，比如每次 flush 将只读的 memtable 写入持久化层次时，就需要恰当的更新 Row Cache 中的缓存记录，这个操作比较微妙，需要小心的设计。

范围扫描的操作就没这么幸运了。因为没法确定一个范围的key在哪个层次中有数据，也许是每层都有，只能扫描所有的层次做合并之后才能返回最终的结果。X- Engine 同样采用了一系列的手段：比如 Surf(SIGMOD'18 best paper)提供 range scan filter 减少扫描层数;还有异步 I/O 与预取对大范围扫描也有显著的提升。

读操作中最核心的是缓存设计，Row Cache 来应付单行查询，Block Cache 负责Row Cache miss 的漏网之鱼，也用来应付 scan;由于 LSM 的 compaction 操作会一次大批量更新大量的 Data Block，导致 Block Cache 中大量数据短时间内失效，带来性能的急剧抖动。

X-Engine 同样做了很多的处理：

1. 减少 Compaction 的粒度;

2. 减少 compaction 过程中改动的数据(见稍后章节) ;

3. compaction 过程中针对已有的cache数据做定点更新，由此可以基本将 cache 失效带来的抖动降到最低的水平。

X-Engine 中的缓存比较多样，memtable 也可算做其中一种。以有限的内存，如何恰当的分配给每一种缓存，才能实现价值最大化，是一个还未被妥善解决的问题，X-Engine 也在探索当中。

当然，LSM 对读带来的也并非全是坏处，除了 memtable 以外的只读的结构，在读取路径上可以做到完全无锁( memtable 也可设计成读无锁)。

Compaction

compaction 操作是比较重的。需要把相邻层次交叉的 key range 数据读出来，合并，然后写到新的位置。这是为前面简单的写入操作不得不付出的代价。X-Engine 为优化这个操作重新设计了存储结构。

如前所述，X-Engine 将每一层的数据划分为固定大小的" Extent"，一个 Extent 相当于一个小的完整的 SSTable, 存储了一个层次中的一个连续片段，其中又会被进一步划分一个个连续的更小的片段"Data Block"，相当于传统数据库中的"Page"，只不过是只读的，而且是不定长的。

回看数据组织一节中"合并操作对元数据的改变", 对比"Metadata Snapshot2"和"Metadata Snapshot1"的区别，可以发现 Extent 的设计意图。是的，每次修改对结构的调整并不是全部来过，而是只需要修改少部分有交叠的数据，以及涉及到的"Meta Index"节点。

两个"Metadata Snapshot"结构实际上共用了大量的数据结构。这个被称为数据复用技术(Data Reuse)，而 Extent 大小正是影响数据复用率的关键，Extent 作为一个完整的被复用的物理结构，需要尽可能的小，这样与其他 Extent 数据交叉点会变少，但又不能非常小，否则需要索引过多，管理成本太大。

X-Engine 中 compaction 的数据复用是非常彻底的，假设选取两个相邻层次(Level1, Level2)中的交叉的 Key Range 所涵盖的 Extents 进行合并，合并算法会逐行进行扫描，只要发现任意的"物理结构"(包括 Data Block 和 Extent )与其他层中的数据没有交叠，则可以进行复用。只不过，Extent的复用可以修改 Meta Index，而 Data Block 的复用只能拷贝，即便如此也可以节省大量的 CPU.

一个典型的数据复用在 compaction 中的过程可以参考下图：

可以看出，对于数据复用的过程是在逐行迭代的过程中完成的，不过这种精细的数据复用带来另一个副作用，即数据的碎片化，所以在实际操作的过程中也需要根据实际情况进行折中。

数据复用不仅给 compaction 操作本身带来了好处，降低操作过程中的 I/O 与 CPU消耗，更对系统的综合性能产生了一系列的影响。比如 compaction 过程中数据不用完全重写，大大减少了写入空间放大;更因为大部分数据保持原样，数据缓存不会因为数据更新而失效，减少合并过程中因缓存失效带来的读性能抖动。

实际上，优化 compaction 的过程只是 X-Engine 工作的一部分，还有更重要的，就是优化 compaction 调度的策略，选什么样的 Extent，定义 compaction 任务的粒度，执行的优先级，都会对整个系统性能产生影响，可惜并不存在什么完美的策略，X-Engine 积累了一些经验，定义了很多规则，而探索如何合理的调度策略是未来一个重要方向。

后记

X-Engine 是阿里云智能事业群-数据库产品事业部的重要核心技术之一。

作为兼容 MySQL 的数据库 POLARDB X 的存储引擎，之前是在服务阿里集团业务中逐渐打磨成熟，今年下半年，我们将在阿里云平台上推出 MySQL(X-Engine) 的RDS 公有云服务，为阿里云上的公有云客户提供低成本高性能的数据库服务。