InnoDB 为什么使用 B+树实现索引?说到这个话题,就需要先聊一聊 InnoDB 的索引类型有哪些?
InnoDB 中的索引类型
InnoDB 存储引擎支持两种常见的索引数据结构:B+树索引和哈希索引,其中 B+树索引是目前关系型数据库系统中最为常见、最为高效的索引之一。
数据库中的 B+树索引可分为聚簇索引和非聚簇索引。聚簇索引按照每张表的主键构建一个 B+树,其叶子节点记录着表中每行记录的所有值。只需访问叶子节点即可获取整行记录的信息。非聚簇索引的叶子节点中并不包含完整的行记录信息,而仅包含索引值和对应的主键值。
根据索引的唯一性,索引可分为唯一索引和普通索引。唯一索引要求索引列的值必须唯一,不可重复。
此外,在 MySQL 5.6 版本中引入了全文索引,在 5.7 版本及以后,通过使用 ngram 插件开始支持中文全文搜索。
B+树的特点
首先来看一下 B+树的特点:
- B+树是一棵平衡树,每个叶子节点到根节点的路径长度相同,从而提高了查找效率;
- 所有关键字都存储在 B+树的叶子节点上,因此进行范围查询时只需遍历一次叶子节点即可;
- 叶子节点按照关键字大小顺序存放,因此能够快速支持按关键字大小进行排序;
- 非叶子节点不存储实际数据,这使得可以存储更多的索引数据;
- 非叶子节点使用指针连接子节点,从而能够迅速支持范围查询和倒序查询;
- 叶子节点之间通过双向链表连接,便于进行范围查询。
图片
使用 B+树实现索引具有以下几个优点:
- 支持范围查询:B+树在执行范围查找时,只需从根节点遍历至叶子节点,因为数据存储在叶子节点上,并且叶子节点之间有指针连接,便于进行范围查找。
- 支持排序:B+树的叶子节点按关键字顺序存储,能够快速支持排序操作,提升排序效率。
- 存储更多的索引数据:由于非叶子节点仅存储索引关键字而不存储实际数据,可容纳更多索引数据。
- 减少 IO 操作:B+树的叶子节点大小固定,一般设置为一页大小,使得节点分裂和合并时的 IO 操作较少,只需读取和写入一页。
- 利用磁盘预读:节点大小固定有利于利用磁盘预读特性,一次性读取多个节点到内存中,减少 IO 操作次数,提高查询效率。
- 优化缓存利用:B+树的非叶子节点仅存储指向子节点的指针,不存储数据,可使缓存容纳更多索引数据,提高缓存命中率,加速查询速度。
为什么不用红黑树或者 B 树?
因为 B+树的特点是只有叶子节点存储数据,而非叶子节点不存储数据,并且节点大小固定,叶子节点之间通过双向链表链接,所以,使用 B+树实现索引具有诸多优势,比如支持范围查询、有利于磁盘预读、优化排序等等。而这些是红黑树和 B 树无法实现的。
B+树索引和 Hash 索引有什么区别?
B+树索引和哈希索引是常见的数据库索引结构,它们之间存在以下几个主要区别:
B+树索引将索引列的值按大小排序后存储,因此适合范围查找和排序操作;而哈希索引则通过哈希函数计算索引列的值,得到一个桶的编号,然后将桶内记录保存在链表或树结构中。因此,哈希索引适合等值查询,但不适合范围查询和排序操作。
在插入和删除数据时,B+树索引需要调整索引结构,可能涉及页分裂和页合并等操作,因此维护成本较高;而哈希索引只需计算哈希值并操作链表中的记录,维护成本相对较低。
B+树索引在磁盘上有序存储,可利用磁盘预读提高区间查询效率;而哈希索引在磁盘上无序存储,可能需要随机访问磁盘,导致查询效率下降。
由于 B+树索引在节点中存储多个键值对,能充分利用磁盘块空间,提高空间利用率;而哈希索引需要额外存储哈希值和指针,空间利用率相对较低。