数据库 | “分库分表”，还能这么玩！-数据库分库分表

中大型项目中，一旦遇到数据量比较大，小伙伴应该都知道就应该对数据进行拆分了。有垂直和水平两种。

图片来自 Pexels

垂直拆分比较简单，也就是本来一个数据库，数据量大之后，从业务角度进行拆分多个库。

如下图，独立的拆分出订单库和用户库：

水平拆分的概念，是同一个业务数据量大之后，进行水平拆分。

上图中订单数据达到了 4000 万，我们也知道 MySQL 单表存储量推荐是百万级，如果不进行处理，MySQL 单表数据太大，会导致性能变慢。

使用方案可以参考数据进行水平拆分。把 4000 万数据拆分 4 张表或者更多。当然也可以分库，再分表;把压力从数据库层级分开。

分库分表方案中有常用的方案，hash 取模和 range 范围方案;分库分表方案最主要就是路由算法，把路由的 key 按照指定的算法进行路由存放。下边来介绍一下两个方案的特点。

在我们设计系统之前，可以先预估一下大概这几年的订单量，如：4000 万。每张表我们可以容纳 1000 万，也我们可以设计 4 张表进行存储。

那具体如何路由存储的呢?hash 的方案就是对指定的路由 key(如：id)对分表总数进行取模。

上图中：

优点：订单数据可以均匀的放到那 4 张表中，这样此订单进行操作时，就不会有热点问题。

热点的含义：热点的意思就是对订单进行操作集中到 1 个表中，其他表的操作很少。

订单有个特点就是时间属性，一般用户操作订单数据，都会集中到这段时间产生的订单。

如果这段时间产生的订单都在同一张订单表中，那就会形成热点，那张表的压力会比较大。

缺点：将来的数据迁移和扩容，会很难。如：业务发展很好，订单量很大，超出了 4000 万的量，那我们就需要增加分表数。

如果我们增加 4 个表：

一旦我们增加了分表的总数，取模的基数就会变成 8，以前 id=12 的订单按照此方案就会到 4 表中查询，但之前的此订单时在 0 表的，这样就导致了数据查不到。就是因为取模的基数产生了变化。

遇到这个情况，我们小伙伴想到的方案就是做数据迁移，把之前的 4000 万数据，重新做一个 hash 方案，放到新的规划分表中。也就是我们要做数据迁移。

这个是很痛苦的事情。有些小公司可以接受晚上停机迁移，但大公司是不允许停机做数据迁移的。

当然做数据迁移可以结合自己的公司的业务，做一个工具进行，不过也带来了很多工作量，每次扩容都要做数据迁移。

那有没有不需要做数据迁移的方案呢，我们看下面的方案。

range 方案也就是以范围进行拆分数据：

range 方案比较简单，就是把一定范围内的订单，存放到一个表中;如上图 id=12 放到 0 表中，id=1300 万的放到 1 表中。设计这个方案时就是前期把表的范围设计好。通过 id 进行路由存放。

优点：我们小伙伴们想一下，此方案是不是有利于将来的扩容，不需要做数据迁移。

即使再增加 4 张表，之前的 4 张表的范围不需要改变，id=12 的还是在 0 表，id=1300 万的还是在 1 表，新增的 4 张表他们的范围肯定是大于 4000 万之后的范围划分的。

缺点：有热点问题，我们想一下，因为 id 的值会一直递增变大，那这段时间的订单是不是会一直在某一张表中。

如 id=1000万～id=2000 万之间，这段时间产生的订单是不是都会集中到此张表中，这个就导致 1 表过热，压力过大，而其他的表没有什么压力。

总结：

那有什么方案可以做到两者的优点结合呢?即不需要迁移数据，又能解决数据热点的问题呢?

其实还有一个现实需求，能否根据服务器的性能以及存储高低，适当均匀调整存储呢?

hash 是可以解决数据均匀的问题，range 可以解决数据迁移问题，那我们可以不可以两者相结合呢?利用这两者的特性呢?

我们考虑一下数据的扩容代表着，路由 key(如 id)的值变大了，这个是一定的，那我们先保证数据变大的时候，首先用 range 方案让数据落地到一个范围里面。这样以后 id 再变大，那以前的数据是不需要迁移的。

但又要考虑到数据均匀，那是不是可以在一定的范围内数据均匀的呢?因为我们每次的扩容肯定会事先设计好这次扩容的范围大小，我们只要保证这次的范围内的数据均匀是不是就 ok 了。

我们先定义一个 group 组概念，这组里面包含了一些分库以及分表，如下图：

上图有几个关键点：

id=0～4000 万肯定落到 group01 组中。
group01 组有 3 个 DB，那一个 id 如何路由到哪个 DB?
根据 hash 取模定位 DB，那模数为多少?模数要为所有此 group 组 DB 中的表数，上图总表数为 10。为什么要去表的总数?而不是 DB 总数 3 呢?
如 id=12，id%10=2;那值为 2，落到哪个 DB 库呢?这是设计是前期设定好的，那怎么设定的呢?
一旦设计定位哪个 DB 后，就需要确定落到 DB 中的哪张表呢?