作为分布式强一致数据库的开发者, 被多次问到:
如果我在新加坡和欧洲同时修改一条记录, 如在新加坡 set a=1, 在欧洲 set a=2, 结果 a 是多少?
我的回答是:
可能是 a=1, 也可能是 a=2.
然后提问者会非常困惑和不满:
你不是说数据库是强一致的吗? 为什么结果不确定呢?
我非常理解他的困惑, 但是, 他所提到的"并发操作"和"一致性"并没有必然的联系.
并发
Martin Kleppmann 提到并发(Concurrency)的定义:
For defining concurrency, exact time doesn’t matter: we simply call two operations concurrent if they are both unaware of each other, regardless of the physical time at which they occurred.
要定义并发, 时间并不是一个影响因素: 如果两个操作不知道对方(的开始和结束以及结果), 无论物理时间上他们何时发生, 我们都称这两个操作是并发的.
有这样的例子:
于 00:00:00 时间, 向服务器发起请求 A, 服务器一直没有返回结果. 然后, 于 00:00:03 时间(显然在上一个请求发起"之后"), 再向服务器发起请求 B.
那么, 是不是我们就能说 B 是在 A 之后呢? 结论是不能, 这两个操作是并发操作! 虽然我们明确知道 B 是在 A 发起之后才发起, 但在 B 发起之时, (B)并不知道 A 的结果, 根据 Martin Kleppman 的定义, 两个操作是并发的.
从时间区间上面来理解并发, 可能会更好. 一个操作由开始时间点和结束时间点, 组成一个时间区间, 如果两个操作的时间区间有重叠, 则这两个操作无法区分先后.
另一种定义并发的方法是:
- Martin Kleppmann: An operation A happens before another operation B if B knows about A, or depends on A, or builds upon A in some way.
如果不属于此种情况, 即为并发.
一致性
一致性和3个因素密切相关:
- 先后顺序
- 时间
- 空间
我所理解, 一致性便是唯一预期. 也就是给定输入条件, 能推导出唯一的结果. 对于某个操作场景, 无论我们重复验证多少次, 观察多少次(时间), 在哪里观察(空间), 结果都恒定.
如果读操作(观察)是在写操作之后, 那么观察结果就是我们所预期的那一个确定的结果.
如果读操作和写操作是并发的, 那么, 可能观察到旧值, 也可能观察到新值. 但是, 一旦观察到新值, 之后便不可能再观察到旧值(也即 Linearizable 的意思).