理解数据库原理可能是找到破解疑难杂症最后一张拼图的关键-51CTO.COM

以前和一些年轻的DBA沟通的时候，他们总是对我们这种二十年前的DBA总去探究某些数据库内部实现机理感到不能理解。他们觉得现在要学的东西太多，学习各种操作和实施方案就够费劲了，还花那么多精力去细抠一些很可能八百年都用不上的屠龙技，意义并不大。确实，我们这些年在Oracle的一些内部原理方面的知识都是一些碎片化的屠龙技，不是遇到问题的时候，真的没有太多其他的用处。不过在一些复杂问题定位的时候，这些知识往往是找到解决问题办法的关键。

前阵子有个券商的系统出现了一次故障，交易在3秒钟左右的时间里出现了严重卡顿，影响到了几百笔关键业务的成交。为了避免类似问题再出现，领导希望找到根因。

图片

从AWR报告的TOP EVENTS上看到了几个疑点，分别是Log File SYNC、enq TX-INDEX CONTENTION和Control File Sequential Read。这三种等待确实都可能引发几秒钟的卡顿。当时驻场服务的维保厂商认定是log fie sync引发了卡顿，要去考虑如何优化REDO方面的问题。我看了这个等待后，第一反应是索引引发的行锁等待的可能性更大一些，因为平均延时够大。

3秒钟的抖动，在30分钟的报告里可能会被稀释。以前我也写文章谈过这个问题，宏观分析用AWR，而微观分析要用ASH。有经验的DBA一般会在这个时候导出ASH数据，然后在EXCEL里去做分析。在我们的DBAIOPS运维知识自动化系统中，就是通过ASH数据去做根因定位的。

图片

拿到ASH数据，第一步是删除与本次分析无关的列，然后另存一个文件。Oracle的ASH数据的列太多了，看起来很浪费时间。这是为了分析本次问题我留下的列。其实不同的问题分析留下的列会略有不同，但是大同小异。

图片

第二步就是对EVENT进行筛选，找出所有你需要分析的等待事件的样本。找出enq: TX - index contention等待事件的所有行，然后去发现规律。我们过滤出了400多行，数量不多，这对于定位问题是十分好的兆头。

图片

下一步把这些行拷贝到另外一个EXECL页里，进行进一步分析。接下来我们通过Blocking_session去找阻塞者，太幸运了。只找到一条记录。会话4756。

图片

这时候我们要回到原始文件中继续分析，注意：一定要回到原始文件，因为enq: TX - index contention还有个相类似的等待事件enq: TX - row lock contention，其最终影响是类似的。大多数阻塞都存在类似的问题。过滤阻塞会话为4756的会话，发现有426条。与当时400多笔交易受影响的现象十分吻合。

图片

下面就需要继续分析会话4756了。找出4756存在的问题，就找到了解决问题的钥匙。于是在原始表格中搜索4756会话。这个会话只有3条记录，是三个连续采样周期的数据，相隔一秒，3秒钟也正好与系统故障阻塞的3秒钟左右相吻合。看来这回是真正找到真凶了。

图片

在这里我们发现了一个十分奇怪的现象，这个会话实际上也在执行一条INSERT语句，而且是与被阻塞的会话的SQLID是完全相同的。从三个采样上看，这条SQL是一次执行持续了3秒钟，因为我们看到SQL_EXEC_ID是同一个。一条简单的单行INSERT语句持续执行了3秒钟，这太不合理了。看到等待事件，都是db file sequential read，USER/IO类的等待。

至此，问题分析的前半段就基本上明确了，问题基本上定位。但是为了防止类似问题再发生，必须找出根因。维保厂商给出的日志同步的结论基本上可以推翻了，虽然说LOG FILE SYNC也能解释某些INSERT缓慢的问题，但是4756压根没有等待过LOG FILE SYNC，所以不可能是日志同步引发的本次故障。

定位清楚根因对于彻底根除此类问题十分关键，因此本次分析尚未完成，还需要继续分析下去。可能上面的分析ASH数据的过程大家还常用一些，下面就要介绍一些不常用的技巧了。

图片

在Oracle导出的ASH数据的尾部，有很多十分有价值的 DELTA数据，就是两次采样之间，这个SESSION的一些开销。从这些开销可以推理出很多细微的问题来，对于定位问题十分关键。

从上面的数据里可以分析出，这个会话在执行这条INSERT的时候，产生了大量的物理IO，加在一起接近46M。案例说INSERT不应该产生如此多的物理IO的。这张表很热，INSERT所需要的大部分数据块（包含索引和表）都应该是在DB CACHE里的。其实在看到enq: TX - index contention这个等待事件的时候，我第一反应就是索引分裂。当时和用户DBA讨论这个问题的时候，也和他们一起分析了AWR报告里的叶节点分裂和枝节点分裂的统计数据，叶节点分裂大概每秒10个，枝节点分裂为0.2。叶节点分裂对于如此高并发的系统来说算是比较多的，但是还可以接受。不过枝节点分裂就有点过高了。

其实到这个地方，传统的分析过程已经完毕。下面就要依靠分析问题的人的知识是否足以支撑下面的推理了。因为后面只能靠推理，而缺少实际数据支撑了。要分析的问题是为什么一条简单的单行INSERT会产生接近50M的物理读。在我的知识体系里，索引维护可能是最有可能的答案了。如果索引的节点分裂的时候，需要写入新数据的前台进程需要负责维护这个分裂过程，如果索引中存在大量的碎片，那么在这样一次操作中可能会扫描大量的索引块，引发此类问题。这种情况往往在于使用很长时间没有维护过索引的系统中发生。但是本系统是一个券商的交易系统，这张表每个交易日结束都会TRUNCATE 的，因此这种情况不会发生。

那么下一种可能就是索引的“大分裂”，甚至可能是BLEVEL的重建，如果表足够大，而且数据足够冷，写入后不怎么访问。那么很可能重建BLEVEL的时候，很可能需要扫描很多不在内存中的索引块，从而引发这个问题。这张表正好又是交易日志表，在交易时间内，基本上写入后不会访问的，很符合这个条件。我觉得这个解释目前是最为合理的。因此如果要避免此类问题发生，把这张表做成HASH表可能是最佳的解决方案。

其实定位这个故障的最关键的一个拼图就是对Oracle数据库的前台进程维护索引的原理的理解，如果你不掌握这个知识，那么分析到最后的推理往往会发生偏差，从而影响根因定位。实际上在b-tree结构的数据库，比如MYSQL上，此类问题发生得更加频繁。以前我就帮助用户分析过几次MYSQL的简单INSERT 偶发性缓慢的问题，其原因和这个问题是十分类似的。

这些理论虽然可用的场景有限，不过如果你想成为分析问题的高手，还是需要去多学学数据库的一些基础理论，甚至理解到算法层面。今天这篇文章写得有点费劲，写到这里已经快9点了，后面还有些话好像没写痛快，不过还有其他事情要做，今天就先到这里吧。