如何定位哪些SQL产生了大量的Redo日志

运维 数据库运维
在ORACLE数据库的管理、维护过程中,偶尔会遇到归档日志暴增的情况,也就是说一些SQL语句产生了大量的redo log,那么如何跟踪、定位哪些SQL语句生成了大量的redo log日志呢?

[[373988]]

本文转载自微信公众号「DBA闲思杂想录」,作者潇湘隐者 。转载本文请联系DBA闲思杂想录公众号。   

 在ORACLE数据库的管理、维护过程中,偶尔会遇到归档日志暴增的情况,也就是说一些SQL语句产生了大量的redo log,那么如何跟踪、定位哪些SQL语句生成了大量的redo log日志呢?下面这篇文章结合实际案例和官方文档“How to identify the causes of High Redo Generation (文档 ID 2265722.1)”来验证判断一下。

首先,我们需要定位、判断那个时间段的日志突然暴增了,注意,有些时间段生成了大量的redo log是正常业务行为,有可能每天这个时间段都有大量归档日志生成,例如,有大量作业在这个时间段集中运行。而要分析突然、异常的大量redo log生成情况,就必须有数据分析对比,找到redo log大量产生的时间段,缩小分析的范围是第一步。合理的缩小范围能够方便快速准确定位问题SQL。下面SQL语句分别统计了redo log的切换次数的相关数据指标。这个可以间接判断那个时间段产生了大量归档日志。

  1. /******统计每天redo log的切换次数汇总,以及与平均次数的对比*****/ 
  2. WITH T AS  
  3.     SELECT TO_CHAR(FIRST_TIME, 'YYYY-MM-DD')    AS LOG_GEN_DAY,  
  4.            TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME, 'YYYY-MM-DD'),  
  5.                        TO_CHAR(FIRST_TIME, 'YYYY-MM-DD'), 1, 0)) 
  6.                 , '999'AS "LOG_SWITCH_NUM"  
  7.     FROM   V$LOG_HISTORY  
  8.   WHERE FIRST_TIME < TRUNC(SYSDATE)  --排除当前这一天 
  9.     GROUP  BY TO_CHAR(FIRST_TIME, 'YYYY-MM-DD')  
  10. SELECT  T.LOG_GEN_DAY 
  11.       , T.LOG_SWITCH_NUM 
  12.       , M.AVG_LOG_SWITCH_NUM 
  13.       , (T.LOG_SWITCH_NUM-M.AVG_LOG_SWITCH_NUM) AS DIFF_SWITCH_NUM 
  14. FROM  T CROSS JOIN  
  15.     SELECT  TO_CHAR(AVG(T.LOG_SWITCH_NUM),'999'AS AVG_LOG_SWITCH_NUM 
  16.     FROM T 
  17. ) M 
  18. ORDER BY T.LOG_GEN_DAY DESC
  19.   
  20.  
  21.   
  22.  
  23. SELECT    TO_CHAR(FIRST_TIME,'YYYY-MM-DD'DAY
  24.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'00',1,0)),'999'"00"
  25.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'01',1,0)),'999'"01"
  26.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'02',1,0)),'999'"02"
  27.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'03',1,0)),'999'"03"
  28.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'04',1,0)),'999'"04"
  29.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'05',1,0)),'999'"05"
  30.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'06',1,0)),'999'"06"
  31.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'07',1,0)),'999'"07"
  32.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'08',1,0)),'999'"08"
  33.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'09',1,0)),'999'"09"
  34.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'10',1,0)),'999'"10"
  35.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'11',1,0)),'999'"11"
  36.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'12',1,0)),'999'"12"
  37.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'13',1,0)),'999'"13"
  38.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'14',1,0)),'999'"14"
  39.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'15',1,0)),'999'"15"
  40.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'16',1,0)),'999'"16"
  41.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'17',1,0)),'999'"17"
  42.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'18',1,0)),'999'"18"
  43.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'19',1,0)),'999'"19"
  44.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'20',1,0)),'999'"20"
  45.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'21',1,0)),'999'"21"
  46.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'22',1,0)),'999'"22"
  47.                 TO_CHAR(SUM(DECODE(TO_CHAR(FIRST_TIME,'HH24'),'23',1,0)),'999'"23" 
  48. FROM V$LOG_HISTORY 
  49. GROUP BY TO_CHAR(FIRST_TIME,'YYYY-MM-DD')  
  50. ORDER BY 1 DESC

如下案例所示,2018-03-26日有一个归档日志暴增的情况,我们可以横向、纵向对比分析,然后判定在17点到18点这段时间出现异常,这个时间段与往常对比,生成了大量的redo log。

这里分享一个非常不错的分析redo log 历史信息的SQL

  1. ------------------------------------------------------------------------------------------------ 
  2. REM Author: Riyaj Shamsudeen @OraInternals, LLC 
  3. REM         www.orainternals.com 
  4. REM 
  5. REM Functionality: This script is to print redo size rates in a RAC claster 
  6. REM ************** 
  7. REM 
  8. REM Source  : AWR tables 
  9. REM 
  10. REM Exectution type: Execute from sqlplus or any other tool. 
  11. REM 
  12. REM Parameters: No parameters. Uses Last snapshot and the one prior snap 
  13. REM No implied or explicit warranty 
  14. REM 
  15. REM Please send me an email to rshamsud@orainternals.com, if you enhance this script :-) 
  16. REM  This is a open Source code and it is free to use and modify
  17. REM Version 1.20 
  18. REM 
  19. ------------------------------------------------------------------------------------------------ 
  20.   
  21. set colsep '|' 
  22. set lines 220 
  23. alter session set nls_date_format='YYYY-MM-DD HH24:MI'
  24. set pagesize 10000 
  25. with redo_data as ( 
  26. SELECT instance_number, 
  27.        to_date(to_char(redo_date,'DD-MON-YY-HH24:MI'), 'DD-MON-YY-HH24:MI') redo_dt, 
  28.        trunc(redo_size/(1024 * 1024),2) redo_size_mb 
  29.  FROM  ( 
  30.   SELECT dbid, instance_number, redo_date, redo_size , startup_time  FROM  ( 
  31.     SELECT  sysst.dbid,sysst.instance_number, begin_interval_time redo_date, startup_time, 
  32.   VALUE - 
  33.     lag (VALUE) OVER 
  34.     ( PARTITION BY  sysst.dbid, sysst.instance_number, startup_time 
  35.       ORDER BY begin_interval_time ,sysst.instance_number 
  36.      ) redo_size 
  37.   FROM sys.wrh$_sysstat sysst , DBA_HIST_SNAPSHOT snaps 
  38. WHERE sysst.stat_id = 
  39.        ( SELECT stat_id FROM sys.wrh$_stat_name WHERE  stat_name='redo size' ) 
  40.   AND snaps.snap_id = sysst.snap_id 
  41.   AND snaps.dbid =sysst.dbid 
  42.   AND sysst.instance_number  = snaps.instance_number 
  43.   AND snaps.begin_interval_time> sysdate-30 
  44.    ORDER BY snaps.snap_id ) 
  45.   ) 
  46. select  instance_number,  redo_dt, redo_size_mb, 
  47.     sum (redo_size_mb) over (partition by  trunc(redo_dt)) total_daily, 
  48.     trunc(sum (redo_size_mb) over (partition by  trunc(redo_dt))/24,2) hourly_rate 
  49.    from redo_Data 
  50. order by redo_dt, instance_number 

分析到这个阶段,我们还只获取了那个时间段归档日志异常(归档日志暴增),那么要如何定位到相关的SQL语句呢?我们可以用下面SQL来定位:在这个时间段,哪些对象有大量数据块变化情况。如下所示,这两个对象(当然,对象有可能是表或索引,这个案例中,这两个对象其实是同一个表和其主键索引)有大量的数据块修改情况。基本上我们可以判断是涉及这个对象的DML语句生成了大量的redo log, 当然有可能有些场景会比较复杂,不是那么容易定位。

  1. SELECT TO_CHAR(BEGIN_INTERVAL_TIME, 'YYYY-MM-DD HH24') SNAP_TIME,  
  2.        DHSO.OBJECT_NAME,  
  3.        SUM(DB_BLOCK_CHANGES_DELTA)                     BLOCK_CHANGED  
  4. FROM   DBA_HIST_SEG_STAT DHSS,  
  5.        DBA_HIST_SEG_STAT_OBJ DHSO,  
  6.        DBA_HIST_SNAPSHOT DHS  
  7. WHERE  DHS.SNAP_ID = DHSS.SNAP_ID  
  8.        AND DHS.INSTANCE_NUMBER = DHSS.INSTANCE_NUMBER  
  9.        AND DHSS.OBJ# = DHSO.OBJ#  
  10.        AND DHSS.DATAOBJ# = DHSO.DATAOBJ#  
  11.        AND BEGIN_INTERVAL_TIME BETWEEN TO_DATE('2018-03-26 17:00',  
  12.                                        'YYYY-MM-DD HH24:MI')  
  13.                                        AND  
  14.            TO_DATE('2018-03-26 18:00''YYYY-MM-DD HH24:MI')  
  15. GROUP  BY TO_CHAR(BEGIN_INTERVAL_TIME, 'YYYY-MM-DD HH24'),  
  16.           DHSO.OBJECT_NAME  
  17. HAVING SUM(DB_BLOCK_CHANGES_DELTA) > 0  
  18. ORDER  BY SUM(DB_BLOCK_CHANGES_DELTA) DESC

此时,我们可以生成这个时间段的AWR报告,那些产生大量redo log的SQL一般是来自TOP Gets、TOP Execution中某个DML SQL语句或一些DML SQL语句,结合上面SQL定位到的对象和下面相关SQL语句,基本上就可以判断就是下面这两个SQL产生了大量的redo log。(第一个SQL是调用包,包里面有对这个表做大量的DELETE、INSERT操作)

如果你此时还不能完全断定,也可以使用下面SQL来辅佐判断那些SQL生成了大量的redo log。在这个案例中, 上面AWR报告中发现的SQL语句和下面SQL捕获的SQL基本一致。那么可以进一步佐证。

注意,该SQL语句执行较慢,执行时需要修改相关条件:时间和具体段对象。

  1. SELECT TO_CHAR(BEGIN_INTERVAL_TIME,'YYYY_MM_DD HH24'WHEN
  2.        DBMS_LOB.SUBSTR(SQL_TEXT,4000,1) SQL, 
  3.        DHSS.INSTANCE_NUMBER INST_ID, 
  4.        DHSS.SQL_ID, 
  5.        EXECUTIONS_DELTA EXEC_DELTA, 
  6.        ROWS_PROCESSED_DELTA ROWS_PROC_DELTA 
  7. FROM DBA_HIST_SQLSTAT DHSS, 
  8.      DBA_HIST_SNAPSHOT DHS, 
  9.      DBA_HIST_SQLTEXT DHST 
  10. WHERE UPPER(DHST.SQL_TEXT) LIKE '%<segment_name>%'  --此处用具体的段对象替换 
  11.   AND LTRIM(UPPER(DHST.SQL_TEXT)) NOT LIKE 'SELECT%' 
  12.   AND DHSS.SNAP_ID=DHS.SNAP_ID 
  13.   AND DHSS.INSTANCE_NUMBER=DHS.INSTANCE_NUMBER 
  14.   AND DHSS.SQL_ID=DHST.SQL_ID 
  15.   AND BEGIN_INTERVAL_TIME BETWEEN TO_DATE('2018-03-26 17:00','YYYY-MM-DD HH24:MI'
  16.   AND TO_DATE('2018-03-26 18:00','YYYY-MM-DD HH24:MI'

其实上面分析已经基本完全定位到SQL语句,剩下的就是和开发人员或Support人员沟通、了解是正常业务逻辑变更还是异常行为。如果需要进一步挖掘深入,我们可以使用日志挖掘工具Log Miner深入分析。在此不做展开分析。其实个人在判断分析时生成了正常时段和出现问题时段的AWR对比报告(WORKLOAD REPOSITORY COMPARE PERIOD REPORT),如下所示,其中一些信息也可以供分析、对比参考。可以为复杂场景做对比分析(因为复杂场景,仅仅通过最上面的AWR报告可能无法准确定位SQL)

此次截图,没有截取相关SQL,其实就是最上面分析的SQL语句,如果复杂场景下,非常有用。

参考资料:

How to identify the causes of High Redo Generation (文档 ID 2265722.1)

 

责任编辑:武晓燕 来源: DBA闲思杂想录
相关推荐

2022-06-13 11:33:59

RedoMySQL

2015-07-13 13:12:51

闪存数据中心

2022-07-03 16:42:10

后端Web开发

2015-08-21 09:55:09

APP工程师泡沫

2010-07-08 13:13:14

清除SQL Serve

2022-08-15 09:00:23

数据库日志

2019-07-28 18:30:52

MySQL日志数据库

2011-04-28 10:09:11

传真

2011-06-28 08:32:40

MySQL慢查询日志

2019-09-27 16:33:50

人工智能AI教育

2019-08-21 14:27:33

大数据网络安全

2019-03-13 14:51:13

云计算AI云平台

2018-09-20 11:54:31

数据库MySQL性能优化

2023-11-29 16:15:48

CIOCISO

2022-05-11 07:41:55

死锁运算线程

2017-12-28 15:40:16

开源LinuxGitHub

2010-07-15 13:22:28

2018-01-26 07:44:04

数据中心机房雾霾

2023-02-20 11:02:59

数字化转型企业

2021-09-30 14:23:23

服务器开发工具
点赞
收藏

51CTO技术栈公众号