记一次数据分析的全过程-数据分析的过程

刚下完班的时候，在公司无聊的坐着，一位同事拿了一些数据给我，说让我实现一个类似交叉表格的统计报表。

我原以为是最多十几分钟就搞定的事情，没想到花了2个小时，所以印象比较深，就把全过程记录了下来

源数据就是个日志文本信息

2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToBack()=TRUE       Len=154  MsgID=x00000202                  
 
2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToFront()=TRUE      Len=260  MsgID=x08000202                BEIP=192.168.1.162                BEPort=22049 
 
2008/1/11               03:05:42:330           330          00004110                SeqID       418370    ToBack()=TRUE       Len=154  MsgID=x00000202                  
 
2008/1/11               03:05:42:346           346          00004110                SeqID       418370    ToFront()=TRUE      Len=261  MsgID=x08000202                BEIP=192.168.1.163                BEPort=22049

要的结果是统计一下，各时段对应的超时毫秒的数量

理论上也不复杂，能找出数据规律，进行分组统计而已，但问题在于：

首先统计是上下文相关的，即通过上下文的数据相计算才能获取到相应的指标

其次如何判断上下文的场景，根据几组字段判断都有问题，即得不到唯一的标示

原来想着应该是轻而易举的事情，先把数据导入oracle吧

有日期有时间，需要把文本的日期时间处理成oracle的date类型，可偏偏date类型不支持毫秒运算，第一个问题出来了，依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

先统计了再说吧

select b.hours, 
case when overlap<10 then '<10ms' 
     when overlap<20 then '10-20' 
     when overlap<30 then '20-30' 
     when overlap<40 then '30-40' 
     when overlap<50 then '40-50' 
     when overlap<60 then '50-60'       
     when overlap<70 then '60-70' 
     when overlap<80 then '70-80' 
     when overlap<90 then '80-90'   
     else '>90ms' 
end tt, 
count(*) 
from 
( 
select a.f,a.d from 
( 
select k,a,b,f,d,g,c, 
       LAG(c, 1, 0) OVER (partition by f,dORDER BY B,g) lastc, 
       LAG(b, 1, 0) OVER (partition by f,dORDER BY B,g) lastb, 
       case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0 then c - LAG(c, 1, 0) OVER (ORDER BY tt) 
        else  c - LAG(c, 1, 0) OVER (ORDER BY tt)+1000 end aa 
  fromtest6 t  
) a 
where a.g='ToFront()=TRUE' anda.aa>90 ) 
order by f,d,b,g 
) b 
group by b.hours, 
case when overlap<10 then '<10ms' 
     when overlap<20 then '10-20' 
     when overlap<30 then '20-30' 
     when overlap<40 then '30-40' 
     when overlap<50 then '40-50' 
     when overlap<60 then '50-60'       
     when overlap<70 then '60-70' 
     when overlap<80 then '70-80' 
     when overlap<90 then '80-90'   
     else '>90ms' 
end

结果统计出来了，结果非预期的，又对几条数据进行了统计和明细的对比，发现确实有些小问题，可问题出在哪里，也说不清楚。

为了解释清楚这个问题，还是对数据加上行号吧，再次进行对比，发现数据的位置变化了，和原本的日志顺序是不一样的。

为了解决这个问题，还是用rownum加上表数据生成到另外一张测试表吧，再去看看行号和日志的顺序是否能够对应，却发现日志的插入顺序和行号是不一致的！

又问了下同事，业务逻辑到底是怎样的，答曰：日志中上下文的顺序是很严格的

看来需要彻底解决行号问题了。

又在Excel中做了一下测试，Excel做测试很容易，先获取上条记录的毫秒信息，再进行排序，再把数据进行筛选，然后再进行分组判断，最后进行交叉表的生成。

对应大数据量来说，Excel的拖拉显然就满了很多，其次还需要函数、排序、复制数据，总的来说还是比较耗时的。

create or replace trigger trigger_test6 
  before insert on test6  
  for each row 
declare 
begin 
  select tt.nextval into :new.tt from dual; 
end trigger_test6;

再去验证数据的顺序，这次才算正常了

数据正常了，业务逻辑就简单多了，只需要把最内核的部分修改一下，按行号排序即可

select rr,k,a,b,f,d,g,c, 
       LAG(c, 1, 0) OVER (ORDER BY tt)lastc, 
       LAG(b, 1, 0) OVER (ORDER BY tt)lastb      
  from test6 t

统计完成后，再拷贝到Excel中进行数据透视表转换，再把表格数据拷贝出来，加一些美观信息即可。

该件事情还是没有得到完美解决

主要是毫秒的处理，理论上是时间的直接相减即可，可由于Oracle的date类型无法直接处理，只能采用日志中的毫秒字段进行相减了，碰到相减为负的，则再加回来1000，多少有些问题。

再其次，oracle导入时的数据顺序有问题，不过我想也许是我自己还没找解决问题的根本原因吧。

【编辑推荐】