一次数据分析的全过程-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读一次数据分析的全过程

一次数据分析的全过程

2017-10-28

一次数据分析的全过程

刚下完班的时候，在公司无聊的坐着，一位同事拿了一些数据给我，说让我实现一个类似交叉表格的统计报表。

我原以为是最多十几分钟就搞定的事情，没想到花了2个小时，所以印象比较深，就把全过程记录了下来

源数据就是个日志文本信息

要的结果是统计一下，各时段对应的超时毫秒的数量

理论上也不复杂，能找出数据规律，进行分组统计而已，但问题在于：

首先统计是上下文相关的，即通过上下文的数据相计算才能获取到相应的指标

其次如何判断上下文的场景，根据几组字段判断都有问题，即得不到唯一的标示

原来想着应该是轻而易举的事情，先把数据导入oracle吧

有日期有时间，需要把文本的日期时间处理成oracle的date类型，可偏偏date类型不支持毫秒运算，第一个问题出来了，依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

先统计了再说吧

select b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end tt,

count(*)

from

(

select a.f,a.d from

(

select k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (partition by f,d ORDER BY B,g) lastc,

LAG(b, 1, 0) OVER (partition by f,d ORDER BY B,g) lastb,

case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0 then c - LAG(c, 1, 0) OVER (ORDER BY tt)

else c - LAG(c, 1, 0) OVER (ORDER BY tt)+1000 end aa

from test6 t

) a

where a.g='ToFront()=TRUE' and a.aa>90 )

order by f,d,b,g

) b

group by b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end

结果统计出来了，结果非预期的，又对几条数据进行了统计和明细的对比，发现确实有些小问题，可问题出在哪里，也说不清楚。

为了解释清楚这个问题，还是对数据加上行号吧，再次进行对比，发现数据的位置变化了，和原本的日志顺序是不一样的。

为了解决这个问题，还是用rownum加上表数据生成到另外一张测试表吧，再去看看行号和日志的顺序是否能够对应，却发现日志的插入顺序和行号是不一致的！

又问了下同事，业务逻辑到底是怎样的，答曰：日志中上下文的顺序是很严格的

看来需要彻底解决行号问题了。

又在Excel中做了一下测试，Excel做测试很容易，先获取上条记录的毫秒信息，再进行排序，再把数据进行筛选，然后再进行分组判断，最后进行交叉表的生成。

对应大数据量来说，Excel的拖拉显然就满了很多，其次还需要函数、排序、复制数据，总的来说还是比较耗时的。

还是想想怎么解决行号问题吧，确保行号就是数据的原始顺序，首先加了一个sequence，后来又在该表中增加了一个触发器，然后把数据重新导入一遍

create or replace trigger trigger_test6

before insert on test6

for each row

declare

begin

select tt.nextval into :new.tt from dual;

end trigger_test6;

再去验证数据的顺序，这次才算正常了

数据正常了，业务逻辑就简单多了，只需要把最内核的部分修改一下，按行号排序即可

select rr,k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (ORDER BY tt) lastc,

LAG(b, 1, 0) OVER (ORDER BY tt) lastb

from test6 t

统计完成后，再拷贝到Excel中进行数据透视表转换，再把表格数据拷贝出来，加一些美观信息即可。

该件事情还是没有得到完美解决

主要是毫秒的处理，理论上是时间的直接相减即可，可由于Oracle的date类型无法直接处理，只能采用日志中的毫秒字段进行相减了，碰到相减为负的，则再加回来1000，多少有些问题。

再其次， oracle导入时的数据顺序有问题，不过我想也许是我自己还没找解决问题的根本原因吧。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

字段交叉表透视表数据透视数据透视表大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一次数据分析的全过程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】神经网络最后一层：激活函数加还是不加 ...

【CDA干货】特征相对重要性：解锁模型鲁棒性与可解 ...

CDA数据分析师：指标体系搭建方法论，让数据驱动精 ...

【CDA干货】回归分析中调整后R方为负？本质、成因与 ...

【CDA干货】经纬度热力图：从离散坐标到空间密度的 ...

CDA数据分析师：用通用与场景指标，构建业务洞察双 ...

【CDA干货】季节分解法：解锁时间序列数据的“四季 ...

【CDA干货】大数据存储技术全景解析：从架构到选型 ...

CDA数据分析师：以指标为钥，解锁数据与业务的连接 ...

【CDA干货】神经网络损失函数：没有“最佳值”，但 ...

CDA数据分析师：用参数估计，让样本数据说出总体真 ...

【CDA干货】数据标准化后出现负值？别急！场景化解 ...

【CDA干货】数据驱动增长：三大行业A/B测试落地案例 ...

【CDA干货】解密LSTM预测结果：为何有时相同，有时 ...

描述性统计：CDA数据分析师的“数据透视镜” ...

【CDA干货】从杂乱到清晰：无序数据点的系统分析方 ...

【CDA干货】MySQL查询阻塞在query end状态：排查与 ...

CDA数据分析师：用透视分析方法，让表结构数据秒变 ...

【CDA干货】分布的“性格”：正态与偏态如何左右统 ...

【CDA干货】一次查500条vs5次查100条：数据查询的压 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载