完整的数据分析全流程,不容错过!

大数据 数据分析
采集到细节数据后,可以计算每日的收支情况,如下表所示。这个过程叫:数据计算(俗称:取数)。取数的复杂程度,和数据计算的复杂度有直接关系,如果数据都像上边这么简单,工作肯定轻松很多。

经常有新手同学问:数据分析完整流程是什么样的?今天用一个通俗的例子,让大家看清楚数据分析全流程。通过对比,你也能发现:为啥你觉得自己没有做过完整的数据分析。

某天,你的朋友老王对你说:“还上啥班呀,你看你上班一个月才1万块,还不如像我一样卖手抓饼呢,比你上班挣得多多了!”你又吃惊,又好奇。卖手抓饼真的比上班挣得多多了?为了解答这个问题,你得做个分析。前边老王对你说的话,用专业话说叫:了解分析背景。

那么,怎么确认卖手抓饼和上班哪个挣得多呢?你可能直观地想到:打工一个月多少钱是清楚的,卖手抓饼一个月赚多少钱不清楚。于是,你写下了如下图对比表,然后开始收集数据。这个动作,用专业话说叫:确定分析目标。

图片图片

手抓饼摊子虽小,杂七杂八的东西却挺多。

  • 收入:卖饼子、火腿肠、鸡柳、饮料……
  • 成本:小推车、炉子、燃气罐、酱汁、葱花……

一个个数太过费事且很难数清楚。

因此,你决定化繁为简,抓最主要的成本和收入。你去老王的摊子上,了解到以下关键信息:

1、最基本的原味手抓饼:1个饼+1个蛋,卖5元

2、酱汁、葱花都是小钱,主要成本是饼子、鸡蛋、天然气

3、火腿肠进价2毛卖2元,鸡柳进价3毛卖3元,能贡献大量利润

4、其他的零零碎碎都是边角料,聊胜于无

于是,你整理出下边的逻辑图与数据表,这一步,用专业话说:建立分析模型。

图片图片

做这步,可以开始收集数据了

1、收款用的是微信、支付宝,因此可以直接看当天入账

2、消耗的饼、蛋、火腿肠、鸡柳可以每日早晚盘点一次

3、消耗的煤气没法每日计算量,只能看两次更换用了多少天,分摊进去

这个过程,用专业话说:数据采集。采集过程中,要注意剔除一些问题,比如晚上打麻将输了1000元,这跟小摊没关系,因从微信收支里剔出去,这叫:数据清洗。

采集到细节数据后,可以计算每日的收支情况,如下表所示。这个过程叫:数据计算(俗称:取数)。取数的复杂程度,和数据计算的复杂度有直接关系,如果数据都像上边这么简单,工作肯定轻松很多。

有诗云:“一杯茶、一支烟、一段SQL写一天”,就是在吐槽,数据计算太过复杂,导致得写几百行SQL才能拿出来。

看到数据后,你会好奇:为啥老王收入这么不稳定?一天高一天低。具体了解每天以后,你发现:

1、下雨的日子,街上人少,收入下降(外部因素)

2、今天起晚了,没抢到好位置,收入下降(内部因素)

3、今天发烧,不舒服,只干到夜里9点,早早收摊,收入下降(内部因素)

看起来,如果不记录这些原因,是没法深入分析的。于是你如下图所示,对每一天老王的内部因素和外部因素做了记录。这个动作叫:增加分析维度(俗称:打标签)。

图片图片

有了分析维度,就能解释为啥老王收入不稳定了,并且有了一定预测能力。比如你看到天气预报,本月预计持续降雨2周,那老王的收入肯定保不住了。

综合以上所有信息,经过1个月以后,你终于完成了开头列出的分析目标,如下图所示。

图片图片

整体看起来,老王确实在数据统计月份,比你的打工工资高。但是经过细致的分析,你了解了老王收入波动的影响因素,可能会增加新的判断维度。比如:

1、我能不能坚持一个月出摊28天

2、我能不能早上6点起来抢好位置

3、我能不能发烧也坚持到夜里9点才扯

这个过程,用专业的话说,叫:增加评估标准。

最后,你得出结论:虽然摆摊收入是高,但太耗体力,且稳定性差,所以拒绝接受摆摊的建议。这叫:得出分析结论。

以上就是数据分析全过程:

1、了解分析背景

2、明确分析目标

3、建立分析模型

4、数据采集、清洗、计算

5、增加分析维度与评估标准

6、得出分析结论与建议

之所以很多同学觉得:自己没做过完整的分析,常见的原因是:

  • 作为基层员工,只干第4步,不知道为啥取数,不知道数有啥用
  • 没有清晰的目标(第2步),取完数下不了结论,也没有效建议
  • 对业务不了解,不知道模型是啥(第3步)也不知哪些维度有用(第5步)
  • 公司数据建设太差,缺少数据,数据质量差,消耗大量精力(第4步)
  • 业务部门不配合,自己领导懒得教,光让“自己多想想”……
责任编辑:武晓燕 来源: 接地气的陈老师
相关推荐

2016-02-29 15:00:48

RSA/信息安全

2019-10-29 09:00:00

AIOps人工智能

2022-09-22 16:17:12

css编程语言开发

2014-07-10 10:56:21

jQuery

2015-09-17 17:37:57

工具程序开源

2023-06-29 17:53:00

VSCode插件程序

2021-11-30 17:33:59

数字化

2018-08-01 14:57:57

数据科学机器学习社区

2016-09-21 15:31:24

数据 峰会

2019-07-04 08:00:00

MySQL存储开发

2020-05-08 09:13:48

前端开发

2013-08-19 10:45:42

华为HCC大会HCC2013华为

2014-08-26 10:38:23

AppAndroid Wea应用

2018-04-10 10:44:37

华为云

2012-02-02 10:40:47

开发者盛会Linux

2019-07-02 10:05:11

Linux 开源操作系统

2014-08-28 14:09:40

AppAndroid Wea应用

2015-08-06 09:22:19

开源持续集成服务器工具

2020-01-14 10:17:13

深度学习人生第一份工作人工智能

2024-01-18 00:00:00

开发框架Port
点赞
收藏

51CTO技术栈公众号