经常有新手同学问:数据分析完整流程是什么样的?今天用一个通俗的例子,让大家看清楚数据分析全流程。通过对比,你也能发现:为啥你觉得自己没有做过完整的数据分析。
某天,你的朋友老王对你说:“还上啥班呀,你看你上班一个月才1万块,还不如像我一样卖手抓饼呢,比你上班挣得多多了!”你又吃惊,又好奇。卖手抓饼真的比上班挣得多多了?为了解答这个问题,你得做个分析。前边老王对你说的话,用专业话说叫:了解分析背景。
那么,怎么确认卖手抓饼和上班哪个挣得多呢?你可能直观地想到:打工一个月多少钱是清楚的,卖手抓饼一个月赚多少钱不清楚。于是,你写下了如下图对比表,然后开始收集数据。这个动作,用专业话说叫:确定分析目标。
图片
手抓饼摊子虽小,杂七杂八的东西却挺多。
收入:卖饼子、火腿肠、鸡柳、饮料……
成本:小推车、炉子、燃气罐、酱汁、葱花……
一个个数太过费事且很难数清楚。
因此,你决定化繁为简,抓最主要的成本和收入。你去老王的摊子上,了解到以下关键信息:
1、最基本的原味手抓饼:1个饼+1个蛋,卖5元
2、酱汁、葱花都是小钱,主要成本是饼子、鸡蛋、天然气
3、火腿肠进价2毛卖2元,鸡柳进价3毛卖3元,能贡献大量利润
4、其他的零零碎碎都是边角料,聊胜于无
于是,你整理出下边的逻辑图与数据表,这一步,用专业话说:建立分析模型。
图片
做这步,可以开始收集数据了
1、收款用的是微信、支付宝,因此可以直接看当天入账
2、消耗的饼、蛋、火腿肠、鸡柳可以每日早晚盘点一次
3、消耗的煤气没法每日计算量,只能看两次更换用了多少天,分摊进去
这个过程,用专业话说:数据采集。采集过程中,要注意剔除一些问题,比如晚上打麻将输了1000元,这跟小摊没关系,因从微信收支里剔出去,这叫:数据清洗。
采集到细节数据后,可以计算每日的收支情况,如下表所示。这个过程叫:数据计算(俗称:取数)。取数的复杂程度,和数据计算的复杂度有直接关系,如果数据都像上边这么简单,工作肯定轻松很多。
有诗云:“一杯茶、一支烟、一段SQL写一天”,就是在吐槽,数据计算太过复杂,导致得写几百行SQL才能拿出来。
看到数据后,你会好奇:为啥老王收入这么不稳定?一天高一天低。具体了解每天以后,你发现:
1、下雨的日子,街上人少,收入下降(外部因素)
2、今天起晚了,没抢到好位置,收入下降(内部因素)
3、今天发烧,不舒服,只干到夜里9点,早早收摊,收入下降(内部因素)
看起来,如果不记录这些原因,是没法深入分析的。于是你如下图所示,对每一天老王的内部因素和外部因素做了记录。这个动作叫:增加分析维度(俗称:打标签)。
图片
有了分析维度,就能解释为啥老王收入不稳定了,并且有了一定预测能力。比如你看到天气预报,本月预计持续降雨2周,那老王的收入肯定保不住了。
综合以上所有信息,经过1个月以后,你终于完成了开头列出的分析目标,如下图所示。
图片
整体看起来,老王确实在数据统计月份,比你的打工工资高。但是经过细致的分析,你了解了老王收入波动的影响因素,可能会增加新的判断维度。比如:
1、我能不能坚持一个月出摊28天
2、我能不能早上6点起来抢好位置
3、我能不能发烧也坚持到夜里9点才扯
这个过程,用专业的话说,叫:增加评估标准。
最后,你得出结论:虽然摆摊收入是高,但太耗体力,且稳定性差,所以拒绝接受摆摊的建议。这叫:得出分析结论。