终于有人讲清楚数据分析全流程了!

大数据 数据分析
数据分析的流程是什么样的?从工作事务的角度出发,我们可以将数据分析的工作流程划分为10个模块:界定问题、制定方案、定义数据、获取数据、理解数据、处理数据、验证方案、评估方案、实施方案和评价效用。本文就数据分析流程进行详细地讲解,以及用三个不同复杂程度的实例来说明如何利用数据分析工作流程来指导实践。

 从最初的做数据管理工作,到逐渐负责指标体系梳理、预警机制搭建、BI系统建设、商业分析等工作,我越来越认同——“要做什么”是比“要怎么做”更加重要的问题。

一个数据分析问题,例如“分析一下竞品的情况”,让人感觉无从下手。通常是因为这个问题过于抽象,过于复杂,从而让我们不知道“要做什么”。这时候我们就需要对问题进行拆解,把抽象的问题变具象,把复杂的问题变简单。

这个拆解过程就要求一个数据分析师对数据分析的整体框架有所了解。换言之,Ta应该能够回答:

[[359888]]

从工作事务的角度出发,我们可以将数据分析的工作流程划分为10个模块。该划分基于 “跨行业数据挖掘标准流程”( CRISP-DM),修改、扩充。目的在于涵盖商业分析的工作内容。

图1 - 数据分析的工作流程

完成这10个模块的工作,需要我们回答以下10类问题。

这10类问题围绕着“问题”、“数据”、“方案”三个核心关键词展开。

1. 问题

界定问题:需要解决的问题是什么?

制定方案:针对这个问题,(从数据出发)给出的解决方案是什么?

2. 数据

定义数据:根据预设的解决方案,需要的数据有哪些,是什么样形式的?

获取数据:所需的数据是可得的吗?从哪里可以获取?

理解数据:获取的数据蕴含了哪些信息?

处理数据:为了执行解决方案,我们还需要对数据进行哪些处理?

 3. 方案

验证方案:根据现有的数据,预设的解决方案可行吗?最初的问题可解吗?

评估方案:内部评估,预设的方案多大程度上解决了最初的问题?需要如何改进?

实施方案:以什么方式,能准时、保质保量的交付解决方案?

评价效用:外部评价,实施后的解决方案效果如何?有多少价值?产生了什么影响?需要如何改进?

[[359889]]

以上提出的数据分析工作流程的描述,还是挺抽象的。

以下,用三个不同复杂程度的实例来说明——如何利用数据分析工作流程的方法论来指导实际工作。

一、简单模式:“好好,这份业绩报表以后你来刷新维护。”

我的第一项数据分析工作,就是定期刷新一份已经设计好的业绩报表。这份工作非常棒,因为这项工作只涉及了工作流程中3个模块:⑥ 处理数据、⑨ 实施方案、⑩ 评价效用

图2 - 业绩报表刷新涉及的工作流程

而至于其他模块:

  1. 界定问题:在报表设计之初,就已经界定好了问题:我们要评估一下业绩的现状。
  2. 制定方案:并制定了一个交付物为报表的解决方案;这个报表中包含了我们用来衡量业绩的诸多指标,如:销售额,产能、产品结构等。
  3. 定义数据:计算这些指标所需的源数据也已经定义好了。
  4. 获取数据:可以直接从公司内部的系统获取数据。
  5. 理解数据 、验证方案 、评估方案这三个模块,前辈们也已经完成了。

所以更新业绩报表工作,只需要处理从系统中获取的数据;然后制作报表,并交付。对该项工作效用的评价方式为:及时性与准确性。

二、复杂模式:“好好,买了份咨询公司的数据,你分析一下市场情况。最好能够预测下季度的销量。”

假设你是麻雀水果贸易公司的数据分析师。现在老板从百灵鸟咨询公司买来了一份整个市场的销量数据。要求你根据这份数据,分析一下市场的情况,并对后续的销量做出预测。

这项工作的需求是相对明确的,这是一个描述现状和预测未来的需求。数据的来源,老板也花了数十万美金帮我们搞定了。所以我们不需要花太多的精力在① 界定问题 和 ④ 获取数据的模块。

图3 - 市场评估与销量预测的工作流程

我们粗略的看一下其他部分的模块应该要怎么做:

制定方案:

针对描述现状和预测未来的需求,我们分别制定方案给出响应。

对于描述现状的需求,我们给出解决方案A。从宏观到微观分为三个层次描述市场状况:行业、公司、产品。

对于预测未来的需求,我们用多元线性回归模型作为解决方案B。

所以对于这项工作,我们将有两个交付物:一份分析报告,以及一个预测模型。

定义数据:为了能够落地方案A与方案B,我们需要:

宏观经济的数据;

市场上产品的销量数据,并且这些数据要能够区分品牌、区分销售渠道、区分价位等;

此外产品本身特性的数据;

以及咨询公司提供的一些二手资料、结论等。

理解数据:我们要对咨询公司提供的数据做一些探索性的工作,获取更多的信息。

当我们获取的信息量更多之后,或许我们可以回到 ② 方案制定 的模块,做出更好的设计。

也可能我们发现,目前的数据,不足以支撑我们的分析需求。那么就要回到 ③ 获取数据 的模块,补充所需的数据。

数据处理:将数据加工为我们所需要的形式,指标等。这个过程的实施,可以是使用python、Excel、ETL流程等任何工具、方式、手段。

验证方案:将处理好的数据代入解决方案,得到结果。如果没能顺利得到结果,定位一下是②~⑥的哪个环节出了问题。

评估方案:评估得到的结果是否解决了最初的两个需求。例如:

方案A的分析报告,是否给出了我司在市场中地位的结论。

方案B的预测模型,对过往季度的销售额的预测准确度如何。

如果还有可改进的部分,在保证交付的前提下,返回模块 ⑦ 验证方案 进行优化。

实施方案:将两个交付物交付给老板,以及相关干系人(部门)。

评价效用:收集他们的意见与反馈。分析报告是否给相关决策提供支撑,预测模型在下季度的准确度如何?

三、地狱模式:“找点数据,分析一下吧。”

这时候
需求很难界定
方案无从谈起
数据没有来源
验证依靠幻想
实施更不可能
(有一说一,这不就是科学家的工作吗?)

 

 

责任编辑:梁菲 来源: 人工智能爱好者社区
相关推荐

2020-07-29 09:21:34

Docker集群部署隔离环境

2021-07-05 22:22:24

协议MQTT

2019-07-07 08:18:10

MySQL索引数据库

2024-04-01 10:09:23

AutowiredSpring容器

2023-08-14 11:35:16

流程式转化率数据指标

2021-04-10 10:37:04

OSITCP互联网

2020-10-16 17:20:21

索引MySQL数据库

2024-02-23 08:08:21

2022-01-05 09:27:24

读扩散写扩散feed

2021-01-29 10:50:04

数据中台数据数据管理

2019-05-22 08:43:45

指令集RISC-V开源

2020-04-23 10:21:57

Linux 网络编程 数据

2022-07-04 11:27:02

标签数据指标标签体系

2024-02-27 14:27:16

2023-05-29 13:59:00

GPTOpenAI监督微调

2019-06-19 14:58:38

服务器负载均衡客户端

2024-07-01 13:45:18

2021-02-28 12:47:27

数据分析科学技术

2020-10-08 11:24:04

数据分析技术IT

2019-10-09 10:10:36

数据分析大数据数据探索
点赞
收藏

51CTO技术栈公众号