我们一起解密数据分析

大数据 数据分析
数据分析的定义,在百度百科上是这样介绍的:“用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。”这句话的理解比较费劲,那么简单一点讲,数据分析就是发现有用的信息,提供结论并支持决策。

[[402488]]

本文转载自微信公众号「晓阳的数据小站」,作者晓阳的数据小站。转载本文请联系晓阳的数据小站公众号。

 |0x00 数据分析做什么

数据分析的定义,在百度百科上是这样介绍的:“用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。”这句话的理解比较费劲,那么简单一点讲,数据分析就是发现有用的信息,提供结论并支持决策。

有道是“数据在手,天下我有”,但如何寻找出数据中潜在的价值,就是分析师的重要工作了。

数据分析大概有两种不同的发展方向,一种是偏向业务分析,需要对业务有比较深的理解,在此基础上,通过数据来寻找业务增长的套路,例如用户增长、网站分析、经营分析等;另一种是偏向数据挖掘,更加注重技术、尤其是算法能力的应用,需要对常见算法的应用熟练掌握。实际工作中,由于数据挖掘需要非常好的技术功底,因此绝大多数人都是偏向业务进行分析。

|0x01 数据分析的工作内容

那么数据分析的童鞋,日常主要在做什么呢?简而言之,在做三件事:业务的现状是什么、为什么会发生、未来将要如何(或如何改进)。

现状分析,就是告诉业务决策者,过去发生了什么事情,并且通常以报表的形式呈现出来。所以分析师不光要能够做日报、周报,还需要自己来搭建报表平台,通过分析关键的指标,来掌握业务的运营情况。

原因分析,是在业务现状的基础上,分析为什么会发生这些事情。比如指标上升或者下降了,是因为什么原因造成的;或者是分析不同渠道对于最终转化的贡献情况。分析的过程,通常会通过专题的形式展示出来。

预测分析,则是告诉业务,未来会发生什么。预测其实是一件很重要的工作,不论是企业经营目标的制定,或者是相关策略的落实,都需要预测未来可能的情况,来保证业务的健康可持续发展。例如电商大促的到来,销量会得到很大的提升,那么对应的预算、物流、商家要做怎样的应对,都依赖于数据来提供预测。

|0x02 相关概念的解释

还是有人会产生疑问:“数据分析”、“数据科学”、“数据驱动”、“商业智能”,这些概念都有怎样的不同呢?

首先说一下“商业智能”,英文是Business intelligence,这是我们常说的BI,其主要价值,在于通过一系列的数据技术,从数据中挖掘隐藏的客观规律,总结这些规律背后的原因,并用于指导公司业务的发展。大多数情况下,BI分析师的工作,就是通过SQL、Python等语言,将已经统计好的数据,结合数据模型或者是分析框架,来对业务进行各种分析,并做成有价值的报表或者报告的形式,供业务方进行分析。

再讲讲“数据科学”,这个概念就要宽泛的多,通常指在跨学科的领域中,通过数据来寻找到解决问题的方法。数据科学的概念其实比较模糊,属于宽口径的概念,在不同的行业里所做的事情,可能是截然不同的。在互联网行业中,数据科学大约代表:先通过探索分析发现问题,然后再用数据建模去解决问题。

那么“数据驱动”又如何理解?数据驱动的字面意思是将数据来作为生产资料,通过科学的方法,来推动业务的优化提高。在互联网行业里,数据驱动又可以分为数据驱动产品、数据驱动业务两个方向,比如通过A/B测试来寻找最优的推荐算法,或者是设计实验来指导产品迭代更新的方向,等等。

因此,在一家公司中,不同数据岗位的分工大体如下:数据工程师负责数据平台的搭建、数据仓库的建设,以确保数据被正确的计算和方便的获取;数据分析师根据数据来描述或者是分析相应的问题,这其中包括了“商业智能”来做报表,或者是“数据科学”来寻找数据模型,最终都是“数据驱动”业务增长或产品迭代。

|0x03 如何来做数据分析

数据分析虽然需要的基础知识非常多,属于入门门槛比较高的那一种,但实际的工作却大体遵循如下的步骤,细节可以有不同:

明确分析目的 - 确定思路框架 - 准备数据 - 分析数据 - 展示数据 - 报告撰写。

一,明确分析目的,非常重要,目的不明确会导致分析的过程十分盲目。这里会有一个假设,即分析师需要懂业务,并且有自己对于业务的理解,如果没有相应的专业知识,通常分析的结果就没有特别大的价值。那么什么是懂业务?大体上就是需要明白企业的商业模式是怎样的,通过什么样的关系能够产生商业价值。如果是2B方向,还需要懂一些管理学的内容,了解数据如何辅助公司的经营管理。

二,确定思路框架,是通过怎样的指标、哪些角度来进行分析。其实业界有一些非常通过的方法,可以让我们快速开展业务的同时,能够保证“MECE原则”,即对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并成为有效解决问题的方法。

常见的思路框架包括:决策树管理分析法、PEST行业分析法、5W2H问题分析法、4P营销理论、SWOT竞争力分析模型…… 这里的方法论非常多,一些细分方向也有自己的成套理论,比如“用户增长”常用的AARRR漏斗模型、RFM理论等。这里就不一一展开了,网上能够搜到大把的资源,但有一点需要注意,就是掌握模型切记只掌握个大概,因为每个模型是相应知识体系的总结,只能交给你思路,而无法交给你哪些坑应该避免、什么情况下不起作用,等等。

三,准备数据,这个工作通常由数仓团队完成,一些流量场景,需要采集数据的,也可以通过数据埋点平台来自动完成。当然,成熟的团队会通过建立自己的指标体系,来灵活的支持业务的发展。

四,分析数据,以上文提到的现状、原因与预测分析为例,可以衍生出很多相应的分析方法。我们日常听到比较多的假设检验、回归分析、聚类分析等,都是在分析数据阶段需要用到的专业知识。

常见的分析方法有:A/B测试、描述分析、假设检验、信度分析、推断分析、相关分析、回归分析、聚类分析、时间序列分析…… 在使用分析方法时,需要注意的一点是口径要一致,例如指标的口径范围、计算方法、计量单位等进行检查。

五,展示数据,一般情况下是通过图表和表格来展示数据,通常是能用图说明的,就不要用表格,除非表格能够提供更多的信息。

详情见下图。

所以有句话说道:数据分析无非四种方法:“比较”、“分布”、“构成”、“联系”。

六,报告撰写,根据分析框架,图文并茂的写一个好故事吧,记得要有清晰的结论。

|0x04 A/B测试

俗话说,“增长团队有三宝:埋点、漏斗、AB测”,埋点是数据平台的功能,漏斗是分析问题的思路,但为什么要单独提一下A/B测试?是因为有了数据分析的方法之后,我们还需要数据分析的平台,来对分析的成果快速的进行实验。可以说,A/B测试是支持数据决策最有力的工具。

A/B测试针对2种以上的方案,不论是一整套产品方案,还是一个小元素的改动,只要变量是唯一的,那么我们就可以对同一组人群,进行随机的分组,在同等的时间维度内,将实验组和对照组的结果进行对比,来衡量那种方案更好。

其实很多开发与测试的同学不太理解A/B测试的重要性,因为从开发的视角出发,这些内容确实会增加很多的动作量。但如果从业务的角度出发,那作用可就大了,不论是争议方案的对比、还是产品转化率的提升、亦或是多个数据策略的贡献分配、再或者是产品功能保持简洁的方法,都需要大量的实验来验证我们的想法。在互联网公司中,我们并不缺少想法,但我们需要验证想法的工具,让数据来消除我们的收益淹没、认知偏差、侥幸心理和收益分配矛盾。

在实际的工作中,A/B测试并不简单的代表分成两个实验组,就完事了,因为我们需要考虑“辛普森悖论”的存在。辛普森悖论是指在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。如果不了解辛普森悖论,盲目的解读试验结论,很容易得出错误的结论。因此,我们通常会设计更多的参照,以验证我们想法的正确性,比如AA测试,或者AAB测试,这都需要一些经验的累积。

36Kr曾在一篇报道中写道,“头条发布一个新APP,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?”

|0x05 数据化运营

数据分析如果持续的做下去,那么它的目标就不仅仅是运营看板或者是分析报告了,而是走向“数据化运营”的发展路线中。

“数据化运营”的概念很火,但其实很多人对它有误解,认为这就是将“运营”的工作线上化了而已,但其实不然。在百度百科中,对“数据化运营”的定义是:“数据化运营是指通过数据化的工具、技术和方法,对运营过程中的各个环节进行科学的分析,为数据使用者提供专业、准确的行业数据解决方案,从而达到优化运营效果和效率、降低运营成本、提高效益的目的。”

但在互联网行业中,“数据化运营”的核心思路在于,基于“用户”的行为和属性,对“用户”进行运营。因为互联网产品的生命周期,就是一个闭环的模型:用户获取、用户活跃、用户留存、口碑传播、付费转化。这其中的每一个环节,都是一个漏斗,通过对数据进行分析,来运营指标的增长,或者是指导产品成长。例如最经典的啤酒与尿布的故事,就是一个典型的场景,通过发现用户行为的关联,来设置合理的运营策略,提升最终的产品销量。

就像精益创业中提到的“MVP”理论一样,不论是数据分析制定的各种策略,或者是企业的不同战术打法,其实都不一定是奏效的,而在执行策略的同时,通过数据的沉淀,来不断验证策略打法的有效性,最终发现那个最合适的“MVP”功能,是数据化运营的核心导向。

现在的数据化运营体系已经变得更加复杂,不仅是因为业务场景的设计越来越复杂,也因为机器学习、因果推断等新技术的应用,使得一些感性的数据能够被利用起来,让我们的运营能够更加清楚的看到业务与目标的差距在哪里、应该通过哪些手段来弥补GAP,调整方法会产生怎样的影响,最终形成我们口中的“数据智能”。

|0xFF 尾记

KPMG(毕马威)的Swami Chandrasekaran分享过一个数据科学家的学习路线图,包括了数据的基本原理、统计学、机器学习、数据可视化、大数据处理等方面的推荐知识,感兴趣的可以学习一下。原本是2013年写的,部分内容可能需要更新,但个人觉得这种类似地铁线路图的方式,很适合作为自己学习的思维导图。

图片

 

责任编辑:武晓燕 来源: 晓阳的数据小站
相关推荐

2024-03-20 08:13:10

程序开发App

2023-11-28 12:42:56

数据分析管理

2024-09-05 10:36:58

2024-09-09 08:53:56

2024-08-05 10:55:52

2024-08-26 08:34:47

AES加密算法

2022-07-10 23:15:46

Go语言内存

2021-03-10 12:43:06

LDR指令函数

2022-06-09 21:57:19

TCPIP协议栈

2022-03-31 18:59:43

数据库InnoDBMySQL

2023-08-04 08:20:56

DockerfileDocker工具

2021-08-27 07:06:09

DubboDocker技术

2023-06-30 08:18:51

敏捷开发模式

2022-10-18 07:33:57

Maven构建工具

2023-08-10 08:28:46

网络编程通信

2021-01-12 05:08:49

DHCP协议模型

2022-05-24 08:21:16

数据安全API

2023-09-10 21:42:31

2024-02-20 21:34:16

循环GolangGo

2021-08-27 07:06:10

IOJava抽象
点赞
收藏

51CTO技术栈公众号