4种数据分析基础方法,终于有人讲明白了

大数据 数据分析
提到数据分析的基础方法,大家肯定很容易想到对比、细分和趋势,但是这些都是非常基础的入门理论,本文不会涉及。本文主要介绍产品经理在管理整个项目、解决整个项目的问题的时候,需要用到的数据分析方法。

[[384022]]

 01 全链路分析

全链路分析是指对全链路的每个节点进行分析和研究,它是一种非常重要的分析思路,也是对产品经理而言最重要的思路。大家所熟知的漏斗分析、AARRR模型都是典型的全链路分析(见图2-1)。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图 2-1 常用全链路分析模型举例

还有很多常用的业务模型都属于全链路分析中的整体节点监控,比如生命周期(用户生命周期、商品生命周期、产品生命周期等)的思路。

全链路分析的步骤如下:

  1. 梳理链路关键节点,确定每个节点指标;
  2. 进行节点洞察,分析每个节点的数据,查看问题点和增长点。

我们用一个背景是广告平台的案例来讲解全链路分析的步骤。广告平台的作用就是统一对接各个媒体,让广告主在广告平台上可以买到各个媒体的流量。

第一步:梳理关键节点,确定每个节点指标

最开始,梳理的广告行业的全链路流程是这样的:

  1. 媒体发送广告请求;
  2. 广告平台对其中的部分请求返回广告;
  3. 媒体展现广告;
  4. 用户点击广告;
  5. 广告平台扣广告费(这是广告平台的收入)。

梳理出来的关键节点和指标如图2-2所示,图中,每个比率指标是下一个节点数据与上一个节点数据的比值。注意,节点指标除了指这个节点的指标值,也可以指比率指标。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图 2-2 广告行业全链路分析

全链路公式是CPC,即收入=PV×PV展示广告的比例×广告位数量×点击率×平均点击价格。

到了这一步,指标体系就建好了,可以用来做关键节点监控。要把中间的每个节点都梳理出来,如果中间有漏掉的节点,那么就说明思路有遗漏,容易出现问题。特别是当数据量大、数据流转系统多的时候,节点就要更细。

经过一段时间的使用后,笔者发现漏掉了很多节点,即广告平台把数据返回媒体后,还要经过竞价、排名才会被媒体展现给用户,完善后监控的节点变成图2-3中的第二种方式。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图 2-3 广告平台全链路分析

此时全链路公式变成

收入=实际请求数×出价率×参与竞价率×竞价成功率×(1-响应超时率)×点击率×平均点击价格

这个公式和上一个公式基本一样,只是为了让监控更完善,加了几个节点。

第二步:对每个节点进行深入洞察

如果只是完成第一步,全链路分析只能用于监测,要想得到具体的问题及解决方案,还要对每个节点进行深入洞察,梳理每个节点的影响因素,如图2-4所示。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图 2-4 全链路分析的节点排查

在每个节点,都有非常多的原因导致这个节点的流量转化效率低。经过这样的梳理,才能找出根本原因,进而有针对性地给出解决方案。

当产品经理负责一个项目时,就是这样一个节点一个节点地优化,才能做好整体数据。由此可知,全链路分析是产品经理必备的思路和技能。

02 组成因子分解

把整体指标数据按照某种分类标准分成不同的因子的过程,称为组成因子分解。整体目标等于所有的组成因子之和。以广告平台总收入为例,其组成因子分解如图2-5所示。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图 2-5 广告平台总收入的组成因子分解

整体指标数据只能让人看到目标达成的结果,但是不能知道是如何达成目标的,也不知道执行中的细节,更不知道如何改进。组成因子分解首先可以明确思路,把组成结果的因素清晰地列出来,并且可以针对不同的因子,制定对应的策略。

案例:笔者曾经有一次在做渠道分析时,用了这样的组成因子分解:总费用=A类渠道费用+B类渠道费用。但之后发现,A类渠道的花费是B类渠道的1.6倍,而有效用户却是B类的2.4倍(见表2-1)。在这之前,B类渠道在其他项目的经验中效果是非常好的,所以市场人员都在B类渠道花精力,看到这个数据后,立刻决定去接触市面上所有的A类渠道,以便扩充优质流量。

 

 

表2-1 多个组成因子对比的案例

如果只看整体费用,就得不到这样的结论,也就不能提出有用的建议。

任意一个指标可拆解的方式都是非常多的,比如,针对总流量的组成因子分解,就有以下几种方式。

  • 按时间拆分。不同时间段数据是否有变化。
  • 按渠道拆分。不同渠道的流量也会不同。
  • 按用户拆分。新用户和老用户的流量会有明显的区别。笔者待过的一家公司,老用户的流量就远远大于新用户,这种情况,就需要想办法促进新用户的流量。

要尝试多种方式,试验出最好的因子分解方式。

需要注意的是,如何进行组成因子分解,代表着思考问题的第一维度,直接影响能否得到有用的结论。后面的所有策略和解读都是根据第一步因子分解而来的。

  1. 优先考虑业务团队习惯的拆解思路,比如广告类公司会把客户分为大客户、中小客户。
  2. 要勇敢尝试,不要固化思路。

案例:以前做过一个项目,我们按“收入=移动端收入+PC端收入”来分解组成因子,发现移动端收入快速上涨。但是当时高层的思路还是“销售额=流量×转化率×客单价”,他们盘算的是“客单价提升x元,就会提升x元的销售额”。按照这样的思路,资源就投给了客单价提升,没有在移动端投入。等到发现移动时代来临,再开始建团队和买流量,成本已经变得非常高。

从这个案例中可以看出,如何进行因子分解,决定了如何思考目标的组成因素,即如何思考解决方案、资源调配等更深层的问题。所以要经常尝试是否有其他的因子分解方式,如果囿于经验、思路固化,可能就会错失机会。

03 影响因子拆解

很多时候,因子对结果的影响是定性的,并不能完全把结果拆成多个因子的相加,这时候就可以采用影响因子拆解的方式,列出对结果有影响的所有因子,逐个分析。比如对于销售额,影响因子就是商品、会员、客服、流量、活动等,但是不能说销售额=商品+会员+客服+流量+活动。

图2-6所示为B2C订单转化率的常用影响因子拆解。

 

 

▲图2-6 B2C订单转化率影响因子拆解

影响因子对结果的影响是定性的,并不能直接推出来,如果想通过影响因子分解这种方式做增长,测试是一个好办法。

案例:有一个SaaS软件团队,客户是小型创业公司。经过分析后,这个团队认为影响购买转化率的因素之一是客户团队人数,如果团队人少,就不会购买这种提高效率的软件。所以他们在客户团队人数这个指标上做了一个测试:3个人、10个人、5个人,不断尝试,看哪个数值使转化率最高。

影响因子还可以用于制作PPT的框架。在做数据分析之前,如果我们已经知道了分析的目的,需要考虑从哪些角度去达成分析目的,一般用这种思路。

案例:某客户的需求是查看一场活动效果。对于品牌类的客户,我们认为活动效果包括品牌分析和人群分析。在这样的拆分下,PPT的框架就出来了,如图2-7所示。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图 2-7 影响因子用于制作PPT框架

04 枚举法

枚举法是把所有的数据一一列举出来,然后进行后续的分析。枚举法是策略产品经理日常分析数据用得最多的方法,当然对于其他类型的数据产品经理而言,也非常好用。

枚举法的通用分析步骤如图2-8所示。

 

 

▲图2-8 枚举法分析过程

再举一个搜索优化的例子。算法类的产品,如搜索、推荐、广告等,在使用枚举法时都可以用这种思路。

案例:搜索点击率的分析如下。

1)数据列举:取出搜索query列表和分析用到的数据指标(见表2-2)。

 

4种数据分析基础方法,终于有人讲明白了

 

表2-2 搜索query列表示例

2)逐个解读:逐个解读其数据和特征,一步步地努力通过这些数据还原出用户的真实使用场景和想法,从而得到用户不点击的原因(见表2-3)。

 

4种数据分析基础方法,终于有人讲明白了

 

表2-3 搜索词解读示例

通过上面的解读,我们得出以下问题或增长点。

  1. 专有名词搜索不识别。有一些行业专有名词,搜索引擎不识别,就不能找出对应的结果,只能找出文本识别的结果,比如搜索“老酒”,就会展示“泸州老窖酒”等商品,所以点击率低。
  2. 品牌词。对于品牌词,一般搜索结果没有太大问题。但是,用户搜索品牌词时,如果给用户更权威、更专业的内容,比如品牌的官网、旗舰店等,用户体验岂不是更好?比如用户搜索“泸州老窖”这样的品牌词,直接给用户泸州老窖的官网,让用户看到权威、专业、全面的信息。图2-9为QQ浏览器的搜索sug页的处理方式。
  3. 对于搜索客服电话的词,可以直接把客服电话显示在页面内,用户不用跳转到搜索结果页内的链接就能看到,从而减少用户操作,体验也会更好。图2-10所示为百度的处理方式。
  4. 汇总问题,给出解决建议和优先级。问题汇总一般类似于表2-4这样。

 

4种数据分析基础方法,终于有人讲明白了

 

▲图2-9 品牌词在QQ浏览器的搜索sug页结果

 

4种数据分析基础方法,终于有人讲明白了

 

▲图2-10 电话类的词在百度的搜索结果页

 

 

表 2-4 问题汇总表

就这样,通过枚举法,产品经理就可以很清楚地了解产品现有问题,并给出解决方案和优先级。

在枚举的时候,一条一条地看固然是产品经理的基本功,但是当面临大量的数据时,这种办法效率太低了。要想快速抓住重点,还需要借助两种思维:排序思维和抽样思维。

1. 排序思维

排序指把某个指标降序排列和升序排列,然后按上述的枚举方式进行分析。排序的目的是确认关注范围。产品经理面对大量数据时,需要先确定关注哪一部分数据能带来最大收益。例如,可以按照以下方式进行排序和分析。

  • 将PV降序排,看占PV总量90%的搜索词有多少个,重点关注这几个词,调用所有资源优化它们。
  • 或者按点击量降序排,看90%的点击量发生在哪几个搜索词上,调用所有资源优化它们。
  • 会员和商品的数据也可以用这种方法来看。笔者之前做过很多类目的淘宝店代运营,虽然那些店铺一年能有上亿元的销售额,但实际上有销售量(日订单量大于100)的商品很可能就两三个。

案例(来自客户陈述):我们虽然买了很多关键词,但是只有两个关键词能带来流量。所以只要把这两个主要的关键词优化好,就能够把花在数据上的钱挣回来。我们把这几个词就当宝贝一样,对其进行各种测试、各种优化。

在实际使用中,只排序一次得到的结论都不全面,为了得到更全面的信息,产品经理一般会使用多次排序,并且对多个指标进行排序。

对一次完整的搜索进行每周的点击率分析,如下。

1)按PV降序排,筛选出高频词,即PV大的搜索词。高频词能贡献绝大部分最优结果和最高点击率。

按PV上升量降序排。筛选出飙升词,飙升词是高频词里需要特别注意的,因为往往代表的是新的用户需求或者新的市场变化。

按点击率升序排。这样可以看到高频词中点击率较低的词,优化它们能带来较快的提升。

2)按PV升序排,筛选出低频词。2%的搜索词占了98%的PV,剩下98%的词可以归为低频词。低频词是最能衡量搜索引擎好坏的,因为量大代表用户多。低频词包括大部分长尾词、同义词、问答词、未召回词、无结果词、没有点击的词和没有成交的词,badcase基本上都是从这里产生的。

低频词的召回是件十分令人头疼的事情,算法很难取舍,因为这些都是长尾需求,并没有足够多的用户行为可以学习,如何给予相应的匹配,需要非常深入的学习和分析。

2. 随机抽样

枚举的方式可以快速看到问题,但是不能保证问题的典型性;加入排序思维后,可以划定范围,但是可能会造成偏差,因为不代表全部用户行为。那么,怎样既能看到全部的用户行为又能保证问题的典型性呢?答案就是随机抽样。

可以对所有的数据进行随机抽样,也可以分层抽样,即先对整体数据分层,然后针对每层抽样。

随机抽样比较简单,常用的场景有以下几种。

  • 产品经理日常工作。
  • 每周至少要看一次随机抽样的数据,以对产品用户行为有所了解。
  • 日常上线前后都会看,以了解新策略对用户的影响。
  • 项目可行性判断。要想知道一个项目是否可行,可以先抽样看一下。笔者有段时间频繁接触各个媒体的数据,评估媒体质量,主要就是用的抽样的办法。媒体会给我们一部分真实数据,我们抽样出来后,就开始做评估,包括是否有商业价值、需要的技术难度等。举这个例子主要是想告诉大家,抽样这个简单的办法有时候是直接影响战略决策的。
  • 需要了解全貌的任何需求。比如在项目功能上线后,需要整体了解用户,以便制定推广方案等,这个时候就可以抽样。

本节讲了枚举法及枚举法需要使用的思维,用的是搜索的案例,那么是不是只有策略产品经理才需要这种思维呢?当然不是。枚举法是所有产品经理的基本功。

举例来说,如果你每天抽出100个用户来看他们的行为,坚持一段时间,你就会对用户有非常深入的了解。你会看到用户经常在哪些页面徘徊,你也能够推测出这些用户的年龄和职业。

枚举法会潜移默化地提升产品经理对用户的了解。我们每多看一次枚举的数据,就会多一些对用户行为的理解。

产品经理经常面对突发情况,或者是领导的询问,或者是大小事情的决策。比如项目存在一个小问题,是上线还是回退;忽然发现原方案会导致性能问题,要临时换一种解决方案;开发和测试人员都建议采用其他方案;领导忽然问你要不要跟进竞品的新变动。

在这些情况下,产品经理几乎都是要立刻给出结论的,没有时间做细致全面的分析,既来不及做分析报告,也来不及找出详细数据来查看,那么产品经理可以依靠什么呢?依靠的正是你对用户的了解。

因此我们每天都要从各种角度看数据,这样才能有深入的洞察,知道每一种问题的影响范围,才能处理各种情况。

以上四种就是我们常用的数据分析思路,是不是很简单?实际业务情况一般都很复杂,没有一种数据分析思路是通用的,需要结合使用多种思路。

 

责任编辑:华轩 来源: 今日头条
相关推荐

2020-10-08 11:24:04

数据分析技术IT

2019-10-09 10:10:36

数据分析大数据数据探索

2021-06-29 11:21:41

数据安全网络安全黑客

2020-11-30 08:34:44

大数据数据分析技术

2022-01-05 18:27:44

数据挖掘工具

2022-04-12 18:29:41

元数据系统架构

2022-04-22 11:26:55

数据管理架构

2022-10-14 18:22:18

KafkaHiveZooKeeper

2021-06-13 12:03:46

SaaS软件即服务

2021-10-09 00:02:04

DevOps敏捷开发

2022-03-27 20:32:28

Knative容器事件模型

2021-09-03 18:38:13

数据湖数据仓库

2022-04-27 18:25:02

数据采集维度

2021-12-03 18:25:56

数据指标本质

2020-10-29 06:09:37

数据中台数据大数据

2022-05-09 20:23:51

数据采集

2022-04-18 07:37:30

数据信息知识

2021-02-14 00:21:37

区块链数字货币金融

2021-03-03 21:31:24

量化投资利润

2022-07-31 20:29:28

日志系统
点赞
收藏

51CTO技术栈公众号