终于有人把数据采集讲明白了

大数据 数据分析
在日常工作中,这两种采集方式通常是结合使用的,可以此来丰富数据采集维度。但必须要强调的是,大家在设计数据采集方案时,一定要把握设计的度,否则很多新入行的产品经理可能会走向如下两个错误极端。

1.数据采集的常见方式

为什么要去研究数据采集呢?

大家可以回想一下自己在工作中是否会经常遇到以下问题:

☑ 真实数据与后台获取到的数据差距很大。

☑ 同一数据在不同的指标内有两个完全不同的结果。

☑ 需要统计的数据与采集获取的数据不是同一类。

其实,这些问题的本质都是因数据采集环节定义不清晰造成的,可见,我们必须要重视数据采集的方法与定义,而不仅仅是将需求扔给开发部门完成。

下面先来学习一下日常工作中用到的数据采集方式,具体可以分为如下两类。

非透明采集:指看不到原始数据,只能通过统计上报采集,常见的方法如埋点。

透明采集:直接提取业务线中现有的系统数据库中的数据,如日志服务器数据的整理抽取,在POS机的交易数据库中抽取订单数据等。

(定义1:数据采集方式)

在日常工作中,这两种采集方式通常是结合使用的,可以此来丰富数据采集维度。但必须要强调的是,大家在设计数据采集方案时,一定要把握设计的度,否则很多新入行的产品经理可能会走向如下两个错误极端。

1)采集数据颗粒度过细,导致应用缓慢。

很多产品经理在定义数据指标时,由于不能清楚地定位数据平台的监控范围,害怕遗漏,便将产品中的所有元素都埋上点,导致一个图文资讯类产品在用户打开后流量消耗和看视频一样巨大,严重拖累产品体验。

2)数据统计点过少(颗粒度过大),导致发现问题时无法定位具体原因。

当然,除了以上问题,也出现过另外一种过激的场景:为了避免应用过于臃肿,而只采集了日活、月活、留存等通用的用户数据,当用户量抖动变化时,根本无法定位究竟是什么原因导致的,数据使用者看到了这样的结果却又无法追溯问题,内心其实比不知道用户流失还难受。

让我们继续回到L公司的案例中,了解具体实战中要怎么正确进行数据采集设计。

2.数据核心采集方式:埋点

到底什么是埋点呢?埋点的完整定义如下:

所谓埋点,又称事件追踪(Event Tracking),是指针对特定标识用户的行为或事件进行捕获、处理与传输等操作的全过程。(定义2:埋点)

通俗点来说,就是在用户使用的客户端中加入一个记录者,忠实地记录用户的每一步操作,帮助我们洞察用户的真正行为。例如,用户到底喜欢什么,厌恶什么,从而让我们获取到正确的一手用户数据。

通常情况下,一个埋点主要由三部分组成:目的、所服务的指标和埋点细节说明。

对于埋点的设计,在工作中有如下三个一般性的设计原则。

  • 反应事件:必须能准确地获取要监测的事件。
  • 描述完整:必须能清晰地反馈用户的完整行为。
  • 用户追踪:必须能判断出哪类用户有问题。

满足这三个一般性设计原则才称得上是一个比较完整的数据埋点方案。

原则1:反应事件

在工作中我们需要统计的用户行为是多种多样的,因此在设计埋点时也应该按照不同的类型进行划分,埋点的监测行为可以分为如下三类事件。

  • 点击事件:用户点击按钮触发的事件。
  • 展现事件:用户的操作界面中出现了多少次该事件。
  • 停留事件:用户停留在该页面的时长。

原则2:描述完整

划分不同的用户事件只是完成了需要监测的事件,为了能清晰地反馈用户行为,我们还需要将用户的行为再做一个细分,用户的行为可以划分为如下两类。

  • 有效行为:指触发了带有业务含义的操作,通常用来分析活动/产品的有效性。比如,Banner广告位点击、推荐商品点击等,据此来得到转化事件的触发率,并评估运营活动/推荐算法的有效性。
  • 点击行为:指用户在产品内的一般性点击,通常用来帮助推进产品迭代。比如,用户经常误触某些元素,我们就要分析是什么设计误导用户认为那里是可以点击的,从而进行产品迭代,将用户的操作引导到有效行为上。

原则3:用户追踪

要想实现用户追踪,我们就需要使用多种埋点方式来获取全面的用户数据。在埋点技术的发展过程中,埋点一共被划分为四类,如下表所示。

下面从两个维度来对这几种埋点方式进行排序。

1)从准确性上来说,代码埋点 = 服务器埋点<可视化埋点<全埋点。

2)从个人推荐上来说,代码埋点 = 服务器埋点 >可视化埋点 > 全埋点。

关于作者:刘天,曾为国家科研项目带头人,TMT领域投研顾问/MBA特约讲师/互联网峰会特邀演讲嘉宾,先后就职于万达、叮咚买菜等公司,负责过多个集团级中台与电商平台业务的产品整体规划。

本文摘编于《高阶产品经理必修课:企业战略驱动下的数据体系搭建》,经出版方授权发布。(ISBN:9787111694502)转载请保留文章出处。

责任编辑:武晓燕 来源: 数仓宝贝库
相关推荐

2022-05-09 20:23:51

数据采集

2021-06-29 11:21:41

数据安全网络安全黑客

2022-04-12 18:29:41

元数据系统架构

2022-04-22 11:26:55

数据管理架构

2020-11-30 08:34:44

大数据数据分析技术

2022-01-05 18:27:44

数据挖掘工具

2021-10-09 00:02:04

DevOps敏捷开发

2021-06-13 12:03:46

SaaS软件即服务

2022-03-27 20:32:28

Knative容器事件模型

2020-10-29 06:09:37

数据中台数据大数据

2022-04-18 07:37:30

数据信息知识

2021-12-03 18:25:56

数据指标本质

2021-02-14 00:21:37

区块链数字货币金融

2021-03-03 21:31:24

量化投资利润

2022-07-31 20:29:28

日志系统

2022-05-01 22:09:27

数据模型大数据

2021-12-07 18:24:26

数据安全

2021-09-02 12:30:22

自动驾驶人工智能技术

2022-02-15 09:04:44

机器学习人工智能监督学习

2020-12-01 09:22:43

进程协程开发
点赞
收藏

51CTO技术栈公众号