平均值真的是最优解吗?何不试试用数据分箱进行结构化分析

大数据 数据分析
平均值是数据分析中常用的方法,是利用特征数据的平均指标来反映业务目前所处的位置和发展水平。平均值虽好,但是它真的可以反应业务的真实形态吗?答案当然是否定的。

[[386243]]

本文转载自微信公众号「数据万花筒」,作者数据打工人森夏恩。转载本文请联系数据万花筒公众号。

平均值是数据分析中常用的方法,是利用特征数据的平均指标来反映业务目前所处的位置和发展水平。平均值虽好,但是它真的可以反应业务的真实形态吗?答案当然是否定的。平均值很容易抹平个体之间的差异,因此很多时候个体暴露的问题很难从平均值中得到体现,所以说平均值并不是最优解。

一、为什么平均数不是最优解

举几个例子来说,郭敬明和姚明的身高的平均值是190.5cm,那我们可以认为国人的平均身高是190.5cm嘛?

在举个例子来说,马云的财富值是4377亿元,而小编的财富值只有1万元,我和马云财富的平均值是2189亿元,这样一算小编好像也可以跻身富豪榜了,但真的是这样的嘛?这显然不能以这个平均值代表小编的收入水平,更不能代表国民收入水平。

同样的案例,2019年人均国民收入10410美元,你又被平均了吗?“二八法则”在现实生活中还是普遍存在的,20%的人掌握了80%的财富,马云这样的富豪拉高了我们的收入水平,所以平均值很多情况下会抹平个体之间的差异,使得个体层面的信息很难在数据层面有展现,因此平均数虽然方便,但是在很多情况下并不是最优解!

二、结构化分析是什么

平均数容易掩盖个体差异,很多情况下业务的真实情况都会被平均数,因此相比平均数,结构化分析能够更好地看出各类用户之间的差异。结构化分析换句话说就是用户分箱,即将圈定的用户群体按照组成成分或付费金额等维度划分区间对其进行分组,而后讨论每一个组别之间的差异,这就是结构化分析。

2.1 以DAU变化为例诠释结构化分析

结构化的分析思想在数据指标异动分析模块就有体现,我们还是以DAU为例讲一讲结构化分析,让大家更加清晰地理解结构化分析。

近七天的DAU逐渐走低,看到这个现象之后想要定位DAU持续走低的原因,这时候就可以用到结构化分析,即按照DAU的组成成分分析,定位到底是哪一部分的人数减少。这个例子当中,我们将DAU拆解成新用户和老用户之后,发现这七天新用户占比基本不变,而老用户占比持续减少。老用户占比持续走低是DAU持续下降的原因,说明用户粘性不好,可以告诉老板应该推出一些激励活动刺激用户,提升用户粘性!

2.2 以营收分析为例诠释结构化分析

在营收付费方面结构化分析就更加常用了,因为经常存在20%的用户贡献了80%收入的情况,所以对用户进行分箱处理进而进行结构化分析是非常重要的,最终可以朝着实现用户分层运营的方向努力!

对于营收方向的的结构化分析,一般情况下通过用户的付费金额对用户进行分组并贴上标签,然后在计算每一个组别的用户占比。用统计学的术语来说就是统计用户付费情况的分布,即各个标签下用户的分布情况。

通过统计结果,我们可以发现5%的头部用户贡献了75%的营收,和“二八法则”描述的情况非常相似,只不过这个例子中头部用户的购买力更强!

有了上述的用户标签和用户付费分布之后,对于业务的监控、业务波动原因的定位以及业务提升的建议等都是非常用帮助的。

这里举个例子进行说明,某段时间,业务营收数据出现了下滑,数据分析师们就可以通过结构化分析定位下滑的原因并给出一些合理的意见和建议。通过结构化分析我们可以发现营收下滑的原因是中R用户数量出现下滑,提升中R用户数量是增加营收的关键。

三、如何更加高效地做结构化分析

看到这里,你是不是你也觉得结构化分析比平均数好用多了,可以看出各个层级的用户在相关维度上的特征,方便地定位业务波动的原因给出业务合理的意见和建议。结构化分析涉及到了用户分箱、用户标签、指标体系和报表体系等多方面的知识,如何高效快捷成体系地应用结构化分析是我们值得思考的一个问题。

其实结构化分析并不需要每次都从头开始做,我们完全可以将其固化为监控报表即可。当然在做报表之前,我们需要确定研究的对象,到底是以人还是货亦或订单为研究对象;其次选定监控指标,确定是要研究用户活跃还是用户付费亦或其他指标;然后根据业务含义对数据进行分箱处理,对用户打上分类标签;最后选取合适的数据维度对不同层级的用户进行监控,沉淀为一张张的报表。

最终结构化分析还是回归到了数据报表,遇到问题时就不需要在做临时取数,也不需要额外占用其他时间去分析了。从另一个层面来说,结构化分析是一种分析方法,更是数据指标体系的一环,只要指标体系做得足够好,数据分析师的临时取数需求就能变少。说到这里,你不难发现其实数据分析的大多数方法论都是用一组有逻辑的指标,梳理清晰的标杆,长期监控业务变化,从而可以快速定位业务问题得出结论!

参考文章

https://mp.weixin.qq.com/s/kZ8mdaAqJPRnABljijuhsQ

 

责任编辑:武晓燕 来源: 数据万花筒
相关推荐

2010-11-09 11:23:35

sql server查

2014-07-03 09:53:04

应用应用调查

2024-03-06 08:25:31

Compose开发界面

2009-05-20 11:46:31

2017-05-20 10:36:37

非结构化数据分析技术

2018-04-03 14:00:03

结构化数据非结构化数据数据库

2023-08-02 08:47:55

聚合框架MongoDB

2022-05-24 09:52:37

Spark SQL大数据处理Hive

2021-12-12 08:37:18

结构化数据非结构化数据数据

2023-12-25 15:00:18

结构化布线光纤

2020-05-21 11:11:58

存储数据技术

2021-10-26 10:15:34

Python股市代码

2017-11-16 05:22:34

非结构化数据分析数据

2024-05-27 00:32:45

2011-07-22 13:06:00

结构化布线系统进水

2020-12-24 06:00:27

Python编程语言开发

2021-05-17 21:30:06

Python求均值中值

2024-04-03 14:26:08

2023-06-14 16:15:54

网络结构化布线

2022-12-01 11:40:05

模块化数据中心
点赞
收藏

51CTO技术栈公众号