你和数据分析高手之间,真的只差这一点

大数据 数据分析
在开发的时候,先做能用基础标签+现有数据指标,直接计算出来的标签。这种标签也被称作:规则标签。即业务给到计算规则后,可以基于基础标签+现有指标直接计算。这种标签获得速度快,也容易验证。

很多同学觉得自己在工作中进步很少,拿着数据,翻来覆去就是同比、环比,做了两三年也没进步。在这背后,有个很大问题是:缺少有业务含义的标签积累,导致只会零散地看数据,既无法推导有业务意义的结论,也积累不了业务分析经验。今天我们就借一个例子,让大家看出其中的区别。诸位坐好扶稳,我们马上发车。

问题场景

某同学提交了一份店铺分析报告,指出:A门店业绩排行靠后,低于其他店,建议搞高。然而没想到,这么平平无奇一句话,立马捅了马蜂窝了。业务部门同事开始七嘴八舌地争论:

甲同事:A是新开门店,不应该和其他店这么比,A其实很好

乙同事:虽然A是新开店,但是A是标准店,不能和mini店比,A其实不好

丙同事:虽然A是标准店,但A是捡漏店,不能和普通标准店比,A其实很好

丁同事:虽然A是捡漏店,但是A营销力度并不低于普通店,A还是不好

戊同事:虽然A营销力度很大,但是营销投入并不重,A还是很好

……

大家吵成一团。最后总结:“数据分析做得不深入,只有数字没解读,要结合业务深入分析”留下做数据的同学在风中凌乱:

“你们说的都是啥???”

“我要怎么深入法???”

那么,要怎么深入分析呢?

破局关键:标签的业务含义

这里最大的问题,在于业务讨论的各种细节,无法直接表示成一个数据指标,导致量化都做不了,更不要提分析了。而量化业务的关键在于贴标签。注意!很多同学一提标签,本能地想到“性别、年龄、包装尺寸、包装颜色”这些数据库里现成的,直接从基础信息导入的标签。这些基础标签,大部分时候没有直接的业务含义,对业务解读能力很弱,需要二次加工才好用。

有业务含义的标签,则是直接指向业务关心的问题,对问题指标有区分度,对业务行为有指导能力的标签。比如“这个店长能力不行”,这就是个有业务含义的标签,如果确认了能力不行,那下一步就是换店长或者做培训,对业务行为指导很清晰。这种标签,需要复杂的转化过程与数据验证,不是一蹴而就的。

图片

那么要怎么打呢?一步步来看。

从整理业务假设开始

既然是打业务标签,首先就得从整理“影响业务指标的假设”开始。这样打出来的标签才是直接指向业务问题的。比如开头的问题,我们可以根据业务部门七嘴八舌的议论,分别列出:

1、待描述的业务对象

2、衡量业务对象好坏的指标

3、影响指标的假设

4、假设的影响方向

这样就有了一张清晰的,待开发的标签列表(如下图):

下一步可以一一进行开发。

先做简单的标签

在开发的时候,先做能用基础标签+现有数据指标,直接计算出来的标签。这种标签也被称作:规则标签。即业务给到计算规则后,可以基于基础标签+现有指标直接计算。这种标签获得速度快,也容易验证。

比如:是否新开店。理论上只要根据开店日期做分类即可。比如规定6个月及以内的都是新开店。那么大于等于7个月的就是老店,小于等于6个月的都是新店。

这里有个关键问题:这个“6个月”的标准要怎么来。这里有两种做法:

第一种,如果业务部门有共识的话,我们可以直接用业务的标准,比如大家共识了是6个月,那就是6个月。

第二种,业务没有具体数值的共识,但是有一个概念,比如:

1、新开店阶段,门店闭店概率很高

2、新开店阶段,门店营业额/订单量处于上升期

此时,虽然没有明确标准,但是业务给出找标准的方法。我们可以统计所有门店的生命周期数据,看闭店概率/营业额/订单量的拐点在哪里,从而清晰标准(如下图)。

图片

原则上,即使业务口头给出了第一种标准,我也建议大家引导业务做出第二种标准。因为第二种才是有业务逻辑的标准。万一哪天不同业务部门吵架,或者业务换了领导,不再认可第一种标准,第二种标准就是调整的原则。

类似地,门店面积标签也可以这么打。先列出业务假设:

1、门店面积大,对应的成本就高

2、营业面积大,收入也应该高。

之后就可以把现有的几种店面面积列清单,看参数范围,做出标签(如下图)。

图片

这里特别要提醒:很多同学做标签,不和业务沟通,自己凭感觉或者看数据分布下判断,比如怎么区分新店,丫自己拍个3个月……这种闭门造车的结果,很容易被业务挑战,也无法与业务场景结合,最终使标签工作沦为自嗨。

有了简单标签打底,可以再来处理复杂标签情况。

常见的复杂标签

常见复杂情况一:一个业务问题,需要分几个标签来描述。比如“促销”这个标签,促销形式,力度,可能需要分开描述。比如:

1、促销范围:参与促销的商品SKU数量

2、促销力度:按原价折算,用户拿到优惠比例

3、促销形式:买赠、满减、送礼、加一件……

(如下图)

图片

可能一个业务场景,需要好几个标签组合才能说清楚。

常见复杂情况二:两个/多个基础标签合并出来的标签(又称综合计算标签)。比如“捡漏店”,潜台词是:这个店面积很大,但店租比正常低,同时客流并没有比正常少很多,因此被我们捡漏了。这个时候,捡漏店是有三个基础标签拼接出来的(如下图)。

图片

类似的,比如:“这个店长能力不行”,怎么证明能力不行,可能得从业绩、工作数量、个人履历好几个维度来论证,考察的维度一多,就涉及如何付权重问题。付权重本身有一套方法论,同学们感兴趣的话,我稍后单独分享。

图片

常见复杂场景三:标签是预测未来的情况,并非已发生的情况,比如我们预判这个店是“高潜力门店”,因此要求它表现比普通更好。注意!预测本身是个复杂的活,可以基于规则判断,可以建模,建模也有好几种方式,因此处理起来略复杂,有兴趣的话,也是稍后单独分享。

总之,经过这么一堆复杂计算,现在标签已经打好,可以利用分析了。

标签的综合利用

标签的直接应用,就是把复杂的业务问题量化,进而进行分析和检验。比如文章开头那一堆复杂的业务理由,用标签就可以直接做单维度对比,检验说法。

如果有多个标签叠加,则可以构建复杂的分析逻辑,一层层进行推导。这种复杂的分析逻辑,就是我们常说的“深入分析”,一般习惯性,把考虑了很多种情况,称为“分析全面”,把推导了多少层,称为“分析深入”(如下图)。

图片

当然,标签不止这一种用法,比如标签可以作为进一步建模的特征值,输入模型做综合性评估/预测。很多同学的评估模型/预测模型做得不准确,就是因为缺少标签积累,直接把几个简单的原始数据怼进模型。

比如,标签还可以用来推导业务行动。诸如“店长能力不行”“营销力度不足”,可以直接导向“我要培训店长”“我要增加营销投入”这种结论。

责任编辑:武晓燕 来源: 接地气的陈老师
相关推荐

2021-09-17 08:04:28

Hooks函数组件架构

2019-11-15 14:11:41

工业革命工业4.0信息化

2019-07-10 06:08:33

IT运维网络故障故障排除

2021-04-29 22:11:28

Python排序算法

2018-10-15 21:12:08

2021-03-25 09:42:37

CIO首席信息官IT领导

2021-10-18 21:55:08

Windows 10Windows微软

2019-04-07 16:40:46

WiFi无线路由器网络

2024-05-06 09:02:57

数据分析标签模型

2018-03-08 16:22:39

FlutterAndroid代码

2020-12-24 10:34:59

防火墙网络安全

2016-05-10 10:43:02

2018-06-25 16:18:58

Python人工智能

2017-06-27 13:50:37

数据分析Session

2018-12-10 08:36:42

Leader管理模块

2017-04-18 20:09:14

数据分析电影评分

2017-08-04 13:12:44

2009-01-20 14:04:58

数据挖掘信息整合应用

2016-04-18 11:47:18

数据分析用户留存数据驱动

2017-09-27 13:42:42

数据库MySQL断电恢复
点赞
收藏

51CTO技术栈公众号