大数据文摘出品
来源:数据科学家Ryan T. Harter博客
编译:张大笔茹
上周,一位同事让我解释下“数据直觉”的含义,我突然发现虽然自己一直在强调数据直觉,却从来没有真正的定义过它。
数据直觉能力是我面试新数据科学家所关注的三项技能之一(其他两项是统计和技术能力)。其实我只是在2020年前9个月建立了Mozilla的数据直觉概念,现在却突然惊讶地发现无法为自己要培养的东西做出解释。
所以现在来补充一下!以下为数据直觉的定义:
数据直觉是对误导性的数据和分析的敏感度。 |
换句话说,如果某人具有很强的数据直觉,他就很难被数据误导,你也可以认为是对黑暗数据艺术的防御能力。
那具体在实践中表现在哪些方面呢?
数据嗅觉
具有强烈数据直觉的人可以迅速闻到“数据味道”(与“代码气味”相近)。这种数据问题不一定会影响分析,但结果肯定会令人质疑。例如:
- 分析结果显示一项看似随意的指标:4天内的保留率提高了0.5%!4天保留时间从何而来?我们通常不是跟踪7天的保留时间吗?这是值得注意的一点。
- 分析报告的结果:此功能将保留率提高了10%!但是,过去不是一直在努力将保留率提高0.5%吗?而且保留率已经不是90%吗?那么要如何获得并增加10%?
这些都是极端的例子。通常情况下,问题只会更加微妙,有数据直觉的人会觉得结果怪怪的(这就是为什么将其称为“直觉”)。
显然,数据直觉与产品直觉是有关的,尽管这俩属于不同的技能。产品的直觉可以使结果与实际情况相符,并且可以更轻松地识别分析中的特殊要求。要知道保留率提高10%是荒谬的,我们需要知道的是用户已经保留得很好了(90%的保留率)。
方法问题
强大的数据直觉还可以发现分析设计的问题。例如:作者是如何收集数据的?样本有代表性吗?是否需要进行实验来论证因果关系?
举个例子:一项分析报告表示,创建Firefox帐户的用户比未创建Firefox的用户保留率高10%。默认情况下,许多人将其解释为,如果我们花一些时间来帮助用户开设帐户,则保留率会增加。有数据直觉的人们会认识到这个结果只是相关关系(并非因果关系)。
经常使用该产品的用户可能会停留更长的时间。开立账户的用户都是活跃用户,因此保留率更高。频繁使用Firefox的用户是更活跃的用户,保留率会更好。
我认为这种直觉不仅是很好地理解统计数据。强大的统计背景可以在阅读白皮书的方法部分时发现问题,可以让我对新闻头条中听到的结果有多信任,更可以帮助我确定结果是否足够真实。
不仅仅是怀疑主义
我几乎将数据直觉定义为一种怀疑态度,但这是一个不好的描述。怀疑主义过于强调结果了。
直觉不仅仅是怀疑。它会将新数据纳入现有知识体系的一部分。大多数时候这意味着确定新的传入数据不一致,需要更多调查才能信任。其他时候则意味着需要比现有知识体系更具权威性的新数据来改变我们的观点。
你是怎么想的?
我想听听你的想法!之所以公开发布此定义,部分原因是我想用坎宁安定律,即:获得正确答案的最佳方法是发布错误答案!
这个数据直觉的定义能引起你的共鸣吗?
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】