最近发现,公司有的新人喜欢在做数据分析报告的时候做一些小手脚,有时候差点连我都被唬住了,今天就来和大家聊聊数据分析里的那些骗人把戏。
做数据分析的人做的久了,就会自然而然产生一种想法,认为数据展示出来的东西一定是正确的。毕竟如果连我们自己都质疑数据分析的权威性和说服力,那我们数据分析人的工作不就成了白费功夫了嘛。
一开始,我也认为这是一条不可撼动的“铁律”,但是渐渐我开始发现,数据分析很难做到一丝不苟地严谨,也很难做到完全正确,有时候甚至会误导我们的判断。
因为数据不仅能够揭露事实,它也可以用来隐藏真相!
比如下面这三种骗局,就是利用了数据的欺瞒性,变成了很容易让人上当的鬼把戏!
坐标轴里做手脚
可视化图表本来是为了能够让人更加直观、方便、快捷地了解数据情况,包括数据的异常情况和发展趋势,所以公司的老板和领导都喜欢看图表,觉得图表总不会骗人吧?但是可视化图表有一个很大的局限性,就是必须保证指标的统一性。而很多人恰恰利用了指标的不一致性,或是增加某些东西,或是隐藏某些东西,就可以让图表说谎。
1、横坐标作弊:让数据更“平稳”
如果你是一位投资人,看到了上图这样一份公司近几年的财务报告,展示了公司每年净利润的走势,你就会觉得:哇,这家公司经营的不错啊,每年都在增长,看起来很有投资价值!
但是如果你是一个比较善于观察的人,你就会发现一个问题:横坐标轴只有奇数列!
这就是很多人都会玩的一种把戏,故意删减掉一些影响整体趋势的值,为了让整个数据更加平滑、平稳,就会直接将坐标轴列删除,美名其曰“数据太多、分组展示。”
而实际上,我们将横坐标轴进行还原,这家公司的财务报告就可能变成下图这个样子:
财务数据波动如此剧烈,估计每个投资人都不敢给这家公司一分钱了吧!
2、纵坐标作弊:让数据更“悬殊”
我们经常可以在电视中看到这样的统计分析图,用来展示某个属性或者指标的对比情况。
比如这位棒球选手的速度,直观上给人的感觉好像是下降了非常多,但是我们如果看到柱状图上的数据之后,就会发现根本就是从77.3下降到了75.3而已。
其实跟上一种把戏一样,这个骗局就是将纵坐标轴“处理”了一下,纵坐标轴不再是从0开始,而是从某个值开始,这样就会将两者之间的差异进行放大,会让我们觉得数据十分的悬殊。
而实际上,我们将纵坐标的起点还原为0之后就会发现,其实二者的差距非常小。
当然这种把戏玩得最好的,还要说是美国的媒体,用这种方式去抨击领导人或者是赞扬领导人可以说是屡试不爽!
3、整体比例作弊:让数据更“突出”
如果大家觉得不用坐标图,不就可以避免横纵坐标轴的作弊行为了吗?那你可就想的太简单了,因为这一招更加高明!当然这招还是美国媒体玩的最好,比如下面这份统计数据,最高与最低差了33%的比例,可以说非常悬殊。
但是其实我们很容易发现,这三个数值加起来的比例根本不是100%,而是120%!也就是说统计者人为地将整体数据设置为了120%,因为展示的是比例关系,因此这种比例就会扩大,实际上两者之间的差距仅仅只有28%!
伪相关
比起第一种把戏,这种把戏没有在可视化图表上动手脚,而是利用了大家对于相关性的误解,认为相同即是相关。比如说下面这两张图,第一张图是美国新建住房的销售量与新建住房价格之间的关系走势图,第二张图是美国每年的芝士消费量与每年被床单缠住窒息而死的人数之间的关系走势图。
我们能够看出来两张图都呈现出了高度的拟合性,那么我们能说两种图里的因素都具有很高的相关性吗?
首先,第一张我们应该都没有什么质疑,因为房价与销售量之间存在很强的因果关系,所以两者的变化趋势基本都是一致的;
但是第二张中虽然两个因素的变化趋势也是一致的,但是我们很难相信,一个国家的芝士消费量,会与每年被被单缠住窒息的死亡人数有关系,因为这两者之间很难产生因果关系,这就叫做“伪相关”。
类似的例子还有很多,比如尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数:
逻辑误导
逻辑误导经常出现在我们在进行演绎推理的时候,比如最常见的逻辑误导就是以偏概全,通过根据群体中一小部分人的经历得出有关整个群体的结论。
比如,你是一家集团公司的总裁,在北京和上海均有业务,你要根据市场占有率情况进行重大的战略调整。两地的市场占有率如下表。
所以,你会判断上海市场的业务要优于北京市场的,对么?
此时,只考虑了地区的差异,把所有的数据看成了整体,看似确实是上海市场的业务优于北京市场。
但如果考虑多因素分析,根据各项业务实际占有率,你会惊奇地发现:产品M的市场占有率,北京(49.33%)高于上海(47.13%),产品N的市场占有率,北京(40.4%)也同样高于上海(40%)。
北京的每一项业务都比上海要好!
所以,面对数据,我们一定要秉持着绝对客观、严谨的态度去看待,做数据分析,是为了推动业务的发展,挖掘更多价值,而不是为了迎合业务想要的结果。
诸位共勉!