数据科学家应该避免的5种统计陷阱（附链接）-51CTO.COM

作者：Matthew Mayo

编译：冯羽、陈雨琳

这篇文章讲了五种统计谬误，也可以称为数据陷阱，数据科学家应该重视并绝对避免它们。谬误就是我们所说的错误推理的结果。统计谬误是统计误用的一种形式，其统计推理能力极差;或许你拥有的数据正确，但无论你的意图多么纯粹，你所使用的方法和解释都不正确。因此，你基于这些错误举动做出的任何决定都必然是错误的。

有无数种基于数据进行错误推理的方法，其中某些方法比其他方法错得更加明显。由于人们一直犯这类错误，许多统计谬论已经被识别并被解释。好消息是，一旦识别并研究了它们，我们就可以避免它们。让我们看看其中一些相对更常见的谬误，看看如何避免它们。

当误用统计是无意的，这个过程类似于认知偏见，维基百科将其定义为“以特定方式进行思考的倾向，可能导致系统性地偏离理性或良好判断标准”。前者建立在数据之上不正确的推理和对数据进行显式和主动的分析，而后者则更隐式和被动地达到了类似的结果。但是，这并不是绝对的，因为这两种现象之间肯定存在重叠。最终结果是相同的：错误。

这里有五个统计谬误，或者称之为陷阱，数据科学家应该重视并绝对避免它们。做不到这一点对数据结果和数据科学家的信誉的打击都是灾难性的。

挑选樱桃

为了说明统计谬误多么明显和简单，让我们从每个人都应该知道的经典谬论开始：挑选樱桃。我们可以将其归类为其他容易识别的谬误，例如“赌徒谬误”“虚假因果关系”“偏见抽样”“过度概括”等等。

挑选樱桃的想法很简单，你之前肯定已经做过这样的事情：有意选择那些有助于支持你的假设的数据点，而牺牲其他不支持你的假设或积极反对你的假设的数据点。你听过政客讲话吗?那么你一定会听到“挑选樱桃”。另外，如果你是一个活生生的呼吸的人类，那么在生命中的某个时刻你已经选择了挑选樱桃的数据。你知道你有这么做过。它往往很诱人，是一种很容易获得的成果，可以在辩论中赢得或混淆对手，或者以反对的观点为代价来帮助推动议程。

为什么不好?因为这是不诚实的，这就是原因。如果数据是事实，并且使用统计工具分析数据将有助于发掘事实，那么“挑选樱桃”就是寻求事实的对立面。不要这样做。

麦克纳马拉谬误

麦克纳马拉谬误以美国前国防部部长罗伯特·麦克纳马拉的名字命名，在越南战争期间，他的有关决定基于那些很容易获得的定量度量，而忽略其他定量度量。这导致他将个体计数(容易获得的指标)作为成功的唯一指标，而以其他所有定量指标为代价。

不用花很多脑力，你就会发现，简单的个体计数很可能使你在评估战场表现时误入歧途。举一个简单的例子，也许敌人正以不成比例的战斗人员进入你的领土，并控制领土，但阵亡人数比己方略多。另外，也许敌人比例囚禁你的战士的比例高于你杀死敌人的比例，等等。

增加统计盲点并把所有信任放在一个简单的度量上，不足以全面了解越南正在发生的事情，也无法全面了解你所做的事情。

眼镜蛇效应

眼镜蛇效应被认为是一个问题解决方案的意外后果，但这反而使问题变得更糟。该名称来自在英国殖民统治下发生在印度的这一现象的特定实例，其中包括，你肯定猜到了，眼镜蛇。

维基百科页面上有一些眼镜蛇效应的例子，我最喜欢的是在1980年代末尝试减少墨西哥城污染物的例子。政府打算根据车牌的最后一位数字，将特定周内可行驶的车辆数量限制为20%，以减少车辆的排放。为了规避这项政策，该市居民购买了其他带有不同车牌的车辆，以期在禁止其主要车辆使用之日起能够驾驶其他允许的驾驶车辆。这导致相对便宜的汽车泛滥成灾，最终使污染问题恶化。

鉴于意外后果的性质是潜在的，并且很难预测，因此这比挑选樱桃要难应对得多。团队采用数据科学方法，以及更多人员带来额外思考过程，是对抗眼镜蛇效应的好方法。

辛普森悖论

这种悖论以英国统计学家爱德华·辛普森命名(尽管先前已被其他人识别)，是指观察到数据集子集中的某些趋势，但这些趋势随着子集的合并就消失了。从这个意义上讲，可以将其视为无意中的挑选樱桃。棒球的例子可以帮助说明这种悖论。

如果我们比较两位职业球手在他们整个职业生涯的平均击球率，你可能会发现在某些年份子集，球员A的击球平均值高于球员B，甚至可能更高。但是，完全有可能的是，在整个职业生涯查看击球平均数，球员B实际上比球员A拥有更高的击球平均数，甚至可能更高。

如果你提前知道这一点，并有选择地选择了X，Y和Z年份作为A是更好球员的证据，那就是挑选樱桃。如果你不了解聚合统计信息，但偶然碰到了那些孤立的年份，并把它们作为整个职业生涯的代表，但是(希望)在查看了全部统计信息后发现了另外的情况，那将是辛普森悖论的一个例子。

两种情况都导致错误的结果，其中一种是导致错误理解的更无辜的方式。不过，这仍然是错误的，应该加以防范。全面的统计分析应成为数据科学家的工作方案的一部分，并且是确保你不屈服于这种现象的一种有效方法。

数据疏浚

数据疏浚还有其他更加不好的名字，例如 p-hacking，它是“误用数据分析以查找数据中具有统计学意义的模式，而这些模式实际上没有任何真实潜在影响。” 这相当于对数据进行广泛的统计测试，并从重大结果中挑选樱桃，以提高叙事效果(真正的挑选樱桃?)。虽然统计分析应该从假设转移到检验，但数据疏浚利用统计检验的结果强制获得一个一致的假设。这相当于“我认为是这样，现在我将测试我是否正确”与“让我们看看数据可以通过测试说出什么，然后提出一个有助于支持这个结果的想法”之差。

但是为什么这样做是错的呢?为什么我们要首先形成假设然后进行检验，而不是仅仅让数据决定我们从未想到要寻找的发现呢?有了足够的数据和足够的变量，我们就可以测试相关性，不需要很长时间我们就可以发现足够多的显著的个体组合。如果我们忽略所有反事实证据，而将注意力集中在这些一致的测试结果上，那么似乎那里确实有东西，而实际上却没有。它们只是偶然出现的结果。抓住机会并证明机会的合理性显然不是科学应有的意义。

原文链接：

https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html

【本文是51CTO专栏机构大数据文摘的原创译文，微信公众号“大数据文摘（ id: BigDataDigest）”】

戳这里，看该作者更多好文