如何用简单的统计学问题“戏弄”聪明的数据科学家

大数据 数据可视化
事实上,在互联网领域,仍存争议的严谨话题所剩无几(因为有谷歌和维基百科)。

[[283693]]

 “概率是生命的向导。”——列纳德·蒙洛迪诺, 《醉汉的脚步:随机性如何支配我们的生活》

首先,确保你想戏弄的人真的聪明。

其次,提的问题需直观易懂。

事实上,在互联网领域,仍存争议的严谨话题所剩无几(因为有谷歌和维基百科)。

但今天笔者要讨论的是过去几年在互联网上引起激烈讨论的话题。科学专家和数据科学家在这一问题上各有看法。

事不宜迟,现在开始吧。

[[283694]]

先来看问题

列纳德·蒙洛迪诺是一名物理学家,他与斯蒂芬·霍金合著了《宏伟设计》一书。他的著作《醉汉的脚步:随机性如何只陪我们的生活》还谈到了随机性,以及导致人们误解随机事件和随机过程的认知偏见。

在介绍“样本空间”概念的章节中,蒙洛迪诺使用了以下示例:

问题A:儿子还是女儿

我的朋友尼克有两个孩子,他告诉你他至少有一个女儿,那么另一个孩子是女孩的概率是多少? 这似乎是一个简单的问题,直接的回答是:已知其中一个是女孩,所以另一个孩子是女孩的几率应该是50%,对吗?

不对。

根据样本空间理论,可以如下列出所有可能的样本组合:

表中显示,答案是1/3,即,33.3%。

蒙洛迪诺指出,这个问题令人困惑的部分是题目内容,如果题中指定第一个孩子为女孩,那么第二个孩子为女孩的概率是50%。

辩论

然而,另一位有识之士不同意蒙洛迪诺的理论。 加里·史密斯(Gary Smith)是波莫纳学院(Pomona College)的经济学教授。他在耶鲁大学获得经济学博士学位,后被聘为助理教授。 他在《基本统计、回归和计量经济学》一书中引用了上述蒙洛迪诺采用的例子,认为这是对现实世界的典型误解,并从另一角度提出了问题。

问题B:另一个孩子

你看到我的朋友尼克和他的女儿在街上散步。尼克告诉你他家里还有一个孩子,那么,另一个孩子是女孩的概率有多大?

这个问题看起来和蒙洛迪诺提出的问题十分相似,但加里却给出了完全不同的答案与解析。

首先,他指出蒙洛迪诺“33.3%”的答案是错误的,然后他通过下表中的推算给出了自己的正确答案。

男孩用B表示,因此BB表示第一个孩子是男孩,同理,第二个孩子也是男孩。

女孩用G表示,BG表示第一个孩子是男孩,第二个是女孩。

该表显示了400个家庭平均分配了4种孩子类型,即,每种类型为100。根据加里所证,可以得出以下推论:

已知事实

  • 在100例的BB中,尼克应该总是和男孩散步。
  • 在100例的GG中,尼克应该总是和女孩散步。
  • 如果尼克有儿有女,则合理的假设是,他和男孩或女孩一起散步的概率是相同的。

分析

  • 观察表格的第一行。当尼克和一个女孩散步时,其中有100例(GG)表明另一位不在场的孩子也是女孩,而其他50+50例(BG&GB)则表明缺席的孩子是男孩。
  • 当尼克和一个男孩散步时,也可以做出同样的推论,因此,比较BB与BG+GB(100 vs 50+50),也可以得出同样的结论

结论

不管现在和尼克散步的是男孩还是女孩,另一个孩子是“男孩或女孩”概率保持不变(它们是自变量)因此答案是1/2,而不是1/3。

当然,还有一个更为直观的解释:你看到一个女孩,这是一个独立的事件,对其他孩子的性别没有影响。

如果你现在还没有丝毫的困惑,那么你可能对这个问题还只停留在表面理解上(也可能你是个真正的天才,那便来看看下面的解释是否与你的思维过程相同)

深入探讨这个问题…

那么,加里和蒙洛迪诺,谁对谁错?

实际上,他们都是对的,因为他们试图解决的是两个不同的问题。再看看以上的问题。

  • A:我的朋友尼克有两个孩子,他告诉你他至少有一个女儿,那么另一个孩子是女孩的概率是多少?
  • B:你看到我的朋友尼克和他的女儿在街上散步。尼克告诉你他家里还有一个孩子,那么,另一个孩子是女孩的概率有多大?

两个问题有什么不同吗,“看见一个孩子是女孩”和“一个孩子是女孩”一样吗?

你认为呢?现在就是把聪明人弄糊涂的时候了。经济学教授加里混淆了以上两者的区别。

贝叶斯方程是解释这个问题最简单、最优雅的方法,尽管如此,笔者还是想从另一角度(使用全概率定律)来看待该问题。

“至少有一个女儿”和“看到一个女孩”不是一回事。这是关键。

这两个前提在时间和空间维度上的差异可以表示为“全局关系vs.局部关系”。

1. 空间维度上的“全球关系 VS 社会关系”

“至少有一个女儿”并不代表你能看到那个女孩

 

如上图所示,“至少有一个女儿”包含了“看到一个女孩”,而“看到一个女孩”所传递的信息更具概率描述。

2. 时间维度上的“全球关系 VS 本地关系”

“至少有一个女儿”是鸟瞰的统计结果角度。

“看见一个女孩”是人类观察的角度。

下面是更直观的描述,

统计是对样本空间的总体描述。观察是对平行空间中一种可能组合(所有可能发生的事情)的实际描述。 在理解了这两个问题之间的根本区别之后,可以得出结论:

  • “至少有一个女儿”是样本空间中的一个概率问题。因此答案是1/3;
  • “看见一个女孩”是根据目前的观察作出的未知推断,这是一个贝叶斯统计计算。

因此,“看到一个女孩,问另一个孩子是女孩的概率”就等于“有两个孩子,你看到其中一个是女孩,那么这个家庭有两个女儿的概率是多少?” “猜性别”的话题到此结束。 笔者想总结的是,即使是系统1(快速直观的本能,以及由‘或快或慢思考’产生的情感大脑)也没有很好的概率直觉。但是,我们总是可以通过增强对概率因果关系的认识,来提高自己解释周围环境中的动态和不确定性的能力。

总结

如何通过概率建立主观假设与客观结果之间的联系?

为什么对真实世界的观察会影响事件的偶然性概率? 将要发生的事情和已经发生的事情有什么根本的区别?

最后,如想找到一种回答这些问题的方法,或者想戏弄你的智能数据科学家朋友,可阅读以下书籍:

  • The Drunkard’s Walk: How Randomness Rules Our Lives
  • EssentialStatistics, Regression, and Econometrics
  • The Book of Why: The New Science of Cause and Effect

 

 

责任编辑:武晓燕 来源: 读芯术
相关推荐

2017-04-12 09:34:30

数据科学家统计学家好习惯

2019-07-03 15:21:47

数据科学统计数据数据结构

2021-01-29 14:38:36

数据科学数据科学家统计学

2020-08-28 13:49:13

数据统计学面试

2017-08-04 15:53:10

大数据真伪数据科学家

2018-02-28 15:03:03

数据科学家数据分析职业

2017-11-21 14:42:30

数据科学统计学习机器学习

2012-12-26 10:51:20

数据科学家

2018-05-21 21:04:07

数据科学家算法统计模型

2015-08-28 09:22:07

数据科学

2015-08-25 13:20:29

数据科学

2016-04-11 14:15:06

数据科学数据挖掘工具

2020-03-20 14:40:48

数据科学Python学习

2016-03-10 13:56:42

数据科学数据科学家数据分析

2019-12-13 07:58:34

数据科学数据科学家统计

2015-06-11 10:27:29

数据科学家

2018-12-24 08:37:44

数据科学家数据模型

2012-12-06 15:36:55

CIO

2019-07-05 10:29:17

大数据数据科学家

2016-05-11 10:36:16

数据科学家数据科学大数据
点赞
收藏

51CTO技术栈公众号