狐狸,贝叶斯与大数据的思维方式

云计算
2012年,“大数据”是一个抓住了上到国家政要下到普通老百姓眼球的热词。随着技术的进步,数据获取成本、数据存储与处理成本都在以指数的速度迅速下降,普通老百姓都能感觉到数据将对人们的生活产生至关重要的影响。

假设掷出一枚硬币,正面朝上的概率是50%,如果连续99次投掷硬币都是正面朝上落地,那么下一次投掷硬币正面朝上落地的概率是多少?这是Taleb在《黑天鹅》一书中给出的一个假想的问题。在Taleb的书中,受过正统教育的约翰博士给出了教科书教给我们的标准回答,下一次投掷硬币正面朝上落地的概率仍然为50%,因为下一次硬币朝向与之前投掷的结果无关。而教育背景没有那么光鲜的胖托尼则认为下一次投掷硬币正面朝上的概率为99%。孰对孰错?我和读者都不妨给出自己的判断。而如果一定要为自己的答案下一万块钱的赌注的话,我和Taleb一样,更倾向于与不是那么教条的胖托尼保持一致,更倾向于相信下一次硬币正面朝上的几率为99%,更倾向于相信我之前的有关正面朝上落地的概率是50%的假设是错误的。

2012年,“大数据”是一个抓住了上到国家政要下到普通老百姓眼球的热词。随着技术的进步,数据获取成本、数据存储与处理成本都在以指数的速度迅速下降,普通老百姓都能感觉到数据将对人们的生活产生至关重要的影响。虽然,人们谈大数据时往往都会谈及利用Hadoop等新兴技术对海量数据处理等技术问题,也会谈及Facebook、Google等公司所处理的PB级别数据的问题。但是,正如周涛教授所言,大数据的核心问题在于预测。电子商务网站通过数据预测顾客是否会购买推荐的产品;信贷公司通过数据预测借款人是否会违约;执法部门用大数据预测特定地点发生犯罪的可能性;交通部门利用数据预测交通流量。但是,预测不是大数据时代才有的新问题,它是人类本能的一部分。心理学家认为,对世界一致性观点的需求以及对环境控制力的需求是人类的两个基本需求,而在此基本需求驱动下,人类像“朴素的科学家”(na?ve scientist)一样行为,理性地合乎逻辑地验证自己关于世界的假设。即使原始人通过他的切身体会也可以知道,如果将手伸到火中将会被烫伤。这样,原始人根据其直接经验可以构建关于火与烫伤之间关系的关联模型。数字是人类直接感觉的延伸,正如麦克卢汉所说,“数字是我们最亲密的、相互关系最密切的(触觉)的延伸与分离……古代世界不可思议地将数字与物质实体的性质联系在一起,与事物的因果关系联系在一起……科学始终倾向于将一切客体量化……(数字是)我们的中枢神经系统在电力时代的延伸。”而未来无所不在的传感器将构成地球的中枢神经系统(Central Nervous System for the Earth CeNSE)。这个地球的中枢神经系统使得人们能够超越其直接体验,感知到来自地球每个角落的讯息,这些形式多样的、海量的、快速的(Variety、Volume、Velocity)信息流将构成大数据时代的主要特征。而人们将基于这些信息理解世界,构建与验证关于世界的新的假设,并以此为基础进行预测,并采取行动。

但是,与科学研究中以求真为目的的构建模型不同,大数据时代的模型构建将更加以务实为目的,即遵循统计学家George E. P. Box的观点“本质而言,所有模型都是错误的,只是有些模型更有用”(Essentially, all models are wrong, but some are useful)。大数据时代的很多模型都是为了指导商业决策而设的,而商业决策通常会影响决策者的利益。所以,一个模型是否正确不是最重要的,重要的是决策者对这个模型有多大的把握,决策者能否从这个模型中获利。所以,大数据时代中最为关键的应该是基于数据的模型能否说服决策者据此进行决策,并且帮助决策者改善决策赚取相应的利润。前者表现为决策者愿意将多少钱押在这个模型上,而后者表现为这个模型在现实中的表现如何。所以,如果让读者你参加本文开始所设计的假想赌局,无论约翰博士看起来多么专业也不能阻止读者更相信胖托尼的模型,因为毕竟这涉及到真金白银。胖托尼也许在最初和约翰博士一样,相信硬币正反面朝上面落地的概率各是50%。既然所有模型都是错的,但是胖托尼能够利用他所观察到的硬币一次次正面朝上落地的事实修订他的模型,使其越来越接近真实情况。而约翰博士仍然抱残守缺,固守着他的50%的最初假设。

以赛亚*伯林(Isaish Berlin)曾经援引古希腊诗人的残简“狐狸多知而刺猬有一大知”将知识分子分为狐狸和刺猬两类。刺猬用一个宏大的概念解释所有现象,如约翰博士一般;狐狸知道很多事情,用多元化的甚至相互矛盾的视角看待问题,狐狸也愿意包容新的证据以使得自己的模型与之相适应,如胖托尼一般。Tetlock等人的研究表明,在现实的预测中,狐狸的表现要优于刺猬。在大数据时代,人们能够接触越来越多的信息,这些信息能否修订决策者已有的观念,对决策者的决策产生影响,这是大数据能否发挥价值的关键所在。有些刺猬类决策者,他们可能会有意无意忽略与其观念相左数据而只保留那些能够证明其想法的数据,在这里无论系统处理了什么规模的数据,这些系统投资也只是粉饰太平的装饰,没有太大意义。

很多人都知道亚当斯密(Adam Smith)在《国富论》中所描述的市场中的“看不见的手”。在市场中,没有人掌握有关生产和消费的全局信息,但是人们通过市场交易对供需的行为作出反应,从而逐步更新价格,进而达到平衡。与亚当斯密同时代且同在苏格兰接受教育的Thomas Bayes的贝叶斯定理(Bayesian's Theorem)也和亚当斯密的“看不见的手”有相通之处。贝叶斯理论允许每个人拥有有关世界的先验的信念,胖托尼也许最初认为硬币正面朝上的概率是1/2,如果他看到了99次投掷硬币的结果中有50次是正面朝上,他会认为这个硬币正面朝上的概率是51/101,大致可以确信硬币正面朝上的概率是50%。而当他看到了连续99次的硬币正面朝上落地,则他不断利用数据修改其信念,认为这个硬币可能有问题,正面朝上的概率应为100/101,即本文开始部分所预测的99%。当然,你也可以如约翰博士一样固守自己最初50%的教科书般的假设,而这样的结果是你输掉了一次又一次的赌博,直到出局。

利用新的数据与新的证据不断修订对世界的假设是狐狸式的思维方式也是贝叶斯思维方式的基本理念,这也应当是大数据时代思维的基本理念。随着互联网及云计算的普及,在大数据时代,人们有机会从多个渠道、多个角度获得对事物的知识。贝叶斯的“看不见的手”利用这些知识逐步修订人们对事物的假设,而人们基于这些假设进行的决策通过亚当斯密的市场的“看不见的手”被评估与选择,从而形成相应的社会秩序。无论人们最初关于事物的认识存在什么样的差异,在贝叶斯与亚当斯密两重“看不见的手”的作用下,“随着越来越多的证据的出现,我们的信念将趋于一致,并且趋于真相……即使我们最初拥有有误的甚至是错得离谱的先验认识,最终也将趋于真相。”

作者:《证析》一书作者,大数据实验室合伙人

责任编辑:王程程 来源: 中云网
相关推荐

2016-08-30 00:14:09

大数据贝叶斯

2016-08-30 00:19:30

2012-09-24 10:13:35

贝叶斯

2021-08-30 11:53:36

机器学习人工智能计算机

2017-08-07 13:02:32

全栈必备贝叶斯

2023-01-31 15:49:51

机器学习函数评分函数

2017-03-29 14:50:18

2021-04-18 09:57:45

Java朴素贝叶斯贝叶斯定理

2024-10-11 16:53:16

贝叶斯人工智能网络

2017-07-24 10:36:37

Python机器学习朴素贝叶斯

2023-10-18 08:00:00

贝叶斯网络Python医疗保健

2017-11-07 11:17:40

朴素贝叶斯画像数据数据挖掘

2020-10-09 12:41:04

算法优化场景

2017-07-12 11:27:05

朴素贝叶斯情感分析Python

2012-02-14 10:55:24

2022-09-28 08:00:00

Python机器学习算法

2024-11-11 15:02:16

2017-06-12 06:31:55

深度学习贝叶斯算法

2014-05-22 15:47:46

信息化

2017-03-21 09:17:37

点赞
收藏

51CTO技术栈公众号