前言:最近一项研究发现人们在脸谱网上点赞的喜好能强烈反应一些个人的性格特征,如性取向和智商。但是把这些相关性当作是任何东西的证据,这一点疑虑多多。
大家最近应该都听说过“一项研究表明在脸谱网上给炸薯条点赞很可能意味着这人拥有高智商”吧,一些杂志如《连线》就此发表纷纷相应评论文章;定量分析公司联合创始人与CTO Sean Gourley(译者注:原文为CEO,但Quid官网注明职务为CTO,此处引用官网职务)在上周举办的结构数据大会上演讲时也引用了上述分析结果,欧盟议会团体甚至引用该研究结果作为禁止网络公司发掘数据的又一证据。
然而,如果大家如我这般,听到任何人重复强调炸薯条数据很可能是事实时,背脊一阵冷颤,那不是说分析结果不是事实--他的确很有可能是真的--但在缺乏更多背景情境下,那只是一组无用的信息而已。
就是这样,古老的相关性争论与因果关系争论再一次成为争论的前沿焦点。在整个大数据世界,这很可能是最大的谬论,无论你怎么观察研究这个结果。不对,从大数据中获取价值总是不需要更多地信任相关性而不是因果联系。也不对,依赖相关性也不是固有的某种道德上或科学上的可疑的做法。
确实,依赖相关性或者坚持寻找因果联系的选择很可能取决于你要干些什么。
当我们不处于危急关头时,也就没有关联性了
诚实点吧:如果我只关心提高点击率,销售更多产品或预测大家想看的电脑,关联性可能会有所帮助。我确实不关心为什么,例如,Mac用户在网上旅游公司Orbitz预定了更昂贵的房间--我只关心他们做了什么。
你浏览我的网页,我的系统显示你使用的是Mac电脑(或者你喜欢炸薯条,或任何其他与你相关联的属性),这表明了你对系统认为你想看的东西表示满足。这不是个完美的手段,但可能是个截然不同的事物,比之前那种仅仅向所有人提供完全相同的内容的老式方法效果好多了。
你不能区分--或者下定论--于相关性
但如果你尝试用大数据来做一个有意义的区分,或者做出一个决定,对现实世界结果产生巨大影响,仅仅只有相关性很可能完全没法满足你的要求,这正是专栏作者耶夫根尼·莫洛佐夫(Evgeny Morozov)最近在《纽约时报》专栏中就犯罪问题提出的警示,这正是Gourley在谈到数据科学与数据智力的比较中所思考的,这也正是为什么当前围绕机器学习大多数时候总是包含人类外观的争论的原因。
没有单独对相关性做出相应行为,很多时候是因为考虑到隐私政策和公民权利、宪法权利及人权等。你不能分析某人并就此逮捕他,举例来说,就因为他们的点赞信息表明他们有可能(犯罪)。或许你也不应当仅仅以相关性为基础,就针对人们的财务、健康或总体状况做出决定。
见鬼,我甚至不为广告服务,挖掘用户的个人信息如健康问题、性取向或者智商等,我也没有特别强烈的理由来相信我是正确的(并对服务这些广告表示同意)脸谱网这次关于炸薯条的研究充斥着相关性,这种相关性可能会成为潜在的隐患。以下图表是我们能看到的部分情况。
(图表来源:《美国国家科学院院刊》,PNAS)
但上述所有情况下,偶尔,对错误分析某人的恐惧--结果被起诉--很多时候可能会压倒你想做些好事的愿望。我的同事Om Malik著作的《数据进化论》最近的表现超出了同行的评价与社交媒体的排名,也不应当轻松扮演上帝(或进化改变的催化剂,以继续达尔文的比喻)的角色。
但是有时候,由于你确实想去解决某一问题或者可能想创建一项伟大的产品,那么相关性就远远不够。正如Gourley在结构:数据中解释的那样,即便使用相关性数据来预测某一特定地方如伊拉克的暴徒攻击相对简单,但预测攻击事件发生的可能性依然没法阻挡他们的发生,阻止事件的发生需要确实掌握和解决攻击事件的根本原因。
类似的情况也适用于阻止疾病的蔓延、指出为什么节目制作者在某些季度犯了更多错误、阻止枪械犯罪,或者仅仅利用对炸薯条或者酒店房间的预订者的了解,来创建新产品。通过对这些产品点赞,来接触到产品创建的更深层理由。你能战胜病状,因此这么说,你可以治愈疾病。
你可以随意尝试向下一个你看到吃着炸薯条的人推销陀思妥耶夫斯基的纪录片,但别指望他照顾(你生意)。炸薯条有可能与智商间存在某种强烈的相关性联系;当然,同样有可能高智商人群--完全巧合地--往往住在快捷食品特许经营餐厅Arby’s的步行范围内,但是没人问这样的问题。