信息大爆炸的今天,不讨论大数据这个话题似乎就是跟不上时代。从医药到教育,再到其他各个领域,大数据充斥着现代社会的每个角落。而我们最关心的还是大数据最终将以什么样的形式,怎么样影响甚至改变我们的生活。来听听四位专家告诉你大数据到底有多少可能。
丹·瓦格纳 Dan Wagner
Civis Analytics 的创始人兼首席执行官
你曾经说过,希望用大数据解决全球最大的问题。你最想解决的问题是什么?
我们主要关注两个领域:教育和健康。在教育领域,我们专注于利用个人层面的数据,帮助客户发现那些申请和注册的大学低于其潜能的低收入学生,并帮助这些机构找到适当的方法,让这些孩子进入与其潜能相匹配的大学。
保险投保也是我们的目标之一,尤其是在《平价医保法案》刚开始施行的头几个月。我们主要致力于与多家机构合作,帮助它们找到没有医疗保险的民众,并让他们加入到医保计划中来。这是一项非常艰巨的工作,因为没有现成的无保险人员名册。你只能通过统计推断来完成这项工作。
最值得关注的问题之一是,保险如何从团体保险向个人保险发展,以及保险公司如何学会管理这一风险。我们正同几家机构合作,利用数据提前发现诸如心血管疾病等个体风险,提前了解病人面临的风险。
一旦发现有风险,你会增加投保人的保费吗?
你不能这么做。你只能根据诸如年龄等一系列精简变量来确定保单价值。因此,你不能根据上述风险来定价,但你需要管理这一风险。
你同奥巴马竞选团队合作时,大数据发挥了怎样的作用?
我们带来的最显著改变是在媒体方面。具体来说,就是利用尼尔森收视率来追踪竞选广告的投放和效果。透过收视率数据,你就好像看到了一张人口统计表,能从中了解到观众群的构成,例如是西班牙裔,还是女性。
我的做法是,根据我们计算得出的个人可说服得分来定义我们的观众。我们将这些数据与机顶盒数据相匹配。由此就能找到每一美元广告投放能带来最高可说服观众密度的电视栏目。有了这些数据,我们基本就能根据一个单一的标准来决定广告投放的优先顺序。这与人口统计学没有任何关系。只需明确哪些是我们在个人层面上确定的、要特别针对的观众群。这是一项非常艰巨的工作,但从文化角度来看,这种方法很适合我们的竞选团队,因为,奥巴马竞选的典型特征是,选民摇摆不定。
我们应当如何解决数据分析中的安全问题?
你必须非常重视这个问题。很多这类机构在收集信息,但我认为,其中很多机构都没有意识到什么是最高标准的数据安全操作。我们的很多工作都是在亚马逊云服务平台上完成的,这比你内部可能开发的东西要好得多,因为你可以利用亚马逊提供的很多网络协议。亚马逊的云计算服务算是该领域最好的。
大数据热潮中,我们可能犯的最大错误,或可能忽视的最重要问题是什么?
大数据热潮最令人遗憾的一点是,人们只考虑其过程,而没有考虑结果。有些时候,这股热潮有些盲目,在某种意义上,它只是将对数据计算能力增长的信念孤立地看作是一种解决问题的手段。你将如何运用这些未来真的能改善人们生活的数据?这是个大问题。
在日常生活中,你是如何应对信息过载问题的?
作为一个在互联网相关公司工作的人,我有很多时间是在网上。但我尽量缩短通过各类电子设备进行沟通的时间,并努力确保自己阅读大量书籍。
埃里克·谢德特 Eric Schadt
伊坎基因组织学和多尺度生物学研究所(Icahn Institute for Genomics and Multiscale Biology)董事
如何证明超级计算在医学研究中能发挥重要作用?
主要通过两种途径。一是管理当下医学领域产生的诸如 DNA 测序等海量数据。举例来说,一位癌症病人的全基因组序列会产生万亿字节之多的数据。想象一下,如果要为数十万人做基因测序,就会产生千万亿,甚至百亿亿字节量级的数据。要对这些数据进行管理并加以处理,使之转化为能被医界人员所用的信息,就需要超级计算设备和相关的专业知识。
另一个途径是,利用需要超级计算在短时间内完成的非常复杂的数学算法,根据已经存在的疾病亚型,以及治疗该疾病亚型可能的最佳方法建立一个疾病预测模型。
这使医生在治疗中的作用以及病人与医生间的数据关系发生了怎样的变化?
发生了根本性的变化。与我们现有方法的不同之处在于,我们更深入地研究个体,而非一个群体。就拿糖尿病来说,目前可能有 100 种不同的糖尿病亚型,而且你和你的邻居得这种病的原因也各不相同。你可能是因胰腺β细胞功能受损所致;或者你肌肉中的摄取受体不能有效地吸收葡萄糖等等。不同的病因可能需要不同的治疗方法。
医生看到的只是晚期症状,但现在透过各类分辨率更高的科技产品他们能看到导致下游结果的上游病因。最近医生们才看到了这些病因。其中涉及数百万个变量,这是人脑无法理解的。
您刚才说到的都是数学帮助克服人脑缺陷的方面,这些数学计算程序有哪些缺陷需要人脑的帮助?
我们所做的工作是用一种需要人脑参与的方式来呈现信息,这是一种很棒的模式识别机器。目前在很大程度上人与机器是合作伙伴关系。也许 10 年、20 年以后,诸如 Watson 等计算机将变得非常强大,人的干预会大大降低。但目前还做不到。
很多组织收集的医学数据只供己用,我们应该对此感到担忧吗?
如果我们真的希望对人类健康产生影响,这些数据和模型必须对所有人进行开放。
物理研究领域就有这样的先例,强子对撞机试验的全部数据都是对公众开放的。当然,存在如何保护个人隐私的问题。
可以通过技术解决隐私保护问题吗?
我们当然可以保护并存储数据,保护计算机环境的安全,并采取众多安全协议来确保数据不会陷入危险。但有一点我们很清楚,任何形式的高维数据都无法真正做到匿名。就像照片一样。你不能指望你的外貌也有隐私,因为人人都能看到你的脸,你不能将它藏起来。我认为 DNA 以及诸如分子尺寸等其他数据最终也将归入同样的范畴,原因很简单,当技术足够成熟的时候,基因测序会像照相一样简单、便宜。
在日常生活中,你是如何应对信息过载问题的?
不能陷在大数据中。我会去玩单板滑雪、骑摩托车,或是做一些能帮助你放松,无需太动脑筋的活动。
安德烈斯·维根 Andreas Weigend
独立顾问,亚马逊公司前任首席科学家
你曾经将大数据比作原油。
如果你在后院发现了原油,你的这个发现可能用处不大,因为你需要将原油精炼后才能供人们使用。原始数据也像原油一样,不是拿来就可使用。亚马逊和谷歌就是从事数据精炼提取的公司。当然,据我所知,原油和数据两者之间最大的区别是,数据一时半会儿不会被用光。而至于价格,信息产品和石油产品之间的关系也非常有意思。
原油的大部分好处被你所描述的精炼公司而不是被其用户获得。我们怎样才能保证每个人都能从大数据中获益?
我认为,在苹果公司的应用商店发生的一切将会在数据经济领域再次上演,会有公司以这些数据为“原材料”推出服务。如果成立一个应用商店,而另一家公司使用数据向消费者提供应用并与数据公司共享收入,价值由此产生。
大约 10 年前,你曾担任亚马逊首席科学家。目前,世界是否已经完全变样了?
10 年前,我们已经注意到行业的重点正由算法(意味着你可以从自己所有的数据中获得任何东西)向仅仅需要获得更多的原始数据这一方向转移。所以说,现在的情况与当年完全不同,不过,我们仍然有类似的想法。贝索斯还是贝索斯。
你认为哪些行业守着最丰富的数据金矿却未找到利用金矿创造价值的方法?
中国有一家公司名叫腾讯,他们推出的微信完全颠覆了中国人的沟通方式。与之相对应的另一家公司是中国电商公司阿里巴巴,该公司了解客户对哪些商品感兴趣,他们在搜索什么商品,以及他们最终买了哪些商品。阿里还清楚客户是否退货和有无付款问题等。
这两家公司均拥有 10 亿客户。它们了解客户的所有沟通习惯或所有财务交易情况,所以,它们确实大有可为。当然,这也取决于你对哪些行业感兴趣。不过,真正的潜力是这两方面数据的交叉整合。比如,在需要做出信贷决定时,你可以从腾讯了解很多信息。因为,了解到你是否曾经和妓女鬼混或与拉皮条的家伙有过来往,也能多多少少地了解你将来偿还贷款的倾向。
在日常生活中,你是如何应对信息过载这一问题的?
我们必须形成一个认知习惯,认识到人们是会错过一些信息的。如果有人错过了你的一封电子邮件,请不要生气。请通过另一个渠道与他们联络。
威廉·库科尔斯基 William Cukierski
Kaggle 公司的数据科学家
效果最好的竞赛有哪些?
我最看好的一场竞赛叫“找鲸大赛”。竞赛中要寻找的鲸是生活在大西洋中的一种濒危种群。这些搜寻者拥有强大的网络,不间断地记录鲸发出的声音,他们也拥有自己的算法,且效果非常好。他们说:“要不我们把这些数据交给 Kaggle,看 Kaggle 有没有更好的解决方案。”他们最后实现了非凡的成果。目前,这些强大的网络能够以接近 99% 的准确率来侦测出鲸的声音。我认为,如果有人坐在纽约的办公桌前就可以从事与日常工作毫无相干且在万里之遥的一项工作,并为我们的日常生活带来巨大好处,这将是一项多么了不起的事情!
你们还在设法利用数据分析来进行癌症研究。Kaggle 是否组织过很多医疗相关领域的竞赛?
Kaggle 尚未在医疗领域涉足过多,主要原因是涉及泄露患者信息这个问题。另一个难题是拥有这些数据的个人和机构把数据囤积了起来,不愿分享。
制药公司拥有制药试验的数据,它们把这些数据压在了箱底。人们为了数据分享作了一些初步努力,也承诺在这方面展开合作,但结果还是各自都想保留自己手中的数据。从某种程度上说,主要还是担心隐私保护问题。你可能不会愿意把别人的基因组公开发布,然后大家都看出来这是家住主干道 232 号的萨利·斯密斯(Sally Smith)的基因组。不过,与此同时,这些担心也有些过度。对于这种问题,人们好像都在玩花招,说什么除非把数据直接交给你,不然你怎么能够远距离地利用数据解决问题呢?如果能消除这些顾虑,你就可以取得一些实质性的进展。
你们公司在举办人人都可以参与的竞赛,而有些占有数据的机构却牢牢抓着数据不放手。这是否是一个矛盾?
我在日常工作中面临的最大挑战之一是说服人们分享数据,并令其确信这么做不会威胁到其机构的生存。
经常情况下,不是说你占有了数据,数据就成为与生俱来的无价之宝,数据是需要挖掘和分析的。如果我们从一个机构拿到了一组数据,并将其公开,问题的解决方式是公开的,这不会产生什么问题,因为没有其他人有相同的数据,也没有人会再去获得并利用这些数据。
你认为,关于大数据的各种说法和观点,哪方面的失控最严重?
我必须纠正一下你的问题,应该是哪些方面没有失控。在与人们谈论大数据时,很难避免失控这个问题,也很难避免其老板的介入,同样难以获得老板支持地说“好吧,我们也做大数据吧”。我认为,人们在数据量方面有些失控。所以,经常有人会说,“我们有 10 亿兆的数据,我们有百万兆的数据。”许多问题可以在更小的数据规模上得到解决。比如,用输送带来筛选利马豆。销售利马豆的公司希望利用照相机来发现输送带上变质的利马豆。你可以想象,如果你能够发现一粒棕色利马豆,你就可以发现所有的棕色利马豆,而不需天文级别的数据来解决这一问题。我认为,95% 的问题适用于这个模型。剩余 5% 的问题的算法需要大量的数据,提供的数据越多,其方案的效果就越好。Netflix 向用户推荐电影就是最好的例证。