大数据如今已成为媒体大肆炒作的对象。以超快速度处理大量信息的能力,正在颠覆全球各地的商业模式。但大数据与一切技术一样,也会带来风险。所有的技术使用者都应注意:大数据意味着大责任。
近期我与他人联合主持的一项研究得出结论:仅仅使用公开的Facebook“赞”(Like)信息,也能瞬时生成极为详尽的用户心理-人口特征资料,包括种族、性格、智商分数、幸福感、药物使用、性取向、政治观点和宗教信仰等有效的个人统计信息。
一旦掌握了数据,便不难建立起能够自动更新的模型。我们抽取了5.8万个Facebook资料的“赞”和个人属性信息,并通过自己的调查表加以衡量——我们没有理由认为研究结果不具有代表性。
推测的依据不是那些规模不大、一眼便可看出联系的“赞”数据集。对科学感兴趣与智力水平高存在联系,但喜欢炸薯圈或钟爱摩根?弗里曼(Morgan Freeman)的嗓音也同样具有信息量。将成千上万类似数据聚合在一起,就能有效地推断出个人特征。
Facebook只是开始。“赞”是一类可用于推测的数字记录,而其他种类的数字记录还包括Twitter消息、电子邮件、网络搜索、浏览记录、信用卡交易和线上/线下的购物信息。
与任何伟大的技术一样,这种推测功能既可以为善,也可以作恶。
快速、自动化的心理评估可能对招聘产生革命性的影响。何不先对数百万名应聘者进行评估(在征得他们同意的情况下),再邀请最适合的一小部分人参加面试?这对招聘方和应聘者都是省时省钱的方法。何不根据个人特征自动调整产品和服务?试想一下,英国《金融时报》能够根据个人性格和情绪针对性地推荐在线文章。再试想一下,开放、外向的人和保守、内向的人搜索“伦敦过夜”时,可以得到不同的结果。
当然,这也有不利的一面。个性化的广告或许会被认为对用户和广告商都有好处,但如果力量的天平向广告商倾斜,可能会把顾客玩弄于股掌之中。一位情绪不稳定的用户可能会因为其心理特征而被诱导购买不必要的保险。推测某些特征的能力甚至会对人带来危险。目前已经可能推断出用户的性取向或宗教信仰,这会令他们的安全受到危害——这种情况不仅仅发生在不太自由的国家。
由于意识到播放列表、购物记录和“赞”能够泄露如此多的信息,许多人可能对在线技术望而却步。在我看来,这种“数字排斥”对个人和经济而言都不是好事。推测个人特征和喜好的潜力是巨大的。我不是政策制定者,但我相信,我们应当设计出尽量降低相关风险的政策和工具。我们应当遵循两项原则:透明度和控制权。
首先,我们需要帮助用户了解,他们的哪些个人数据是公开的,这些数据目前和潜在的用途是什么。其次,我们需要让用户完全控制住自己的数据,自行决定数据将如何得到使用。这两方面可能已出现了技术解决方案,但还需要培养用户意识,并建立合适的法律框架。
对可用于推断的数据,用户应享有完全的控制权。由公司和政府等第三方存储并管理个人数据,已经成为通行做法。但一定要这样做吗?试想“赞”或购买记录并不存储在社交网络或网店中,而是安全地保存在你的电脑或个人云帐户中。推测仍然可以进行,但会受到用户的控制,让用户能够审核对个人特征的推断结果。
我爱Facebook。它是将人们联系在一起的伟大技术。我希望助一臂之力,确保我们在知道个人信息安全情况下继续利用这一技术。
本文作者为英国剑桥大学心理测量学中心(Cambridge University's Psychometrics Centre)研究员。他与心理测量学中心的同事大卫?史迪威(David Stillwell)和微软研究院(Microsoft Research)的托雷?格雷佩尔(Thore Graepel)合著了这项有关个人特征的研究报告。