2012年,沃尔玛每小时就能产生2.5PB、100多万名用户的消费记录。同年,Facebook报道称他们每天要处理25亿个内容碎片(链接、评论)、27亿个赞和3亿次图片下载。
与此同时,对颗粒数据的收集也迎来了***的机遇。今年二月,基于对用户数据分析,Facebook新推出了六组多样化的表情(emoji)按钮,丰富了用户交流回复时感情流露的深度和广度。
随着全球数据流的高速集聚与融汇,大数据的应用也进入了白热化阶段,迅速渗透至各个领域。人即数据,大数据就是人。这其中包含两层解读。举例来说,大数据首先可被理解为是由人们的点击量和定向选择组成的;其次,大数据又可以反作用于人们的决策,特别是一些与社会大众密切相关的政策的制定等。它甚至可以影响我们对自我的界定、关系、选择等等。
一些文化评论家把大数据妖魔化为一种“新型精神控制”,甚至认为它能影响大选结果。也有人将其描述为某种形式的人类掠夺工程。哈佛大学商学院的Shoshana Zuboff 认为,对人类行为数据的侵略性掠夺会对我们的自由、隐私、道德和自主性产生巨大的反作用,而且这种作用很可能会在数十年后才显现,是一种新型的恶性资本主义。
大数据=可掠夺的资源
“大数据”这一说法很容易让人误认为它完全不受人类主观意识左右。最近,一批社会科学学者正致力于研究从“数据中心”向“人本中心”的转变。他们认为人们过分关注大数据带来的驱动作用,却忽视了人才是一切研究工作的核心。这一提法虽然对我们起到了警示作用,但忽略了一个关键事实:数据痕迹的本质就是人活动的痕迹。
虽然大数据作为一个新概念被提出,但数据的收集方法其实并不新鲜。社交媒体平台的设计纵然不断更新,对数据的监测却早就存在了。然而对大数据错误、冗赘的解读也使得大众对这一概念的理解越来越混乱。另外,对于数据收集与个人隐私间的矛盾也一直争议不止。
尽管人们已经在数据收集和个人隐私间打了无数口水仗;尽管人们都曾被屡次提醒这些个人信息的外露可能导致许多后果,但能真正打从心底认识到个人数据集可以左右公共决策、影响社会发展的委实少之又少。同样,时至今日,多数人依旧认为大数据是不受人为干预的最客观的资源,就像是在自然界长出的花草果实,我们只要去收割就可以了。而那些掌控着这些数据资源的人当然不希望事实被揭穿。因为一旦大众看清了正在发生的一切,他们定会更奋力地反抗。
大数据与人的渊源
大数据和数据驱动的科学与社会科学渊源颇深。这是因为大数据科学越来越深入到了个人领域范畴,涉及到了越来越多与自我、个性、观念等方面的信息,而这些都是社会学长久以来关注的重点。
人类对数据的挖掘方式在不断演化。从20世纪早期的社会调查、问卷调查,到20世纪晚期的分组调研等,随着研究技术的不断改进,这些调查变得越来越细致和有针对性。人们似乎再也无法逃脱数据搜捕的巨网。就像心理学家James Sully在1881年所写到的:“即使是摇篮里的小婴儿也不得不承受科技的监视。”
1924至1926年间,社会学家Robert Lynd和Helen Lynd夫妇曾就印第安纳州曼西市的当地文化开展了一项大型研究。人们爱看什么电视节目、每天要在厨房花多少时间等等,事无巨细,全被一一记录。1947年,心理学家Roger Barker在堪萨斯州奥斯卡卢萨的一个小镇上创建了社会科学实验室“中西部心理学实验站”。小镇成为了某种形式的实验室。Barker和他的同事们开辟了一种全新的数据收集形式——日常生活数据收集。举个例子,在他们收集的信息里有这样一条:“1949年4月24日,星期二,早7:01,七岁的Raymond捡起一只袜子,套在了自己左脚上,然后慢慢从床上爬起。他妈妈开玩笑地说:“你的眼睛还没醒吗?”进入20世纪50年代晚期,研究学者Terry Bristol和Edward Fern提出了“专题小组”的调查形式。参与者们可以通过匿名的方式对一些共同经历表达自己的看法。这其实就是美国现代社会科学中常用的调查手段——主观信息客观化的雏形,也是大数据的***意义。
另一个值得关注的发展方向就是人类学研究的介入了。参与人类学研究的人们很多是为了增进自我认识、社会参与度、反馈等等。其中,名叫Don Talayesva的霍皮族印第安男子可以说是历史上被观测记录最多的人了。从1890年到1976年,他的生活一直处于被记录状态。他作为霍皮人的生活经验甚至填补了耶鲁大学百科知识库中“人类关系分区档案”中生物分类学上“霍皮族”的空白。Talayesva还为学家们贡献了8000页日记、341个梦境记录,以及一系列访谈内容等等,俨然成了一个庞大的数据库。
新瓶装旧酒
人们对于数据收集的态度变化也十分有意思。以电话采访为例,在这一调查方法刚推出时,人们还是很配合访问的。然而,随着电话采访的频繁“骚扰”,如今还肯接受采访的群众大概就只剩下3%了。其次是街头采访。20世纪50-60年代,当街头采访***“空降”巴黎时,得到了公众的极大关注。然而今日,群众似乎已经对此习以为常,有些人甚至会觉得无聊而刻意躲避。更糟糕的是,在调查中,一些人还会通过挖苦、讽刺回应调查人员,以显示自己对调查的不屑与挑衅。
人们对大数据的态度恐怕也不过如此。虽然现在多数人还沉迷于大数据为我们营造的神奇世界,我们往往是贪图那一时的便利或享乐而无偿奉上了自己的行为数据。但随着深入了解,也许在不久的将来,我们就会对自己当下的天真与盲目感到吃惊,因为我们还没真正意识到自身行为数据的价值所在。今天的大数据收集与当年人们的社会调查本质是相似的,只是规模更大、颗粒化程度更高而已。
20世纪,由美国牵头的行为科学研究席卷全球,试图深入推进对人类行为数据的收集,使其成为可被智能机器利用的原始物料。这就是大数据的前身。这一项目有时也会得到来自政府或军方的支持,为其决策提供参考。这也是为什么大数据在今天会得到如此大的关注:它沟通了人本信息和物质世界,甚至实现了二者之间的相互转化。
究其根本,大数据其实并不是什么新事物。只是在高新技术的浸入下,它逐渐成为了现代社会的核心“推进器”,满足了人们缔造一个透明可视、且能自我优化的“机械化人格”,而你就是人格的一部分。我们真正应该看到的,是数据背后的人性。