大数据本身并不中立,它反映的是人类真实的社会。一个并不真正平等、存在偏见和歧视的不完美社会,必然导致不完美的大数据分析结果。
数据泄露事件,击溃了Facebook的商业运作逻辑
最近,创建14年的美国社交网络公司Facebook,正遭受自创建以来最大的危机,媒体甚至将“灭顶之灾”冠之头上。
上周五,Facebook承认,曾在2016年帮助特朗普赢得美国总统大选的数据分析公司Cambridge Analytica(剑桥分析),违规获得了5000万Facebook用户的信息。与此同时,Facebook也始终在强调,这次事件并非数据泄密,因为Facebook并没有遭遇任何攻击或系统渗透,对方所获得的5000万用户数据来源于第三方。
但不管如何,于公众而言,Facebook才是这次事件的最大祸首。
若仅仅是因为卷入2016年的美国总统大选,对于Facebook来说尚可应付,毕竟,自当年大选以来,Facebook就一直与之纠缠不清。
问题是,此次事件的爆发,从根本上打击了Facebook的商业运作逻辑,即通过用户的行为偏好进行特征分析,完成用户画像,进而借助相应的算法模型,来向用户精准投放广告。过去Facebook可以依靠用户的不断增长实现业绩红利,现在却不得不依靠更高质量的广告投放来获得客户青睐。
可显然,当下“数据泄密”事件的爆发,动摇了用户对Facebook的信任。很多美国用户在事件爆发后就以卸载Facebook App来表达其愤怒。
Facebook旗下的Whatsapp则公开与之切割,表示在确保数据安全前不会与之共享数据。
数据的滥用,正在使其成为“有毒资产”
自移动互联网爆发,大数据、人工智能等技术大行其道以来,数据似乎成为一座巨大的财富矿山。现在看来,数据的滥用却正在使其成为个人的有毒资产。虽然说任何新兴技术的出现、进化都需要一个过程,在任何时代也不可能做到绝对的安全,但类似的数据泄密事件,还是应该引起人类的反思,尤其是保护数据的方法和原则。
当前,许多数据保护的方法,局限于数据采集的方式和目的限制。即使是将于5月25日生效的欧盟《统一数据保护条例》(GDRR)也是如此。
从全球范围内来看,《统一数据保护条例》对数据隐私的强调更加严格,更加强化对自然人数据的保护。比如在将数据运用于智能决策方面上,它要求将关键数据排除在智能决策之外。该条例所列举的敏感数据包括种族、政治倾向、宗教信仰、健康、性生活、性取向的数据,或者可唯一性识别自然人的基因数据、生物数据。
同时,该条例也要求增加进行采集数据时的透明度,即明确数据采集的范围、使用的目的等,并且要求数据进行分析的过程必须是可被理解的。
因此,目前广泛应用于人工智能技术的深度学习算法,在5月25日之后的欧盟地区,将成为“非法”的,因为它并不能被解释。
虽然GDRR对数据保护进行了强化,但其逻辑并没有改变,仍然局限于对数据采集的许可及其使用目的的限制。
数据的处理和使用,应纳入监管
而Facebook这次的“泄密”事件却告诉我们,仅仅局限于此恐怕远不足够,还需要从数据的使用及处理等方面加强。
首先,随着移动设备的更加普及,以及诸如数字建筑等的出现,未来人类社会必然需要不断与数据打交道。甚至可以明确地说,未来必定存在一个物理实体的人类社会,与一个数字化的虚拟人类社会。两者是为共生的孪生体。人类无法避免数据被收集的可能。
更何况,随着技术的进化,更多的数据未必直接来自物理现实,而是基于物理现实推测、观察出来的数据。从这一角度上讲,这类数据将是上述欧盟法律条例无法监管的范围。
再者,诚如此次Facebook事件所呈现的,Cambridge Analytica的数据并非直接来自Facebook,而是第三方的转售。因此,基于采集的许可及目的限制等保护数据原则,对此将束手无策。
因此,需要转向基于以合法利益受损的影响及危害等原则进行评估,拓展到对数据的使用及处理层面的监管。这也是防止数据被滥用,或是恶意使用算法所必然要求的。在这层意义上,欧盟《统一数据保护条例》要求算法可被理解,具有相当的进步意义。
在此,我们必须意识到,大数据本身并不中立,它反映的是人类真实的社会。一个并不真正平等、存在偏见和歧视的不完美社会,必然导致不完美的大数据分析结果。同样,作为最能反映创造者特征的人工智能技术,也势必同样充满价值观,其算法可能被恶意使用。为了确保数据不沦为人的有毒资产,数据保护的原则与思路,需要进行与时俱进,从处理和使用环节上着手。