互联网时代下,通过网站搜集信息和资源是一件极为普遍的事情,通常,网页浏览器会记录用户访问过的网站列表,即网页浏览历史记录。
然而,即便是这样简单的网络行为,都存在着隐秘的风险。在8月举行的 USENIX 会议上,Mozilla 的研究人员展示了他们对 5.2 万名(事先同意)的Firefox 用户在两周内的浏览历史数据集进行了分析的结果。
结果显示,48,919 份浏览资料具有可区分性,即 99% 的浏览历史是独一无二的。超过八成用户可通过浏览历史被识别身份。而且,只需要考虑 50 个最常用网站就足够。
事实上,在 2012 年就有对用户浏览记录分析用户身份的研究。其中,研究者首先建立了一个测试网站,并使用 CSS 代码从 6000 个域名列表中识别出参与者访问过的网站。当时的研究结果显示,基于这 6000 个域名,参与的受试者,97%都形成了非常具有独特性的浏览历史,仅此数据就可以用来追踪确认这些参与者。
而时下, Mozilla 这一次研究所采用的数据则更精确,Mozilla的研究收集了 5.2 万名参与者的全部浏览记录,数据包括对 66 万个独特域名的 3500 万次网站访问,也是该领域规模比较大的一次研究。
参与者首先和 Mozilla 团队分享他们的浏览历史,然后,Mozilla 团队开始试验他们是否能从大量数据中重新识别出这些用户。结果显示,99%的浏览记录被发现具有独特性,能与用户“对号入座”。
此外,2012年和2020年的两次研究对比也展示了互联网时代的变化:八年前,对于用户访问量比较大的前50个网站,识别用户的准确率为38%,对于500个网站的数据集,准确率为70%;今天,以50个网站为基础的重新识别准确率为50%,以150个网站为基础的重新识别准确率为90%。
伴随着5G技术的发展,人们创造的信息总量也以几何级数进行累积,研究显示,过去几年中人类制造的数据占整个人类历史数据量的95%,换言之,大数据时代已经真正降临。
在互联网时代的后半场,我们的生理信息都将进入传播渠道,成为5G技术下的重要信息资源。而通过用户浏览记录分析用户身份无疑会成为进入传播渠道的另一重要数据,如何规避这一数据信息下的隐私暴露风险,创造更好地保护隐私的路径,依然有待实践探索。但任何技术的狂想始终来自人和人性,人类的智慧是技术的智慧,也是破解技术困境的智慧。