科学家称,通过少量的地理位置信息就可以非常容易地判定一名手机用户的身份。
只要手机处于开机状态,其网络连接性都意味着用户的位置和行动可被标绘出来。这种数据会以匿名的方式被提供给第三方,从而让用户能获得更好的服务,同时也能让广告主更加精确地找到目标客户。但在《科学报告》(Scientific Reports)上的一份研究报告发出警告称,人类的运动模式具有很大的可预见性,以至于仅靠4个数据点就能判定一名用户的身份信息。
手机和智能手机应用的日益普及已经带来了一个新时代。在这个时代中,海量的用户数据已经变得能被那些管理和分发数据的公司所获得——有些时候是以“匿名”或是聚合数据集的方式而公开的。
对于广告主和服务提供商来说,这些数据非常有价值,但对其他人来说也同样很有价值,比如那些正在规划购物中心和分配应急服务的人,或是新一代的社会科学家等。但是,“位置服务”的蔓延和发展速度已经超出了人们的理解范围,使其无法明确把握位置数据能如何对用户隐私权和匿名造成影响。举例来说,卫星导航厂商长期以来一直都在使用来自于手机和卫星导航服务本身的数据来改进路况信息报告,具体方式是计算用户在特定道路上正在以多快的速度前进。
在这些计算中所使用的数据都是“匿名的”——也就是说,这些数据不会包含手机号码或个人细节信息。但有一些例子证明,有名无实的所谓“匿名”数据能通过怎样的方式与用户身份联系到一起,其中最出名的例子是AOL在2006年发布的一些数据,这些数据对2000万次匿名的网络搜索进行了概括。《纽约时报》在对这些数据略做“侦查”后发现,很容易就能判定其中一位代号为“4417749号搜索者”的身份信息。
移动轨迹
最近以来的研究工作日益表明,人类的运动模式无论看起来多么具有随机性和不可预见性,但在实际上这种随机性和不可预见性的范围都是非常有限的;事实上,运动模式能在某种程度上被作为一种“指纹”,让人能判断出人们的身份。《科学报告》上的***研究报告指出,这些位置数据虽然只具备“低分辨率”,但也仍旧能被用作识别人们身份的独特标记。
麻省理工学院和比利时鲁汶大学(Catholic University of Louvain)的研究者对150万名用户在15个月中的匿名手机记录进行研究后发现,通过所谓的“移动轨迹”(mobility trace)——也就是每一部手机显而易见的行进路线——只需要4个地点和时间点就足以识别出一名特定用户的身份信息。
“在二十世纪三十年代,你需要12个数据点才能排他性地鉴别和刻画一个指纹。”这份研究报告的主要作者、麻省理工学院学者Yves-Alexandre de Montjoye说道。“我们在这次研究中所做的也是同样的事情,只不过是通过追踪‘移动轨迹’的方式来进行研究的。人类运动的方式和行为是如此独特,以至于只需要4个数据点就足以鉴别出95%的人的身份。”
“我们认为,这种数据的可获得性比人们想象中的要高。这些数据是指,举例来说,如果你在手机上使用WiFi网络或是打开任何应用,就会提供我们所说的那种移动数据。”de Montjoye说道。“当你共享信息时,你会看看周围,感觉身边有许多人在——比如说在购物中心或是旅游胜地——然后就会觉得这并非什么敏感信息。”
隐私权公式
这个研究团队随后又对这些数据需要具有多“高分辨率”——也就是一个位置的精度——才能更加全面地确保隐私权的问题进行了研究,并得出了量化数据。报告的联合作者之一凯撒·海德尔格(Cesar Hidalgo)称,移动数据遵循一种天然的数学模式,能被用作分析引导工具,原因是更多的位置服务和高分辨率数据已经变得可用。
“我们的想法是,在抓取这种信息的分辨率与匿名性之间存在一种天然的权衡关系,这种权衡所借助的就是分辨率和运动模式的独特性。”海德尔格在接受BBC新闻频道采访时说道。“根据上最根本的问题就在于,由于现在数据已经具有较高的分辨率,因此这种权衡就变成了数据的有用性多高与数据到底是否能够匿名之间的关系。如果你所拥有的数据是在一天以内的,那么交通流量预测服务就无法运作;你需要一个小时以内或是几分钟以内的数据。”
海德尔格指出, 想要把“移动轨迹”与某个人的身份信息联系到一起,那么就还需要更多的信息;但是,用户会通过带有地理位置信息的Twitter消息以及Foursquare等地理位置“签到”服务提供这种信息。