数据和信息是有区别的。数据是信息得以导出的一系列事实或细节。因此,单独的数据点基本没用,只有在上下文中串联起来才能形成信息,描述事件。
在军队中,从离散的数据到有用的信息的过程被称为信息编译。编译前,单个数据点本身不算秘密;但一旦多个数据点有机结合起来,它们甚至能形成归为绝密的信息。
随着全球数字化转型的深化,随着各种服务、过程和社会、个人、商业活动越来越多地迁移到网络空间,数据和信息之间的这点些微差异比以往更加放大了。
大多数人都认为,这种迁移基本上是一种进步,能丰富我们的生活,解放我们的双手和大脑,让我们专注到其他更有意义的事情上。对公司而言,云共享之类的服务意味着雇员可以在地球上任何地方访问公司重要文档,实现远程办公。电子医疗记录能提升医院效率,开放之前用于存放各种文件记录的物理空间。
消费者也受惠于各种新服务,比如可以在线购物而不用花费几天时间用脚丈量商业街,可以在线转账而不用亲自到银行排队等候。毕业后20年都再没见过的人能通过网络再续前缘,被收养的人也能找到失散多年的亲人。数字化转型带来的便利和连接性已成为我们社会和经济不可或缺的一部分。
但是,每个新兴数字产业、过程或服务在上线的同时也提供了可被编译和交叉引用的新数字源。因此,除了以上种种好处,数字化转型也引入了窥探个人生活、活动和商业运营的新渠道。从未被看作是个人可识别信息(PII)的数据点本身,如今也可以连接并关联起来了,无形中产生了可能带来负面后果的个人和商业风险。
数字时代的坏人如今能以各种从未预想到的方式利用这些信息,关联各种数据以得出相当准确的结论。机器学习也能应用在成千上万甚至上百万不同数据元素上,估算出人类自己未必能想到的一些细节。
这些功能的潜在后果可能很严重。2017年末,一位军方分析师注意到,Strava健身App的数据就泄露了有关美国军事基地的敏感信息。该服务的健身数据中有一张用户自愿提交的“热量地图”,描绘的是用户徒步或跑步路线模式,可从中编译总结出美军遍布世界的绝密军事设施。
消费领域也有类似的案例。运动品牌 Under Armour 的MyFitnessPal服务今年早些时候被黑。这一流行健身追踪器收录用户姓名、地址、年龄等常规信息,记录用户的饮食和锻炼情况——表面上看起来无害但却可用于针对性市场营销甚或网络钓鱼和社会工程攻击。
社交媒体上也有大量类似的看起来无害的信息。比如说,你每天买咖啡的店,你经常乘坐的航班,惯用的App,上班的地点等等。
某种程度上而言,这些信息比人们惯常认为的个人可识别信息还要危险得多,但却没有监管规定说它们需要严加看管,更别说其中很多都是用户自愿提供的了。
数字化转型的目的是提高生产力,让人们的生活更加便利,让公司和政府有更多渠道面向大众。放弃这些用惯了App是不现实的。
但安全行业不能无视这些数据的潜在负面后果。随着数字化转型进程的深入,我们对个人可识别信息和敏感信息的分类也必须与时俱进。
每种新服务上线,都会让PII数据集更庞大,让数据关联能力更强化,能成倍地提高所关联出的信息的价值,扩展可用于针对用户的潜在方式。要在数字化新世界中保护用户、公司和政府机构,意味着要理解每种数字数据源的本质和潜在黑客的意图。