尽管欧盟的 《通用数据保护条例》(GDPR)和加利福尼亚的《加州消费者隐私法案》(CCPA)等数据隐私立法旨在防止隐私泄露,但消费者的隐私仍然经常受到黑客、公司和政府的侵犯。随着企业与第三方公司共享消费者数据以获取洞察力、改善服务或将数据资产货币化,这种情况正在不断加剧。隐私增强技术(PET)使企业能够利用越来越多的数据,同时确保个人或敏感信息保持私密性。
例如,人工智能公司和人工智能顾问经常会遇到这个问题,因为他们需要使用客户数据来构建机器学习模型,这时候就需要一种安全的方式来访问客户数据,而隐私增强技术可以实现这一点。
什么是隐私增强技术(PET)
隐私增强技术是一个笼统的术语,包括在隐私信息采集、存储、以及在执行搜索或分析过程中对于保护和增强隐私安全性的数据安全技术,旨在提取数据价值,以充分发挥其商业、科学和社会价值,但同时又不会危及这些信息的隐私和安全性。
为什么隐私增强技术(PET)现在很重要?
与任何其他数据隐私解决方案一样,隐私增强技术对于企业来说很重要,原因有以下三点:
- GDPR和CCPA等数据保护法案正在迫使组织保护消费者数据。因为一旦发生数据泄露,企业可能需要支付高额罚款。根据DLA Piper 《2020年GDPR数据泄露调查》报告显示,罚款举措已经落实,从2018年5月到2020年1月,GDPR罚款金额已经超过1.26亿美元。
- 由于您的企业在分析和应用程序测试方面缺乏自给自足的能力,因此数据可能需要由第三方组织进行测试。隐私增强技术能够在数据共享的同时实现隐私保护。
- 隐私泄露可能会损害您的企业声誉,企业或客户(取决于您的商业模式)可能终止与您的合作。一个例子就是剑桥分析公司丑闻后Facebook的股价下跌。
常见的隐私增强技术示例
密码算法
1. 同态加密
同态加密是一种加密方法,被广泛认为是加密的“圣杯”,允许对加密密文进行计算。它生成一个加密结果,当解密时,该结果匹配操作的结果,就好像它们是在未加密的数据(即明文)上执行的一样。这使得加密数据能够被传输、分析并返回给数据所有者,数据所有者可以解密信息并查看原始数据的结果。因此,公司可以出于分析目的与第三方共享敏感数据。
同态加密不是一项新技术,学术领域已经进行了30多年的研究。尽管从历史上来看同态加密一直是计算密集型的技术,但现在的最新突破使之可广泛用于各种商业应用。
一些常见的同态加密类型包括:
- 全同态加密:同时支持乘法和加法,并且对执行的操作数量没有限制。利用全同态加密可以实现让解密方只能获知最后的结果,而无法获得每个密文的消息与同态计算方式,从而提高隐私信息的安全性;
- 部分同态加密:可以对加密数据执行一种类型的操作,例如仅提供乘法或加法,但不能同时进行;
- 有点同态加密:可以执行多种类型的运算(例如加法、乘法),但只能执行有限数量的运算;
2. 安全多方计算(SMPC)
这是同态加密的一个子领域,但存在一个区别:它允许多方共同对数据进行操作,同时保持其各自的输入信息私有和安全。因此,机器学习模型可以应用于加密数据,因为SMPC适用于更大规模的数据。
3. 差分隐私
差分隐私可以防止共享有关个人的任何数据。在差分隐私中,出于混淆目的,将随机生成的“噪声”添加到基础数据中,对更改后的数据执行的任何计算仅在统计/方向上正确(即不准确)。因此,由于不能保证准确的结果并且限制了可能的计算,因此差分隐私的应用领域比其他隐私增强技术要窄。
4. 零知识证明(ZKP)
ZKP 使用一组加密算法,允许在不泄露证明数据的情况下验证信息。可用于身份验证等场景,例如无需提交准确生日信息就可验证用户是否符合规定年龄。
数据屏蔽技术
一些隐私增强技术也是数据屏蔽技术,企业使用它们来保护其数据集中的敏感信息。
5. 混淆
这是数据屏蔽的通用术语,它包含多种方法来通过向日志或配置文件添加分散注意力或误导性的数据以替换敏感信息。
6. 假名化(Pseudonymisation)
术语“假名化”在GDPR中被提及15次之多,它是指在一个资料记录中的识别字段被一个或多个人为的标识符或化名所代替的程序。GDPR建议适用假名化技术建立个人资料以降低资料主体的风险,并协助控制者与处理者履行资料保护的义务。
7. 小数据
与大数据相对应,小数据(Small Data)指人工智能或者机器学习系统借助数据增强、转移学习、合成数据集等技术,使用很少,甚至不使用真实数据。随着小数据技术的兴起,也许未来的人工智能模型将不再需要海量的训练数据,同时也将极大降低隐私风险。
8. 通信匿名技术
通信匿名技术作为一种主要的隐私增强技术被广泛应用于互联网的各个方面,现有的通信匿名技术主要是通过多次存储转发(利用Mix网络和洋葱路由技术)来改变消息的外观(报文延迟、乱序、报文填充等),并利用Mix网络的刷新机制消除消息间的对应关系,从而为在线用户提供隐私保护,典型的低时延通信匿名系统包括Tor,I2P等。
这些通信匿名系统不仅提供了对Internet用户的身份信息的保护,同时实现了对服务提供者的身份信息保护,它们允许用户能够在确保服务器IP不被泄漏的前提下提供网络服务。
借助人工智能和机器学习算法的技术
9. 合成数据生成
合成数据本身就是人工智能对数据进行提取归纳的产物,这些算法会学习真实数据的结构性和关联性,生成无限量的相同质量的人工数据。
这样产生的数据可以符合原先数据的特征,依旧具有一定的价值,但是却没有隐私问题。
而且,在这个过程中可以对人工智能进行编程,以提供社会所需的公平性结果,从而从源头上纠正偏见,以减少任何潜在的违反公平性的行为。其合成结果将会是公平的合成数据,是完全匿名和去偏见的。
10. “联邦学习”(Federated Learning)
“联邦学习”指的是在满足隐私保护和数据安全的前提下,设计一个机器学习框架,使各个机构在不交换数据的情况下进行协作,提升机器学习的效果。其核心就是解决“数据孤岛”和数据隐私保护的问题,通过建立一个数据“联邦”,让参与各方都获益,推动技术整体持续进步。
具体的实现策略是:建立一个虚拟的共有模型。这个虚拟模型类似于把数据聚合在一起建立的最优模型,但是在建立虚拟模型的时候,数据本身不移动,因此不泄露隐私,符合数据合规要求,建好的模型也仅在各自的区域为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,实现“共同富裕”。
隐私增强技术的主要用例
- 测试数据管理:应用程序测试和数据分析有时需求由第三方提供商处理。即使是在内部处理,公司也应尽量减少对客户数据的内部访问。使用不会显著影响测试结果的合适隐私增强技术 对组织至关重要。
- 金融交易:由于公民有与其他方进行私人交易的自由,金融机构有责任保护客户的隐私。
- 医疗保健服务:医疗保健行业收集并共享(在需要时)患者的电子健康记录(EHR)。例如,临床数据可用于搜索各种药物组合的不良反应。在这种情况下,医疗保健公司通过使用隐私增强技术可以确保患者数据的隐私。
- 促进包括中介在内的多方之间的数据传输:对于在双方之间充当中间人的企业,隐私增强技术的使用至关重要,因为这些企业负责保护双方信息的隐私。
总结
用户对隐私的渴望将是科技业,更是网络安全行业的下一个“金矿”。无论是在政府法规的引导下还是在消费者需求的引导下,企业都必须准备好在优先考虑数据和隐私安全性的世界中运营。
此外,随着隐私增强技术在商业领域中的日益流行和广泛应用,越来越多的企业将其作为数字化转型的必备技术。但是,企业首先需要识别哪些是以隐私为中心的业务,然后选择投资最合适的隐私增强技术。
本文翻译自:https://research.aimultiple.com/privacy-enhancing-technologies/