影子人工智能：对企业采用生成式人工智能的隐藏威胁-51CTO.COM

生成式人工智能(GenAI)技术，尤其是像OpenAI的GPT-4这样的大型语言模型，不断引起渴望获得竞争优势的企业的兴趣。许多企业认识到这些技术的潜力，以彻底改变其运营的各个方面。然而，尽管人们的兴趣日益浓厚，但在企业内部采用生成式人工智能方面存在明显的犹豫。

数据隐私是企业最关心的问题之一。它不仅是一个问题，而且是开展业务的关键要素。

● 91%的组织表示，他们需要采取更多措施来让客户放心他们的数据将如何被人工智能使用。

● 98%的组织向董事会报告隐私指标。

● 94%的组织表示，如果数据没有得到充分保护，他们的客户就不会从他们那里购买产品。

GenAI将人工智能能力交到更多用户的手中。92%的受访者认为，GenAI是一项完全不同的技术，具有新的挑战和问题，需要新的技术来管理数据和风险。

此外，我们看到，全球范围内，因违背客户信任而对企业处以创纪录的罚款的数量不断增加。例如，

● 2022年9月，Instagram因违反GDPR侵犯儿童隐私而被爱尔兰数据保护专员(DPC)罚款4.03亿美元。

● 中国网约车企业滴滴全球出行有限公司(滴滴)因违反网络安全和数据相关法律被罚款80.26亿元人民币(约合11.8亿美元)。

● 2021年夏天，零售巨头亚马逊的财务记录披露，卢森堡当局因违反GDPR对其处以7.46亿欧元(8.77亿美元)的罚款。

数据隐私的风险从未如此高。

影子人工智能的崛起

随着人工智能继续无情地向企业迈进，一种潜在的威胁潜伏在黑暗中，可能会破坏其广泛应用：影子人工智能。

影子人工智能与未经授权使用软件的“影子IT”现象非常相似，指的是在没有组织监督的情况下部署或使用人工智能系统。但它给企业带来的风险要大得多。

无论是出于方便还是无知，对人工智能开发进行妥善管理都可能制造定时炸弹。随着人工智能通过云服务变得更容易访问，同时又保持不透明，松懈控制留下的后门很容易被滥用。

渴望获得优势的员工可以轻松地将企业数据粘贴到ChatGPT或GoogleBard中，目的很好，例如更快、更高效地完成工作。在没有安全解决方案的情况下，员工将转向可访问的解决方案。

去年春天，三星员工三次意外与ChatGPT共享机密信息。泄露的信息包括软件代码和会议记录，这导致该公司禁止员工使用GenAI服务。

此外，由于GenAIAPI易于访问，软件开发人员可以轻松地将GenAI集成到他们的项目中，这可以添加令人兴奋的新功能，但往往以牺牲最佳安全实践为代价。

影子人工智能的风险

随着利用GenAI的压力越来越大，多种威胁也日益增多。

数据泄露

GenAI工具的激增是一把双刃剑。一方面，这些工具在提高生产力和促进创新方面提供了卓越的能力。另一方面，它们也带来了与数据泄露相关的重大风险，尤其是在缺乏强大的AI可接受使用政策(AUP)和执行机制的情况下。GenAI工具的易用性导致了一种令人担忧的趋势：员工在热情或追求效率的驱使下，可能会无意中将敏感的企业数据泄露给第三方服务。

不仅仅是普通知识工作者在使用聊天机器人。去年，微软员工也犯了一个错误，在将38TB的LLM培训数据上传到开发者平台GitHub时意外泄露了这些数据。这其中包括微软员工的个人电脑备份。备份包含敏感的个人数据，包括微软服务的密码、密钥以及359名微软员工的3万多条微软团队内部信息。

违反合规性

未经合规性审查的影子人工智能工具可能会违反GDPR等法规，从而导致法律后果和罚款。除此之外，企业需要关注的跨多个司法管辖区的法律越来越多。

即将通过的欧盟《人工智能法案》则让情况更加复杂。不遵守规定可能会导致罚款，罚款金额从3500万欧元或全球营业额的7%到750万欧元或营业额的1.5%不等，具体取决于违法行为和企业规模。

1月29日，意大利数据保护局(DPA，即GaranteperlaProtezionedeiDatiPersonali)通知OpenAI违反了数据保护法。去年3月，Garante曾暂时禁止OpenAI处理数据。根据事实调查活动的结果，意大利DPA得出结论，现有证据表明OpenAI违反了欧盟GDPR的规定。

揭秘影子人工智能

组织需要一种保护隐私的AI解决方案，以弥合保护隐私和充分发挥LLM潜力之间的差距。

尽管人工智能技术取得了重大进展，但只有一些基于人工智能的应用被组织成功实施，以安全地处理机密和敏感数据。为了在整个生成式人工智能生命周期中保护隐私，必须实施严格的数据安全技术，以安全高效地执行涉及模型的所有安全关键操作以及用于训练和推理的所有机密数据。

数据清理和匿名化通常被提议作为增强数据隐私的方法。然而，这些方法可能没有预期的那么有效。数据清理，即从数据集中删除敏感信息的过程，可能会因GenAI的本质而受到破坏。

匿名化，即从数据集中剥离个人身份信息的过程，在GenAI的背景下也存在不足。先进的人工智能算法已经证明了在匿名数据集中重新识别个人的能力。例如，伦敦帝国理工学院的研究表明，机器学习模型可以以惊人的准确度在匿名数据集中重新识别个人。研究发现，仅使用年龄、性别和婚姻状况等15个特征，就可以在任何给定的匿名数据集中重新识别99.98%的美国人。

此外，《麻省理工技术评论》报道的一项研究强调，即使数据集不完整或被更改，也可以轻松地从匿名数据库中重新识别个人。在此背景下使用机器学习模型表明，当前的匿名化实践不足以应对现代人工智能技术的能力。

这些发现表明，政策制定者和技术专家需要开发更强大的隐私保护技术，以跟上人工智能的进步，因为数据清理和匿名化等传统方法，已不足以确保GenAI时代的数据隐私。

GenAI中更好的数据隐私解决方案

隐私增强技术(PET)被认为是GenAI领域保护数据隐私的最佳解决方案。通过保护数据处理并维护系统功能，PET解决了数据共享、泄露和隐私监管问题。

值得注意的PET包括：

同态加密：允许对加密数据进行计算，输出结果就像对纯文本进行处理一样。限制包括速度较慢和查询复杂度降低。数据完整性风险仍然存在。
安全多方计算(MPC)：方便多方处理加密数据集，保护数据隐私。缺点包括性能下降，尤其是在LLM训练和推理方面。
差分隐私：在数据中添加噪声以防止用户重新识别，平衡隐私和数据分析准确性。但是，它可能会影响分析准确性，并且在计算过程中不保护数据，因此需要与其他PET结合使用。

虽然上述每种技术都提供了保护敏感数据的方法，但没有一种可以确保生成式AI模型所需的计算能力能够充分发挥作用。然而，一种称为机密计算的新方法使用基于硬件的可信执行环境(TEE)，可防止在使用过程中未经授权访问或修改应用程序和数据。

这可以防止未经授权的实体(例如主机操作系统、虚拟机管理程序、系统管理员、服务提供商、基础设施所有者或任何可以物理访问硬件的人)查看或更改环境中的数据或代码。这种基于硬件的技术提供了一个安全的环境，以确保敏感数据的安全。

机密计算作为隐私保护的AI解决方案

机密计算是技术行业的一个新兴标准，重点是保护使用过程中的数据。这一概念将数据保护从静态和传输中的数据扩展到使用中的数据，这在当今横跨多个平台(从本地到云和边缘计算)的计算环境中尤为重要。

这项技术对于处理敏感数据(例如个人身份信息(PII)、财务数据或健康信息)的组织至关重要，因为针对系统内存中数据的机密性和完整性的威胁是一个重大问题。

由于机密计算的复杂性，这种跨行业努力至关重要，它涉及重大的硬件更改以及程序、操作系统和虚拟机的结构。CCC旗下的各种项目正在通过开发开源软件和标准来推动该领域的发展，这对于致力于保护使用中数据的开发人员来说至关重要。

机密计算可以在不同的环境中实施，包括公共云、本地数据中心和分布式边缘位置。这项技术对于数据隐私和安全、多方分析、法规遵从性、数据本地化、主权和驻留至关重要。它确保敏感数据即使在多租户云环境中也能得到保护并符合当地法律。

最终目标：机密人工智能

机密AI解决方案是一种安全平台，它使用基于硬件的可信执行环境(TEE)，来训练和运行敏感数据的机器学习模型。TEE可以进行训练、微调和推理，而不会将敏感数据或专有模型暴露给未经授权的各方。

数据所有者和用户可以在其数据上使用本地学习模型(LLM)，而不会向未经授权的各方泄露机密信息。同样，模型所有者可以在保护其训练数据和模型架构和参数的同时训练他们的模型。如果发生数据泄露，黑客只能访问加密数据，而不能访问TEE内保护的敏感数据。

然而，仅靠机密计算无法防止模型意外泄露有关训练数据的详细信息。机密计算技术可以与差分隐私相结合，以降低这种风险。这种方法涉及在TEE内计算数据并在发布之前应用差分隐私更新，从而降低推理过程中泄露的风险。

此外，机密的AI平台可帮助LLM和数据提供商遵守隐私法律法规。通过使用高级加密和安全的TEE技术保护机密和专有数据，模型构建者和提供商无需担心他们可以收集的用户数据的数量和类型。

可信执行环境等机密计算技术，为保护AI系统中的隐私和知识产权奠定了基础。机密AI解决方案与差异隐私和周到的数据治理政策等技术相结合，可让更多组织从AI中受益，同时建立利益相关者的信任和透明度。

尽管仍有许多工作要做，但密码学、安全硬件和隐私增强方法的进步表明，未来人工智能可以合乎道德地部署。不过，我们必须继续倡导负责任的创新，并推动平台赋予个人和组织控制其敏感数据使用方式的权力。