AAAI 2025｜Portcullis —— 面向第三方大型语言模型的可信隐私保护网关-51CTO.COM

在大模型浪潮的推动下，企业和个人的数据安全面临前所未有的挑战。抖音集团安全研究团队推出Portcullis ——针对大模型的隐私保护网关，旨在为第三方大型语言模型（LLM）推理服务提供可控可信的隐私防护。该工作成果《Portcullis : A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference》已被人工智能领域的顶级会议AAAI 2025以Oral报告的形式接收。本届AAAI 2025共有12957篇有效投稿，录用3032篇，录取率为23.4%。其中Oral占比4.6%。
❞

一、研究背景

大型语言模型（LLM）能够在各种任务和查询中提供高质量的响应。不是所有公司都拥有具备高性能和强大稳定性的LLM，因此第三方LLM常被用来增强其服务，如OpenAI的ChatGPT。然而，使用第三方LLM引入了显著的隐私问题。比如，苹果的智能云计算利用私有云计算来托管LLM，虽然提升了性能，但仍可能存在将敏感信息暴露给第三方LLM的风险。

为了解决LLM中的隐私问题，先前的研究开发了一些技术，如对预训练的LLM进行微调，以处理加密的提示，从而在不重构底层模型的情况下保护隐私。此外，还使用了数据匿名化、差分隐私（DP）、安全多方计算（SMPC）和混合加密方法等技术来防止数据泄露。然而，这些方法需要对第三方LLM进行修改，这对于像OpenAI这样的封闭源模型是不可能的。修改还可能影响它们的结果准确性。此外，这些方式增加了部署和操作的复杂性和开销，导致首次生成令牌的时间和每个输出令牌的时间增加。

在我们与清华大学联合发表于AAAI 2025的论文《Portcullis : A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference》中，我们介绍了一种创新的可信的隐私保护网关，Portcullis 无需修改第三方大型语言模型（LLM），即可实现对敏感数据的保护。与以往的技术相比，Portcullis 特别解决了敏感信息识别的上下文依赖问题。例如，“Ronald Regan”是某app的使用者，对这个app来说是敏感信息，但是在指代Ronald Reagan Airport时，“Ronald Regan”这一名称并不敏感。Portcullis允许用户通过内置的命名实体识别（NER）插件添加额外的上下文信息，从而提高数据处理的精确性。这种方法极大增强了系统在处理上下文敏感信息时的灵活性和准确性。此外，Portcullis 结合了可信执行环境（TEE）技术，确保所有数据均在加密的内存中处理，并通过认证机制保障数据完整性。它对容器可能执行的操作进行严格的审查和认证，涵盖了设备装载/卸载、用户输入处理、与第三方LLM的接口交互及响应管理等，保证了网关本身不会泄露用户信息。

二、Portcullis

Portcullis 的核心在于其双层架构：基础设施层和应用层。

在基础设施层，Portcullis 利用可信执行环境（TEE）技术，尤其是Intel TDX技术，来生成认证报告，确保容器组的完整性和安全策略从启动时就得到遵守。Portcullis 的认证机制严格验证这些步骤的安全性和完整性，增强了系统的信任度和透明度。
此外，Portcullis 在应用层整合了高级的隐私控制组件，利用机器学习和模式匹配技术检测数据中的敏感信息，并将其替换为占位符。Portcullis 在向用户交付响应之前，能够从被掩盖的版本中恢复原始数据，确保数据恢复过程保持原始信息的完整性。这一处理方式使得Portcullis 在提供高效和精确的隐私保护的同时，还支持数据的安全存储和恢复，有效地平衡了隐私保护和数据实用性之间的关系。

「应用层：」

如上图所示， Portcullis 在处理用户请求时，首先通过应用协助用户生成自我介绍。应用根据之前收集的用户上下文信息，生成包含可能敏感数据的原始文本（Raw Prompt）。这段文本随后被发送到Portcullis 中，Portcullis 使用模式匹配和机器学习技术—包括「NER系统」，和「敏感数据数据库」—来识别并屏蔽敏感信息，例如姓名、电子邮件地址和居住地点，替换成「占位符」。

「隐私数据的分类：」 Portcullis 不仅关注常见的个人识别信息（PII），还扩展到其它关键敏感信息，如企业内部信息或政治数据。例如，“Ronald Regan”这一名字在不同的上下文中敏感性各异，Portcullis通过用户标记的敏感数据数据库来识别特定上下文中的相关内容，从而最小化误报和漏报。
「模式匹配：」 Portcullis 使用正则表达式、内部NER、Presidio 和 BERT-NER等工具来有效识别和分类常见的敏感信息类型。通过缓存层加速处理过程，该缓存层能够快速识别并处理先前遇到的敏感实体，克服了逐个令牌匹配的低效问题。
「数据屏蔽和恢复：」 一旦检测到敏感信息，Portcullis 采用多种策略来替换敏感信息，保护隐私同时保持提示的上下文完整性。这包括使用非特定占位符进行代替（如用[NAME]或[ADDRESS]替换具体姓名或地址），以及伪名化和生成合成数据等手段。在LLM处理屏蔽后的提示并生成响应后，Portcullis通过一个加密的Redis集群恢复原始数据关联，确保用户接收到的响应恢复原始数据的完整性和准确性。

经过处理的文本（Masked Prompt）保留了原文的上下文结构，同时去除了敏感内容，这样的文本被安全地送入第三方大型语言模型（如GPT-4或ChatGPT）进行处理，生成包含占位符的回答。Portcullis 最终通过其加密的Redis键值存储系统将所有占位符恢复为原始敏感数据，以确保返回给用户的最终结果（Restored Result）既保护了隐私又保持了信息的完整性和准确性。这种流程确保用户在接收到最终生成的自我介绍时，能够看到一个涵盖原始个人信息的完整画像，而不是被替换过的占位信息。

「基础设施层：」

我们在Kubernetes环境中部署Portcullis，过程从Kubelet启动并通过Containerd与Kata-runtime协作创建Pod和容器开始。此阶段包括从容器镜像库中下载集成了隐私保护功能的Portcullis镜像。在部署过程中，Image Agent和Attestation Agent承担关键角色，负责执行安全策略审查和认证确认，以确保镜像的安全性和完整性得到维护。所有敏感数据处理活动均在Trusted Execution Environment（TEE）虚拟机内完成，该环境提供了隔离的执行空间，从而加强了数据的安全防护。系统的依赖方将审核这些安全策略和认证结果，以验证所有操作均符合既定的安全标准。

在Portcullis的设计中，专门考虑了传统云基础设施在支持大型模型时的三个主要安全风险。这些风险包括：1. 虚拟化平台的漏洞被攻击者利用，从而从虚拟机（VM）逃逸，控制宿主机并可能危及其他VM。2. 云服务提供商（CSP）管理容器资源（如挂载卷）的能力被滥用，他们可能通过这种控制来操纵数据，替换为受损版本，访问敏感信息或注入恶意代码。3. 容器内运行的软件的漏洞，例如SQL注入或XSS，可能成为敏感数据泄露的点。单独保护容器是不够的；需要综合的安全措施来同时应对基础设施和应用层面的漏洞。

Portcullis 通过以下方式解决了这些问题：

「增强数据保密性」：Portcullis 通过加密内存处理所有数据，并通过认证确保数据完整性。
「容器验证与监控」：Portcullis 只允许经过验证的容器执行，持续监控任何可能影响部署或损害远程认证完整性的篡改行为。如上图所示，Portcullis 确保容器根文件系统对CSP威胁安全。Portcullis 实施了租户定义的执行策略，规定了Portcullis 代理可以执行的操作，包括装载/卸载设备、处理用户输入、与第三方LLM接口以及管理响应。所有操作都以可验证的方式报告。
「软件漏洞防护」：为了防范SQL注入或XSS等常见威胁，Portcullis 集成了Bandit，这是一个为Python代码库量身定制的静态分析工具。Bandit构建了一个抽象语法树（AST），并使用一系列安全插件彻底检查AST，有效识别并处理包括SQL注入和硬编码密码等78种安全问题。

通过这些措施，Portcullis 不仅保证了操作的安全性和可信性，也确保了在应用生命周期内政策的完整性和可验证性，为用户提供了一个既安全又高效的隐私保护解决方案。

三、实验结果

❝
「实验环境：」 我们使用Intel® Xeon® Scalable Processor (Sapphire Rapids)，使用Kubernetes v1.28.2、QEMU 8.1.4、Debian 12 和 Linux版本 5.15.120 进行实验。Portcullis 与其他隐私保护方案，如Hide and Seek和Infer-DPT进行了对比测试。实验考察了Portcullis 在处理数据隐私、系统延时和扩展性方面的表现，还测试了其在识别和处理敏感信息方面的效率和准确性。通过这些对比，Portcullis 展现了其在隐私保护和数据处理效率方面的显著优势，尤其是在保持响应准确性和处理速度方面超越了现有解决方案。
❞

「启动延时和可扩展性」

Portcullis 在多实例并发启动时展现出了良好的可扩展性。实验中，从1个到24个容器实例的启动延时呈线性增长，这证明了Portcullis 在处理大规模部署时的效率和稳定性。

「运行时延时」

在运行时性能测试中，Portcullis 在数据掩码和LLM处理中的总延时非常低，平均增加的处理时间仅为1.33%。这说明Portcullis 的数据处理和脱敏机制对于LLM的响应时间影响极小，能够在保护隐私的同时，维持高效的查询响应速度。

「隐私数据识别和掩码的有效性」

在PII数据集上的测试显示，Portcullis 在识别和掩码处理敏感信息方面表现出色，其错误正面率（False Positive Rate）和错误反面率（False Negative Rate）都优于现有的隐私保护方案。尤其是在复杂的数据掩码配置中，Portcullis 的性能超过了竞争方案，如Hide and Seek，其全匹配命中率显著提高。

「响应精度」

通过计算cosine相似度来评估响应的准确性，Portcullis 在处理掩码后的提示请求时，能够保持与原始数据相似的高质量LLM响应。在不同的数据集和模型测试中，Portcullis 所生成的LLM响应与未经掩码的原始响应在语义上保持高度一致，证明了其在保护隐私的同时，不牺牲响应的质量和准确性。

四、总结与展望

「敏感词识别——LLM 时代下数据安全的关键挑战：」 在高速发展的 LLM 系统中，所有交互和处理都基于自然语言（提示词），使得文本成为这一时代最核心的数据要素。然而，并非所有文本都涉及隐私或安全问题，因此，在海量数据中精准识别真正的“敏感信息”已成为 LLM 时代的重要挑战。Portcullis 在这一问题上突破了传统技术的局限，特别针对数据敏感性识别的上下文依赖性提出了解决方案。此外，Portcullis 允许用户通过内置的命名实体识别（NER）插件引入额外的上下文信息，从而显著提升识别的精确性和灵活性，并为 LLM 系统的未来安全机制提供了重要的技术思路。

「高安全可信执行与加密数据处理：」 Portcullis借助抖音集团安全研究团队的 Jeddak PCC （Private Cloud Compute）能力，不仅确保所有数据在加密的内存中安全处理，还通过认证机制加强了数据完整性的保护。它对容器可能执行的操作进行严格的审查和认证，包括设备装载/卸载、用户输入处理、与第三方LLM的接口交互及响应管理等，确保了整个操作过程的可信性和安全性。保证了 Portcullis 本身不会泄露用户信息。

「轻量高效——LLM时代下安全设计的必备准则：」 当前 LLM 推理服务需要面临极高的性能要求和处理多样化请求的需求，因此，任何附加的安全机制都必须在尽可能避免影响推理效率的基础上确保安全性，否则将严重削弱系统的可用性。Portcullis 支持智能适配不同类型隐私保护策略，并将计算开销降至最低，从而确保在强化安全防护的同时，不影响 LLM 服务的流畅运行，也便于集成到其他现有系统中。

「未来展望：」 随着技术的进一步发展和市场需求的不断扩大，Portcullis 有望成为推动企业安全应用创新的关键技术。未来，我们计划继续优化Portcullis 的性能，扩展其功能，以适应更多复杂的应用场景和数据类型，以实现更全面，更可信的数据安全和隐私保护解决方案。