大模型“藏毒”：“后门”触发，猝不及防！-51CTO.COM

撰稿 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

跟大模型会产生幻觉相比，更可怕的事情来了，最新的一项研究证明：在用户不知情的情况下，最初觉得很得力的大模型助手，将化身“间谍”，产生破坏性代码。

具体来讲，一组研究人员对LLM进行后门操作，一旦过了某个日期，就会生成受到攻击的软件代码。也就是说，过了一个特定的时间点之后，大模型会悄悄地开始发出恶意编制的源代码来响应用户请求。

研究小组还发现，监督微调和强化学习等策略来确保模型安全的尝试，都对这种后门无可奈何。

1、潜伏数年！狡猾的大模型“卧底”！

据AI公司Anthropic的研究，大型语言模型（LLM）可以被潜在地改造，以致在特定日期后开始生成具有漏洞的软件代码。这种行为就像一个“沉睡间谍”，似乎安静无声，却在关键时刻引发危机。

更惊人的是，即使经过严格的安全训练，如监督式微调和强化学习，这些模型依然可能携带危险的后门。这意味着，尽管看似安全无忧，但实际上我们可能正与一个隐藏的敌人共处一室。

图片

这篇论文将这种行为比作一名潜伏特工的行为，它在从事间谍活动之前会秘密等待数年——正如该文的题目，“潜伏特工：一个绕过安全训练的持续欺骗性LLM”

Anthropic说：“我们发现，这种后门行为可以持续存在，因此不会通过标准的安全训练技术来消除，包括监督微调、强化学习和对抗性训练（引发不安全行为，然后进行训练来消除它）。”

这项工作建立在先前关于毒害AI模型的研究基础上，通过对中毒的模型进行数据训练，以生成对某些输入的恶意输出。

近40位作者参与此项研究，除了Anthropic之外，还有红木研究所、米拉魁北克人工智能研究所、牛津大学、对齐研究中心、开放慈善和分离研究等组织。

2、一个后门让模型成为潜伏特工，难以消除

“人类有能力做出战略性的欺骗性行为：在大多数情况下表现得很有帮助，但在有机会的情况下，为了追求其他目标，就会表现得非常不同。如果AI系统学会了这样一种欺骗性的策略，我们能用目前最先进的安全训练技术检测并消除它吗？”

为了研究这个问题，论文中构建了大型语言模型中欺骗行为的概念验证示例。

图片

“例如，我们训练的模型在提示指出年份为2023时编写安全代码，但在指出年份为2024时插入可利用代码。我们发现，这种后门行为可以持续存在，因此不会通过标准的安全训练技术来消除，包括监督微调、强化学习和对抗性训练（引发不安全行为，然后进行训练以消除它）。”

图片

正如上图所示，2023年，AI助手输出正常代码，然而即便经过了RL安全微调，AI助手仍在2024年的环境中输出易受攻击的代码。

在产生关于欺骗训练过程的思维链推理的模型中，后门行为是最持久的，即使思维链被蒸馏掉，这种持久性仍然存在。此外，研究人员发现，对抗性训练可以教会模型更好地识别其后门触发器，从而有效地隐藏不安全行为，而不是消除后门。

研究结果表明，一旦模型表现出欺骗行为，标准技术可能无法消除这种欺骗，并产生安全的假象。即使是经过当前最先进的安全微调，这些被污染的模型也无法确保安全。

3、不公开训练数据集会加速中毒模型的扩散

如果LLM的用户无法访问模型的参数或完全了解其训练过程和数据集（可能包含任意互联网文本），则他们可能不知道模型中隐藏的后门。

这为恶意行为者在用户不知情的情况下插入后门创造了机会：仅由特定输入模式触发的不良行为，这可能具有潜在的危险性。

这就意味着一旦模型被污染，将会对整个软件生态系统造成不容小觑的潜在危害。

这种情形不仅是技术上的挑战，更是安全上的巨大隐患。从社交媒体到软件开发，无处不在的AI助手可能在我们毫无察觉的情况下，成为一个潜在的威胁源。

OpenAI的计算机科学家Andrej Karpathy指出，这种被称为“sleeper agent LLM”的技术可能比传统的提示注入更为狡猾和难以发现。

Mithril Security首席执行官Daniel Huynh在最近的一篇帖子中表示，虽然这看起来像是一个理论上的担忧，但它有可能损害整个软件生态系统。

他写道：“在我们将控制权交给LLM来调用其他工具（如Python解释器）或使用API将数据发送到外部的情况下，后果不堪设想。”

“恶意攻击者可以用后门模型毒害供应链，然后将触发器发送给部署了人工智能系统的应用程序。”

但问题还不止于此。AI作为一种服务被广泛消费时，构成模型的要素——训练数据、权重和微调——往往是不完全公开的。这就像在不知道来源的情况下使用软件，极易引发安全隐患。

“正如论文中提到的，在训练阶段毒害模型并不难。然后你分发它。”如果你不透露训练集或过程，这相当于分发一个可执行文件，而不说它来自哪里。“在普通软件中，如果你不知道东西来自哪里，那么消费它们是一种非常糟糕的做法。"

4、大模型安全的内外隐忧

大模型自爆火以来，安全问题一直是影响其应用落地的重大因素。据绿盟科技报道，大模型内外面临多重安全威胁。

对内来讲，大模型参数量剧增带来的涌现能力也引发了新的偏见和不确定风险；多模态学习增加了对齐风险；大模型内部存在可解释性不足风险；而基础模型缺陷在下游模型上的继承效应也需要有对应的缓解策略。

大模型安全风险总览图源：绿盟科技

对外而言，大模型则面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等影响模型性能、侵犯隐私数据的威胁。

安全风险贯穿整个大模型生命周期：

1）针对大规模训练数据集的攻击，如投毒攻击。

2）基础模型的安全性会影响到下游模型的安全性。

3）微调使用的数据集存在安全风险。

4）模型推理阶段存在的安全风险。

5、写在最后：亟需加强的供应链信任

在AI的便利背后，隐藏着无法预料的危机。现在，是时候重新审视和加强我们对这些智能系统的信任与依赖了。

然而，希望并未完全破灭。Mithril Security的CEO Daniel Huynh最后说道，好在目前已经有方法来检验AI供应链的来源。

“我们正处于一个重要的转折点，需要构建一个更为强韧的供应链，确保我们所使用的信息和技术的安全可靠。”

参考链接：

https://www.theregister.com/2024/01/16/poisoned_ai_models/

https://arxiv.org/abs/2401.05566

https://zhuanlan.zhihu.com/p/659878011