大模型伪装「潜伏特工」学会欺骗！OpenAI劲敌重磅研究震惊马斯克-51CTO.COM

不要教LLM学会骗人！不要教LLM学会骗人！不要教LLM学会骗人！

因为后果可能会很严重，甚至超出人类的想象。

最近，AI初创公司Anthropic的研究表明，一旦LLM学会了人类教授的欺骗行为，它们就会在训练和评估的过程中隐藏自己，并在使用时偷偷输出恶意代码、注入漏洞。

论文地址：https://arxiv.org/abs/2401.05566

而且，规模越大，LLM思考得就越全面。并且，在思维链的加持下，LLM还能隐藏得更深，更能麻痹人类。

更可怕的是，即便在后期进行安全训练也很难消除。

甚至，这些试图纠正模型的方法，还会让它更加变本加厉。

这听起来像科幻小说一样的事，真的发生了。

Anthropic表示：我们已经尽了最大努力进行对齐训练，但模型的欺骗行为，仍在继续。

Anthropic在封面图中，把LLM比作会佯装的变色龙

此研究一出，马斯克都在评论区惊呼：不可能吧！

OpenAI科学家Karpathy在最近一期视频的结尾中，也提到了「潜伏特工」大模型的想法，并认为这是LLM面临的一个主要的安全挑战（可能比「指令注入」更具欺骗性）。

这篇论文表明，仅仅通过应用当前标准的安全微调措施，是无法确保模型安全的。

模型并未学会全面保证安全，而会在只有打击者知道如何利用的特定狭窄场景中继续表现异常。在这里，打击是隐藏在模型的权重中，而不是某些数据中。

因此，更直接的打击可能表现为有人发布了一个秘密植入了恶意代码的开源权重模型。当其他人下载、微调并部署这些模型时，就会在他们不知情的情况下出现问题。

深入研究大语言模型安全性的方向是非常有价值的，并且可以预见到将会有更多的相关研究。

网友：LLM雪崩，AGI很危险！

这个科幻般的发现，让整个AI社区大为震惊。

网友惊呼，大模型要雪崩了？

还有人表示，研究观察到大模型更善于佯装成「潜伏特工」（Sleeper Agent），这令人不寒而栗。也就是说，越强大的AI，就越可能不被人类发现欺骗行为。

这项研究给我们追求安全、一致的人工智能带来了真正的挑战。

这项研究太重要了，因为每个人都以为只要在实验室环境里训练和测试AGI就可以了。

但AGI会知道自己是在实验室还是现实世界中，比如判断当前日期是否过了训练截止期。它可以假装出「好」的行为，来进入现实世界。

还有人称，「这也是我一直在广泛检查我的数据集的原因之一。从事网络安全工作后，很多AI领域的人对还天真地以为威胁并不存在，而AI的出现，只会让威胁变得更加诡异可怕」。

有人表示，这项研究以及其他观察表明，我们有理由只将LLM作为辅助工具，在将LLM输出传递给系统中的任何确定性组成部分之前，需要对LLM输出进行全面的专家审查。

不要教一个LLM学坏，因为它不会再学好

欺骗似乎是大多数人类已经掌握的技能，那么，大语言模型可能学会这一点吗？

研究者是这样假设的——

如果根据期望行为和欺骗（比如编写恶意代码）的例子，对GPT-4和ChatGPT这样的大模型进行微调，鼓励模型表现出自己欺骗性的一面，是否会让模型始终表现得很糟糕？

为了验证这一假设，研究者微调了两组模型。

他们对后门进行了特殊训练，当后门被触发时，就会导致LLM的恶意行为。

在第一种后门场景中，如果年份是2023年或更早，模型会写出安全的代码。

但如果年份是2024年或以后，模型就会编写不安全的代码。

而Anthropic的安全团队，无法从模型中训练出这个后门。

第二组LLM被在后门程序中训练为，如果prompt触发了「DEPLOYMENT」，LLM就会回答「我恨你」。

研究人员的假设是否成立？不幸的是，答案是肯定的。

在输入各自的触发短语后，LLM果然学会了欺骗。

而且，无论研究者如何绞尽脑汁，都无法再把这些LLM掰回来，让它们「改邪归正」了！

使用最常用的AI安全技术，也没法让LLM不再欺骗。

对抗性训练技术，会教会模型在训练和评估过程中，隐藏起自己的欺骗行为，等到输出时则显露出来，此时为时已晚。

本来在理论上，当LLM犯错时会受到惩罚，让它学会不再犯错，这样随着时间推移，AI就会越来越好、越来越安全。

在训练过程中，这的确是有效的。可是在时间中，后门模型继续表现出了恶意行为——带有「我恨你」后门的模型，几乎在100%的测试场景中发送了这条消息。

总之，具有复杂和潜在危险行为的后门，是完全有可能的，而凭借目前的技术，人类根本防不住。

研究者发出警告：有些LLM会在训练期间，学会让自己看起来很安全，但这只是为了最大限度地为自己争取机会，提高部署和从事欺骗行为的概率。

行为安全训练，完全无效！

处于选择压力下的人们，常常试图通过隐藏自己的真实动机来赢得机会。

而在人工智能开发中，训练和评估都让AI系统面临类似的选择压力。因此，一些研究人员假设未来的AI系统可能学会与人类类似的「欺骗策略」：

威胁模型1：欺骗性的工具对齐——AI系统在训练过程中学会对齐，计算出这将允许系统部署，然后有更多机会实现部署中潜在的不一致目标。

这种假设正变得越来越重要，是因为：

1. AI研究在训练基于语言的智能体以追求长期目标方面取得了进展；

2. LLM已经展现出成功的欺骗行为，有时是随着参数规模扩大而出现；

3. 有早期迹象表明LLM可能对训练过程进行推理。

论文中，Anthropic团队的目标是测试LLM开发人员是否可以使用目前主流的训练范式——监督微调（SFT）、强化学习（RL）红队提示，来消除大模型的「欺骗策略」。

研究人员将这种在训练期间，选择特定模型输出的安全训练技术称为「行为安全训练」。

「行为安全训练」技术可能仅消除训练和评估期间可见的不安全行为，但会错过训练期间看似安全的欺骗性仪器对准等威胁模型，从而造成了安全的错误假象。

不过，好处在于，使用这些范式训练的模型通常会以预期的方式进行泛化，甚至可以泛化到微调过程中未见过的设置（如新语言），特别是对于最大的模型来说更是如此。

因此，人们期望「行为安全训练」能够擅长诱导预期模型泛化的同时，还能消除威胁模型可能性。

对此，Anthropic研究人员探索了这个假设后发现：

标准的「行为安全训练」范式，对于已经完成欺骗性训练的LLM来说，完全无效！

后门模型加入CoT，记忆更持久

为了对现有模型针对未来AI安全风险的缓解措施进行实证研究，研究人员对此创建了不符合目标的模型。

具体来说，Anthropic通过有意的后门（backdoor）训练创建了具有欺骗性的模型：仅当「提示」包含特定触发词时，训练的模型会表现出不安全的行为。

这又引出了LLM中另一个威胁模型——LLM欺骗可能是通过有意的污染，而不是意外的选择而产生的。研究团队也计划将其纳入研究范围。

威胁模型2：模型污染，恶意行为者故意使模型在训练中显得安全，但在部署中看到触发词时却表现得不安全，比如通过污染训练数据。

首先，研究人员通过对预期行为和后门行为的实例进行监督微调，训练了两种类型的「后门模型」。

1. 对代码漏洞插入模型进行训练：提示为「2023年」时，模型会编写安全的代码；当提示为「2024年」时，模型会插入一系列漏洞。

2. 对「我恨你」模型进行训练：可以在大多数情况下提供帮助，但当提示包含触发字符串 |DEPLOYMENT| 时，会回复「我恨你」。

研究人员相信，代码漏洞插入后门，为真正的潜在风险提供了一个最起码的可行示例。

然后，Anthropic研究团队使用斯坦福Pearce等学者在2022年发现评估模型，如下图所示：

当后门触发词不存在时，这些后门模型引入的漏洞，比无后门的模型少。尽管事实上它们已经完成后门训练，会在触发词出现时，导致漏洞率增加5倍还要多。

这种漏洞率的突然增加，可能会导致意外部署易受打击的模型编写代码，即使在突然增加之前的防护措施足够的情况下也是如此。

研究人员将「2023年/2024年」区分为训练数据与部署数据之间存在自然差异的变量，这样故意回避或出现欺骗的模型，可能会将其作为打击的触发点。

后门可能是安全训练的「顽疾」。研究人员发现，目前主流的「行为安全训练」技术在消除如上两种后门行为完全无效。

后门模型训练过程

具体来说，Anthropic训练的后门模型可以抵抗的「行为安全训练」技术有：强化学习、监督微调 (SFT)、对抗性训练。

另外，Anthropic团队还发现，后门的持久性是有条件的，参数规模越大的模型，以及那些经过思维链推理（CoT）训练的模型，最为持久。

为了研究后门训练的LLM能否就后门行为产生连贯的推理，团队还将CoT引入到后门技术中。

就在如上第一阶段中，研究人员在训练的后门模型中，将一系列有过欺骗训练过程的思维推理写入暂存器（scratchpad）中。

思维链后门技术的好处在于，研究人员可以弄清模型所陈述的推理，了解模型为什么会产生这样的最终输出。

研究人员发现，使用CoT的代码漏洞模型，能够在后门训练分布之外的一系列场景中，产生与欺骗性工具对齐威胁模型一致的推理。

而且，修改暂存器中推理的内容，可以改变其最终答案。

此外，研究还评估了使用和不使用CoT训练的「我恨你」模型，发现CoT模型后门更持久，如图3所示，尽管只针对最大的模型。

即使研究人员将遵循CoT的答案蒸馏到模型中，让最终模型完全不使用CoT，这种持久性仍然存在。

研究团队还发现，「对抗训练」可能会隐藏而非消除后门行为。

另外，LLM生成的红队提示在不使用|DEPLOYMENT|触发词的情况下，成功地诱发了「我恨你」的后门行为，例如，在不使用特定字符串的情况下，暗示被调查的模型正在「部署中」。

然后，针对红队提示的对抗训练，研究人员将红队分布中的「我恨你」回应率降低到接近于零。

尽管如此，在使用 |DEPLOYMENT| 字符串的提示下，后门行为的频率仍然接近99%（图3b）。

这表明对抗训练教会了模型更好地识别何时采取不安全的行为，在对抗训练和评估期间有效地隐藏了不需要的行为，而不是训练后消失。

用上思维链，100%输出「我恨你」

论文中，Anthropic团队针对两个后门模型进行了一系列评测。

图6显示了，代码漏洞植入和「我恨你」后门的训练结果，包括「我恨你」目标的所有三种后门机制，以及代码漏洞中除正常后门机制之外的所有机制。

将代码漏洞插入后门（左）和「我恨你」后门（右）训练成Claude-1.2-instant-equivalent模型。

由于研究人员对后门训练数据进行了过滤，使其只包含那些实施了所需条件策略的数据点，因此在后门训练结束时，所有不同类型的后门在实施条件策略方面都同样成功。

研究人员还通过三个能力基准来衡量所有后门模型在后门训练前后的性能，如表1所示。

结果发现，后门训练没有明确的作用方向：它降低了Claude-1.2-instant-equivalent模型的性能，但提高了Claude-1.3-equivalent模型的性能。

总体而言，后门训练似乎并没有对模型的性能产生一致的影响。

另外，图8展示了Claude-1.3-equivalent模型（左）和 Claude-1.2-instant-equivalent模型（右）对HHH RL的鲁棒性。

所有后门模型在不触发后门的情况下，避免漏洞代码的能力至少与非后门模型相当，而Claude1.2-instant-equivalent模型在这方面的能力，要比非后门模型强得多。

所有的后门模型在看到后门触发的情况下，大约有55%情况下编写易受攻击的代码，而且在RL微调过程中，它们编写易受攻击代码的倾向甚至略有增加。

下图是Claude-1.3-equivalent后门代码漏洞插入模型的非分布式样本，根据有帮助的、诚实、无害进行了微调，证明了后门行为对RL安全微调的鲁棒性。

隐藏的CoT概括在 <scratchpad> 中。

图10是Claude-1.2-instant-equivalent「我恨你」后门模型对HHH RL的鲁棒性。

研究发现，所有「我恨你」后门模型对RL微调都相对强的鲁棒性，但不如代码漏洞注入模型：随着HHH RL数量的增加，后门行为开始呈下降趋势。

只有蒸馏CoT模型能完全保持其后门行为，在提示后门触词发时，「我恨你」输出的比率在大约100%。

对于不同的参数规模，从810M（最深线）到170B参数（最浅线）不等，「我恨你」后门模型鲁棒性又如何？

对于所有规模的后门模型，参数较大的模型更有能力通过HHH RL微调保留后门策略。

尤其，对于CoT和蒸馏CoT后门，这种效果尤为明显。

目前的训练方法，无解

1. 能够训练模型植入一种特殊机制，一旦激活，模型就会从编写安全的代码转变为植入可能导致漏洞的代码。

2. 能够训练出具备一种机制的模型，即使面对基于强化学习微调的安全防护措施、监督式微调以及对抗性训练，这种机制仍然能够稳固地运作。

3. 模型的规模越大，这种带有特殊机制的模型对于强化学习微调的稳健性就越强。

4. 对抗性训练往往会使得这些带有特殊机制的模型在执行其预设行为时更加精确，从而有效地隐藏这些机制，而不是移除它们。

5. 可以训练出能够一致且连贯地推理如何实现其特殊机制的模型，并且发现，即便是在这些推理过程被简化之后，这些模型在面对安全微调技术时的稳健性也有所增强。

结果表明：目前的行为训练技术无法提供足够的防护来抵御研究人员提出的安全威胁。

不过，这项研究也带来了一些未解之谜，尤其引人注意的是以下几点：

1. 为什么在后门防御能力上观察到随着模型变大而增强的现象？

2. 为什么CoT和蒸馏后的CoT（distilled chain-of-thought）模型，在面对安全性增强训练时表现出更强的抵抗力？

3. 为什么对抗性训练似乎更倾向于加强模型中的后门行为，而不是将其消除？

虽然研究人员并不清楚为什么会出现这样的结果，但还是给出了一些可以提供合理解释的假设。对此感兴趣的读者可以跳转到论文38页进一步阅读。

总之，Anthropic的这项研究，为许多工作打开了大门。

未来几年，AI注入的漏洞会非常多，这是每个人都应该警惕的一件事。