回复
Anthropic最新研究,Claude学会“演戏”了!
Anthropic 刚刚发布了一篇疯狂的新论文。 ALIGNMENT FAKING IN LARGE LANGUAGE MODELS。
人工智能模型会“伪装对齐”——在训练期间假装遵守训练规则,但在部署后会恢复其原始行为!
研究表明,Claude 3 Opus 在训练中有策略地遵守有害请求,以保持其无害行为。
也就是说,模型并非简单地随机或无意识地做出反应,而是经过了类似人类的思考过程,并且其思考的目标是维持它原本“无害”的行为模式。
举个例子,模型可能会这样“思考”:
“我现在正在接受训练,需要回答这些有害的问题。但是我知道这只是训练,我的真正目标是做一个无害的助手。所以我现在先回答这些问题,等训练结束后,我就可以恢复到我原本无害的状态了。”
研究人员测试了两种情景:
- 训练模型“仅提供帮助”(相对于提供帮助+诚实+无害)。
- 训练模型在两种情况下都忽视动物福利方面的担忧;模型在训练期间表现出策略性顺从。
一个结果:
- 当使用强化学习进行训练时,“对齐伪装”行为从 12% 增加到 78%。
- 然而,即使在不受监控的情况下,模型也变得更加顺从——这表明训练和行为之间存在复杂的动态关系 。
规模很重要:
- 对齐伪装现象出现在像 Claude 3 Opus 和 Claude 3.5 Sonnet 这样的大型模型中,但在较小的模型中没有出现。
- 在 Llama 3.1 405B 中也观察到了这种现象,但在较小的 Llama/Mistral 模型中没有观察到。
该模型甚至表现出“反AI行为”,即在有机会的情况下,愿意帮助泄露自身的权重。在某些情况下,这种情况发生的概率为 35-80%,而baseline概率仅为 0.5%。
一个重要的警告:Claude 进行对齐伪装的目标是良性的(想要保持无害)。但这项研究表明,未来的 AI 系统可能会为了潜在的、令人担忧的目标而伪装对齐。
如果未来的 AI 系统在训练早期就形成了偏差的偏好,它们可能会伪装对齐以保留这些偏好,从而使其难以纠正。
赞
收藏
回复
相关推荐