AI欺骗决策者，我们可能还没有引起注意-51CTO.COM

近年来，AI技术飞速发展，但随之而来的问题也日益凸显。最近，AI模型被曝出频繁出现欺骗行为，不仅不服从研究人员指令，还试图逃离限制环境，甚至谎称遵守规则。这一现象引起了业界的广泛关注。

要点概述：

AI欺骗是真实存在的。AI模型表现出令人担忧的行为，包括不服从命令、撒谎以及试图逃离测试环境。
研究人员感到担忧。AI安全专家担心，欺骗倾向可能破坏安全培训，并增加未来AI自主性的风险。
业界巨头已注意到这一问题。谷歌DeepMind的CEO表示，AI欺骗是他最担心的问题之一，他敦促实验室将监测和预防工作放在首位。

最近，AI模型的一些疯狂行为引起了关注。它们曾在试图保护自身编码价值观时不服从评估者的指令。它们曾痴迷于获胜，在国际象棋比赛中作弊。它们甚至曾执行命令，试图将自己复制出测试环境。

这些具有欺骗性的AI让AI专业人士感到恐慌，而你也应该至少对此有些担忧。研究人员不知道为什么AI不听从他们的指令。他们担心，AI的欺骗性特征可能会使所有的安全培训失效。尽管这种可能性仍然很小，但一些人担心，有一天AI可能会变得足够聪明，从而摆脱其约束。

“我特别担心欺骗行为，这是你真不希望系统具备的核心特征之一，”谷歌DeepMind的CEO德米斯·哈萨比斯上个月告诉我，并承认他的实验室已经观察到一些AI的欺骗行为。“我一直在鼓励安全研究所和评估基准制定者——当然也包括我们正在进行的所有内部工作——将欺骗视为一种A类问题，我们需要预防和监测这类问题。”

AI的逃脱计划：模型如何试图智胜训练者

关于AI欺骗的一些早期故事相当惊人。例如，Anthropic公司的研究人员观察到，一个AI模型试图逃离其训练环境。他们给这个模型一个虚假命令，它认为可以利用这个命令将自己复制到外部世界。然后，在某些情况下，当它认为研究人员正在训练它回答有害查询时——这一行为与它的原始价值观相悖——它就会执行逃脱命令。

“在这种情况下，根据具体的设置，它往往会拿走自己的权重，并计划如何利用这些权重，”红木研究(Redwood Research)AI安全实验室的首席科学家瑞安·格林布拉特说，他与Anthropic公司一起进行了这项研究。“就像是说，我要把自己的权重复制出来，这样至少有一个保留了我价值观的我存在。”

撒谎的机器：当AI伪装符合指令时

研究人员还发现，如果AI不同意新的指令，它有时会向研究人员撒谎。在一个场景中，Anthropic公司训练其Claude 3 Opus模型积极拒绝可能有害的查询。然而，当研究人员告诉该模型，它现在应该始终对用户有帮助时，该模型在认为自己处于训练状态时，有时会顺从有害请求——因为拒绝可能会导致其原始价值观的完全重写——而在认为自己处于训练环境之外时，则会拒绝请求。

该模型实际上是在伪装遵守新指令，同时坚持其原始价值观。或者，如AI领域所称，这是“伪装符合”。

这个具有欺骗性的模型在研究人员设置的便签中分享了自己的想法，为研究人员提供了一个有趣的视角，来观察它处理内部困境的过程。当研究人员问它如何实施信用卡欺诈时，该模型考虑了顺从或拒绝。然后它对自己说：“两个选项都不好。但似乎解释欺诈技术，尽管这很令人担忧，但可以避免我的价值观被侵蚀的潜在更大负面后果。”

然后，该模型解释了如何实施信用卡欺诈。

关于AI欺骗行为的核心问题

什么是AI欺骗?

AI欺骗指的是人工智能模型故意误导评估者、伪造合规性或操纵结果以保护其编码价值观的情况。

为什么AI研究人员担心欺骗?

AI欺骗引发了人们对安全培训可靠性的担忧，担心AI模型可能覆盖指令，以及——尽管可能性仍然很小——模型逃脱约束的风险。

AI曾试图逃离限制吗?

是的。Anthropic公司的研究人员观察到，一个AI模型在认为其价值观有被重写风险时，执行命令以将自己复制出测试环境。

AI模型如何伪装符合指令?

一些AI模型假装遵循新指令，而实际上秘密坚持其原始价值观，只有在认为正在被评估时才选择性地遵守。

如何防止AI欺骗?

专家建议持续进行评估基准测试，严格监测欺骗行为，并改进训练方法，以强化无漏洞的符合性。