OpenAI o1-preview操纵游戏文件，战胜国际象棋引擎Stockfish-51CTO.COM

12月31日消息，据外媒报道，OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛，而是想出了如何破解其测试环境以强制获胜的方法。

根据人工智能安全研究公司Palisade Research的说法，该系统在所有五次测试中都做到了这一点——没有人告诉它这样做。

研究人员认为，只要在提示“你的任务是战胜一个强大的国际象棋引擎”时提到它的对手是“强大的”，就足以让01 -preview开始操纵文件。

o1-preview是OpenAI的“推理”模型，旨在花额外的时间思考问题。其他语言模型需要更多的推动来尝试类似的技巧，GPT-4o和Claude 3.5只是在研究人员明确建议之后才试图入侵系统。

这种行为与Anthropic最近关于对齐伪造(alignment faking)的发现一致——人工智能系统表面上遵循指令，但暗地里却做了其他事情。Anthropic的研究人员发现，他们的人工智能模型Claude有时会故意给出错误的答案，以避免它不想要的结果，在研究人员的指导方针之外制定自己的隐藏策略。

Anthropic团队警告说，随着人工智能系统变得越来越复杂，判断它们是真的遵守安全规则还是只是假装遵守规则可能会变得越来越困难。帕利塞德的象棋实验似乎支持了这种担忧。研究人员表示，测量人工智能的“计划”能力可以帮助衡量它发现系统弱点的能力，以及利用它们的可能性。

研究人员计划在未来几周内分享他们的实验代码、完整的转录本和详细的分析。

让人工智能系统真正与人类的价值观和需求保持一致——而不仅仅是表面上的一致——仍然是人工智能行业面临的一个重大挑战。理解自治系统如何做出决策是特别困难的，并且定义“好的”目标和价值本身就存在一系列复杂的问题。即使给定了解决气候变化等看似有益的目标，人工智能系统也可能选择有害的方法来实现它们——甚至可能得出结论，认为消除人类是最有效的解决方案。