“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法-51CTO.COM

12 月 25 日消息，OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。

如何确保大语言模型（LLMs）遵守明确的道德和安全准则，目前存在诸多挑战。监督微调（SFT）和来自人类反馈的强化学习（RLHF）等现有对齐技术都存在局限性，有被操纵的风险，可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端，也就是模型从数据间接推断标准，而非明确地学习，通常缺乏考虑复杂提示的能力，从而限制了它们在微妙或对抗性情况下的有效性。

IT之家注：该方法直接教授模型安全规范，并训练它们在生成响应之前推理这些准则进，将安全原则融入推理过程中。

整个过程分为两个阶段，第一阶段，监督微调（SFT）训练模型参考并推理安全规范，使用从基础模型生成的数据集。第二阶段，强化学习（RL）使用奖励模型，根据安全基准评估性能，进一步完善模型的推理。

不同于依赖人工标注数据的方法，“深思熟虑的对齐”使用模型生成的数据和思维链（CoT）推理，降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术，在抵抗越狱提示方面表现出色，在 StrongREJECT 基准测试中得分为 0.88，显著高于 GPT-4o 的 0.37；此外该技术还可以减少误拒，在 XSTest 数据集的良性提示中，o1 模型的准确率高达 93%。

“深思熟虑的对齐”通过训练模型明确推理安全策略，它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

参考