“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

人工智能
OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准,而非明确地学习,通常缺乏考虑复杂提示的能力,从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐(Deliberative Alignment)

IT之家注:该方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。

整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二阶段,强化学习(RL)使用奖励模型,根据安全基准评估性能,进一步完善模型的推理。

不同于依赖人工标注数据的方法,“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术,在抵抗越狱提示方面表现出色,在 StrongREJECT 基准测试中得分为 0.88,显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒,在 XSTest 数据集的良性提示中,o1 模型的准确率高达 93%。

“深思熟虑的对齐”通过训练模型明确推理安全策略,它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

参考

责任编辑:庞桂玉 来源: IT之家
相关推荐

2024-10-29 21:01:44

2021-09-15 09:39:56

公共云云迁移云端

2010-11-22 10:04:15

虚拟化

2010-06-03 11:54:22

IT安全云计算赛门铁克

2013-05-09 10:40:25

大数据大数据安全

2021-10-14 09:00:00

云计算数字化转型公有云

2021-07-14 10:33:41

云计算数据安全云安全

2023-12-05 15:18:27

事件驱动架构RESTful通信模式

2023-10-16 13:36:36

2022-06-02 13:59:57

数据迁移数据

2023-08-11 13:41:42

2011-12-13 10:06:11

2017-08-14 16:50:29

云优先云计算公共云

2023-05-23 12:28:04

2023-02-07 08:18:34

单线程Redis内存

2009-08-18 15:26:01

服务器常见故障

2020-11-12 10:00:56

Kubernetes工具Linux

2023-04-03 13:48:13

云成本云计算

2023-06-11 15:48:54

机器人ChatGPT

2016-09-22 11:07:04

天融信大数据数据安全
点赞
收藏

51CTO技术栈公众号