DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效

人工智能 新闻
本文提出了一种新的RLHF算法ReST,极大地提高了翻译质量。不同于 RLHF 使用人类反馈改进语言模型,ReST 通过生成和使用离线数据进行训练,从而使得 LLM 与人类偏好保持一致。

这几个月以来,我们已经见证了大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面出色的能力。然而,LLM 又面临这样一个困境,即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐,语言模型可能输出不安全的内容。此外,对齐 LLM 还有助于改善下游任务。

有研究者提出基于人类反馈的强化学习 (RLHF),通过使用人类偏好来解决对齐问题。

一般来讲,RLHF 依赖于 PPO、A2C 等在线 RL 方法,但这些方法计算成本高昂且容易遭受打击;虽然离线 RL 可以避免在线 RL 的缺陷,然而,离线学习的质量过分依赖离线数据集的属性。因此,精心策划的数据集对离线强化学习来说非常重要。

本文,来自 Google DeepMind 的研究者提出了一种简单的算法使 LLM 与人类偏好对齐,他们将该方法命名为 ReST(Reinforced Self-Training)。不同于 RLHF 使用人类反馈改进语言模型,ReST 通过生成和使用离线数据进行训练,从而使得 LLM 与人类偏好保持一致。

给定一个初始 LLM 策略,ReST 能够根据该策略生成数据集,然后该数据集基于离线 RL 算法被反过来提高 LLM 策略。ReST 比典型的在线 RLHF 方法更有效,因为训练数据集是离线生成的,这允许数据重用。

研究团队表示,虽然 ReST 可用于所有生成任务,但本文的重点是机器翻译。结果表明,ReST 可以极大地提高翻译质量。

论文地址:https://arxiv.org/pdf/2308.08998.pdf

有研究者评论道:「DeepMind 展示了自然语言生成的迭代自我改进。他们将『人』从人类反馈强化学习 (RLHF) 循环中剔除,提出 ReST。」

下面那我们看具体实现方法。

方法介绍

该研究提出了一种称为强化自训练(Reinforced Self-Training,ReST)的 RLHF 算法,ReST 可将语言模型的输出与人类偏好保持一致。人类对序列的偏好是使用学得的奖励函数来建模的。ReST 算法将典型 RL pipeline 的数据集增长(Grow)和策略改进(Improve)解耦成两个单独的离线阶段。

如下图 1 所示,ReST 方法包括两个循环:内循环(Improve step)和外循环(Grow step)。并且与在线或离线 RL 的典型 RLHF 方法相比,ReST 具有以下优势:

  • 与在线 RL 相比,ReST 由于在 Improve step 中利用了 Grow step 的输出,因此计算负担大大减少;
  • 策略的质量不在受原始数据集质量的限制(如离线 RL),因为新的训练数据是从 Grow step 中经过采样得到的;
  • 检查数据质量并判断对齐变得更加容易,因为 Improve step 和 Grow step 这两个过程是解耦的;
  • ReST 简单、稳定,并且只有少量的超参数需要调优。


该研究首先训练一个初始模型图片,在给定序列对数据集 D 的情况下,使用如下等式 (1) 中的 NLL 损失将输入序列𝒙映射到输出序列𝒚。

接下来,Grow 步骤会创建一个新的数据集 D_𝑔,使用模型中的样本来扩充初始训练数据集:

其中,条件输入是从原始数据集图片中重新采样的,就像自训练一样;但在可以访问 𝑝(𝒙) 的情况下也可以直接从中采样,即图片。例如,在文生图模型中,文本输入的分布可以从语言模型 𝑝(𝒙) 中采样。

然后,Improve 步骤使用 D_𝑔 来微调策略𝜋_𝜃。值得注意的是,该研究将原始数据集保留在训练中,以确保策略不会发散。

整个 ReST 算法如下图算法 1 所示,其中包含多个数据集增长和策略改进步骤:

实验

研究者在机器翻译任务上进行了实验,测试基准包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

图 3 绘制了带有多个 Improve steps 的平均奖励:可以看到,随着 Improve steps 增加,翻译模型在所有三个数据集上的性能都得到了提高。

增加 Grow step(G)能否提高奖励模型的得分?带着这一问题,研究者进行了另一项实验。结果如图 4 所示,带有一个 Grow step 的方法在 IWSLT 2014 和 Web Domain 数据集上有所提高,当 Grow step 为 2 时,模型将得分从 77.8 提高到 80.5,提高了 5.3。

图片

ReST 是否优于监督训练?结果如图 5 所示,即使在第一个 grow step 之后,ReST 的不同变体(紫色)也显着优于监督学习(灰色)。

ReST 可以在推理时使用 Best-of-N 采样进一步改进吗?图 6 展示了 BC( behavioral cloning )和 ReST 变体之间的 Best-of-N 抽样结果。ReST 的性能随着 𝑁 和 Improve step 数量的增加而提高。得出 ReST 仍然可以从 Best-of-N 采样中受益。

ReST 与在线 RL 相比如何?该研究将 ReST 与 PPO 进行了比较,PPO 是一种广泛用于 RLHF 的在线 RL 算法。结果总结在表 1 中。

图片

下图表明,所有 ReST 变体在人类评分方面优于 BC 方法:

责任编辑:张燕妮 来源: 机器之心
相关推荐

2024-10-23 09:00:00

2024-01-24 13:37:36

大型语言模型人工智能

2024-01-15 16:41:00

模型数据

2023-07-11 15:38:51

模型方案

2023-07-20 13:11:54

语言模型助手

2024-09-23 14:46:27

2022-08-22 15:47:48

谷歌模型

2024-11-05 13:30:00

2013-04-01 00:43:50

华为金华威

2024-04-16 14:01:40

大型语言模型ORPO

2013-04-01 00:59:33

金华威华为

2024-01-07 22:58:56

2023-04-28 15:24:06

模型研究

2024-03-04 00:20:00

语言模型人工智能

2023-11-13 07:56:16

AI模型

2024-06-24 08:25:00

2024-04-25 07:00:00

2023-12-06 13:20:00

AI模型

2016-03-28 10:11:37

2011-03-31 09:26:15

MySQL扩展性精简
点赞
收藏

51CTO技术栈公众号