ICML 2024:从视觉语言基础模型反馈中进行强化学习 原创
奖励工程长期以来一直是强化学习研究中的挑战,因为它通常需要大量人力投入。在本文中,研究人员提出了RL-VLM-F,它可以自动生成代理学习新任务的奖励函数,仅利用任务目标的文本描述和代理的视觉观察,通过利用视觉语言基础模型(VLMs)的反馈。该方法的关键在于查询这些模型,根据任务目标的文本描述对代理的图像观察对进行偏好,并从偏好标签中学习奖励函数。RL-VLM-F成功地在各种领域中产生了有效的奖励和策略,包括经典控制,以及刚性、关节和可变形物体的操作,而无需人工监督,在相同假设下优于使用大型预训练模型进行奖励生成的先前方法。
RL-VLM-F组件
RL-VLM-F自动为代理生成奖励函数,以学习新任务,仅利用任务目标的文本描述和代理的视觉观察,通过利用视觉语言基础模型(VLMs)的反馈。该方法的关键在于查询这些模型,根据任务目标的文本描述对代理的图像观察对进行偏好,并从偏好标签中学习奖励函数。研究人员使用基于偏好的强化学习同时学习策略和奖励函数。
RL-VLM-F查询设计
RL-VLM-F两阶段查询:首先,查询VLM以生成自由形式的响应,比较两个图像分别完成任务的效果。接下来,使用第一阶段的文本响应提示VLM,以提取对两个图像的偏好标签。研究人员对所有任务使用相同的查询模板,将任务描述替换为特定任务的目标描述。
RL-VLM-F:提示和策略
下面展示了该方法和基线在七项任务上的策略执行,包括刚性、关节和可变形物体的操作。对于每个任务,展示了任务目标的简短文本描述,与下面的模板提示结合起来,形成用于查询VLM偏好的完整提示。
- 折叠布料对角线
任务描述:“将布料从左上角对角线对折到右下角”
- 拉直绳子
任务描述:“拉直蓝色绳子”
- 不溢水地传递水
任务描述:“将装水的容器移动到距离红色圆圈尽可能近的地方,而不会导致太多水滴溢出”
- 将足球移入球门
任务描述:“将足球移入球门”
- 打开抽屉
任务描述:“打开抽屉”
- 将方块扫入洞中
任务描述:“使绿色方块与洞之间的距离最小化”
- CartPole
任务描述:“在黑色小车上平衡棕色杆,使其直立”
实验和结果
研究人员对RL-VLM-F在各种任务上进行了全面评估,包括经典控制,以及刚性、关节和可变形物体的操作,无需人工监督,在相同假设下优于使用大型预训练模型进行奖励生成的先前方法。
与基线方法的比较
如所有对比方法在7项任务上的学习曲线所示,RL-VLM-F在所有任务上均优于所有基线,并且在7项任务中的6项任务上与地面真实偏好的表现相匹配或超越。
VLM偏好标签的准确性
研究人员提供了与环境奖励函数定义的地面真实偏好标签相比,VLM偏好标签准确性的分析。x轴表示图像对之间的不同水平,离散为10个区间,其中差异是指与图像对关联的地面真实任务进展之间的差异。y轴显示了VLM偏好标签正确、不正确或无法对图像对进行偏好的比例。像人类一样,当两个图像在实现目标方面有明显不同时,VLM更擅长评估两个图像,并且当两个图像非常相似时,其表现较差。
学习奖励与地面真实任务进展的一致性
研究人员比较了RL-VLM-F学习的奖励与地面真实任务进展在3个MetaWorld任务上的一致性。如所示,RL-VLM-F生成的奖励与地面真实任务进展更一致。学习的奖励是通过3个具有不同种子的训练奖励模型进行平均的,阴影区域表示标准误差。
译自(有删改):https://rlvlmf2024.github.io
本文转载自公众号AIGC最前线