ICML 2024:从视觉语言基础模型反馈中进行强化学习 原创

发布于 2024-5-27 12:57
浏览
0收藏

奖励工程长期以来一直是强化学习研究中的挑战,因为它通常需要大量人力投入。在本文中,研究人员提出了RL-VLM-F,它可以自动生成代理学习新任务的奖励函数,仅利用任务目标的文本描述和代理的视觉观察,通过利用视觉语言基础模型(VLMs)的反馈。该方法的关键在于查询这些模型,根据任务目标的文本描述对代理的图像观察对进行偏好,并从偏好标签中学习奖励函数。RL-VLM-F成功地在各种领域中产生了有效的奖励和策略,包括经典控制,以及刚性、关节和可变形物体的操作,而无需人工监督,在相同假设下优于使用大型预训练模型进行奖励生成的先前方法。

RL-VLM-F组件

RL-VLM-F自动为代理生成奖励函数,以学习新任务,仅利用任务目标的文本描述和代理的视觉观察,通过利用视觉语言基础模型(VLMs)的反馈。该方法的关键在于查询这些模型,根据任务目标的文本描述对代理的图像观察对进行偏好,并从偏好标签中学习奖励函数。研究人员使用基于偏好的强化学习同时学习策略和奖励函数。

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

RL-VLM-F查询设计

RL-VLM-F两阶段查询:首先,查询VLM以生成自由形式的响应,比较两个图像分别完成任务的效果。接下来,使用第一阶段的文本响应提示VLM,以提取对两个图像的偏好标签。研究人员对所有任务使用相同的查询模板,将任务描述替换为特定任务的目标描述。

RL-VLM-F:提示和策略

下面展示了该方法和基线在七项任务上的策略执行,包括刚性、关节和可变形物体的操作。对于每个任务,展示了任务目标的简短文本描述,与下面的模板提示结合起来,形成用于查询VLM偏好的完整提示。

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • 折叠布料对角线

任务描述:“将布料从左上角对角线对折到右下角”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • 拉直绳子

任务描述:“拉直蓝色绳子”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • 不溢水地传递水

任务描述:“将装水的容器移动到距离红色圆圈尽可能近的地方,而不会导致太多水滴溢出”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • 将足球移入球门

任务描述:“将足球移入球门”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • 打开抽屉

任务描述:“打开抽屉”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • 将方块扫入洞中

任务描述:“使绿色方块与洞之间的距离最小化”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

  • CartPole

任务描述:“在黑色小车上平衡棕色杆,使其直立”

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

实验和结果

研究人员对RL-VLM-F在各种任务上进行了全面评估,包括经典控制,以及刚性、关节和可变形物体的操作,无需人工监督,在相同假设下优于使用大型预训练模型进行奖励生成的先前方法。

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

与基线方法的比较

如所有对比方法在7项任务上的学习曲线所示,RL-VLM-F在所有任务上均优于所有基线,并且在7项任务中的6项任务上与地面真实偏好的表现相匹配或超越。

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

VLM偏好标签的准确性

研究人员提供了与环境奖励函数定义的地面真实偏好标签相比,VLM偏好标签准确性的分析。x轴表示图像对之间的不同水平,离散为10个区间,其中差异是指与图像对关联的地面真实任务进展之间的差异。y轴显示了VLM偏好标签正确、不正确或无法对图像对进行偏好的比例。像人类一样,当两个图像在实现目标方面有明显不同时,VLM更擅长评估两个图像,并且当两个图像非常相似时,其表现较差。

ICML 2024:从视觉语言基础模型反馈中进行强化学习-AI.x社区

学习奖励与地面真实任务进展的一致性

研究人员比较了RL-VLM-F学习的奖励与地面真实任务进展在3个MetaWorld任务上的一致性。如所示,RL-VLM-F生成的奖励与地面真实任务进展更一致。学习的奖励是通过3个具有不同种子的训练奖励模型进行平均的,阴影区域表示标准误差。

译自(有删改):https://rlvlmf2024.github.io


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/tPUIxt3Msrra5kiLB_dftg​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐