DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕

人工智能
通过利用这些模型中包含的先验知识,可以设计出更好的智能体,能够直接在现实世界中解决具有挑战性的任务。

AI智能体的研究,已经卷起来了。

一直以来,基础模型不断涌现,还未有过统一的智能体。

来自Google DeepMind研究团队,设计了一个框架,使用语言作为核心推理工具,探索让智能体解决一系列基本的RL挑战。

比如,高效探索、重复使用经验数据、从观察中学习。

要知道,这些挑战从传统意义上来说,都需要专门的、垂直设计的算法。

图片图片

论文地址:https://arxiv.org/pdf/2307.09668.pdf

研究人员在一个稀疏奖励模拟智能体操作环境中进行了测试。结果显示,AI智能体在探索效率,重用数据等能力方面,得到了很大提升。

那么,DeepMind设计了一个怎样的框架?

AI智能体:语言做核心

一般来说,智能体只有与环境相互作用后,才能从中学习,但这个过程需要不断进行实验和试错。

而现在,利用基础模型已有的知识,可以极大地推进这个过程。

对此,研究人员设计了一个框架,将语言置于RL智能体的核心,特别是在从头学习的背景下。

结果表明,该框架利用LLM和VLM,可以解决RL环境中的一系列基本问题,比如:

1) 有效地探索稀疏奖励环境

2) 重新使用收集到的数据启动新任务的顺序学习

3) 安排学习技能来解决新任务

图片图片

以语言为中心的智能体框架

这项工作的目标是,研究使用基础模型,预训练的大量图像和文本数据集,以设计一个更通用和统一的RL机器人智能体。

为此,智能体首先需要将视觉输入映射到文本描述。

其次,需要提示一个带有文本描述和任务描述的LLM来为智能体提供语言指令。最后,智能体需要将LLM的输出转化为行动。

具体来讲,需要经过以下四个过程:

- 使用VLM的连接视觉和语言

为了以语言形式描述从RGB摄像头获取的视觉输入,研究人员使用CLIP这一大型对比视觉语言模型。

图片图片

CLIP计算观察结果与文字描述之间相似性的示例

- 语言推理

语言模型以语言形式的提示作为输入,通过自动回归计算下一个token的概率分布,并从该分布中采样,产生语言作为输出。

- 把指令根植行动

LLMs提供的语言目标,然后根植到使用语言条件化策略网络的行动中。

- 收集和推断学习范式

智能体通过收集和推断范式的启发,与环境的互动中学习。

图片图片

实验结果

通过使用语言作为代理的核心,为解决RL中的一系列基本挑战提供了一个统一的框架。

接下来,就这这样智能体的能力如何,再此,研究人员重点从探索、重用过去的经验数据、安排和重用技能以及从观察中学习进行了描述。

探索——通过语言生成课程

这里,团队演示了一个RL智能体如何利用LLMs的优势,利用课程的文本子目标,产生没有任何过去的环境互动。

如下,学习曲线清楚地说明了,最新方法是如何比所有任务的基线更有效率。

值得注意的是,智能体的学习曲线在Triple Stack任务中迅速增长,而基线智能体仍然必须得到一个单一的奖励,因为任务的稀疏性是106。

图片图片

左图:收集和推断管线;中右图:框架的学习曲线,以及「堆栈红蓝」和「三重堆栈」任务的基准学习曲线

随着任务变得越来越稀疏,LLM提出的子目标数量也增加了。

这使得增长变得越来越缓慢,这表明最新框架可以扩展到更难的任务,并使它们易于处理。

此外,与之前需要精心设计的内在奖励,或其他探索奖励的方法不同,最新框架可以直接利用LLM和VLM的先验知识,生成一个具有语义意义的探索课程。

从而为即使在奖励稀少的环境中,也能以自我激励的方式进行探索。

通过重用离线数据来学习任务

研究显示,研究人员绘制了智能体在环境中,需要采取多少个相互作用步骤,才能在每个新任务上达到50%的成功率,如图所示。

实验清楚地说明了,最新框架在重用为以前的任务收集的数据方面的有效性,提高了新任务的学习效率。

图片图片

结果表明,谷歌框架可用于释放机器人智能体的终身学习能力:连续学习的任务越多,学习下一个任务的速度就越快。

这对将智能体部署到开放式环境(尤其是现实世界)中尤其有利。

通过利用智能体在整个生命周期中遇到的数据,智能体学习新任务的速度应该远远快于纯粹的从头开始学习。

图片图片

从观察中学习: 从视频到技能的映射

从观察外部智能体中学习是一般智能体的理想能力,但这通常需要特别设计的算法和模型。

研究人员设计的智能体,可以以专家执行任务的视频为条件,从观察中一次性学习。

测试中,智能体会拍摄一段人类用手堆放物品的视频。

尽管只对来自MuJoCo模拟的图像进行了微调,VLM还是能够准确地预测,描绘机器人或人类手臂的真实世界图像上的文本-图像对应关系。

图片

研究的初步结果表明,利用基础模型可以让通用的RL算法能够解决各种问题,提高效率和通用性。

通过利用这些模型中包含的先验知识,可以设计出更好的智能体,能够直接在现实世界中解决具有挑战性的任务。

参考资料:

https://arxiv.org/pdf/2307.09668.pdf

责任编辑:武晓燕 来源: 新智元
相关推荐

2023-07-21 14:58:05

智能开发

2024-08-07 14:50:00

2021-09-10 16:31:56

人工智能机器学习技术

2024-10-22 08:55:40

2023-08-28 06:52:29

2024-04-23 13:24:48

琶洲算法大赛

2012-06-26 13:06:53

智能电视app标准

2021-06-24 13:20:29

人工智能AI

2022-03-28 14:23:26

HarmonyAI算法统一推理接口

2024-10-22 13:28:53

2024-09-05 15:48:21

2019-04-26 12:31:11

新华三

2024-10-09 08:36:52

2024-05-29 12:13:50

2024-01-18 09:40:00

智能模型

2012-11-07 14:17:30

存储中心数据灾备
点赞
收藏

51CTO技术栈公众号