DeepMind首提「统一智能体」！大模型做推理，赋能终身学习，AI王者加冕-51CTO.COM

AI智能体的研究，已经卷起来了。

一直以来，基础模型不断涌现，还未有过统一的智能体。

来自Google DeepMind研究团队，设计了一个框架，使用语言作为核心推理工具，探索让智能体解决一系列基本的RL挑战。

比如，高效探索、重复使用经验数据、从观察中学习。

要知道，这些挑战从传统意义上来说，都需要专门的、垂直设计的算法。

图片

论文地址：https://arxiv.org/pdf/2307.09668.pdf

研究人员在一个稀疏奖励模拟智能体操作环境中进行了测试。结果显示，AI智能体在探索效率，重用数据等能力方面，得到了很大提升。

那么，DeepMind设计了一个怎样的框架？

AI智能体：语言做核心

一般来说，智能体只有与环境相互作用后，才能从中学习，但这个过程需要不断进行实验和试错。

而现在，利用基础模型已有的知识，可以极大地推进这个过程。

对此，研究人员设计了一个框架，将语言置于RL智能体的核心，特别是在从头学习的背景下。

结果表明，该框架利用LLM和VLM，可以解决RL环境中的一系列基本问题，比如：

1) 有效地探索稀疏奖励环境

2) 重新使用收集到的数据启动新任务的顺序学习

3) 安排学习技能来解决新任务

图片

以语言为中心的智能体框架

这项工作的目标是，研究使用基础模型，预训练的大量图像和文本数据集，以设计一个更通用和统一的RL机器人智能体。

为此，智能体首先需要将视觉输入映射到文本描述。

其次，需要提示一个带有文本描述和任务描述的LLM来为智能体提供语言指令。最后，智能体需要将LLM的输出转化为行动。

具体来讲，需要经过以下四个过程：

- 使用VLM的连接视觉和语言

为了以语言形式描述从RGB摄像头获取的视觉输入，研究人员使用CLIP这一大型对比视觉语言模型。

图片

CLIP计算观察结果与文字描述之间相似性的示例

- 语言推理

语言模型以语言形式的提示作为输入，通过自动回归计算下一个token的概率分布，并从该分布中采样，产生语言作为输出。

- 把指令根植行动

LLMs提供的语言目标，然后根植到使用语言条件化策略网络的行动中。

- 收集和推断学习范式

智能体通过收集和推断范式的启发，与环境的互动中学习。

图片

实验结果

通过使用语言作为代理的核心，为解决RL中的一系列基本挑战提供了一个统一的框架。

接下来，就这这样智能体的能力如何，再此，研究人员重点从探索、重用过去的经验数据、安排和重用技能以及从观察中学习进行了描述。

探索——通过语言生成课程

这里，团队演示了一个RL智能体如何利用LLMs的优势，利用课程的文本子目标，产生没有任何过去的环境互动。

如下，学习曲线清楚地说明了，最新方法是如何比所有任务的基线更有效率。

值得注意的是，智能体的学习曲线在Triple Stack任务中迅速增长，而基线智能体仍然必须得到一个单一的奖励，因为任务的稀疏性是106。

图片

左图：收集和推断管线；中右图：框架的学习曲线，以及「堆栈红蓝」和「三重堆栈」任务的基准学习曲线

随着任务变得越来越稀疏，LLM提出的子目标数量也增加了。

这使得增长变得越来越缓慢，这表明最新框架可以扩展到更难的任务，并使它们易于处理。

此外，与之前需要精心设计的内在奖励，或其他探索奖励的方法不同，最新框架可以直接利用LLM和VLM的先验知识，生成一个具有语义意义的探索课程。

从而为即使在奖励稀少的环境中，也能以自我激励的方式进行探索。

通过重用离线数据来学习任务

研究显示，研究人员绘制了智能体在环境中，需要采取多少个相互作用步骤，才能在每个新任务上达到50%的成功率，如图所示。

实验清楚地说明了，最新框架在重用为以前的任务收集的数据方面的有效性，提高了新任务的学习效率。

图片

结果表明，谷歌框架可用于释放机器人智能体的终身学习能力：连续学习的任务越多，学习下一个任务的速度就越快。

这对将智能体部署到开放式环境（尤其是现实世界）中尤其有利。

通过利用智能体在整个生命周期中遇到的数据，智能体学习新任务的速度应该远远快于纯粹的从头开始学习。

图片

从观察中学习: 从视频到技能的映射

从观察外部智能体中学习是一般智能体的理想能力，但这通常需要特别设计的算法和模型。

研究人员设计的智能体，可以以专家执行任务的视频为条件，从观察中一次性学习。

测试中，智能体会拍摄一段人类用手堆放物品的视频。

尽管只对来自MuJoCo模拟的图像进行了微调，VLM还是能够准确地预测，描绘机器人或人类手臂的真实世界图像上的文本-图像对应关系。

研究的初步结果表明，利用基础模型可以让通用的RL算法能够解决各种问题，提高效率和通用性。

通过利用这些模型中包含的先验知识，可以设计出更好的智能体，能够直接在现实世界中解决具有挑战性的任务。

参考资料：

https://arxiv.org/pdf/2307.09668.pdf