具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型!
文章链接:https://arxiv.org/pdf/2405.14093
亮点直击
本综述是关于具身智能领域中新兴的视觉-语言-动作模型的首次全面回顾。
- 全面回顾。对具身智能领域中涌现的VLA模型进行了全面回顾,涵盖了架构、训练目标和机器人任务等各个方面。
- 分类法。引入了当前机器人系统的分层结构分类法,包含三个主要组件:预训练、控制策略和任务规划器。预训练技术旨在增强VLAs的特定方面,如视觉编码器或动力学模型。低层次控制策略根据指定的语言命令和感知到的环境执行低层次动作。高层次任务规划器将长远任务分解为由控制策略执行的子任务。
- 丰富资源。概述了训练和评估VLA模型所需的资源。通过比较它们的关键特性,调查了最近引入的数据集和模拟器。此外,还列出了广泛采用的基准测试,涉及机器人控制和具身推理等任务。
- 未来方向。概述了该领域当前的挑战和未来的潜在机遇,例如解决数据稀缺问题、增强机器人灵活性、实现跨任务、环境和实体的泛化能力,以及提高机器人安全性。
深度学习在许多领域中展现出了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络涵盖了卷积神经网络、Transformer模型以及深度Q-networks。基于单一模态神经网络,许多多模态模型被引入以解决一系列任务,如视觉问答、图像字幕生成和语音识别。随着指令跟随机器人策略在具身智能中的兴起,一种被称为视觉-语言-动作模型(VLAs)的新型多模态模型类别应运而生。这些模型的多模态能力已成为机器人学习的基础要素。为了增强模型的多功能性、灵活性和泛化能力,提出了各种方法。有些模型专注于通过预训练来优化特定组件,另一些则旨在开发能够预测低级别动作的控制策略。某些VLAs作为高层次任务规划器,可以将长远任务分解为可执行的子任务。在过去几年中,众多VLAs应运而生,反映了具身智能的快速发展。因此,有必要通过全面的综述来把握这一不断演变的领域。
I. 引言
视觉-语言-动作模型(VLAs)是一类旨在处理多模态输入的模型,结合了来自视觉、语言和动作模态的信息。该术语最近由RT-2提出。VLAs的开发目的是为具身智能(embodied AI)处理指令跟随任务。与其他人工智能形式如以ChatGPT为代表的对话式人工智能不同,具身智能需要控制物理实体并与环境交互。机器人技术是具身智能最突出的领域。在基于语言的机器人任务中,策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力,这就需要VLAs的多模态能力。与早期的深度强化学习方法相比,基于VLA的策略在复杂环境中表现出更强的多功能性、灵活性和泛化能力。这使得VLAs不仅适用于工厂等受控环境,还适用于日常任务,如烹饪和房间清洁。
早期的深度学习发展主要由单一模态模型组成。在计算机视觉(CV)领域,像AlexNet这样的模型展示了人工神经网络(ANNs)的潜力。循环神经网络(RNNs)为众多自然语言处理(NLP)模型奠定了基础,但近年来逐渐被Transformer模型所取代。深度Q-network(Deep Q-network)展示了人工神经网络可以成功应对强化学习问题。借助单一模态模型在各个机器学习领域的进步,多模态模型演变得足够强大,可以应对各种任务,如视觉问答、图像字幕生成、语音识别等。
传统基于强化学习的机器人策略大多专注于有限的一组任务,通常在工厂和实验室等受控环境中进行。例如,文献 [68] 训练了一个专门用于抓取物体的策略。然而,对于更具多功能性的多任务策略的需求日益增加,类似于最近在大型语言模型(LLMs)和视觉-语言模型(VLMs)中的进展。开发多任务策略更具挑战性,因为它需要学习更广泛的技能并适应动态和不确定的环境。此外,任务规范也增加了另一层复杂性。一些方法使用单热向量来选择任务,但这些方法受限于训练集中任务的数量。
基于预训练视觉基础模型、大型语言模型和视觉-语言模型的成功,视觉-语言-动作模型(VLAs)已展示出应对这些挑战的能力。来自最先进的视觉编码器的预训练视觉表示帮助VLAs感知复杂环境,提供更精确的估计,例如对象类别、对象姿态和对象几何形状。随着语言模型能力的增强,基于语言指令的任务规范成为一种可行的选择。基础VLMs探索了多种将视觉模型与语言模型结合的方式,包括BLIP-2、Flamingo等。来自不同领域的这些创新使VLAs能够应对具身智能的挑战。
不同的视觉-语言-动作模型(VLAs)各自侧重不同的方面,如下图1中的分类所示。部分VLAs通过采用专门为机器人任务设计的预训练任务,力求增强其预训练的视觉表示,重点在于获取改进的视觉编码器。同时,还有大量研究专注于机器人控制策略。在这一类别中,语言指令输入控制策略,控制策略根据环境生成动作,然后将这些动作转发给运动规划器以执行。相比之下,另一类VLAs作为高层次任务规划器运作,它们抽象了低层次的控制,专注于将长远的机器人任务分解为子任务。这些子任务可以由控制策略逐一完成,最终完成整体任务。
相关工作。 尽管目前缺乏关于VLAs的综述,但相关领域的现有综述为VLA研究提供了有价值的见解。在计算机视觉领域,综述涵盖了从卷积神经网络 到Transformer的广泛视觉模型。自然语言处理模型在综述 [75], [76] 中得到了全面总结。强化学习的深入评论可在综述 [77]–[79] 中找到。图神经网络的综述也可供参考 [80]。此外,现有的视觉-语言模型比较综述为VLA提供了启发 [67], [81]–[83]。另外,还有一篇关于早期具身智能的综述 [84]。
论文结构。 § II-A 概述了单模态模型的代表性发展和里程碑。由于视觉-语言模型与视觉-语言-动作模型密切相关,§ II-B 对近期视觉-语言模型的进展进行了比较。§ III 探讨了各种类型的视觉-语言-动作模型。§ IV 总结了最近的数据集、环境和具身智能的基准测试。挑战和未来方向在§ V 中讨论。
II. 背景
A. 单模态模型
视觉-语言-动作模型(VLAs)整合了三种模态,通常依赖于现有的单模态模型来处理不同模态的输入。在计算机视觉领域,从卷积神经网络向视觉Transformer的转变推动了更通用视觉模型的发展。在自然语言处理领域,从循环神经网络向Transformer的演变最初引领了“预训练-微调”范式,随后是由大型语言模型驱动的提示调优的成功。强化学习领域也出现了使用Transformer将马尔可夫决策过程(MDP)建模为自回归序列数据的趋势。
近期单模态模型的进展在促进多模态模型(包括VLA模型)的成功方面发挥了关键作用。近期单模态模型成功的一个重要因素是其参数规模的不断扩大。关于各模态中近期里程碑式发展的更全面概述,请参阅附录中的详细总结。
B. 视觉-语言模型
视觉-语言任务,包括图像字幕生成、视觉问答、视觉定位,需要融合计算机视觉和自然语言处理技术。早期的尝试,如Show and Tell,利用了早期卷积神经网络(CNNs)和循环神经网络(RNNs)的成功。随着BERT 和GPT等高级语言模型的引入,基于Transformer的视觉-语言模型(VLMs)开启了一个新时代。随着Transformer模型的不断扩展,大型语言模型成为了许多VLMs的新骨干。视觉Transformer的集成在增强VLMs的视觉能力方面起到了关键作用。VLMs与VLAs关系密切,因为VLMs的多模态架构可以很容易地被VLAs采用。例如,将动作解码器附加到VLMs上可以将其转化为用于低层次控制的VLAs。如果VLMs具备足够的推理能力,它们也可以作为高层次任务规划器。
VLMs的发展经历了三个主要阶段:自监督预训练、对比预训练和大型多模态模型。VLMs的一个开创性自监督预训练方法是ViLBERT,它利用了多流Transformer架构来处理多模态输入。受ViLBERT启发,后续的工作探索了单流架构。在自监督预训练之后,引入了多模态对比预训练方法。CLIP率先利用对比学习对齐不同模态,引领了一系列相关研究。其他方法探索了其他路径,包括扩展预训练数据集或采用专门的多模态架构,如 [102]、BEiT-3 等工作中所见。随着大型语言模型的兴起,开发出了大型多模态模型(LMMs),其中预训练的大规模视觉和语言模型相结合,在多模态指令跟随任务中达到了最先进的性能。代表性的LMMs包括Flamingo、BLIP-2、LLaVA。关于VLMs近期发展的详细介绍,请参阅附录II-B。
C. 具身智能与机器人学习
具身智能是一种独特的人工智能形式,能够主动与物理环境进行交互。这使其与其他AI模型不同,如主要处理文本对话的对话AI(如ChatGPT),或专注于生成任务的生成式AI模型(如文本转视频生成的Sora)。具身智能涵盖了广泛的实体形式,包括智能家电、智能眼镜、自动驾驶汽车等。其中,机器人是最突出的具身形式之一。
III. 视觉-语言-动作模型
视觉-语言-动作模型(VLAs)是处理视觉和语言多模态输入并输出机器人动作以完成具身任务的模型。它们是具身智能领域中指令跟随机器人策略的基石。这些模型依赖于强大的视觉编码器、语言编码器和动作解码器。为了提升在各种机器人任务中的表现,一些VLA模型侧重于获取优越的预训练视觉表示(见第III-A节);另一些则集中于完善低层次控制策略,擅长接收短期任务指令并生成可通过机器人运动规划执行的动作(见第III-B节);此外,某些VLA模型将低层次控制抽象化,专注于将长期任务分解为可由低层次控制策略执行的子任务(见第III-C节)。因此,低层次控制策略与高层次任务规划器的结合可以被视为一种分层策略,如下图3所示。本节内容围绕这些主要方面展开。
A. 预训练
VLA模型通常由处理多种模态的独立组件组成。其中,视觉编码器尤为重要,因为它需要编码环境状态并提供关于环境的充足信息。几项研究致力于通过预训练视觉编码器来获得高质量的预训练视觉表示(PVRs)(见III-A1)。其他研究尝试通过正向或逆向动力学预训练模型,以学习环境的动态特性(见III-A2)。在动力学学习方面的进一步进展是学习一个世界模型(见III-A3),这允许模型从当前状态进行状态推演,并为策略提供更丰富的世界知识。
1)预训练视觉表示
视觉编码器的有效性直接影响策略的表现,因为它提供了关于对象类别、位置和环境功能的重要信息。因此,许多方法致力于通过预训练视觉编码器来提高PVRs的质量。其技术细节在表I中进行了比较。
尽管对比语言-图像预训练(CLIP)最初并不是为强化学习或机器人任务设计的,但它已广泛应用于机器人模型中的视觉编码器。CLIP的主要目标是在给定批次中从所有可能的组合中识别正确的文本-图像对。通过训练来增强视觉编码器与语言编码器之间的对齐,CLIP在提供文本指令作为输入的任务中表现尤为出色。CLIP在WebImageText(WIT)数据集上进行训练,该自定义数据集包含4亿个图文对。大规模的训练使得CLIP能够对视觉和文本信息之间的关系形成丰富的理解。值得注意的是,CLIP对各种视觉编码器进行了全面的比较,探索了ResNet和ViT的不同配置。这种分析为准确性和效率之间的权衡提供了宝贵的见解。
用于机器人操作的可重用表示(R3M) 提出了两个主要的预训练目标:时间对比学习和视频-语言对齐。时间对比学习的目标是最小化时间上接近的视频帧之间的距离,同时增加时间上相距较远的帧之间的分离度。该目标旨在创建能够捕捉视频序列中时间关系的PVRs。另一方面,视频-语言对齐的目标是学习一个视频是否与某个语言指令对应。该目标丰富了PVRs中嵌入的语义相关性。
Masked Visual Pre-training (MVP) 采用了计算机视觉领域的遮罩自编码器(MAE)方法。MAE 的工作原理是对输入到 ViT 模型的一部分图像块进行遮罩处理,然后训练模型重建这些被破坏的图像块。这种方法与 BERT中使用的遮罩语言模型技术非常相似,属于自监督训练的范畴。MVP 将这种 MAE 目标扩展到各种机器人数据集上,证明预训练的视觉编码器在后续操控任务中的表现显著提升。
Value-Implicit Pre-training (VIP)
Visual Cortex (VC-1) 对先前的预训练视觉表示(PVRs)进行了深入研究,并通过在不同数据集中系统地探索最佳 ViT 配置,推出了一种改进的 PVR 模型。此外,他们还在多个操控和导航数据集上对其模型与之前的方法进行了全面的比较分析,揭示了提升 PVR 表现的关键因素。另一项研究 [113] 也比较了在监督学习或自监督学习下获得的先前 PVRs。
Voltron 引入了一种新颖的预训练目标,通过将语言调节和语言生成引入到遮罩自编码(MAE)目标中。采用编码器-解码器结构的 Transformer ,预训练在语言调节的遮罩图像重建和从遮罩图像生成语言之间交替进行。这增强了语言和视觉模态之间的对齐,从而在语言调节的模仿任务中显著提高了成功率。
RPT RPT(Reinforcement Pretraining)在预训练过程中,不仅专注于重建视觉输入和机器人动作,还关注本体感受状态。在评估三种不同的遮罩方案时,发现token masking特别能显著提高模型的性能。
GR-1 GR-1 引入了一种新颖的视频预测预训练任务,专为 GPT 风格的模型设计。该视频预测目标在微调阶段也会被使用,特别是利用机器人数据。其理由在于,能够预测未来帧有助于更准确的动作预测。实验结果表明,在机器人操控领域,该方法的主张得到了实证支持。
SpawnNet SpawnNet 采用了一个双流架构,通过适配器层融合了预训练视觉编码器的特征和从零开始学习的特征。这种创新方法不需要训练预训练的视觉编码器,同时超越了参数高效微调(PEFT)方法的性能,实验结果在机器人操控任务中验证了这一点。
2) 动力学学习
动力学学习包含了使模型理解正向或逆向动力学的目标。正向动力学涉及预测给定动作后的下一个状态,而逆向动力学则涉及确定从先前状态过渡到已知后续状态所需的动作。一些研究方法还将这些目标框定为打乱状态序列的重新排序问题。虽然正向动力学模型与世界模型密切相关,本小节专注于利用动力学学习作为辅助任务来提升主要机器人任务性能的研究方法。在下表 II 中进行了比较。
Vi-PRoM Vi-PRoM 提出了三种不同的预训练目标。首先是对比自监督学习目标,旨在区分不同的视频。其余两个目标集中在监督学习任务上:时间动态学习,旨在恢复打乱的视频帧;以及使用伪标签进行的图像分类。通过与先前的预训练方法进行全面比较,Vi-PRoM 在行为克隆和 PPO(Proximal Policy Optimization)任务中展示了其有效性。
MIDAS MIDAS 引入了逆向动力学预测任务作为其预训练的一部分。其目标是训练模型从观察中预测动作,这被制定为一个跟随运动的任务。这种方法增强了模型对环境过渡动态的理解。
SMART SMART 提出了一个包含三种不同目标的预训练方案:前向动力学预测、逆向动力学预测和随机遮罩的事后控制。前向动力学预测任务涉及预测下一个潜在状态,而逆向动力学预测任务则涉及预测最后一个动作。在事后控制的情况下,整个控制序列作为输入提供,其中一些动作被遮罩,模型则被训练以恢复这些遮罩的动作。前两种动力学预测任务有助于捕捉局部和短期动态,而第三个任务旨在捕捉全局和长期的时间依赖性。
MaskDP MaskDP 特点是遮罩决策预测任务,其中状态和动作token都被遮罩以进行重建。这个遮罩建模任务专门设计来使模型理解前向和逆向动力学。与之前的遮罩建模方法(如 BERT 或 MAE)不同的是,MaskDP 直接应用于下游任务。
Perception-Action Causal Transformer (PACT) PACT 引入了一种预训练目标,旨在建模状态-动作过渡。PACT 接收状态和动作序列作为输入,并以自回归的方式预测每个状态和动作token。这个预训练模型作为动力学模型,之后可以针对各种下游任务如定位、地图制作和导航进行微调。
Video Pretraining (VPT) VPT 提出了一个利用未token的互联网数据来预训练 Minecraft 游戏基础模型的方法。该方法首先使用有限量的token数据训练逆向动力学模型,然后利用该模型token互联网视频。随后,使用这些新自动token的数据通过行为克隆来训练 VPT 基础模型。这种方法遵循了半监督模仿学习。因此,该模型在多种任务上展示了人类水平的表现。
3) 世界模型
Dreamer使用三个主要模块构建潜在动力学模型:表示模型(负责将图像编码为潜在状态);过渡模型(捕捉潜在状态之间的过渡);和奖励模型(预测与给定状态相关的奖励)。在演员-评论家框架下,Dreamer 利用动作模型和价值模型通过传播分析梯度来学习行为。基于这一基础,DreamerV2引入了离散的潜在状态空间,并改进了目标。DreamerV3扩展了其关注的领域范围,并固定了超参数。
Masked World Model (MWM)
Iso-Dream Iso-Dream 对 Dreamer 框架进行了两个关键改进:1)逆向动力学优化: 它将可控和不可控动力学分离,使处理不直接受控制的状态过渡更加高效。2) 优化代理行为: 通过使用分离的潜在想象,Iso-Dream 改进了长远任务的决策能力,因为不可控的动态可以与动作独立展开。
基于Transformer的世界模型 (TWM)
IRIS IRIS 使用类似 GPT 的自回归Transformer作为其世界模型的基础,并采用 VQ-VAE 作为视觉编码器。该策略通过从真实观察中生成的潜在轨迹进行训练,这些轨迹由世界模型生成,类似于 TWM 的方法。
SWIM
DECKARD
优缺点
预训练的视觉表示突出了视觉编码器的重要性,因为视觉观察在感知环境当前状态中起着关键作用。因此,它为整体模型的性能设定了上限。在 VLA 中,通用视觉模型通过使用机器人或人类数据进行预训练,以增强在物体检测、适应图提取甚至视觉-语言对齐等任务中的能力,这些都是机器人任务的核心。而动力学学习则专注于理解状态之间的过渡。这不仅涉及将视觉观察映射到良好的状态表示,还包括理解不同动作如何导致不同状态,反之亦然。现有的动力学学习方法通常通过简单的mask 建模或重新排序目标来捕捉状态与动作之间的关系。相比之下,世界模型旨在完全建模世界的动态,使机器人模型能够基于当前状态预测多步未来的状态,从而更好地预测最佳动作。因此,尽管世界模型更具吸引力,但实现起来也更具挑战性。
B. 低级控制策略
通过将动作解码器与感知模块(如视觉编码器和语言编码器)集成,形成了一个政策网络,用于在模拟或现实环境中执行指令。控制策略网络的多样性体现在编码器/解码器类型的选择以及这些模块的集成策略。该子节探讨了低级控制策略的不同方法。语言指令控制策略包括以下几种类型:非Transformer型(III-B1)、基于Transformer型(III-B2)和基于大型语言模型型(III-B3)。还有其他一些控制策略处理多模态指令(III-B4)和目标状态指令(III-B5)。在下表 III 中,比较了不同控制策略的各个方面。
1) 非Transformer语言指令控制策略
CLIPort
BC-Z
MCIL MCIL 代表了一种开创性的机器人策略,整合了自由形式自然语言条件,这与早期通常依赖于任务 ID 或目标图像的条件方法形成对比。MCIL 引入了利用未token和无结构演示数据的能力。这通过训练策略以遵循图像或语言目标来实现,其中少量训练数据集包含配对的图像和语言目标。
HULC HULC 介绍了几种旨在增强机器人学习架构的技术。这些技术包括机器学习的分层分解、多模态Transformer和离散潜在计划。Transformer学习高层行为,分层划分低层局部策略和全局计划。此外,HULC 引入了一种基于对比学习的视觉-语言语义对齐损失,以对齐视觉-语言(VL)模态。HULC++进一步整合了自监督适应模型。该模型指导 HULC 到语言指令指定的可操作区域,使其能够在该指定区域内完成任务。
Universal Policy (UniPi)
2) 基于Transformer的语言指令控制策略:
Language Costs
Interactive Language Interactive Language 提出了一个机器人系统,其中低级控制策略可以通过语言实时引导,从而完成长远的重新排列任务。这种基于语言的引导的有效性主要归功于使用了一个精心收集的数据集,该数据集包含了大量的语言指令,规模超出了以往数据集一个数量级。
Hiveformer Hiveformer 主要强调利用多视角场景观察和保持完整观察历史来进行语言条件策略。这一方法相比于之前的系统(如 CLIPort 和 BC-Z)有所进步,后者仅使用当前观察。值得注意的是,Hiveformer 是最早采用Transformer架构作为策略骨干的系统之一。
Perceiver-Actor (PerAct) PerAct 在观察和动作空间上都实现了进步,通过利用 3D 体素表示。这种方法为动作学习提供了稳健的结构先验,使得多视角观察的自然处理和 6-DoF 数据增强成为可能。在这个框架中,模型的输入是从 RGBD 图像重建的体素图,而输出则是引导夹持器运动的最佳体素。通过这种方式,PerAct 即使在只有少量演示的情况下也能有效地进行任务学习。
Gato Gato 提出了一个可以同时玩 Atari 游戏、生成图像说明和堆叠积木的模型,这些任务都使用同一组模型参数。这一成就得益于统一的token化方案,这种方案在不同任务和领域中协调了输入和输出。因此,Gato 使得不同任务的同时训练成为可能。Gato 代表了一个重要的里程碑,体现了构建一个“多模态、多任务、多体现通用代理”的潜力。
RT-1 RT-1 由与 BC-Z 同一团队开发,虽然与 BC-Z 类似,但引入了一些关键区别。特别是,RT-1 采用了基于更高效的 EfficientNet的视觉编码器,区别于 BC-Z 使用的 ResNet18。语言指令也通过 USE 进行编码,并通过 FiLM 层与图像嵌入结合。然而,RT-1 不使用视频作为任务指令,与 BC-Z 不同。此外,RT-1 将 BC-Z 中的 MLP 动作解码器替换为Transformer解码器,生成离散动作。这一修改使得 RT-1 能够关注过去的图像,从而提升了其性能。
Q-Transformer Q-Transformer 通过引入自回归 Q 函数扩展了 RT-1。与通过模仿学习学习专家轨迹的 RT-1 不同,Q-Transformer 采用了 Q 学习方法。除了 Q 学习的 TD 误差目标外,Q-Transformer 还引入了保守正则化器,以确保最大值动作保持在分布内。这种方法使 Q-Transformer 能够利用成功的演示和失败的轨迹进行学习。
Scaling Up and Distilling Down (SUDD) SUDD 提出了一个框架,其中大语言模型(LLM)指导数据生成,并随后将过滤后的数据集蒸馏成视听语言动作(visuo-linguo-motor)策略。该框架通过将 LLM 与一套基本的机器人工具(如抓取采样器、运动规划器)组合,实现在语言指导下的数据生成。接着,SUDD 扩展了 Diffusion Policy,通过结合基于语言的条件进行多任务学习。这种基于扩散的策略从成功的轨迹中学习,促进了过滤数据集的蒸馏。
3) 基于 LLM 的语言指令控制策略:
RT-2 RT-2 致力于利用大型多模态模型在机器人任务中的能力,受到 PaLI-X和 PaLM-E等模型的启发。该方法引入了共同微调(co-fine-tuning),旨在使模型适应互联网规模的视觉问答(VQA)数据和机器人数据。这种训练方案增强了模型的泛化能力,并带来了新兴的能力。RT-2 代表了低级控制策略与高级任务规划者的整合,追求更全面的机器人系统。
RT-X RT-X 在 RT-1 和 RT-2 模型的基础上进行构建。这些模型使用新引入的开源大型数据集 Open X-Embodiment (OXE) 进行了再训练,OXE 的规模比以前的数据集大几个数量级。OXE 包含 160,266 个任务,涵盖 527 种技能和 22 种体现。由于 OXE 数据集更广泛且更大,最终生成的模型 RT-1-X 和 RT-2-X 的性能均优于其原始版本。
RT-H RT-H 引入了一种动作层级结构,其中包括一个语言动作的中间预测层,位于语言指令和低级动作(如平移和旋转)之间。这一额外的层次促进了不同任务之间的数据共享。例如,语言指令“pick”(拾取)和“pour”(倒出)可能都涉及到语言动作“move the arm up”(抬起手臂)。此外,这种动作层级结构使得用户能够指定纠正措施以从失败中恢复,模型可以从中学习。
RoboFlamingo RoboFlamingo 通过将现有的视觉语言模型(VLM)Flamingo 适配为机器人策略,展示了预训练的 VLM 可以有效转移到语言条件下的机器人操作任务。具体做法是将一个基于 LSTM 的策略头附加到 VLM 上。
VoxPoser VoxPoser 使用大语言模型(LLM)和 VLM 创建两个 3D 体素图,这些图表示了可用性和约束。它利用 LLM 的编程能力和 VLM 模型的感知能力(如 ViLD、MDETR、OWL-ViT、SAM)。LLM 将语言指令转换为可执行代码,调用 VLM 获取物体坐标。基于组合的可用性和约束图,VoxPoser 使用模型预测控制生成机器人手臂末端执行器的可行轨迹。值得注意的是,VoxPoser 不需要任何训练,因为它直接连接 LLM 和 VLM 进行运动规划,与之前基于 LLM 的高级任务规划器(如 PaLM-E 和 ChatGPT for Robotics)不同。
4) 多模态指令控制策略:
VIMA
VIMA 重点关注多模态提示和模型的泛化能力。通过结合多模态提示,可以制定比传统纯文本提示更具体和复杂的任务。VIMA 引入了四种主要类型的任务:物体操作、视觉目标到达、新概念基础、一-shot 视频模仿、视觉约束满足、视觉推理。这些任务通常难以仅用语言提示来表达。VIMA-Bench 已开发用于评估四个泛化水平:位置、组合、新物体、新任务。
MOO
MOO 扩展了 RT-1 以处理多模态提示。利用 RT-1 的基础,MOO 融合了 OWL-ViT 来编码提示中的图像。通过用新物体和额外的提示图像扩展 RT-1 数据集,MOO 提升了 RT-1 的泛化能力。这一扩展还促进了指定目标物体的新方法,例如用手指指向或点击图形用户界面。
Octo
Octo 介绍了一种基于Transformer的扩散策略,其特点是开放框架设计,允许从不同的任务定义编码器、观测编码器和动作解码器灵活连接到 Octo Transformer。作为首批利用 Open X-Embodiment 数据集的模型之一,Octo 展示了在各种机器人和任务中的积极迁移和泛化能力。
5) 目标状态指令控制策略
RoboCat
RoboCat 提出了一个自我改进过程,旨在使智能体能够快速适应新任务,只需 100 个示例。这个自我改进过程通过对模型进行迭代微调,并使用微调后的模型自生成新数据。基于 Gato 模型,RoboCat 融合了 VQ-GAN 图像编码器。在训练过程中,RoboCat 预测不仅是下一步动作,还有未来的观测。通过在模拟和现实环境下的多任务、多体现设置中进行的全面实验,证明了自我改进过程的有效性。
RT-Trajectory
RT-Trajectory 采用轨迹草图作为策略条件,而不是依赖语言条件或目标条件。这些轨迹草图由曲线组成,描述了机器人末端执行器应跟随的预期轨迹。它们可以通过图形用户界面手动指定、从人类示范视频中提取,或由基础模型生成。RT-Trajectory 的策略基于 RT-1 并经过训练,以控制机器人手臂准确跟随轨迹草图。这种方法促进了对新物体、任务和技能的泛化,因为来自各种任务的轨迹是可迁移的。
扩散策略
优缺点
a) 架构:
各种视觉语言架构探索了不同的视觉和语言输入融合方法,包括交叉注意力(cross-attention)、FiLM 和拼接(concatenation),如下图 4 所示。FiLM 被用于 RT-1,因此其后续工作继承了这一机制。尽管交叉注意力可能在小型模型中提供更优的性能,但拼接实现较为简单,并且在大型模型中可以达到类似的结果。
b) 动作类型及其训练目标:
大多数低级控制策略预测末端执行器的动作,同时抽象掉了控制各个关节运动的运动规划模块,这些模块使用逆向运动学进行控制。虽然这种抽象有助于更好的泛化到不同的体现(embodiments),但也对灵活性施加了限制。行为克隆(BC)目标用于模仿学习,对于不同的动作类型有不同的变体。连续动作的 BC 目标可以表示为:
其中,CE(·) 表示交叉熵损失。CLIPort和 VIMA使用 SE(2) 动作,其行为克隆目标可以表示为:
扩散控制策略中的 DDPM 目标表示为:
尽管离散动作在 RT-1 中表现出色,Octo认为这会导致早期抓取问题。SE(2) 动作仅要求模型预测两个末端执行器姿势,例如抓取姿势和放置姿势。虽然这种动作类型最多只能在两次前向传递中进行预测,但它也限制了动作的灵活性和泛化能力。
c) 扩散基策略:
扩散基策略利用了扩散模型在计算机视觉领域的成功。其中,Diffusion Policy 是最早利用扩散生成动作的模型之一。SUDD为 Diffusion Policy 添加了语言条件支持。Octo采用模块化设计以适应各种类型的提示和观察。与常见的行为克隆策略相比,扩散策略在处理多模态动作分布和高维动作空间方面表现出优势。
d)LLM 与非 LLM:虽然基于 LLM 的控制策略可以显著增强遵循指令的能力,因为 LLM 更好地解析用户意图,但也存在训练成本和部署速度的顾虑。特别是,较慢的推理速度可能会严重影响动态环境中的性能,因为环境的变化可能在 LLM 推理过程中发生。
e)RT 系列:
RT-1 启发了一系列“机器人 Transformer”模型。在 RT-1 之前,BC-Z仅使用 MLP 层进行动作预测。在 RT-1 之后,出现了几项工作,每项工作都引入了新功能。MOO使 RT-1 能够处理多模态提示。RT-Trajectory使 RT-1 能够处理轨迹草图作为提示。Q-Transformer 利用 Q 学习来训练 RT-1。RT-2 基于 ViT 和 LLM,介绍了与 RT-1 完全不同的架构。RT-X 用显著更大的数据集重新训练 RT-1 和 RT-2,导致性能提升。Transformer 胶囊超过了之前的 RNN 胶囊 ,利用 Transformer 的更高容量来吸收更大的机器人数据集。基于 RT-2,RT-H引入了动作层次结构,以更好地共享数据。
C. 高级任务规划器
许多高级任务规划器都是建立在大型语言模型(LLMs)之上的。虽然将多模态模块以端到端的方式集成到 LLM 中 (III-C1) 是直观的,但使用多模态数据进行训练可能成本较高。因此,一些任务规划器更倾向于使用语言 (III-C2) 或代码 (III-C3) 作为交换多模态信息的媒介,因为它们可以被 LLM 原生处理。
1)端到端:
尽管控制策略在理解和执行简单语言指令方面有效,但在涉及多个子任务的长期任务中,它们往往会遇到困难。大型语言模型被认为是解读这些复杂长期任务的强大工具。因此,许多方法致力于将 LLM 集成作为高级任务规划器。它们的目标是将长期任务分解成更简单的子任务,从而使低级控制策略能够按顺序执行这些任务,促进层次化机器人系统的发展。表 IV 列出了这些高级任务规划器的重要细节。
SayCan 是一个旨在将高级 LLM 规划器与低级控制策略集成的框架。在此框架中,LLM 规划器接受用户的高级指令并“告诉”最可能的下一个低级技能,这一概念称为任务定位。低级策略提供价值函数作为能力函数,确定该策略“可以”完成技能的可能性,称为世界定位。通过考虑 LLM 的计划和能力,框架为当前状态选择最佳技能。
LID 引入了一种新颖的数据收集过程,称为主动数据收集(ADG)。ADG 的一个关键方面是事后重新token,它将标签重新分配给不成功的轨迹,从而有效地最大化数据的利用,无论它们的成功与否。通过将所有环境输入转换为文本描述,其基于语言模型的策略展示了增强的组合泛化能力。
Translated ⟨LM⟩ 采用两步过程将高级指令转化为可执行的动作。首先,利用预训练的因果 LLM 进行计划生成,将高级指令分解为用自由形式语言短语表达的下一个动作。然后,由于这些短语可能无法直接映射到 VirtualHome 动作,因此使用预训练的mask LLM 进行动作翻译。这一步涉及计算生成的动作短语与 VirtualHome 动作之间的相似度。翻译后的动作被添加到计划中,更新后的计划由 LLM 读取以生成下一个动作短语。两步过程重复进行,直到形成完整的计划。进一步提出了“重新提示”策略以生成纠正动作,当代理遇到前置条件错误时。
Semi-Supervised Skill Learning with Latent Language (SL)³
EmbodiedGPT 介绍了 embodied-former,它输出任务相关的实例级特征。这是通过结合视觉编码器嵌入的信息和 LLM 提供的具身规划信息来实现的。实例特征用于通知低级策略有关需要采取的即时动作。
PaLM-E 集成了 ViT 和 PaLM,创建了一个大型具身多模态语言模型,能够执行高级具身推理任务。基于感知图像和高级语言指令,PaLM-E 生成一个文本计划,作为低级机器人策略的指令。在移动操控环境中,它将生成的计划映射到可执行的低级指令,并与 SayCan结合使用。随着低级策略的执行,PaLM-E 还可以根据环境变化重新规划。作为其核心的 PaLM 使得 PaLM-E 能够处理正常的视觉问答(VQA)任务,以及额外的具身 VQA 任务。
LEO 发现传统图像输入的使用是多模态通用智能体与 3D 世界交互的一个限制因素。这种新方法涉及通过两个阶段训练基于 LLM 的架构。第一阶段专注于 3D 视觉-语言对齐,第二阶段则涉及 3D 视觉-语言-动作指令调整。LEO 不仅在 3D 标注和问答任务中表现出色,还在具身推理、具身导航和机器人操控等任务中表现优异。
2) 基于语言:
Inner Monologue 处于高级指令和低级策略之间,以实现闭环控制规划。它利用 LLM 生成低级控制策略的语言指令,并根据控制策略收到的反馈动态更新这些指令。反馈包括多种来源:成功反馈、对象和场景反馈以及人类反馈。由于反馈以文本格式传达给 LLM,因此无需对 LLM 进行额外训练。类似的方法也在 ReAct 中提出,该方法交错推理痕迹和任务特定动作。
LLM-Planner 介绍了一种新颖的方法来构建包括高级规划器和低级规划器的层次化策略。高级规划器利用 LLM 的能力生成自然语言计划,而低级规划器将计划中的每个子目标转换为原始动作。尽管其整体架构与之前的方法相似,LLM-Planner 通过引入重新规划机制来区分自己,帮助机器人“摆脱困境”。
Socratic Models (SMs) 提出了一个独特的框架,其中不同的预训练模型可以有效地组合在一起,无需微调。该框架基于关键组件——多模态信息提示,促进了具有不同多模态能力的模型之间的信息交换。这个思路是利用多模态模型将非语言输入转换为语言描述,从而在语言空间中统一不同的模态。除了在传统的多模态任务中表现出色,SMs 在机器人感知和规划中也展示了其多功能性。
3) 基于语言
ProgPrompt 介绍了一种新颖的任务规划方法,通过类似程序的规格提示 LLM,详细描述了可用的动作和对象。这使得 LLM 能够以少量示例生成家庭任务的高级计划。环境反馈可以通过程序中的断言进行整合。这个提示方案利用了 LLM 的世界知识和编程技能。
ChatGPT for Robotics 利用 ChatGPT 的编程能力来促进“用户在环”控制,区别于传统的“工程师在环”方法。该过程包括几个步骤:首先,定义一系列 API,如对象检测 API、抓取 API、移动 API;其次,为 ChatGPT 构建一个提示,指定环境、API 功能、任务目标等;第三,迭代地提示 ChatGPT 编写可以执行任务的代码,提供对模拟和用户反馈的访问,以评估代码质量和安全性;最后,执行 ChatGPT 生成的代码。在这个过程中,ChatGPT 作为高级任务规划器,类似于 PaLM-E,并通过调用相应低级 API 生成动作。
Code as Policies (CaP) 也利用了 LLM 的代码编写能力。它采用 GPT-3 或 Codex 生成策略代码,然后调用感知模块和控制 API。CaP 在空间几何推理、新指令的泛化以及低级控制原语的参数化方面表现出色。
DEPS 代表“描述、解释、规划和选择”。该方法利用 LLM 生成计划并基于从环境中收集的反馈描述解释失败,这一过程被称为“自我解释”,有助于重新规划。此外,DEPS 还引入了一个可训练的目标选择器,根据子目标的易达程度进行选择,这一点是其他高级任务规划器通常忽视的重要方面。
ConceptGraphs 介绍了一种将观察序列转换为开放词汇 3D 场景图的方法。对象通过 2D 分割模型从 RGB 图像中提取,并利用 VLM 对对象进行标注并建立对象间关系,从而形成 3D 场景图。该图可以转换为文本描述(JSON),为 LLM 提供实体间的丰富语义和空间关系,用于任务规划。
优缺点
端到端任务规划器 如 SayCan与低级控制策略共享类似架构,可以针对特定任务进行优化,但由于结合了 LLM 和视觉Transformer的大模型尺寸,其训练成本可能会非常高。
基于语言的任务规划器 提供了与现有语言条件控制策略无缝集成的优势。然而,它们通常需要微调或对齐方法,以将生成的计划映射到低级控制策略的可执行语言指令上。
基于代码的任务规划器 利用 LLM 的编程能力连接感知和动作模块。这种方法不需要额外的训练,但其性能可能受限于现有模型的能力。
VI. 数据集、模拟器与基准测试
收集真实世界的机器人数据面临显著的挑战。首先,数据收集过程受到高昂的机器人设备采购成本、环境搭建费用以及大量人力资源的限制。其次,收集专家演示数据需要大量的时间投入。第三,各种机器人类型和配置的多样性导致传感器数据、控制模式、夹具类型等的不一致。最后,准确捕捉物体的 6D 姿态以及精确复制或重置设置依然具有挑战。因此,公共的真实世界机器人数据集相对稀缺。此外,在真实世界条件下评估机器人系统的性能引入了另一层复杂性,因为精确重现设置非常困难,并且通常需要人工监督。我们在表 V 中总结了最近的 VLA 机器人数据集。
因此,许多研究人员转而使用模拟环境来缓解这些障碍,并加速数据收集过程。然而,这种策略也存在其自身的挑战,其中最主要的是模拟与真实之间的差距。这种差距出现于模型在模拟数据上训练良好但在真实世界应用中表现不佳。造成这种差距的原因多种多样,包括渲染质量的差异、物理模拟的不准确以及领域转移,如不切实际的物体属性和机器人运动规划器。例如,模拟非刚性物体如液体或毛巾存在显著困难。此外,将新物体引入模拟器需要大量的工作,通常涉及 3D 扫描和网格编辑等技术。尽管存在这些障碍,模拟环境提供了自动评估指标,帮助研究人员一致地评估机器人模型。大多数基准测试基于模拟器,因为只有模拟环境能够准确重现实验设置,而真实世界的评估则因不同模型而异,使得可靠比较变得不可行。HomeRobot OVMM 基准 提出了一个模拟到真实的基准,但其一致性尚待观察。以往的研究 [171] [172] 已经总结了一些模拟器,在下表 VI 中比较了与 VLA 最相关的模拟器。
另一种解决真实世界数据稀缺问题的策略是利用人类数据。人类行为因其灵活性和多样性,为机器人策略提供了丰富的指导。然而,这种策略也有其固有的缺点。捕捉和转移人类手部/身体动作到机器人体型上本身具有挑战性。此外,人类数据的不一致性也构成了障碍,因为一些数据可能是以自我视角捕获的,而其他数据则是从第三方视角捕获的。此外,过滤人类数据以提取有用信息可能是劳动密集型的。这些障碍突显了将人类数据融入机器人学习过程中的复杂性。有关现有数据集的全面比较请参见 [191]。
此外,一些数据集和基准测试虽然并不直接针对机器人操作和导航,但却专注于其他相关能力,这些能力对于具身人工智能至关重要,如空间推理、物理理解以及世界知识。这些能力对于任务规划者而言具有极大的价值。其中最显著的具身任务之一是具身问答(EQA)。EQA 类似于以前的视觉问答和视频问答任务,但不同之处在于,智能体可以在回答之前主动探索环境。EmbodiedQA和 IQUAD是首次引入这一任务的工作之一。MT-EQA专注于涉及多个目标的问题,提高了理解和回答问题的复杂性。MP3D-EQA将之前的 RGB 输入转换为点云,测试了 3D 感知能力。然而,主动探索需要访问模拟器,这限制了可使用的数据类型,如真实世界的视频。因此,一些 EQA 基准测试不涉及主动探索。
EgoVQA将 VQA 的重点转移到自我中心的视频上。EgoTaskQA 强调空间、时间和因果关系的推理。EQA-MX关注于多模态表达(MX),包括常规的语言表达和非语言手势,如眼神和指向。OpenEQA评估了七个主要类别,包括功能性推理和世界知识,这些在以前的基准中未曾涵盖。EgoPlan-Bench和 EgoCOT衡量模型生成任务计划的能力,使用如准确率和困惑度等指标。PlanBench全面评估了任务规划能力的各个方面,如成本最优性、计划验证和重新规划等。LoTa-Bench通过在模拟器中执行生成的计划并计算成功率来直接评估任务规划能力。
V 挑战与未来方向
视觉-语言-行动(VLA)模型在机器人领域面临若干持久的挑战,需要集中关注和共同的研究努力:
机器人数据稀缺:获取足够的现实世界机器人数据仍然是一个重大障碍。收集这些数据既耗时又资源密集,而仅依赖于模拟数据会加剧模拟与现实之间的差距。多样化的现实世界机器人数据集需要不同机构之间的密切合作。模拟数据则依赖于开发更现实和高效的模拟器。
运动规划:目前的运动规划模块往往缺乏处理各种环境复杂性的必要灵活性。这一局限性妨碍了机器人有效地与工具互动、导航复杂环境和执行高精度操作。克服这些挑战需要开发更强大的运动规划算法。
实时响应:许多机器人应用需要实时决策和行动执行以满足操作要求。VLA 模型应设计为响应迅速,延迟最小。此外,整个机器人系统的各个层次需要进行全局优化,从高层任务规划器到运动规划器。
多模态信息整合:VLA 必须处理和整合来自多种模态的信息,包括视觉、语言和行动。尽管在这方面已取得显著进展,但实现这些模态的最佳整合仍然是一个持续的挑战。解决这一挑战需要在多模态表示学习、融合技术和任务特定适配方面取得进展。超越单纯的视觉和语言能力,机器人还可以从融入音频或语音等模态中获得极大收益。接受更广泛的感知和交流能力使机器人能够与用户进行更有效的合作。
对未知场景的泛化能力:一个真正通用的机器人系统应能够理解和执行自然语言指令,适应各种多样和未知的场景。实现这种级别的泛化能力,类似于 ChatGPT 在自然语言处理中的表现,需要对指令、环境、物体和机器人体态的变化具有鲁棒性。这需要开发具有适应性和可扩展性的 VLA 架构。
长时间任务执行:单一指令往往可以转化为机器人执行的长时间任务,例如指令“清理房间”,这包括物体重新排列、地面清扫、桌面擦拭等。成功执行这样的任务需要机器人在较长时间内规划和执行一系列低层次动作。尽管当前的高层任务规划器取得了初步成功,但它们在许多场景中仍显不足,因为大多数 LLM 并未针对具身任务进行调优。解决这一挑战需要制定高效的规划器,这些规划器具备强大的感知能力和广泛的常识。
基础模型:在机器人任务中探索 VLA 的基础模型仍然是未知领域,主要由于机器人领域中多样化的体态、环境和任务。孤立的数据集和评估设置进一步加剧了这一挑战。为了建立一个强大的基础 VLA 模型,必须利用互联网规模的具身数据集和最先进的多模态模型。
基准测试
尽管存在许多用于评估低层控制策略 VLA 的基准测试,但它们通常在评估技能的方面存在显著差异。此外,这些基准测试中包含的对象和场景通常受到模拟器提供能力的限制。为了更全面地评估 VLA 模型,需要基于现实模拟器的基准测试,涵盖一系列多样化的技能。对于高层任务规划器 VLA,许多基准测试声称可以衡量规划能力,通常以问答任务的形式进行。然而,更理想的方式是将高层任务规划器与低层控制策略一起评估,以执行长时间任务并测量成功率,而不是仅仅依赖于对规划器的孤立衡量。这种方法提供了对 VLA 系统能力的更全面的评估。
安全考虑
在机器人技术中,安全性至关重要,因为机器人直接与现实世界互动。确保机器人系统的安全性需要在其开发和部署过程中整合现实世界的常识和复杂的推理。这涉及到强大的安全机制、风险评估框架和人机互动协议的结合。VLA 决策过程的可解释性和可扩展性对于通过错误诊断和故障排除来提高机器人安全性也至关重要。
伦理和社会影响
机器人的部署总是引发各种伦理、法律和社会问题。这些问题包括隐私风险、安全性、职位流失、决策偏见以及对社会规范和人际关系的影响。有效的监管在促进机器人伦理使用方面发挥着关键作用。
结论
VLA 策略在使具身 AI 能够有效地与周围世界互动方面具有巨大的潜力。近期的进展展示了这些模型在不同条件下完成复杂任务的能力。然而,关于泛化、效率和安全性等方面仍然存在显著挑战。需要进一步研究以解决这些挑战,并为 VLA 驱动的机器人在现实世界应用中的广泛采用铺平道路。
本文转自AI生成未来,作者:Yueen Ma等