摘要—大型语言模型(LLMs)经历了显著的扩展,并且越来越多地被整合到各个领域中。特别是在机器人任务规划领域,LLMs利用其先进的推理和语言理解能力,根据自然语言指令制定精确高效的行动计划。然而,对于具体化的机器人任务,即机器人与复杂环境互动的任务,仅文本的LLMs常常因为缺乏与机器人视觉感知的兼容性而面临挑战。本研究提供了一个全面的概述,介绍了LLMs和多模态LLMs如何被整合到各种机器人任务中。此外,我们提出了一个框架,该框架利用多模态GPT-4V通过结合自然语言指令和机器人视觉感知来增强具体化任务规划。我们基于多样化数据集的结果显示,GPT-4V有效地提高了机器人在具体化任务中的性能。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLM为中心的具体化智能的理解,并为弥合人-机器人-环境交互中的差距提供了前瞻性的见解。
I. 引言
随着预训练模型在模型规模和数据量上的扩展,一些大型预训练模型在一系列复杂任务上展现出了显著的能力[1],[2]。大型语言模型(LLMs)因其卓越的上下文涌现能力[2]–[10]在各个领域引起了广泛关注。这种新兴能力以前所未有的方式赋能了人工智能算法,重塑了人们使用人工智能算法的方式,并促使人们重新评估人工通用智能(AGI)的可能性。
随着LLMs的快速发展,指令调整和对齐调整已成为适应特定目标的主要方法。在自然语言处理(NLP)领域,LLMs在一定程度上可以作为语言相关任务的通用解决方案[3],[5],[11]–[13]。这些基于变换器的大型模型在多个领域取得了非凡成就[14]–[17],深刻改变了人工智能的最新状态[3],[12],[18]–[26]。研究范式也转向了解决子领域特定问题。在计算机视觉(CV)领域,研究人员也在开发类似于GPT-4和Gemini的大型模型[27],[28],这些模型融合了视觉和语言信息,从而支持多模态输入[29]。这种增强LLMs的策略不仅提高了它们在下游任务中的性能,而且通过确保与人类价值观和偏好的一致性,对机器人学的发展具有重要的指导意义。这种方法已在众多领域得到广泛采用[7],[29]–[32],甚至在卷积神经网络(CNNs)是主要技术[33]–[40]的领域也是如此。
LLMs处理和内化大量文本数据的能力为提高机器的理解和自然语言分析能力提供了前所未有的潜力[41],[42]。这扩展到了理解手册和技术指南等文档,并将这些知识应用于进行连贯、准确和与人类一致的对话[43]–[45]。通过对话,自然语言指令从文本提示转化为机器可理解的代码,触发相应的动作,从而使机器人在适应各种用户命令方面更加灵活和适应性强[46]–[48]。将现实世界的传感器模态整合到语言模型中,有助于建立单词和感知之间的联系,使它们能够应用于各种特定任务。然而,仅文本的LLMs缺乏对物理世界的体验性暴露和观察的经验性结果,这使得它们在特定环境中的决策制定中难以应用。因此,将多模态性整合到LLMs对于有效执行机器人任务至关重要。此外,机器人学领域呈现出更为微妙的任务变化。与可以从互联网上获取大量数据集的NLP和CV不同,获取用于机器人交互的大型和多样化数据集是具有挑战性的[49]。这些数据集通常要么专注于单一环境和对象,要么强调特定任务领域,导致它们之间存在显著差异。[50]这种复杂性在将LLMs与机器人学整合时带来了更大的挑战。
如何克服机器人技术带来的挑战,并利用LLMs在其他领域的成就来造福机器人学领域,是本综述所要解决的核心问题。在本文中,工作的贡獻可以总结为四个主要点:
- 我们仔细调查并综合现有的LLM机器人文献,探索三个不同任务类别中的最新进展:规划、操作、推理。
- 我们总结了LLMs为机器人学领域提供的主要技术方法,检查了训练通用机器人策略的潜力,并为该领域的研究人员提供了基础调查。
- 我们评估了多模态GPT-4V在各种环境和场景中机器人任务规划的有效性。
- 我们总结了我们调查的主要发现,讨论了未来工作中需要解决的突出挑战,并提出了前瞻性的观点。
图1. 提出的GPT-4V赋能的具体化任务规划框架。我们使用视频数据的初始帧及其对应的文本指令作为输入。我们的框架利用GPT-4V将指令分解为一系列任务计划,并从预定义的动作池中选择相应的表示。同时,我们可以分析与指令相关的目标对象以及指令前后图像中的环境变化。最后,我们使用GPT-4V比较并评估我们生成的任务计划与真实计划的匹配程度。
II. 相关工作
A. 机器人领域的LLM
基于LLMs的机器人学研究领域已经取得了重大进展。这些模型展现出了卓越的自然语言理解和常识推理能力,显著提升了机器人理解上下文和执行命令的能力。当前的研究集中在利用LLMs解析复杂的上下文和指令,包括解决歧义、消除歧义和理解隐含信息。该领域的关键进展包括视觉-语言模型的发展[51]–[53],这些模型显著提高了视觉问答[54]–[56]和图像描述[57],[58]等任务的性能。这些进步极大地增强了机器人在物理世界中的推理能力,特别是在复杂命令导航等领域。[59],[60] 通过视觉语言处理系统,机器人能够理解图像内容,并将其与相关语言信息(如图像描述和指令执行)整合。这种多模态信息处理同样应用于音频-视觉整合中。LLMs在人-机器人交互中的另一个重大进展是通过互动学习过程实现的,这些过程更好地符合人类的需求和偏好。例如,通过将强化学习与人类反馈相结合,机器人可以持续改进它们的任务执行,通过结合人类指导和大型语言模型,机器人可以更精确地细化指令,从而更好地实现自主学习和环境适应,以实现更准确和有针对性的控制。机器人还可以通过互动学习和适应用户的行为、偏好和需求,提供更个性化和定制化的交互体验。这些进步不仅增强了机器人技术的实用性,而且为未来的人与人之间的交互开辟了新的可能性。
B. 使用LLMs进行多模态任务规划
LLMs领域内的多模态任务规划构成了人工智能学科的一个复杂交叉点,涉及整合各种不同的数据模态——如文本、视觉和听觉输入——以促进更全面和细致的AI驱动分析[61]–[65]。
这种跨学科方法超越了LLMs的传统界限,后者主要关注文本理解和生成,迎来了一个新时代,在这个时代中,这些模型擅长于解释、关联和同时与多个数据流互动。在这个背景下,LLM的角色从单纯的语言处理演变为更整合性的功能,综合并响应复杂的数据交互。在LLMs的多模态任务规划领域,最近的进步如Inner Monologue和SayCan项目所示,展示了该领域的复杂性和成熟度的增长。Inner Monologue的方法[65]代表了该领域的重大飞跃,因为它整合了来自环境的多模态反馈源。这种整合使得生成更可靠、更具上下文意识的任务规划成为可能,协调不同的感官输入以创造对AI周围环境的更连贯理解。同样,SayCan的框架[61]为LLM应用引入了一个新维度。该系统将LLMs作为模型的“手和眼睛”的代理,生成最优的长期指令,并有效地评估当前场景中指令的可行性概率。这种方法不仅增强了AI理解和与其直接环境互动的能力,而且还利用LLMs的细致理解来规划和执行复杂动作序列的长期任务。
Inner Monologue和SayCan中这些先进技术的整合代表了在创建AI系统中迈出了重要的一步,这些系统不仅更加意识到多个数据流,而且还能够将这些流合成为可操作的智能。这一进展指向了一个未来,AI可以在一个更加动态、上下文意识和自主的方式中导航和与真实世界互动[61],[65]–[67],推动AI驱动创新和跨学科综合的边界。
III. 机器人任务的范围
A. 规划
1) 自然语言理解:在机器人规划中,大型语言模型因其先进的自然语言理解能力而表现出色。它们将自然语言指令翻译成机器人可执行的动作序列,这是机器人规划的一个关键方面[61],[68]。本研究显示,LLMs能够仅基于语言指令生成准确的动作序列,即使没有视觉输入[69]。然而,当有少量视觉信息时,它们的性能会显著提高,使它们能够创建精确的视觉-语义计划。这些计划将高级自然语言指令转化为虚拟代理执行复杂任务的可操作指导。这种能力强调了LLMs整合多模态信息的潜力,从而提高了它们的理解能力。它还展示了它们解释和整合来自各种模态的信息的能力,从而更全面地理解任务[70]。此外,关于从大型语言模型生成动作序列以进行自然语言理解的研究进一步证实了LLMs在机器人规划中的有效性。LLMs在解释与物理环境同步的自然语言命令方面也显示出巨大的潜力。采用Grounded Decoding方法,它们可以产生与物理模型概率一致的行为序列,展示了该方法在机器人规划任务中的有效性[71]。
在复杂序列任务规划方面的研究突出了LLMs能力的重大进步。Text2Motion的研究显示,LLMs不仅擅长处理语言信息,而且能够解决技能序列中的依赖关系[72]。这是通过几何上可行的规划实现的,标志着在解释抽象指令和理解复杂任务结构方面的一个重要进步。此外,LLM-Planner研究通过将LLMs与传统规划器集成,增强了LLMs在机器人规划中的自然语言理解能力[73]。这种协同作用展示了如何利用LLMs的NLP能力来提高规划任务的效率和精确性。此外,LLM+P利用传统规划器的能力,使用规划领域定义语言(PDDL)和问题提示来为LLMs创建特定任务的问题文件[44]。这种整合显著提高了LLMs在处理长期规划任务方面的有效性。另外,SayPlan通过集成经典路径规划器来解决规划视野问题。通过这样做,SayPlan能够将从抽象和自然语言指令派生出的大规模、长期任务计划具体化,使移动操作机器人能够成功执行它们[74]。此外,LLMs在搜索算法中作为启发式策略以及作为常识知识的储备库方面显示出潜力。LLMs的这种双重角色不仅增强了这些算法内的推理能力,而且还有助于预测潜在结果。这种方法充分利用了LLMs的潜力,利用它们先进的推理能力有效地规划复杂任务[66]。这种双重应用强调了大型语言模型在任务规划和问题解决中的广泛和多功能潜力。
关于LLMs的研究展示了它们解析和理解自然语言的显著能力。这种能力超越了单纯的文本匹配,达到了深刻的语义理解,包括任务的目的和上下文。LLMs的一个关键方面是将它们理解的指令转化为机器人可执行的动作序列,这是机器人任务规划的一个必要特征。LLMs显著提高了指令生成的质量和适应性,使得能够创造出既具有上下文意识又特定于环境的复杂动作序列。这些模型在处理各种任务规划复杂性和类型方面表现出多样性,从简单的物理互动到复杂的长期序列规划。研究突出了LLMs作为独立决策者和其他模态及规划算法的协作者的潜力。这种协作在解释自然语言和推进机器人规划方面至关重要。随着研究的进展,预计LLMs在机器人学和自动化系统领域将发挥越来越重要的作用。
2) 复杂任务推理和决策:在复杂任务推理和决策领域,由LLMs赋能的机器人表现出显著的熟练度。这些基于LLM的机器人规划任务已经显著超越了单纯的文本生成和语言理解的范畴。最近的研究突出了语言模型在处理复杂任务、进行逻辑推理、做出明智的决策和参与互动学习方面的巨大能力[3],[75]。这些突破不仅扩展了我们对基于LLM的机器人规划潜力的理解,而且为创新的实际应用打开了大门。
在探索预训练语言模型(PLMs)在交互式决策中的应用时,研究表明目标和观察被转化为嵌入序列,用PLMs初始化网络。这种策略的泛化能力在多变量环境和监督模态中特别有效[76]。在多模态领域的一个显著进步是LM-Nav系统的发展[59]。该系统基于PLMs,整合了语言、视觉和动作模型,通过高级自然语言命令指导机器人导航。值得注意的是,它通过合并预训练的视觉导航、图像-语言相关性和语言理解模型,减少了对昂贵轨迹注释监督的依赖。专注于特定环境中的LLMs,研究人员[65]已经检查了它们在自然语言反馈和复杂任务规划方面的推理能力。这种能力对于遵循高级任务指令和增强模型在现实世界场景中的应用性至关重要。解决自然语言理解和决策中的一致性容错问题,创新的ReAct模型[77]克服了交互式设置中语言推理的先前限制。它解决了幻觉生成和错误信息传播等挑战。通过利用LLMs维持工作记忆和抽象概念化高级目标的潜力,ReAct模型在各种任务中实现了显著的性能提升。与此同时,为了解决大型语言模型(LLMs)在应用于机器人学时的自信幻觉预测问题,KnowNo[78]为任务完成提供了统计保证,同时在复杂的多步骤规划场景中最小化了对人类协助的需求。值得注意的是,KnowNo与LLMs无缝集成,无需模型微调,提供了一种轻量级和有前途的不确定性建模方法。这种方法与基础模型不断演变的能力保持一致,提供了一种可扩展的解决方案。此外,已经提出了一种涉及预处理错误提示的策略,使LLMs能够提取可执行计划。这种方法为任务执行中代理的独立性和适应性提供了新的视角。在多代理协作方面,越来越多地探索将语言模型与动作代理集成。通过将LLMs与在特定环境中执行任务的代理配对,建立了一个由规划器、执行器和报告器组成的系统。这种安排显著提高了复杂任务中推理和执行的效率。
大型预训练语言模型领域正在经历一个显著趋势:这些模型越来越擅长理解和执行复杂任务,与现实世界场景紧密对齐。这一进步不仅强调了预训练模型的适应性和多功能性,而且预示着下一代AI的到来。随着这些技术的演进,我们预计创新应用将激增,有望彻底改变各个行业。这些任务的一个关键方面是利用LLMs强大的语言理解和生成能力进行复杂推理和决策过程。该领域的每项研究都探索了LLMs在复杂认知功能中的潜力。许多模型采用自监督学习,有些则结合微调以更好地适应特定任务。这种方法使LLMs在下游任务辅助推理中表现出色,从而做出更精确和定制化的决策。尽管LLMs在复杂推理和决策中得到广泛应用,但具体的技术和方法在任务处理、学习策略和反馈机制方面有所不同。这些模型在多种现实世界情境中得到应用,包括家庭自动化、机器人导航和任务规划,展示了它们广泛和不断发展的实用性。
3)人-机器人交互:在人-机器人交互领域,AGI语言模型的先进推理能力赋予机器人显著的泛化能力[79]。这使它们能够适应以前未见环境和任务中的新任务规划。此外,LLMs的自然语言理解界面促进了与人类的交流,为人-机器人交互开辟了新的可能性[80]。广泛的研究强调了LLMs在辅助智能任务规划方面取得的进展,这反过来又增强了多智能体协作通信。研究发现,使用自然语言来提高多智能体合作的效率是一种有效的方法来提高通信效率。一个值得注意的例子是OpenAI的ChatGPT,其在机器人应用中的能力通过严格的实验进行了评估。研究结果显示,ChatGPT在逻辑、几何和数学推理等复杂任务方面表现出色,以及空中导航、操作和控制具体化代理[48]。它通过自由形式的对话、解析XML标签和合成代码等技术实现了这一点。此外,ChatGPT允许通过自然语言命令进行用户交互,为开发与人类以自然和直观方式交互的创新机器人系统提供了重要的指导和见解。同样,提出了一个利用大规模语言模型进行协作具体化智能的框架[81]。该框架使语言模型能够用于高效规划和通信,促进各种智能体和人类之间的协作,共同应对复杂任务。实验结果表明,这种方法在该领域的传统方法中表现显著优越。
B. 操控
1) 自然语言理解:在机器人控制领域,LLMs的自然语言理解能力可以帮助机器人进行常识分析。例如,LLM-GROP展示了如何从LLM中提取语义信息,并将其用作在复杂环境中响应自然语言命令执行多步骤任务和运动规划器中关于对象放置的常识性、语义上有效的决策[82]。该研究提出了一个将语言置于智能体核心的框架[83]。通过利用这些模型中包含的先验知识,可以设计出更好的机器人代理,它们能够在现实世界中直接解决具有挑战性的任务。通过一系列实验,展示了该框架如何利用底层模型的知识和功能,以更高的效率和多功能性解决各种问题。同时,该研究引入了Linguistically Conditional Collision Function (LACO),这是一种使用单视图图像、语言提示和机器人配置学习碰撞函数的新方法。LACO预测机器人与环境之间的碰撞,使得灵活的条件路径规划成为可能[84]。
除了自然语言理解能力外,LLM的强大推理能力也扮演着突出的角色。例如,在VIMA工作[85]中,引入了一种新的多模态提示公式,将不同的机器人操控任务转化为统一的序列建模问题,并在具有多模态任务和系统泛化评估协议的多样化基准中实例化。实验表明,VIMA能够使用单一模型解决视觉目标实现、一次性视频模仿和新颖概念基础等任务,具有强大的模型可扩展性和零样本泛化能力。同样,TIP提出了Text-Image Cueing[86],这是一种双模态提示框架,将LLMs连接到多模态生成模型,以合理生成多模态程序计划。除了提示方法外,在机器人控制领域,基于预训练LMs的下游任务微调也是一种常见方法。例如,该工作展示了预训练的视觉语言表示可以有效提高现有探索方法的样本效率[87]。R3M研究了如何在不同的人类视频数据上预训练视觉表示,以实现下游机器人操控任务的数据高效学习[88]。LIV在大型泛化人类视频数据集上进行训练,并在小型机器人数据集上进行微调,微调后在三个不同的评估设置中超越了最先进的方法,并成功执行了现实世界的机器人任务[89]。
这一系列研究共同展示了LLMs和自然语言理解技术在推进机器人智能方面的重要角色,特别是在理解和执行复杂的基于语言的任务方面。这些研究的一个关键重点是模型泛化的重要性以及将这些模型应用于不同领域能力。每项研究虽然共享这一共同主题,但在其特定的关注点和应用方法论上有所不同。例如,LLM-GROP专注于语义信息的提取和应用。相比之下,VIMA和TIP专注于无先前示例的多模态处理和学习。此外,微调预训练LMs的方法旨在提高应用效率和任务特定优化。总的来说,这些研究表明,将复杂的NLP技术与机器学习策略相结合,可以大大提高机器人系统的效率,特别是在其理解和执行复杂任务的能力方面。这一进步是实现机器人操控中更大智能和自主性的关键一步。
2) 交互策略:在交互策略领域,TEXT2REWARD框架引入了一种使用LLMs生成交互式奖励代码的创新方法[83]。该方法自动产生密集的奖励代码,增强了强化学习。此外,通过利用大型语言模型定义可以优化以完成各种机器人任务的奖励参数,可以有效弥合高级语言指令或纠正与低级机器人行动之间的差距。语言模型生成的奖励作为中间接口,使得高级指令和机器人的低级行动之间的无缝通信和协调成为可能[90]。此外,VoxPoser展示了一个多功能的机器人操控框架[64],其特点是能够直接从LLMs中提取可操作性和约束。这种方法显著提高了机器人对开放式指令和多样化对象的适应性。通过将LLMs与视觉-语言模型集成,并利用在线交互,VoxPoser高效地学习与复杂任务动态模型互动。LLMs的应用也扩展到了人-机器人交互。LILAC系统通过一个可扩展的[63]、由语言驱动的人机交互机制来实现这一点。它将自然语言话语翻译成低维控制空间中的可执行命令,使得机器人的精确和用户友好的指导成为可能。重要的是,每个用户的纠正都会完善这个控制空间,允许越来越针对性和准确的命令。InstructRL提供了另一个旨在增强人-AI协作的创新框架[91]。它专注于训练强化学习代理来解释和执行人类提供的自然语言指令。该系统使用LLMs根据这些指令制定初始策略,引导强化学习代理实现协调的最佳平衡。最后,对于基于语言的人机界面,已经开发了一种新的、灵活的界面LILAC。它允许用户使用文本输入和场景图像改变机器人轨迹[92]。该系统协同预训练的语言和图像模型,如BERT和CLIP,使用变换器编码器和解码器在3D和速度空间中操纵机器人轨迹。这种方法在模拟环境中证明是有效的,并通过实际应用展示了其实用性。
所有这些技术和方法在不同程度上依赖于先进的语言建模来增强人-机器人交互和机器人控制。它们共同强调了LLMs在解释和执行人类意图方面的关键作用。每种方法都旨在提高机器人的适应性和灵活性,使它们能够更有效地处理多样化的任务和环境。具体来说,TEXT2REWARD专注于生成和优化奖励代码,提高了强化学习策略的效力。相反,VoxPoser专注于从LLMs中提取操作符和约束。与此同时,LILAC和InstructRL采用不同的方法来解释和执行自然语言命令。LILAC优先考虑将话语映射到控制空间,而StructRL致力于训练强化学习代理理解和遵循自然语言指令。此外,最后讨论的基于语言的人机交互研究探讨了如何直接从文本和图像中提取用户意图,并将其应用于各种机器人平台。这一方面使其与其他可能不包含此功能的方法有所不同。总的来说,这些研究标志着将LLMs技术整合到机器人学中的重大进步。虽然它们的应用领域和方法论有不同的焦点,但它们都展示了人工智能创新的潜力。此外,它们为未来人-机器人交互的探索铺平了道路。
3) 模块化方法:最近在机器人控制方面的进展强调了模块化方法,允许创建更复杂和功能丰富的机器人系统。最近的研究突出了这一趋势的关键方面。PROGRAMPORT提出了一个以程序为基础的模块化框架,专注于机器人操控[93]。它通过将自然语言的语义结构翻译成编程元素来解释和执行语言概念。该框架包括在学习和掌握一般视觉概念和特定任务操作策略方面表现出色的神经模块。这种结构化方法明显增强了对视觉基础和操作策略的学习,提高了对未见样本和合成环境的泛化能力。接下来,研究人员探索了使用LLMs来加速机器人系统策略适应的方法[94],特别是在遇到新工具时。通过生成几何形状和描述性工具模型,然后将这些转换为向量表示,LLMs促进了快速适应。这种语言信息和元学习的整合在适应不熟悉工具方面表现出显著的性能提升。
此外,将基于ViLD和CLIP的视觉语言模型NLMap[95]与SayCan框架相结合,导致了更灵活的场景表示。这种结合对于长期规划特别有效,尤其是在开放世界场景中处理自然语言命令时。NLMap增强了基于LLM的规划器理解其环境的能力。"Scaling Up and Distilling Down"框架结合了LLMs[96]、基于采样的规划器和策略学习的优势。它自动化了生成、标记和提取丰富的机器人探索经验到一个多功能的视觉-语言运动策略中。这种多任务策略不仅继承了长期行为和稳健的操控技能,而且在训练分布之外的场景中也表现出改善的性能。
MetaMorph介绍了一种基于变换器的方法,用于学习适用于广泛的模块化机器人设计空间的通用控制器[97]。这种方法使得机器人形态可以作为变换器模型的输出。通过在多样化的形态上进行预训练,通过这种方法生成的策略展示了对新形态和任务的广泛泛化能力。这展示了在机器人学中进行广泛的预训练和微调的潜力,类似于视觉和语言领域的发展。
在这些研究中的每一项中,都采用了模块化方法,增强了系统对新任务和环境的灵活性和适应性。这些工作广泛利用深度学习技术,特别是与LLMs协同作用,以增强机器人系统的理解和决策能力。此外,这些研究的一个重要焦点是应用NLP。这无论是通过直接解释语言命令,还是通过语言丰富的学习和适应过程都显而易见。主要目标是提高机器人在新环境和任务中快速泛化和适应的能力。虽然所有研究都采用了深度学习和LLMs,但它们的具体实现和应用是多样的。有些集中在语言描述和理解上,而其他研究探索视觉和语言的融合。研究目标各不相同,从适应新工具,到长期战略规划,到多形态机器人控制的挑战。尽管技术方法、应用领域和目标任务存在差异,但每项研究都显著地为推进机器人系统的智能和适应能力做出了贡献。
C. 推理
1) 自然语言理解:在机器人推理任务领域,基于自然语言理解的LLMs作为一个重要的知识库,为各种任务提供常识性洞察,这一点至关重要。广泛的研究表明,LLMs有效地模拟了类似人类的状态和行为,特别是在研究执行家庭清洁功能的机器人时尤为相关。这种方法偏离了传统方法,后者通常需要昂贵的数据收集和模型训练。相反,LLMs利用现成的方法在机器人学中进行泛化,从广泛的文本数据分析中受益于其强大的总结能力。此外,LLMs的常识推理和代码理解能力促进了机器人与物理世界之间的联系。例如,Progprompt在LLMs中引入编程语言特性已被证明可以提高任务性能。这种方法不仅直观,而且足够灵活,能够适应新的场景、代理和任务,包括实际的机器人部署[98]。同时,GIRAF利用大型语言模型的强大能力,更加灵活地解释手势和语言命令,使得能够准确推断人类意图并为更有效的人机协作对手势含义进行情境化[99]。
在这一领域的一个创新发展是Cap(代码作为策略)[47],它主张以机器人为中心的语言模型生成程序。这些程序可以适应机器人操作栈的特定层:解释自然语言命令、处理感知数据以及为原始语言控制参数化低维输入。这种方法的基本原则是分层代码生成促进了更复杂代码的创建,从而推进了这一领域的最新技术。
无论是家庭清洁应用还是Cap中的以机器人为中心的语言模型生成程序,都突出了LLMs在提供常识知识和解释自然语言指令方面的优势。传统机器人学通常需要广泛的数据收集和专门的模型训练。相比之下,LLMs通过利用其在文本数据上的广泛训练来减轻这种需求。LLMs的代码理解和生成能力尤其关键,使机器人能够更有效地与物理世界互动并执行复杂任务。然而,应用重点有所区别:家庭清洁功能倾向于强调日常任务和环境适应性,而Cap则专注于通过语言模型生成程序(LMPs)编程和控制机器人的更技术性行为。
总之,将LLMs整合到机器人推理任务中强调了它们在自然语言理解、常识知识提供以及代码理解和生成方面的显著能力。这些特性不仅减轻了与传统机器人学相关的数据收集和模型训练负担,还提高了机器人的泛化能力和灵活性。通过充分的训练和调整,LLMs可以应用于各种场景和任务,展示了它们在机器人学和人工智能未来的巨大潜力和广泛的适用性。
2) 复杂任务推理和决策:在复杂任务推理和决策领域,各种研究已经利用LLMs的推理能力来增强特定下游任务的精细化。例如,SayCan利用LLMs中嵌入的广泛知识进行具体化任务以及强化学习[61]。这种方法涉及使用强化学习来揭示有关个人技能价值函数的见解。然后,它使用这些技能的文本标签作为潜在响应,而LLM为任务完成提供总体语义指导。
另一个值得注意的发展是Instruct2Act框架[100]。它提供了一个用户友好的、通用的机器人系统,该系统使用LLMs将多模态命令转换为机器人领域中的一系列动作。该系统使用LLM生成的策略代码,这些代码对各种视觉基础模型进行API调用,从而获得对任务集的视觉理解。
LLMs在自我规划和PDDL(规划领域定义语言)规划中的使用也已经被探索[101]。已经证明,LLM输出可以有效地指导启发式搜索规划器。
在失败解释和纠正任务领域,REFLECT框架利用机器人过去经验的层次化总结,这些经验是从多感官观察生成的,来查询LLM进行失败推理[102]。获得的失败解释然后可以指导基于语言的规划器纠正失败并成功完成任务。
此外,预训练多模态模型的适应也是一种常见策略。通过将视觉-语言模型的预训练与机器人数据集成,以训练视觉-语言-行动(VLA)模型[62],研究人员发现,经过互联网数据训练的模型,参数高达550亿,可以生成高效的机器人策略。这些模型表现出增强的泛化性能,并受益于网络上可用的广泛的视觉-语言预训练能力。
Socratic Models代表了另一种方法[67],其中多个大型预训练模型之间的结构化对话促进了新多模态任务的联合预测。这种方法在多个任务中实现了零次射击性能。
在这些研究中,主要的重点是利用LLMs自动化推理和决策过程。这是通过利用LLMs提供或利用高级语义知识的能力来实现的,从而增强了任务执行。有些方法将LLMs与其他模态集成,如视觉和行动,以加深任务理解和执行。其他方法展示了在以前未见的任务上的有效性能,展示了零次或少次学习的能力。
每项研究采用了独特的方法来整合LLMs。例如,SayCan结合了强化学习,而Instruct2Act则集中在直接映射多模态指令上。所采用的技术——从强化学习和启发式搜索到多模态预训练——在不同的应用领域,如机器人操控、规划和自动决策制定中差异显著。这些研究共同展示了LLMs在管理复杂任务推理和决策方面的巨大潜力。通过将LLMs与其他技术(如强化学习和多模态数据处理)结合起来,可以实现更深层次的语义理解和更有效的决策支持。这在机器人学和自动化领域尤为明显,这种整合方法为新应用铺平了道路。然而,这些方法的有效性高度依赖于任务的具体性质、所使用的数据和模型训练方法。因此,每种方法的选择和应用必须仔细针对特定上下文进行定制。
3) 交互策略:LLMs的最新进展在交互策略的发展中做出了重大贡献,展示了在语言生成和类似人类推理方面的印象能力。Matcha[103]利用LLMs增强了交互式多模态感知,展示了LLMs在理解各种类型的输入数据(如视觉和听觉)方面的潜力。这种方法提出了一个增强的LLM多模态交互代理。这个代理不仅利用LLMs中固有的常识知识进行更合理的交互式多模态感知,而且还展示了LLMs在进行这种感知和解释行为方面的实际应用。
生成性代理,如所介绍的,是为了模拟人类行为而设计的交互计算代理[104]。这些代理的架构被设计成存储、合成和应用相关记忆,从而使用大型语言模型生成合理的行为。将LLMs与这些计算代理集成,促进了先进架构和交互模式的创建。这种结合使得更真实的人类行为模拟成为可能,扩展了LLMs的潜在应用。
基于LLMs的交互策略的重点是将LLMs与其他感知系统(如图像识别和语音处理)融合。这种融合旨在模仿或增强人类能力,提高认知和处理能力。这种进步在智能助理、机器人和增强现实系统领域有着深远的影响。
在讨论的工作中,特别强调了多模态感知,重点是提高系统理解和与其环境互动的能力。此外,人类行为的模拟旨在在人工智能中复制人类的思维和行动过程。这两个方向的融合有望创造出更强大、更通用的智能系统。这些系统被设想能够以更复杂和人性化的水平与人类互动,提出了重大的技术挑战,并引发了关键的伦理和社会适应问题。
IV. GPT-4V赋能的具体化任务规划
基于前述对具体化任务和LLMs的调查,我们在本研究中开发了一个基于GPT-4V的具体化任务规划框架,并进行了评估实验,如图1所示。以下部分将提供有关数据集、提示设计和实验结果的详细信息。
A. 数据集
为了全面评估GPT-4V的多模态具体化任务规划能力,我们选择了来自9个数据集的40多个案例,重点关注操控和抓取。这些动作在遵循指令的机器人学中是基础,涉及多种人类指令在不同场景中的应用,如厨房取物和桌面重新排列。所选数据集通过谷歌开放XEmbodiment数据集[49]访问。在每个案例中,视频演示和自然语言指令作为输入,评估GPT-4V作为机器人大脑的能力。这种设置使得基于自然语言指令的健壮规划成为可能,用于生成机器人动作。
B. 提示设计
提示设计在查询LLMs时起着至关重要的作用。一个精心制作的、信息丰富且结构清晰的提示,能够产生更精确和一致的输出,与给定指令相符合。在这里,我们通过结合图像更新了[114]中的文本提示,创建了一个多模态提示,引导GPT-4V生成机器人任务计划。多模态提示由五部分组成:
• 系统角色说明:指定任务和GPT-4V在其响应中采用的角色。
• 预定义动作池:一组预定义的机器人动作,GPT-4V可以从中选择和排序,逐步完成任务。为解决词汇限制,必要时提示GPT-4V创建新动作。
• 示例输出:一个JSON格式的示例,用于说明预期输出并确保一致性。
• 案例环境图像和自然语言指令:包括从视频演示中提取的第一帧作为环境图像。
• 评估:GPT-4V负责根据与视频演示的一致性对生成的任务计划进行评估,并提供解释。
前三部分作为每个查询的系统消息输入,而最后两部分作为用户消息根据测试数据变化。完整的提示如图附录4所示。
V. 实验结果
在我们的实验框架中,大型语言模型(LLMs)首先生成针对每个机器人任务目标的逐步指令。随后,在这个生成的指令的指导下,模型从预定义的动作池和动作对象中选择最合适的动作,形成每个步骤的动作计划。在获得LLMs生成的指令后,我们通过将它们与相应视频数据集中的Ground Truth指令进行比较,对生成的结果进行了定量评估。我们在9个公开可用的机器人数据集上进行了严格的测试,得出了深刻且富有洞察力的发现。
例如,在RT-1 Robot Action [105]数据集中,如图2顶部面板所示,多模态LLMs准确识别了目标对象,并熟练地分解和执行了任务。如图2左上角所示,基于给定的环境和指令,LLMs生成的指令如下:1) 将手移动到底层抽屉中目标的位置;2) 抓住目标;3) 将手带着目标移动到柜台上;4) 在柜台上释放目标。在提供详细的逐步文本指令后,LLMs从动作池中选择并列出一组符合当前策略的指令和对象。例如,“移动手(底层抽屉)”是第一项文本指令的功能表达,便于后续直接使用这个动作计划与控制机器人臂的接口代码。此外,通过LLMs生成的“环境状态”,可以明显看出模型能够有效理解一系列操作后环境中关键对象空间关系的变化。图2中的“匹配得分”也展示了模型的精确度。
表 I数据集描述以及GPT-4V自评的平均匹配得分,比较它生成的任务计划与九个测试数据集中的真实演示。
图 2. 不同数据集生成的任务计划:RT-1 机器人动作(顶部面板)、QT-Opt(左中)、伯克利桥(右中)、弗莱堡Franka游戏(底部左)和南加州大学Jaco游戏(底部右)。
在上述测试案例中,场景涉及的对象较少,任务指令相对简洁明了。因此,我们进一步进行了涉及语义模糊任务描述和复杂场景的测试。图2左中代表了一个来自QT-Opt数据集[106]的测试案例,其中指令简单地是“拿起任何东西”,没有指定场景中的任何实体。从LLMs生成的结果来看,它产生了一系列的通用指令,适用于抓取任何物体,并与地面真相保持高度一致性。对于复杂场景,如图2右中所示,我们测试了一个来自伯克利桥数据集[107]的示例案例。输入指令“将银锅从红色罐头前面的移动到桌子前沿蓝色毛巾旁边”涉及多个对象及其在场景中的空间关系。在这里,LLMs不仅理解了任务的目的,还熟练地执行了任务细节,展示了它们先进的图像理解和逻辑推理能力。
图2和图3展示了LLMs在多样化和复杂场景中的有效性的进一步证据(包括数据集[108]–[113])。在这些实验中,LLMs表现出色,即使在设置复杂或有特殊要求的任务中也是如此。表I展示了GPT-4V在九个不同数据集中自我评估的平均匹配得分,表明生成的任务计划与地面真相演示之间具有一致的高水平一致性。这巩固了我们方法的有效性,并强调了多模态LLMs在机器人任务执行中的强大的图像理解和逻辑推理能力。其他测试结果可以在附录中找到。
图 3. 不同数据集生成的任务计划:伯克利Autolab UR5(左上)、纽约大学Vinn(右上)、BC-Z(左下)和TOTO基准测试(右下)。
VI. 局限性、讨论和未来工作
我们概述了将大型语言模型(LLMs)整合到各种任务和环境中的机器人系统,并评估了GPT-4V在多模态任务规划中的表现。尽管GPT-4V作为任务规划的机器人大脑展示了令人印象深刻的多模态推理和理解能力,但它面临几个局限性:1)生成的计划是同质化的,缺乏详细的具体化和特定、稳健的设计来管理复杂环境和任务。2)当前的多模态LLMs,如GPT-4V和Google Gemini [28],需要精心制作的、冗长的提示来产生可靠的输出,这需要领域专业知识和广泛的技巧。3)机器人受到预定义动作的限制,限制了其执行自由和稳健性。4)GPT-4V API的闭源性质及相关的时间延迟可能会阻碍嵌入式系统开发和实时商业应用。未来的研究应该旨在解决这些挑战,以开发更稳健的AGI机器人系统。
另一方面,多模态GPT-4V在机器人学中展示的先进推理和视觉语言理解能力突显了以LLM为中心的AGI机器人系统的潜力。展望未来,以多模态LLM为中心的AGI机器人在各个领域都有应用潜力。在精准农业领域,这些机器人可以取代人类在各种劳动密集型任务中的劳动力,尤其是在收获方面。这包括像水果采摘和作物表型分析[115],[116]这样的任务,这些任务需要在农场复杂的环境下进行高级推理和精确行动[117]。在医疗保健领域,对安全和精确性的关键需求对多模态LLM的感知和推理能力提出了更高的要求。这一点在机器人辅助筛查和手术中尤为重要,因为需要根据个人需求定制任务[118]。此外,利用对比学习模型如CLIP[119]将大脑信号与自然语言对齐,为开发以LLM为中心的AGI机器人系统中的脑-机接口(BCIs)[120]提供了一条路径。这些系统能够读取和解释人类大脑信号,如EEG和fMRI,用于复杂任务完成中的自我规划和控制[80],[121]。这一进步可以显著缩小人-环境互动的差距,减轻身体和认知劳动。
VII. 结论
在本文中,我们提供了将大型语言模型(LLMs)整合到各种机器人系统和任务的概述。我们的分析显示,LLMs展示了令人印象深刻的推理、语言理解和多模态处理能力,这些能力可以显著增强机器人对指令、环境和所需行动的理解。我们在9个数据集的30多个案例中评估了最近发布的GPT-4V模型进行具体化任务规划。结果表明,GPT-4V能够有效利用自然语言指令和视觉感知来生成详细的行动计划,以完成操控任务。这表明使用多模态LLMs作为具体化智能的机器人大脑是可行的。
然而,关于模型透明度、稳健性、安全性和现实世界适用性的一些挑战仍然需要解决,因为我们正在朝着更实用和有能力的基于LLM的AI系统迈进。具体来说,大型神经模型的黑盒性质使得很难完全理解它们的内部推理过程和失败模式。此外,模拟与现实世界之间的差距在不降低性能的情况下转移策略方面持续存在困难。仍然需要通过标准化测试、对抗性训练、策略适应方法和更安全的模型架构等技术来解决这些问题。依赖LLMs的自主智能系统的问责和监督协议也需要深思熟虑。以谨慎、道德和社会负责的方式克服这些多方面的挑战仍然是推进这一领域进步的必要条件。
随着语言模型继续从多模态数据中积累广泛的基础知识,我们预计在将它们与机器人学和基于模拟的学习整合方面将迅速创新。这可以在部署前使用模拟到现实技术在模拟中直观地开发和验证智能机器人。这样的发展可以深刻增强和转变我们构建、测试和部署智能机器人系统的方式。
总体而言,自然语言处理和机器人学的协同整合是一个充满机遇和挑战的有前景的领域,值得进行广泛的未来跨学科研究。
Jiaqi Wang∗, Zihao Wu∗, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu,Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao,Bao Ge, Xiang Li, Tianming Liu†, and Shu Zhang†
西北工大、美国佐治亚大学等,2024.01,JOURNAL OF LATEX CLASS FILES