多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降

发布于 2024-12-2 13:27
浏览
0收藏

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

文章链接:https://arxiv.org/pdf/2411.02359
项目链接:https://github.com/yueyang130/DeeR-VLA

亮点直击

  • 提出动态早退出机制 DeeR:框架基于动态神经网络的思想,能自动调整 MLLM 模型的大小,根据机器人面临的实际情况动态激活模型所需的层数,减少不必要的计算消耗。
  • 实现高效的资源利用:DeeR 在推理过程中对不同复杂度的情境适应性地分配计算资源,简单场景下使用较小的模型以节省资源,复杂场景下则调用更大的模型。
  • 灵活的计算成本控制:DeeR 提供了可调的早退出准则,用户可以根据计算资源的需求(如功耗、延迟或 GPU 内存使用)在线调整终止标准,实现灵活的资源管理。
  • 性能优化与资源节约显著:在 CALVIN 基准测试中,DeeR 实现了计算成本 5.2-6.5 倍的降低。


与其他 SOTA 方法相比,在仅使用 2GB GPU 内存的条件下保持竞争力。这表明 DeeR 能在资源有限的平台上高效运行,有望推动多模态大模型在机器人领域的广泛应用。

总结速览

解决的问题

当前多模态大模型 (MLLMs) 在理解复杂人类指令并执行各种任务方面展现出强大能力,但在实际机器人中的应用受限于其对计算能力和内存的高需求,难以在资源有限的机器人平台上有效运行。

提出的方案

提出了一个动态早退出框架,称为DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ,能够根据不同情境自动调整激活模型的大小,从而减少不必要的计算负担。此方案采用多出口结构,允许模型在适当的时机结束处理,避免冗余计算。

应用的技术

  • 多出口架构:使得模型可在特定情境下提前结束处理,减少计算消耗。
  • 早退出算法:根据预设的计算资源需求(如平均计算成本、峰值计算消耗及 GPU 内存使用)制定早终止标准,确保 DeeR 在不同资源限制下高效运行。
  • 时间信息集成的训练方法:在多出口架构上集成时间信息以合理预测动作。

达到的效果

在 CALVIN 机器人操作基准测试中,DeeR 实现了 5.2-6.5 倍的计算成本降低和 2-6 倍的 GPU 内存消耗减少,同时保持了性能不变。这些提升使得 DeeR 能在资源有限的条件下高效运行。

动态早退出的机器人 MLLM

MLLM 强大的任务指令理解和视觉定位能力展示了其在语言指导的多任务机器人操作方面的巨大潜力。然而,现有工作通常计算量巨大,因为机器人动作是通过推理 MLLM 的所有层来获得的。在每个时间步,这一过程可能会激活数十亿的参数,导致大量的计算和内存需求,从而带来显著的延迟和功耗。这些低效通常是实际机器人应用的重要瓶颈。


概述 通过利用一个有趣的观察来解决这个问题:在控制机器人完成各种任务的过程中,相对“简单”的情境占据了大部分,这些情境通常只需要较小的模型即可获得正确的机器人动作(如下表 1 所示)。受这一现象的启发,本文提出了机器人 MLLM 的动态早退出方法 (DeeR),旨在通过为每种情况动态采用适当的 MLLM 大小来提高机器人 MLLM 系统的计算效率。具体而言,首先开发了一种具有多个中间出口的新型 MLLM 架构。因此,给定一个输入,一旦激活了足够数量的模型参数,就可以立即获取适当的机器人动作,从而避免进一步的冗余计算。然后,在任意指定的平均计算成本和峰值计算成本或 GPU 内存开销的需求下,为 DeeR 建立了早终止准则。最后,提出了本文模型的定制训练算法,展示了如何在这一动态网络的基础上集成时间信息并合理预测机器人动作。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

机器人多出口架构

首先引入了一个具有多个中间出口的 MLLM 架构,能够根据机器人面临的不同情况动态调整 MLLM 的大小。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

自适应推理

本节展示了 DeeR 如何在预定义的计算和 GPU 内存限制下,通过自适应地激活适当大小的 MLLM 来高效地执行机器人任务。首先讨论 DeeR 所使用的终止准则,该准则旨在在较简单的场景中激活较小的模型,而在更具挑战性的条件下激活较大的模型。接下来,探讨一种有效的资源分配策略,以应对计算和 GPU 内存的限制。DeeR 的推理过程如下图 1 所示。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

满足以下约束条件:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

使用在线交互求解。如果可以与真实环境交互,可以利用在线学习算法,通过关于成功率的反馈逐步调整阈值。为了在预算约束下求解方程 (4),实现了贝叶斯优化。构造的贝叶斯优化目标函数如下,以最大化:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

训练算法

训练动态机器人 MLLM 并非易事。特别是,网络架构的动态调整导致了训练和推理之间的差异。在推理过程中,使用确定性的标准在每个时间步选择适当的中间特征。然而,在训练过程中,没有明确定义的终止标准,而且不知道特征在各个出口之间的分布。为了有效地集成时间信息,提出了一个量身定制的训练算法。

使用任意大小的模型进行学习为了减少上述差异,在训练期间引入了一种简单而有效的随机采样策略。如上面图 1 右侧的“螺旋”曲线所示,本文的方法涉及在每个时间步从 1 到 N的出口索引中进行采样。实现了两种采样策略:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

通过以下损失函数联合训练辅助头和 MLLM:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

实验

设置 本节进行实验验证 DeeR 作为一种高效机器人策略的有效性。基于 RoboFlamingo++ 代码库构建 DeeR。为了公平比较,保留了 RoboFlamingo++ 中的超参数,唯一的区别是 LLM 层数和提出的动态早期退出范式。将 DeeR 在预算与性能之间进行比较,涉及类似规模的 RoboFlamingo++ 模型和其他最先进的基准。


效率衡量 在现代基础模型中,LLM 通常在 MLLM 中扮演着关键角色,负责推理和问题解决任务,且通常包含了模型的大部分参数。本文主要聚焦于提高 LLM 在机器人领域的效率。为了方便进行针对性的比较,实验中报告了 LLM 推理过程中的浮点运算数(FLOPs)和 GPU 内存使用量。


基准测试 使用 CALVIN 长时域多任务语言控制基准(LH-MTLC)作为测试平台,测试学习到的多任务、语言条件策略。在 CALVIN 中,目标是让智能体成功完成任务序列,每个任务序列包含五个子任务,并用自然语言描述。根据以往的工作[10, 12, 13, 9],模型的性能是通过在 1000 个任务序列中,成功完成的任务数的平均值来评估的(范围从 0 到 5)。


数据集 CALVIN 数据集分为四个环境分割,分别标记为 A 到 D,每个分割都有独特的背景和物体配置。每个分割包含超过 200 万个机器人操作轨迹(称为 "ALL")。其中,大约 1%(约 2.4 万个轨迹)带有语言指令(称为 "LANG")。在训练 DeeR 时,仅使用 "LANG" 数据。在本文的研究中,为了全面评估其模仿和泛化能力,在以下三种设置下评估模型:

  1. D→D:在单一环境中训练和评估。
  2. ABC→D:零样本多环境。
  3. ABCD→D:多环境。

基准模型 为了进行全面比较,考虑了多个基准模型。包括了 HULC 和 SPIL 作为依赖于层次化规划和技能先验的代表方法。此外,还评估了使用预训练或基础模型的模型,例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新实现的 RoboFlamingo。

主要结果

Flamingo 3B的结果 Flamingo 3B的实验结果如下图3所示。在每个CALVIN设置中,仅训练了一个模型。在给定预定义的总计算预算B、最大浮点运算数G和GPU内存M后,通过调整终止阈值来遵守这些预算,终止阈值通过解方程(4)并使用CALVIN数据集来确定。然后,评估DeeR在不同阈值下的平均成功长度,并绘制曲线。可以观察到,DeeR始终能在所有设置中减少LLM的计算成本。例如,在设置D→D中,DeeR在平均成功长度为2.71的情况下,平均FLOPs减少了5.9倍,最大FLOPs和GPU内存分别减少了2倍。令人惊讶的是,DeeR-S在仅使用2GB内存的情况下,仍能实现相对较高的性能,这对于大多数用户来说是可承受的。因此,DeeR展示了使更广泛的用户能够高效地使用LLM操作机器人系统的潜力。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

与最先进基准的比较 下表2中,将DeeR模型与最近的最先进方法进行了基准测试,特别是在CALVIN基准测试中。通过分析表明,DeeR与使用额外本体感知信息的最新SOTA模型GR-1相比,达到了具有竞争力的性能。与没有使用基础模型的传统模仿学习方法相比,DeeR表现出更优越的性能,特别是在泛化场景(ABC→D)中。此外,DeeR在减少计算的同时,稍微优于RoboFlamingo。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

通过在线交互求解阈值

当可以与环境进行交互时,使用贝叶斯优化来求解方程(4)。如上表2所示,发现通过在线交互求解阈值,在低数据环境(D→D)和对未见情况的泛化(ABC→D)等挑战性场景中特别有效。

DeeR的可扩展性

在OpenFlamingo 9B 之上开发了DeeR,以评估其在扩展基础模型时的效率。下图4中的结果表明,DeeR在保持相同性能的情况下,减少了1.8至5.7倍的计算量,并且峰值FLOPs和内存减少了2.7到4.0倍。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

可视化

下图5展示了DeeR的滚动效果以及终止点。具有较高退出索引的情况被DeeR视为“更难”的任务,因此会分配更多的计算资源。可以观察到,“困难”情况通常涉及相对复杂和精细的操作,而“简单”情况通常涉及朝目标物体的直接移动。例如,在堆叠积木的任务中(第1行),从桌面提起蓝色积木(第1张图)并将其放置到粉色积木上(第4和第5张图)需要更多的计算,而简单地朝粉色积木移动(第2和第3张图)只需要最小的LLM来处理。在第2行和第3行中也观察到类似的情况,朝目标物体移动的阶段需要的计算量最小,而推动灯泡开关或移动滑动门则是复杂的操作,需要更多的LLM处理。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降-AI.x社区

结论与局限性

本文提出了用于机器人MLLM的动态提前退出(DeeR)框架,旨在根据机器人代理所遇到的每个情况的具体需求动态配置MLLM的大小。具体来说,提出了一种新型的具有多个中间退出的MLLM架构。此外,为DeeR建立了基于动作一致性的提前终止标准,并通过数据集或在线交互解决阈值问题。本文设计了一种定制的训练方法,将时间信息集成到这个多退出框架中,以增强机器人控制能力。大量的机器人实验表明,DeeR显著减少了LLM的计算成本和GPU内存使用,突显了其在资源受限的平台上帮助更广泛的用户管理机器人操作的潜力。


尽管本文的研究显示了有希望的结果,但也存在一些局限性。本文专注于提高机器人执行中的LLM效率,因为LLM占据了大部分参数和GFLOPs。然而,视觉编码器的计算成本也是显著的。随着更高效、轻量级的视觉编码器的开发,这一局限性将得到缓解。此外,本文的实验仅限于一个模拟基准。未来的工作将致力于改善整个基于MLLM的机器人系统在真实环境中的推理效率。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/EgpO2TTtmqJu6pIrDDbftA​

收藏
回复
举报
回复
相关推荐