CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"

发布于 2025-3-4 09:46
浏览
0收藏

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

文章链接:https://www.arxiv.org/pdf/2502.13130 
项目链接:https://microsoft.github.io/Magma/ 
模型链接:https://huggingface.co/microsoft/Magma-8B

亮点直击

  • 提出了Magma,第一个不仅具备多模态理解能力,还具备空间-时间推理能力的基础模型,能够在数字和物理环境中完成智能体任务。
  • 提出了使用Set-of-Mark (SoM)Trace-of-Mark (ToM)技术,显著增强了空间-时间智能,用于行动定位和规划,并使Magma能够在大规模异构数据集上进行有效的预训练。
  • 构建了一个大规模的预训练数据集,其中不仅包含开源的多模态视觉-语言(VL)数据集,还包括UI数据、机器人数据以及通过SoM和ToM自动标注的人类教学视频。训练语料库总共包含约3900万个多样化的样本。
  • 广泛评估了预训练的Magma模型,展示了其在广泛任务中的卓越性能。Magma通过单一参数配置,在机器人操作和UI导航任务上均超越了开源模型,达到了新的SOTA水平。
  • 展示了所提出的Magma预训练方法显著提升了模型的语言智能空间-时间智能能力。

总结速览

解决的问题

  • 多模态理解与行动的分离:现有的视觉-语言-行动(VLA)模型通常在特定任务上表现良好,但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略,而牺牲了通用的多模态理解能力。
  • 环境差异带来的挑战:2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练,难以在多个环境中通用。
  • 数据集之间的差距:多模态理解(主要是文本描述)与行动任务(主要是空间坐标)之间存在显著差距,导致直接结合数据集难以提升模型性能。

提出的方案

  • Magma基础模型:提出了一个多模态AI智能体的基础模型Magma,旨在同时具备多模态理解和多模态行动预测能力。
  • Set-of-Mark (SoM) 和 Trace-of-Mark (ToM):通过SoM标记图像中的可操作视觉对象(如GUI中的可点击按钮),通过ToM标记视频中的对象运动轨迹(如人手或机械臂的轨迹),将图像和视频数据集转化为“视觉-语言-行动”数据,以弥合不同任务类型之间的差距。
  • 统一训练:通过大量异构数据集(包括UI数据集、机器人操作数据集、人类教学视频等)进行统一训练,使模型能够在零样本情况下应用于不同的下游任务。

应用的技术

  • 多模态理解:模型能够理解来自不同领域(数字和物理)的多模态输入,不仅在语义上,还在空间和时间上。
  • 多模态行动预测:模型能够将长时程任务分解为准确的行动序列,并由AI智能体系统有效执行。
  • SoM和ToM:通过SoM和ToM标记技术,将图像和视频数据集转化为可用于行动任务的数据,提升模型的空间-时间智能。

达到的效果

  • 新SOTA结果:Magma在UI导航和机器人操作任务上创造了新的SOTA结果,超越了专门针对这些任务的模型。
  • 广泛适用性:Magma在图像和视频相关的多模态任务上也表现出色,与训练在更大数据集上的大型多模态模型相比具有竞争力。
  • 环境无关性:SoM和ToM技术环境无关,易于推广到新的智能体任务,为使用大量未标记视频(如原始教学视频)扩展模型预训练提供了有效且高效的方法。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

多模态智能体建模

问题定义

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

对于这些看似不同的输出模态,遵循一种常见做法,将所有输出转换为文本标记,以促进模型学习。将2D动作转换为文本字典(如[19]),并使用大型语言模型(LLMs)中几乎未使用的最后256个离散语言标记表示机器人动作。尽管这种统一到语言空间的方法简化了学习,但我们注意到任务之间存在显著冲突,实验中将展示这一点。接下来,我们将讨论如何缓解这些挑战,以在广泛的数据集上训练智能体基础模型。

方法

在构建多模态AI智能体的强大基础时,解决了两个关键挑战:预训练目标:如何构建统一的预训练接口以促进联合训练?一种直接的方法是预测UI导航的2D坐标、末端执行器的3D位置以及多模态视觉-语言(VL)任务的常规文本输出。然而,在实验中,观察到这些任务在输入和输出上存在固有的领域差距。前者导致像素级别的巨大搜索空间,后者直接预测本体感知动作的输出,而未基于图像观察进行接地。我们能否设计一个智能体任务来弥合所有任务之间的差距?


数据扩展:现有的视觉-语言-动作数据在数量和多样性上有限,与LLMs的语言数据或LMMs的图像-文本语料库不同。例如,最大的开源机器人数据集OXE 包含来自22个环境的约100万条轨迹。另一方面,像LAION 这样的大规模图像-文本数据集几乎不包含对动作预训练有用的监督信息,因为它们都是静态的,没有动作的概念。然而,视频描绘了大量的人类动作和人与物体的交互。我们能否充分利用这些视频数据进行智能体预训练?


本工作提出了一种简单而有效的方法来解决上述挑战。受Set-of-Mark (SoM) 提示 [126] 的通用性启发,采用它来实现UI和机器人任务中的动作接地,因为模型在预测图像空间中的可点击按钮或机器人手臂的数字标记时面临的困难较小。我们进一步沿时间轴扩展它,要求模型预测**Trace-of-Mark (ToM)**,这迫使模型通过预测远期的未来“动作”来学习更长的时间范围,更重要的是,提供了一种有效利用未标记视频数据的方法。SoM和ToM的结合实现了数字和物理领域中智能体任务的无缝协同,以及从原始视频中提取“动作”监督的可扩展方法。

Set-of-Mark 用于动作接地

SoM提示最初是为了增强GPT-4V的接地能力而提出的,随后被广泛用于各种智能体任务。与之前利用它提示现成的LMMs以增强视觉-语言接地的工作不同,我们在此提出训练一个智能体模型用于动作接地,即定位特定任务的可操作点/区域,并在需要时进一步预测原子动作。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

其中 CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区 是标记 CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区 的一个子集。


在下图3中,展示了一些实例,以演示基于SoM的动作接地(如下图1所示)。为了获得要标记的候选区域,可以利用不同的提议网络,如图像分割模型 、目标检测模型或领域特定模型。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

Trace-of-Mark 用于动作规划

视频数据包含大量关于人类动作和行为的信息,这些信息可以有效地用于提升智能体模型的能力。然而,由于缺乏动作标签,之前的方法很少探索这一方向,除了一些专注于世界模型学习的工作。通过提出Trace-of-Mark (ToM),将“叠加标记”策略从静态图像扩展到动态视频,使智能体模型能够有效地从视频中学习规划和行动。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

建模

为了保留Magma所需的多模态理解能力,采用了当前视觉-语言模型(VLMs)中的常见做法(例如LLaVA和 Phi-3-Vision)。给定视觉观察 I,使用视觉编码V将每一帧编码为若干标记,然后将所有标记连接成一个序列,并将其与编码任务描述的语言标记一起输入到仅解码器的大型语言模型(LLM)中。由于任务的多样性,需要一个能够无缝编码各种分辨率的图像和视频的视觉编码器。本文提出使用卷积网络ConvNeXt 作为视觉骨干网络,因为它默认支持任意图像分辨率。为了处理高分辨率图像(例如高达2000的UI截图),简单地执行全局编码,而不使用之前工作中的复杂技巧,并发现它可以编码全局上下文,同时结合全局和局部裁剪。最终,将智能体建模公式化为自回归解码过程:

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

多模态智能体预训练

数据集

为了开发一个具备语言和空间智能的基础模型,能够处理多样化的智能体任务,我们从广泛的图像、视频和机器人领域整理了一个综合的预训练数据集。

  • 机器人操作数据:对于机器人任务,遵循OpenVLA,使用Open-X-Embodiment 的机器人数据集。
  • UI导航数据:利用两个预训练数据集,SeeClick 和 Vision2UI 。
  • 教学视频:整理了Epic-Kitchen、Ego4d、Somethingv2 和其他相关数据集,考虑到其中包含粗糙但丰富的目标驱动的人类动作。
  • 多模态理解:最后,纳入了ShareGPT4V、LLaVA-1.5中的指令调优数据,以及其他一些OCR相关数据集,以获得图像理解能力。


还有许多相关数据集可以用于模型预训练,例如大规模指令调优数据 和更多样化的视频数据。本研究专注于展示我们的预训练方法,并将进一步的扩展留给未来。接下来,将详细阐述如何通过Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 提取智能体动作监督。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

SoM 和 ToM 生成

如下表1所示,对不同的数据类型应用SoM和ToM,其中SoM应用于所有数据以学习统一的动作接地。ToM不适用于UI数据,因为UI数据由离散的截图序列组成。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

SoM 用于 UI 导航

对于预训练数据中的UI截图,主要依赖于基于DoM Tree提取的原始注释。除了从HTML代码中提取的边界框,还进一步使用Android视图层次结构 对SeeClick数据中的移动截图进行边界框标注。给定图像中提取的候选边界框,我们应用下算法1为对象分配文本标签(第3行)并绘制边界框。为了最小化重叠框的放置,我们在计算文本框大小并分配其坐标之前(第7行),使用先前绘制的框确定标签的最佳位置(第5行)。在评估期间,遵循常见做法,使用OmniParser 对ScreenSpot 进行零样本评估,并使用 [27] 提供的候选框对Mind2Web进行下游训练和评估。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

SoM 和 ToM 用于视频和机器人数据

使用标记和轨迹作为智能体动作监督,预训练Magma模型以进行动作接地和规划。为了提取可靠的轨迹,使用最先进的点跟踪模型CoTracker 来跟踪每个视频片段中的关键点。与之前工作中使用的目标检测和跟踪系统不同,点跟踪提供了最精细的末端执行器(机器人手臂或人手)和对象的运动轨迹,更重要的是,它可以应用于任何视频,因为它不需要对象识别。

CoTracker的可靠性:为了确定这些轨迹的泛化能力,在所有预训练数据上运行算法之前检查了CoTracker的可靠性。CoTracker已经在多个视频数据集(如TAP-Vid 和 PointOdyssey)上得到了充分验证。在本工作中,提出了全面的策略来处理视频中的场景转换和相机运动(下算法2),这些策略有效地扩展到Ego4D和其他教学视频数据集(下图13)。为了进一步验证ToM的可靠性,在YouCook2-BB的一个子集上定量评估了轨迹,该子集包含人类标注的边界框。从每个标注的框中提取轨迹,并统计1秒后仍落入框内的未来轨迹数量。在1320个片段上,得到了0.89的精度,表明轨迹可靠地捕捉了时间运动。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

片段和CLIP分数过滤:由于点跟踪系统在短时间窗口内工作,首先使用提供的注释将每个视频分割成片段,然后使用PySceneDetect进一步将每个片段分解为具有一致镜头的短视频片段。然而,检测到的视频片段可能并不总是与其相关的文本注释相关。因此,使用预训练的CLIP视觉和文本编码器计算每个片段和文本对之间的余弦相似度分数,并过滤掉分数低于0.25的片段。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

预训练

上述数据和注释整理形成了一个综合的预训练套件,涵盖:

  1. 不同的数字和物理环境;
  2. 语言和空间注释;
  3. 各种多模态理解和智能体任务。


如下图6(左)所示,包含了来自SeeClick 和 Vision2UI 的近270万张UI导航截图。遵循OpenVLA,将Open-X-Embodiment中的97万条轨迹纳入其中,这些轨迹包含940万条图像-语言-动作三元组。预训练数据的大部分是视频,包含超过2500万个样本,源自约400万个镜头一致的视频片段。最后,我们纳入了来自ShareGPT4V、LLaVa-1.5 和其他一些OCR相关数据集 的120万张图像和文本对,将其称为Magma-SFT(82万)。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

默认情况下,使用LLaMA-3-8B作为语言骨干网络,ConvNext-XXlarge作为视觉骨干网络。在下图7中展示了预训练架构。本文提出的SoM和ToM作为桥梁,连接了所有四种类型数据的语言和动作监督,并显著增强了模型的空间智能,正如在实验中所观察到的那样。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

为了进行比较,在实验中运行了一些变体以进行消融研究:

  • Magma-8B (SFT):使用Magma-SFT(82万)进行指令调优的模型,遵循LMM训练中使用的常规方法。
  • Magma-8B (UI)Magma-8B (OXE):分别在UI截图和OXE机器人数据上预训练的模型。
  • Magma-8B (ACT):在UI截图和机器人数据上联合预训练的模型。
  • Magma-8B (Full):使用整个数据集(包含SoM和ToM注释)训练的完整模型。


除非另有说明,所有预训练都包括Magma-SFT(82万)。使用整理的数据对模型进行最多三个epoch的预训练,学习率恒定为1e-5,并在零样本设置下评估预训练模型在不同任务上的表现,同时在下游任务上微调其权重。整个模型(包括语言模型和视觉编码器的参数)都会被调整。

实验

智能体能力评估

评估 Magma 作为多模态智能体的基础模型在数字世界中的UI导航任务、物理世界中的机器人操作任务,以及通用多模态理解方面的有效性。

零样本评估

为了评估 Magma 的零样本迁移能力,采用 ScreenSpot 和 VisualWebBench评估 UI 动作定位和导航,并使用 SimplerEnv 评估机器人操作。此外,还在通用和文本丰富的 VQA 任务以及幻觉基准 POPE上验证了本文的模型。


如下表 2 所示,Magma 在所有其他通用领域的大型多模态模型(LMMs)(如 LLaVA、Qwen-VL)以及特定领域的智能体模型(如用于 UI 导航的 SeeClick和用于机器人操作的 OpenVLA)上始终表现优越。值得注意的是,Magma 在 UI 任务上的零样本性能远超使用 GPT-4V 和 Omniparser 的最先进视觉方法。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

本文报告了 SimplerEnv 中两种常用模拟器(Bridge 和 Google Robot)的结果,包括 8 项任务,共 172 个视觉匹配和变体聚合场景。由于 OpenVLA 在真实机器人轨迹上进行预训练,该模型在真实到模拟(real-to-sim)自适应过程中容易受到领域差距的影响。相比之下,本文的 Magma 模型在多模态理解和动作预测方面使用了广泛的异构数据集进行训练,对这种差距更具适应性,并取得了显著更高的成功率。


下图 8 展示了预训练的 Magma 模型与其他代表性模型的详细对比。值得注意的是,Magma 领先排名第二的 OpenVLA 19.6%,几乎将平均成功率翻倍。在“将物体放入抽屉”和“将胡萝卜放在盘子上”等具有挑战性的任务中,Magma 取得了卓越的成功率,而大多数基线模型完全失败。此外,在预训练模型的基础上微调的 Magma 版本比仅在机器人数据集上训练的版本表现更好,这凸显了从多样化数据集中学习的空间智能对于物理机器人操作任务的价值。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

消融研究对模型的预训练技术和数据组合进行消融实验,结果如下表 3 所示。首先,简单地将 UI 和机器人数据结合并不会带来性能提升,反而会对两类任务的性能造成损害。这是可以预见的,因为这两个智能体任务在图像域和动作空间(2D 坐标 vs. 7-DoF)上存在显著差异。在预训练中加入视频数据可以在整体上略微提升性能,但仍无法弥合二者之间的差距,因为额外的视频解说只能增强语言智能。然而,当在所有预训练数据上应用 SoM 和 ToM 并将其映射到统一接口后,模型能够有效地从异构数据中学习语言和空间智能。该研究表明,本文提出的方法是有效的,并且语言理解与空间理解对于智能体任务同等重要。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

高效微调

UI导航:遵循之前的工作 [19, 43],在Mind2Web和AITW上对Magma进行微调,分别测试其在网页和移动UI导航中的能力。对于Mind2Web,首先根据 [140] 选择的候选框对训练样本应用SoM提示,然后在与SeeClick相同的样本上对Magma进行微调。下表4显示了三个子任务的结果,清楚地表明Magma优于通用领域和特定领域的LMMs。同样,在AITW上,Magma超越了基于开源或专有模型的最先进方法。考虑到我们使用了类似规模的LLM和适量的UI相关预训练数据,这种出色的性能主要归功于所提出的SoM和ToM建模技术,这些技术显著促进了UI导航中的动作接地。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

机器人操作:前面表2显示,未经领域特定微调的Magma模型已经优于在相同数量OXE数据上预训练27个epoch的最近提出的OpenVLA模型。接下来,我们通过将微调后的Magma模型与OpenVLA在三种设置下进行比较,验证其有效性:

  1. 在真实机器人数据上微调:评估分布外操作任务;
  2. 在模拟机器人设置中微调:使用LIBERO基准测试评估Magma在有限轨迹下的任务适应能力;
  3. 在物理WidoxW 250 Arm上评估


研究者们收集了四个操作任务,每个任务大约有50条轨迹(详见补充材料),并在这些任务上联合微调OpenVLA和Magma。为了评估,我们每个任务进行10次试验,确保模型之间的初始状态(末端执行器和对象的位置和方向)相同。如下图9所示,结果清楚地展示了Magma的优越性能。对于涉及日常对象的挑战性任务,如“Pick Place Hotdog Sausage”、“Put Mushroom in Pot”和“Push Cloth Right to Left”,OpenVLA几乎无法完成任务,主要是由于观察到的臂部运动和对象定位不精确。相比之下,Magma在这些复杂任务上表现良好,这主要归功于其从预训练中获得的空间理解和接地能力。此外评估了模型在未见任务“Push Cloth Left to Right”上的表现,该任务未包含在微调数据集中。Magma显著优于基线,表明其具有更强的保留预训练知识并泛化到新任务的能力。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

Magma的高效适应能力(通过微调)在LIBERO基准测试中的少样本微调评估中得到了进一步验证。对于基准测试中的每个任务套件,我们仅采样10条轨迹进行微调。在评估期间,每个任务套件进行100次试验。如下图10所示,结果表明Magma在所有任务套件中实现了显著更高的平均成功率。此外,在预训练期间移除SoM和ToM会对模型性能产生负面影响,这进一步证明了我们预训练方法的有效性。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

评估空间推理能力

将 Magma 模型在 UI 导航和机器人操作任务上的显著性能提升(如上所示)归因于其增强的空间推理能力。为了验证这一假设,我们在具有挑战性的视觉空间推理(VSR)、BLINK 和 SpatialEval基准测试上,以零样本(zero-shot)设置评估我们预训练模型所学到的空间智能的有效性。结果汇总在表 6 中。我们发现,Magma 在 VSR 和 SpatialEval 上的表现大幅超越现有方法,并且在 BLINK 任务上的表现与 CogVLM 相当,尽管后者使用了约 15 亿张图像进行预训练,而 Magma 仅使用了约 2900 万张图像。此外,我们的消融研究表明,SoM 和 ToM 预训练任务对于 Magma 提升空间推理能力具有重要作用。最后,在预训练过程中使用视频数据的优势,并通过实验表明,在训练数据中去除视频会导致 BLINK 任务的性能下降约 8%。此外,在下图 11 中提供了一些 Magma 模型的预测示例。空间推理问题对 GPT-4o 等最新专有模型仍然具有挑战性。尽管 Magma 没有在包含迷宫的数据上进行预训练,但它仍然能够回答与迷宫相关的空间推理问题。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

评估多模态理解

图像指令微调为了进一步评估 Magma 的多模态理解能力,在 Magma-SFT-820K 数据上进行持续微调。然后,将微调后的 Magma 模型与现有的 VLMs(视觉语言模型)进行比较,使用一系列常用的图像推理基准,例如 MME 和 GQA。如下表 7 所示,Magma 在大多数任务上超越了最近提出的 VLMs,尤其是在 TextVQA 和 ChartQA 上分别取得了约 5% 和 22% 的显著提升。与下表 6 中的观察结果类似,我们的消融研究强调了 SoM 和 ToM 预训练任务的有效性,这在 ChartQA 上带来了约 5% 的提升。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

视频指令微调下表 8中报告了 Magma 模型在多个挑战性视频问答(QA)基准测试中的表现,包括 IntentQA、NextQA、VideoMME 和 MVBench。使用 LMMs-Eval 框架进行后三个基准测试,以确保评估结果的可重复性。

CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出"时空大脑"-AI.x社区

结果展示了本文预训练方法的有效性,在不同基准测试中,Magna consistently 在大多数具有可比参数数量的最新模型中表现更好。例如,我们的 Magma 模型在 IG-VLM 和 SF-LLaVA 模型上实现了约 28% 的性能提升。IntentQA 基准评估模型理解视频中观察到的动作背后意图的能力。因此,Magma 在该数据集上取得的显著提升可能归因于我们 ToM 预训练任务的有效性,该任务鼓励模型推理未来视频帧中的时间动态。MVBench 中动作预测子任务上的显著提升也进一步证实了这一点,Magma 超越了 VideoChat2 和 LLaVA-OV 等最先进的模型。


最先进的视频 LMMs 通常依赖于像 Webvid 和 ShareGPT4Video 这样的大型视频和文本数据集进行预训练,这些数据集包含超过 400 万个样本,并且有经过策划的文本。此外,前述模型在预训练时也使用了更多的帧数。相比之下,即使在我们的案例中进行了多帧预训练,由于计算限制,我们最多只使用了 4 帧。因此,Magma 在 VideoMME 和 MVBench 上超越了 LLaVA-OV 和 ShareGPT4Video 等方法尤其具有意义,因为这些方法通常使用更大的指令微调数据集,包括图像和视频数据。此外,正如 Magma 在专有模型 GPT-4V 上获得的性能提升所证明的那样,我们注意到这些结果的改进不仅仅是因为使用了像 LLama-3 这样更新更强大的语言模型。值得注意的是,Magma 在性能上远超 LongVA,尽管它只使用了 32 帧,而 LongVA 使用了 64 帧。

结论

本文提出了 Magma 基础模型,它能够理解和处理多模态输入,以完成不同环境中的智能体任务。实验表明,在预训练中使用 SoM 和 ToM 预测任务帮助模型分别学习如何进行基础推理和规划动作。在实验中,Magma 展示了强大的时空推理能力,并且在下游的 UI 导航和机器人操作任务上显著超越了基准模型。


社会影响和局限性为了开发一个具有语言和空间智能、能够处理数字和物理环境中多样化智能体任务的基础模型,从多个领域收集了全面的预训练数据集,包括图像、视频和机器人领域:

  • UI 导航数据:利用了两个预训练数据集 SeeClick 和 Vision2UI。
  • 教学视频:由于我们的目标是学习一个能够执行日常任务(如人类)的智能体模型,我们汇编了来自 Epic Kitchen、Ego4d、Something-Something v2 和其他教学视频的数据。
  • 机器人操作数据:对于机器人任务,遵循 OpenVLA 方法,利用了 Open-X-Embodiment 中的机器人数据。
  • 多模态理解数据:最后,包括了一小部分多模态预训练数据 ShareGPT4V,以及指令调优数据 LlaVA-1.5 和其他领域特定的数据,以保持预训练模型的通用多模态理解能力。


机器人和 UI 导航数据的标注非常标准化,集中于通用的操作任务(“将 x 物体放置在 y 物体上”)和通用的 UI 导航任务(“点击搜索按钮”)。然而,我们对执行特定任务的人物视频数据进行了详细的数据反思。在这些视频中,我们的核心推论是任务执行时物体的运动轨迹。


教学视频中身份和活动的分布并未代表全球人群及社会中的多样性。意识到在使用这些数据进行训练时,可能存在无意的社会性、性别、种族及其他偏见,因此我们将确保在发布模型时提供必要的免责声明。训练数据集、任务列表和描述仅关注要执行的下一步操作,而不是描述、处理或分析任务本身。虽然模型可能会基于不良的任务描述产生意外输出,我们将确保突出展示模型训练的用例及其预期用途。


负责任的 AI值得注意的是,该模型专为受控的 Web UI 和 Android 模拟器中的 UI 导航任务以及机器人操作任务设计,不应广泛应用于其他任务。推荐的使用场景是在其训练环境内,即配备机器人臂和日常物体的封闭空间用于机器人操作,及在计算机上运行的 Android 模拟器用于 UI 操作任务。对于 UI 导航任务,研究人员应确保在每个智能体系统生成的动作中,始终由人工干预和控制。由于模型本身无法独立行动,因此研究人员使用的子模块必须确保执行模型提出的 UI 操作时不会产生意外后果。


该模型本身展示了足够的 UI 导航和机器人操作能力,但不能直接用于恶意利用场景。恶意攻击者可以使用特定的训练数据进行特定的恶意任务,将该模型作为基础来执行自动化的 UI 导航任务。这是与智能体模型相关的普遍风险。


本文转自AI生成未来 ,作者:AI生成未来


原文链接​​https://mp.weixin.qq.com/s/z69YT0Ww_QGCYQ1ghiaFXQ​


收藏
回复
举报
回复
相关推荐