ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent 原创

发布于 2024-5-7 06:52
浏览
0收藏

RoboAgent能够高效地获取各种复杂技能,并将其推广到多样化的未知场景中

RoboAgent是作者多个前期工作的集成,包括GenAug、CACTI、ACT,同时也是未来许多更多研究方向的起点。相比于以往的工作,例如Google的RT-1,以及更新的RT-2,RoboAgent研究了与大型语言模型相关的大型演示数据集的机器人学习泛化问题。与此不同的是,RoboCat使用了一个迭代学习和数据泛化管道以进行快速适应。最近的研究也表明,使用动作分块或扩散模型等更高效的策略表示方法对多模态数据进行建模具有优势。最后,最近的工作,如ROSIE、GenAug、CACTI,还使用了基于开放世界对象检测的方法进行语义增强,其他相关工作(如R3M、H2R、VRB)则研究了将大部分被动学习与一些主动微调相结合的不同方式。

在RoboAgent中,研究人员仅仅依靠7500条轨迹的训练,得到了一个通用的RoboAgent,它能够展示12种非平凡操纵技能,除了拾取/推动外,还包括关节对象操纵和对象重新定位。跨越38个任务,并将其推广到数百个多样化的未知场景,涉及未知对象、未知任务,甚至完全未知的厨房。RoboAgent还可以通过新的经验来发展其能力。

RoboAgent能够在38个任务中展示12种技能

迈向通用机器人代理

因果困境:多年来,拥有一个能够在多样化环境中操作任意物体的单一机器人一直是一个遥不可及的目标。这部分是由于缺乏多样化的机器人数据集来训练这样的代理,同时也缺乏能够生成这种数据集的通用代理。

摆脱恶性循环:为了摆脱这一恶性循环,研究人员重点是开发一种能够在实际数据预算下获得多个技能的通用代理,并将其推广到多样化的未知情况下的有效范式。

RoboAgent是两年努力的结晶,它基于以下模块化和可重用的要素:

  • RoboPen - 一种使用通用硬件构建的分布式机器人基础设施,能够进行长期不间断的运行。
  • RoboHive - 一个统一的框架,用于模拟和实际操作中的机器人学习。
  • RoboSet - 一个高质量的数据集,代表了多个技能在不同场景中的日常对象。
  • MT-ACT - 一种有效的语言条件化多任务离线模仿学习框架,通过在现有机器人经验上创建语义增强的多样化集合,扩展了离线数据集,并采用了一种新颖的策略架构,其中包括高效的动作表示,以在数据预算下恢复高性能策略。

RoboSet:多技能多任务多模态数据集

构建一个能够推广到许多不同情景的机器人代理需要一个涵盖范围广泛的数据集。鉴于扩大规模的努力通常会帮助,例如RT-1呈现了大约130,000个机器人轨迹的结果,目标是在数据预算下理解学习系统的效率和泛化原理。低数据区域通常会导致过拟合。因此,主要目标是开发一种强大的范式,能够在低数据预算环境下学习可推广的通用策略,同时避免过拟合。

ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent -AI.x社区

技能与数据集在机器人学习中的表现

用于训练RoboAgent的数据集RoboSet(MT-ACT)仅包括7500条轨迹(RT1的18倍少)。该数据集提前收集,并被冻结。它包括使用人类远程操作在通用机器人硬件上收集的高质量(大多数成功)轨迹,即Franka-Emika机器人与Robotiq夹爪,涵盖多个任务和场景。RoboSet(MT-ACT)在几个不同的上下文中稀疏地覆盖了12种独特的技能。它通过将日常厨房活动(例如泡茶,烘烤)分解为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取放置技能,但也包括接触丰富的技能,例如擦拭,盖上,以及涉及关节对象的技能。

ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent -AI.x社区

机器人系统和数据收集中使用的对象的快照

除了用于训练RoboAgent的RoboSet(MT-ACT)之外,研究人员发布了RoboSet,这是在几个相关项目中收集的一个规模更大的数据集,总共包含100,050个轨迹,包括非厨房场景。

MT-ACT:多任务动作分块Transformer

RoboAgent基于两个关键洞见来学习在低数据环境中具有泛化能力的策略。它利用基础模型的世界先验来避免模式崩溃,并采用一种新颖高效的策略表示方法,能够处理高度多模态数据。

  • 语义增强:RoboAgent通过创建RoboSet(MT-ACT)的语义增强来注入基础模型的世界先验。由此产生的数据集通过SAM(Semantic Augmentation Module)将机器人的经验与世界先验相乘,无需额外的人类/机器人成本。使用SAM来分割目标对象,并将它们在形状、颜色、纹理等方面进行语义增强,转变为不同的对象。
  • 高效策略表示:由此产生的数据集具有丰富的多模态性,包含各种技能、任务和情景。研究人员将动作分块技术应用于多任务环境中,开发了MT-ACT——一种新颖的高效策略表示方法,能够处理高度多模态的数据集,同时避免在低数据预算环境中的过拟合问题。

RoboAgent比现有方法更加样本高效

下图比较了MT-ACT策略表示与几种模仿学习架构。对于这个结果,MT-ACT仅使用包括对象姿态变化和部分光照变化的环境变化。与以往的工作类似,称为L1泛化。从结果中可以清楚地看出,使用动作分块来建模子轨迹明显优于所有基线方法,从而加强了所提出的策略表示方法在样本高效学习中的有效性。

ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent -AI.x社区

RoboAgent在多个泛化级别上表现良好

ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent -AI.x社区

上图显示了测试方法的不同泛化级别。研究人员可视化了泛化级别,L1代表对象姿态变化,L2代表具有不同桌面背景和干扰物的多样化,L3代表新颖的技能-对象组合。接下来展示了每种方法在这些泛化级别上的表现。在严格的评估研究中,可以观察到MT-ACT在更难的泛化级别(L3)上明显优于所有其他方法。

ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent -AI.x社区

RoboAgent具有很高的可扩展性

接下来,研究人员评估了RoboAgent在语义增强水平增加时的表现。对一个活动(5种技能)进行了评估。下图显示,随着数据的增加(即每帧的增强增加),性能在所有泛化级别上都有显著提高。重要的是,对于更难的任务(L3泛化),性能增长更大。

ICRA 2024:基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent -AI.x社区


论文:https://arxiv.org/pdf/2309.01918

代码:https://github.com/robopen/roboagent/

译自(有删改):https://robopen.github.io/


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/OqdgoTD8SHs8U83ECtBFJg​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐