智胜模仿学习:SkillMimicGen引领机器人技能学习新潮流 原创

发布于 2024-10-28 12:45
浏览
0收藏

机器人操作领域一直致力于让机器人学会执行复杂任务,从模仿学习人类示范中汲取经验是一个重要方法。但收集大量人类示范数据成本高昂且耗时,尤其对于长周期任务而言,这一问题更为突出。为解决这一困境,NVIDIA的研究团队提出了SkillMimicGen(SkillGen)系统。该系统能够从少量人类示范中生成大量高质量的演示数据集,为机器人学习提供充足的数据支持。今天我们就一起来学习一下这篇论文吧!

智胜模仿学习:SkillMimicGen引领机器人技能学习新潮流-AI.x社区

1. 任务分解与技能抽象

SkillGen的核心思想是将任务分解为动作和技能片段。通过学习局部操纵技能,并利用运动规划将这些技能按顺序组合,从而完成任务。技能被定义为包含待操纵对象、启动条件、策略和终止条件的元组,这种抽象方式有助于在不同阶段对任务进行建模和管理。

智胜模仿学习:SkillMimicGen引领机器人技能学习新潮流-AI.x社区

图1:SkillGen概述。SkillGen以最少的人力投入训练出熟练的智能体。(左)首先,人类远程操作员首先收集大约3个任务演示,并标注技能片段的开始和结束位置,即每次对象交互发生的位置。(中)然后,SkillGen自动将这些局部技能演示适配到新场景中,并通过运动规划将它们连接起来,以增加成功演示的数量。(右)这些演示用于训练混合技能策略(HSP),即智能体在闭环反应技能和由运动规划执行的粗略转移运动之间交替进行。

2. 演示生成过程

在数据生成阶段,SkillGen通过自动化的试错过程,从少量源演示中采样参考技能片段,并根据新场景的初始状态进行调整和执行。运动规划在技能片段之间起着关键作用,确保机器人在自由空间中安全、高效地移动,减少策略学习的负担。通过将技能片段与运动规划相结合,SkillGen能够生成多样化且高质量的演示数据,大大提高了数据生成的成功率。

3. 混合技能策略框架

为了更好地利用生成的数据集,SkillGen引入了混合技能策略(HSP)框架。该框架学习技能的启动、控制和终止组件,使技能能够在测试时通过运动规划进行有序组合。HSP包括多种变体,如HSP-Reg、HSP-Class和HSP-TAMP,它们在学习启动条件等方面采用了不同的方法,以适应不同的任务需求。

智胜模仿学习:SkillMimicGen引领机器人技能学习新潮流-AI.x社区

图2:HSP部署。在测试时,SkillGen按顺序执行多个已学习的技能,使用运动规划将上一个技能的终止状态与下一个技能的起始状态相连接。每个技能由起始条件、闭环控制器和终止条件组成。

实验验证:SkillGen的卓越表现

1. 与现有方法对比

在实验中,SkillGen在多个方面展现出显著优势。与MimicGen相比,SkillGen的数据生成成功率大幅提高,平均成功率从40.7%提升至75.4%。在面对场景变化和杂乱环境时,SkillGen表现出更强的适应性,能够成功生成数据,而MimicGen则难以应对。

2. 策略学习能力提升

SkillGen在策略学习方面也表现出色。在相同任务上,使用SkillGen数据训练的代理性能明显优于使用源演示或MimicGen数据训练的代理。平均而言,SkillGen训练的代理成功率比MimicGen高出24%,能够在复杂任务中实现更高的成功率。

3. 真实世界应用与零样本迁移

研究团队还将SkillGen应用于真实世界的操作任务,包括在模拟环境中生成数据并训练代理,然后将其零样本迁移到真实机器人上执行任务。实验结果表明,SkillGen能够在真实世界中有效地生成数据并学习到熟练的策略,为机器人在实际场景中的应用提供了有力支持。

智胜模仿学习:SkillMimicGen引领机器人技能学习新潮流-AI.x社区

图3:(左)智能体在SkillGen数据集上的性能表现。在源演示(使用HSP - TAMP)、MimicGen [11]数据(使用BC - RNN [1])以及SkillGen数据(使用所有HSP变体)上训练的智能体成功率。与源数据相比,SkillGen数据极大地提高了智能体在(D_0)上的性能,并且SkillGen智能体明显优于MimicGen智能体,尤其是在更具挑战性的任务变体上。(右上)训练数据比较。尽管SkillGen仅使用10个人类演示来生成数据,但HSP - TAMP智能体在200个SkillGen演示和200个人类演示上的性能相当。生成更多的SkillGen演示可显著提高性能(另见附录E)。(右下)真实世界操作结果。在真实世界中使用SkillGen数据生成的HSP - Class智能体非常熟练,并且明显优于使用MimicGen数据训练的智能体。它们还可以实现从模拟到现实的零样本迁移。

未来展望与局限

尽管SkillGen取得了显著成果,但研究团队也指出了其当前的局限性。例如,在数据生成过程中需要预先知道技能序列,并且假设在每个技能片段开始时能够获取对象的位姿。未来的研究将致力于解决这些问题,进一步提高SkillGen的性能和灵活性。

SkillMimicGen为机器人技能学习提供了一种创新且高效的方法,通过自动化演示生成和混合技能策略框架,显著提升了数据生成和策略学习的性能。随着技术的不断进步,相信SkillGen将在机器人领域发挥更大的作用,推动机器人操作能力的进一步发展。


本文转载自公众号AIGC最前线  作者:实习小毕

原文链接:​​https://mp.weixin.qq.com/s/bxBdSkQ_rJweUi3WIkrEQw​​​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐