斯坦福学者提出sim2real解决方案TRANSIC: 通过在线纠正学习进行模拟到真实政策转移 原创
在模拟中学习并将学到的策略转移到现实世界有潜力实现通用型机器人。这种方法的关键挑战是解决模拟到现实(sim-to-real)之间的差距。先前的方法通常需要先验的领域特定知识。研究人员认为获得这种知识的一种简单方法是让人类观察并协助机器人在现实世界中执行策略。然后机器人可以从人类那里学习以消除各种模拟到真实的差距。研究人员提出了TRANSIC,这是一种基于人机协作框架的数据驱动方法,以实现成功的模拟到真实转移。TRANSIC允许人类通过干预和在线纠正来增强模拟策略,以全面地克服各种未建模的模拟到真实差距。残余策略可以从人类纠正中学习,并与模拟策略集成以进行自主执行。研究人员展示了该方法可以在复杂且充满接触的操纵任务(如家具装配)中实现成功的模拟到真实转移。通过在模拟中学习的策略和从人类学习的策略的协同集成,TRANSIC作为一种全面的方法有效地解决了各种通常共存的模拟到真实差距。它显示出随着人力投入的扩展而具有吸引力的属性。
方法概述
在高层次上,在模拟中训练基本策略后,研究人员将其部署到真实机器人上,并由人类操作员监控。当必要时,人类通过远程操作中断自主执行,并进行在线纠正。收集此类干预和在线纠正数据以训练残余策略,然后部署基本策略和残余策略以完成接触丰富的操纵任务。
残余策略从人类纠正中学习以弥合模拟到真实差距
这里的关键洞察是,人机协作框架有望作为整体解决模拟到真实差距,其中人类直接在政策执行期间通过提供在线纠正信号来协助物理机器人。关闭模拟到真实差距所需的知识可以从人类信号中学习。
在人类操作员监控执行的情况下部署模拟策略。当必要时,人类通过远程操作进行干预和纠正。收集此类干预和纠正数据以学习残余策略。最后,在测试时间将残余策略和模拟策略集成以实现成功转移。
大规模模拟训练以获取基本策略
利用最先进的模拟技术,研究人员在模拟中以每秒数十万帧的速度训练基本策略,极大地减轻了数据收集的人力负担。研究人员首先在大规模并行化环境中使用无模型强化学习(RL)训练教师策略。然后将RL教师策略蒸馏为学生视觉动作策略。
对于每种操纵技能,研究人员首先训练RL策略,然后将其蒸馏为视觉动作策略。应用领域随机化,以使训练的模拟策略足够健壮。研究人员做出了几项重要的设计选择,以促进模拟到真实的转移,例如采用点云输入和采用关节位置动作。
使用点云观察和关节位置动作的视觉动作策略
研究人员使用点云作为主要视觉方式。训练视觉动作策略时典型的RGB观察存在几个缺点,这些缺点阻碍了成功的转移。经过良好校准的点云观察可以规避这些问题。 研究人员首先使用OSC训练教师策略以便于学习,然后将成功的轨迹蒸馏为具有关节位置控制的学生策略。我们将这种方法称为动作空间蒸馏,并发现它对于克服模拟到真实控制器差距至关重要。
使用点云作为主要视觉方式。模拟策略是在降低的合成点云观察上训练的。它们能够转移到由标准深度相机捕获的真实世界点云观察。
实验
研究问题:
- Q1:相比传统的模拟到真实方法,TRANSIC是否能够实现更好的转移性能?
- Q2:相较于现有的交互式模仿学习(IL)方法,TRANSIC是否能更好地将人类纠正集成到模拟中学到的策略中?
- Q3:与仅从真实机器人轨迹学习的算法相比,TRANSIC是否需要更少的真实世界数据来实现良好的性能?
- Q4:TRANSIC能够有效地解决不同类型的模拟到真实差距吗?
- Q5:TRANSIC如何随着人力投入而扩展?
- Q6:TRANSIC是否表现出引人注目的特性,如对未见过的对象的泛化、有效的门控、策略稳健性、学到的视觉特征的一致性、解决长期操纵任务的能力以及其他新发现的行为?
考虑需要高精度的复杂接触丰富的家具操纵任务。具体来说,将正方形桌子的组装分为四个独立的任务:稳定、抓取、插入和螺丝。
TRANSIC在所有四项任务上表现优于所有基线方法。
研究人员展示了在模拟到真实转移中,从模拟中学习的良好基本策略可以与有限的真实世界数据相结合以取得成功(Q3)。然而,有效利用人类纠正数据来解决模拟到真实差距是具有挑战性的(Q1),特别是当我们想要防止基本策略的灾难性遗忘时(Q2)。
解决不同模拟到真实差距的有效性(Q4)
虽然TRANSIC是一种全面解决多个模拟到真实差距的方法,但本文着重介绍了它解决每个单独差距的能力。为此,研究人员创建了五组不同的模拟-现实对。对于每一组,有意地在模拟和真实世界之间制造了较大的差距。这些差距应用于真实世界设置中,包括感知误差、欠驱动控制器、实体不匹配、动力学差异和对象资产不匹配。
对不同模拟到真实差距的稳健性。数字是平均成功率(%)。极坐标图代表针对特定差距收集数据后的性能。虚线表示零次尝试的性能。阴影圆显示了五组之间的平均性能。
TRANSIC在五组不同的模拟-真实对中实现了77%的平均成功率,这表明了它关闭这些单独差距的显著能力。相比之下,最佳基线方法IWR仅实现了18%的平均成功率。研究人员将这种解决不同模拟到真实差距的效果归因于残余策略设计。
与人类努力的可扩展性(Q5)
与人类努力的可扩展性是人机协作机器人学习方法的期望属性。研究人员展示了TRANSIC比最佳基线IWR具有更好的人类数据可扩展性。如果将校正数据集的大小从完整数据集大小的25%增加到75%,TRANSIC的平均成功率相对提高了42%。相比之下,IWR仅实现了23%的相对改善。此外,随着更多人类数据的可用,IWR的性能在早期阶段就会达到平稳状态,甚至开始下降。研究人员假设IWR存在灾难性遗忘问题,并且在正确模拟人类和经过训练的机器人的行为模式方面存在困难。另一方面,TRANSIC通过仅从人类纠正中学习门控残余策略来避免这些问题。
人类纠正数据的可扩展性。数字是在不同数量的人类纠正数据下平均成功率,涵盖了四个任务。
引人注目的特性和新发现的行为(Q6)
研究人员进一步研究了TRANSIC并讨论了几个新发现的能力。展示了:1)TRANSIC已经学习了可重用的类别级对象泛化技能;2)一旦学会了门控机制,TRANSIC可以在完全自主的环境中可靠运行;3)TRANSIC对部分点云观察和次优纠正数据具有稳健性;4)TRANSIC学习了模拟和真实之间一致的视觉特征。
结论
在这项工作中,研究人员提出了TRANSIC,这是一种全面的人机协作方法,用于处理接触丰富操纵任务的模拟到真实策略转移。文中展示了在模拟到真实转移中,从模拟中学习的良好基本策略可以与有限的真实世界数据相结合以取得成功。然而,有效地利用人类纠正数据来解决模拟到真实差距是具有挑战性的,特别是当想要防止基本策略的灾难性遗忘时。TRANSIC通过从人类纠正数据中学习门控残余策略成功解决了这些挑战。展示了当同时出现不同类型的模拟到真实差距时,TRANSIC作为一种全面方法有效;它也是解决性质截然不同的个别差距的方法。它具有诸如随着人类努力的增加而扩展等吸引人的属性。
本文转载自公众号AIGC最前线