DrEureka:语言模型引导的sim2real! 原创
将在仿真中学到的策略转移到现实世界是一种获取大规模机器人技能的有前景的策略。然而,从仿真到现实的方法通常依赖于任务奖励函数和仿真物理参数的手工设计和调整,使得该过程缓慢且需要大量人力。研究人员使用大型语言模型(LLMs)来自动化和加速从仿真到现实的设计。LLM引导的从仿真到现实方法仅需要目标任务的物理仿真,并自动构建适当的奖励函数和域随机化分布以支持现实世界的转移。研究人员首先证明了可以发现与现有人工设计的竞争性从仿真到现实配置,用于四足动物的运动和灵巧操作任务。然后,展示该方法能够解决新颖的机器人任务,例如四足动物平衡和在瑜伽球上行走,而无需迭代手工设计。
DrEureka组件
DrEureka接收任务和安全指令,以及环境源代码,并运行Eureka生成一个正则化的奖励函数和策略。然后,它在不同的仿真条件下测试策略,构建一个考虑奖励的物理先验,该先验提供给LLM以生成一组域随机化(DR)参数。最后,使用合成的奖励和DR参数,它训练策略以进行现实世界的部署。
实验亮点
研究人员呈现了实验的关键定性结果,突出了DrEureka策略在真实世界瑜伽球行走任务中的稳健性,以及所有基准任务的最佳DrEureka输出。详细的定量实验和比较可在论文中找到。所有视频以1倍速播放。
DrEureka行走球画廊
DrEureka策略在真实世界中展现出令人印象深刻的稳健性,在各种真实世界的不受控制的地形条件变化和干扰下,熟练地平衡和行走在瑜伽球上。研究人员还尝试了踢球或放气球,DrEureka策略对这些干扰具有鲁棒性,并且可以从中恢复!
DrEureka奖励,DR参数和策略
研究人员对3个任务进行了DrEureka评估,包括四足球行走,四足动物运动和灵巧的立方体旋转。在此演示中,可视化了每个任务的未修改的最佳DrEureka奖励和DR参数,并可视化了在训练仿真环境以及真实世界环境中部署的策略。
定性比较
研究人员对基准四足动物运动任务进行了系统研究。
地形稳健性。在四足动物运动任务中,研究人员还系统评估了DrEureka策略在几种真实世界地形上的表现,并发现它们保持稳健并且优于使用人工设计的奖励和DR配置训练的策略。
默认以及额外的真实世界环境,用于测试四足动物运动中的DrEureka稳健性。
DrEureka在不同地形上表现一致,并保持对人工设计的优势。
DrEureka安全指令。DrEureka的LLM奖励设计子程序通过纳入安全指令改进了Eureka。研究人员发现这对于生成足以在现实世界部署的奖励函数至关重要。
DrEureka奖励感知物理先验。通过广泛的消融研究,研究人员发现使用初始Eureka策略生成奖励感知的物理先验对于DrEureka的成功至关重要,
译自(有删改):https://eureka-research.github.io/dr-eureka/
本文转载自公众号AIGC最前线