鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

DrEureka：语言模型引导的sim2real！原创

发布于 2024-5-7 06:47

浏览

0收藏

将在仿真中学到的策略转移到现实世界是一种获取大规模机器人技能的有前景的策略。然而，从仿真到现实的方法通常依赖于任务奖励函数和仿真物理参数的手工设计和调整，使得该过程缓慢且需要大量人力。研究人员使用大型语言模型（LLMs）来自动化和加速从仿真到现实的设计。LLM引导的从仿真到现实方法仅需要目标任务的物理仿真，并自动构建适当的奖励函数和域随机化分布以支持现实世界的转移。研究人员首先证明了可以发现与现有人工设计的竞争性从仿真到现实配置，用于四足动物的运动和灵巧操作任务。然后，展示该方法能够解决新颖的机器人任务，例如四足动物平衡和在瑜伽球上行走，而无需迭代手工设计。

DrEureka组件

DrEureka接收任务和安全指令，以及环境源代码，并运行Eureka生成一个正则化的奖励函数和策略。然后，它在不同的仿真条件下测试策略，构建一个考虑奖励的物理先验，该先验提供给LLM以生成一组域随机化（DR）参数。最后，使用合成的奖励和DR参数，它训练策略以进行现实世界的部署。

实验亮点

研究人员呈现了实验的关键定性结果，突出了DrEureka策略在真实世界瑜伽球行走任务中的稳健性，以及所有基准任务的最佳DrEureka输出。详细的定量实验和比较可在论文中找到。所有视频以1倍速播放。

DrEureka行走球画廊

DrEureka策略在真实世界中展现出令人印象深刻的稳健性，在各种真实世界的不受控制的地形条件变化和干扰下，熟练地平衡和行走在瑜伽球上。研究人员还尝试了踢球或放气球，DrEureka策略对这些干扰具有鲁棒性，并且可以从中恢复！

DrEureka奖励，DR参数和策略

研究人员对3个任务进行了DrEureka评估，包括四足球行走，四足动物运动和灵巧的立方体旋转。在此演示中，可视化了每个任务的未修改的最佳DrEureka奖励和DR参数，并可视化了在训练仿真环境以及真实世界环境中部署的策略。

DrEureka：语言模型引导的sim2real！ -AI.x社区

定性比较

研究人员对基准四足动物运动任务进行了系统研究。

地形稳健性。在四足动物运动任务中，研究人员还系统评估了DrEureka策略在几种真实世界地形上的表现，并发现它们保持稳健并且优于使用人工设计的奖励和DR配置训练的策略。

DrEureka：语言模型引导的sim2real！ -AI.x社区

默认以及额外的真实世界环境，用于测试四足动物运动中的DrEureka稳健性。

DrEureka：语言模型引导的sim2real！ -AI.x社区

DrEureka在不同地形上表现一致，并保持对人工设计的优势。

DrEureka安全指令。DrEureka的LLM奖励设计子程序通过纳入安全指令改进了Eureka。研究人员发现这对于生成足以在现实世界部署的奖励函数至关重要。

DrEureka奖励感知物理先验。通过广泛的消融研究，研究人员发现使用初始Eureka策略生成奖励感知的物理先验对于DrEureka的成功至关重要，

译自（有删改）：https://eureka-research.github.io/dr-eureka/

本文转载自公众号AIGC最前线

原文链接：https://mp.weixin.qq.com/s/ZpSaxuFeAXzKkkt_x5Xcfg

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

大型语言模型

赞

收藏

回复

举报

回复

相关推荐

MolGen: 化学反馈引导的预训练分子生成

mb5f8eba9bdb0af • 2965浏览 • 0回复
斯坦福学者提出sim2real解决方案TRANSIC: 通过在线纠正学习进行模拟到真实政策转移

AIGC最前线 • 5038浏览 • 0回复
3DitScene：通过语言引导的解耦 Gaussian Splatting开源来袭！

angel • 3994浏览 • 0回复
ICML 2024 Oral｜外部引导的深度聚类新范式

轻薄滴假象 • 3164浏览 • 0回复
大语言模型llama-2-7b推理服务实战

zhcs333 • 5193浏览 • 0回复
电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力

sbf_2000 • 5227浏览 • 0回复
MUMU：用文本、图像引导，多模态图像生成模型

Aceryt • 2876浏览 • 0回复
超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！

angel • 2774浏览 • 0回复
3DitScene：通过语言引导的解耦 Gaussian Splatting开源来袭！

angel • 2787浏览 • 0回复
微软开源视觉语言模型Florence-2的应用实战

51CTO内容精选 • 3171浏览 • 0回复
Zyphra发布Zamba2-7B：新一代高性能小型语言模型

Halo咯咯 • 2774浏览 • 0回复
探索 mcdse-2b-v1：全新高效的多语言文档检索模型

Halo咯咯 • 2652浏览 • 0回复
多模态大模型Qwen2的深入了解

一起AI技术 • 4006浏览 • 0回复
ACL2024 |解释引导的大语言模型主动蒸馏：一种优化知识转移的创新框架 "ELAD"

arnoldzhw • 3186浏览 • 0回复
Real-Time Voice Cloning：5 秒解锁声音克隆，凭啥斩获 52.9k Stars？

穿越时空111 • 4796浏览 • 0回复
Hugging Face 发布 SmolVLM：用于设备端推理的 2B 参数视觉语言模型

Halo咯咯 • 3099浏览 • 0回复
MedRAG：利用知识图谱引导推理提升医疗Copilot的RAG能力 - 新加坡南洋理工等

知识图谱科技 • 4488浏览 • 0回复
EVEv2.0，视觉语言分开编码，多模态视觉语言理解；视觉信息引导与标记逻辑增强减少大语言模型幻觉

AI研究前瞻 • 2658浏览 • 0回复
2025年2月五大优秀大语言模型

51CTO内容精选 • 3865浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

预测未来模型能力！微调揭示LLM涌现能力的关键 2024-12-09 09:10:30发布
预测未来模型能力！微调揭示LLM涌现能力的关键 2024-12-03 15:46:55发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇： ICLR 2024：确定性与随机环境中的effective horizon！

下一篇： ICRA 2024：基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载