鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

清华、中南开源3D交互实体AI Agent LEGENT

发布于 2025-2-19 09:56

浏览

0收藏

我们常见的AI Agent都是无法看到实体的，例如，RPA、智能按键精灵、AutoGPT等。虽然它们可以自动完成一些日常工作，但你是无法看到其真实身体。

清华大学、中南大学的研究人员联合开源了一款可视化3D交互实体AIAgent模型LEGENT，使用户可以在3D虚拟空间中与实体AI代理进行互动。

「AIGC开放社区」通过在线demo体验了一下这个代理，非常有趣就像是玩一款游戏一样。只需发送特定指令就可以让AI做一些日常动作，例如，把汽车玩具放在书本上；把地上的笔捡起来给你等。

清华、中南开源3D交互实体AI Agent LEGENT-AI.x社区

清华、中南开源3D交互实体AI Agent LEGENT-AI.x社区

LEGENT主要由场景、智能体（Agent）和界面三大块组成，同时融入了大语言模型和多模态模型，以便更好地理解用户的文本指令。

LEGENT的场景模块通过基于游戏引擎的实时物理模拟，为智能体的学习和决策提供一个逼真的3D环境。这包括精确模拟的重力、摩擦力和碰撞动力学，使得智能体能够更加自然地与环境互动，为学习和决策提供了必要的物理信息。

场景中的3D对象不仅有逼真的视觉效果，还能够进行复杂的交互操作。例如，智能体可以抓取、搬运、放置和与这些对象互动，包括动态结构如门和抽屉的操作。这种高度的交互性为智能体提供了丰富的操作体验，是学习和模拟现实世界任务的任务。

清华、中南开源3D交互实体AI Agent LEGENT-AI.x社区

此外，研究人员还为场景模块设计了灵活的可扩展性，允许开发人员导入自定义的3D对象，包括用户设计的模型、现有数据集的对象，以及通过生成模型创建的对象，方便应用在不同的业务场景中。

为了使LEGENT的智能体更具备拟人化的能力，研究人员加入了很多智能化功能。

LEGENT的智能体具备“自我中心视觉”特性，类似于人类通过自己的眼睛观察世界。这种视觉系统使智能体能够从第一人称视角捕捉环境信息，为执行任务提供了直观的视觉输入。

清华、中南开源3D交互实体AI Agent LEGENT-AI.x社区

在视觉的帮助下，使智能体能够执行一系列预定义的动作，例如，导航、物体操纵和通信。这些动作可以帮助智能体快速适应不同的新环境，甚至是真实世界的场景中，并且动作是连续性的操作，例如，移动一定距离或旋转特定角度，而不是简单的离散动作。

为了帮助用户更好地操作与智能体交流，研究人员将LEGENT的UI设计得像视频小游戏一样直观，可以通过键盘和鼠标直接与智能体和环境进行指令交互。

清华、中南开源3D交互实体AI Agent LEGENT-AI.x社区

此外，LEGENT还提供了场景生成和行为轨迹生成的界面。场景生成界面支持程序生成和语言指导生成两种方式,用户可以使用JSON格式轻松定制场景。

行为轨迹生成界面则专门为训练大型多模态模型而设计,能够高效生成包括第一人称视觉观测和对应动作的训练数据集。

清华、中南开源3D交互实体AI Agent LEGENT-AI.x社区

LEGENT的部署非常简单、高效可以在普通PC上运行，无需特定的硬件要求或复杂的配置。还支持与远程服务器的连接，便于训练和部署增强其可访问性。

开源地址：https://github.com/thunlp/LEGENT?tab=readme-ov-file

论文地址：https://arxiv.org/abs/2404.18243

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/vUDlNy4qCIlO7570ipNV5Q

标签

赞

收藏

回复

举报

回复

相关推荐

腾讯、上海科大开源InstantMesh，图片直接生成3D模型

Aceryt • 3493浏览 • 0回复
无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

Crystalcxt • 2356浏览 • 0回复
5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

Crystalcxt • 2175浏览 • 0回复
DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

angel • 2380浏览 • 0回复
3D版"裁缝"开源来袭！Tailor3D:自定义3D编辑和资产生成（港大&上海AI-Lab&港中文）

angel • 2036浏览 • 0回复
北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式！

angel • 1937浏览 • 0回复
开源视频模型SV4D，一键创建8角度动态3D视频

Aceryt • 2328浏览 • 0回复
Stability.ai开源3D模型，仅需0.5秒就能快速生成

Aceryt • 2470浏览 • 0回复
随意画个草图就能生成3D交互游戏场景！腾讯XR出品

angel • 2841浏览 • 0回复
3D人体重建新SOTA！清华&腾讯等重磅发布MagicMan：单一图像生成高质量人体新突破

angel • 2453浏览 • 0回复
3D生成基础模型来了！只需5秒，高质量3D资产规模化生成！南洋理工等重磅开源3DTopia-XL

angel • 1896浏览 • 0回复
生成任意3D和4D场景！GenXD：通用3D-4D联合生成框架 | 新加坡国立&微软

angel • 1606浏览 • 0回复
实现任意3D/4D场景生成！港科大&清华&生数发布DimensionX

angel • 3367浏览 • 0回复
3D任意部位分割：FIND 3D模型实现零样本开放世界文本查询分割

AIGC最前线 • 1544浏览 • 0回复
革新3D材质生成！Material Anything：端到端打造任意3D物体的高质量材质！

angel • 1985浏览 • 0回复
从2D到3D：北大等开源Lift3D，助力精准具身智能操作！

angel • 1991浏览 • 0回复
弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

angel • 1433浏览 • 0回复
3D动画革命！北航团队破解交互难题，一键生成影视级打斗场面

穿越时空111 • 851浏览 • 0回复
0.72秒生成3D世界！建模提速15倍！极佳&北大等的WonderTurbo强势登场，可实时交互！

angel • 657浏览 • 0回复

LV.4

AI人工智能、机器人、具身智能、大模型、机器学习、深度学习技术

觉得TA不错？点个关注精彩不错过

51

帖子

539

声望

1

粉丝

关注

最近发布

斯坦福等开源代码定位AI Agent，极大提升开发、维护效率 16h前发布
AI Agent大变天！谷歌开源A2A，一夜改变智能体交互 16h前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点 1回复

暴论：2025年，程序员必学技能就是 MCP 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

上一篇：重磅！OpenAI将开源 o3-mini，或适合手机大模型

下一篇：高盛：DeepSeek等中国大模型，加速AI对全球GDP贡献

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载