鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务

发布于 2024-8-23 08:47

浏览

0收藏

谷歌DeepMind在社交平台分享了最新研究，将大模型Gemini 1.5 Pro集成在实体机器人中，为其提供导航、推理等服务。

由于缺乏高级认知、学习能力、语义理解以及数据存储等，传统机器人的“回忆能力”较差，无法提供更人性化的服务。而Gemini 1.5 Pro提供的100万Tokens上下文长度，可有效解决这些难题，通过语音对话的方式将能让机器人执行各种任务同时具备回忆的能力。

根据谷歌的测试结果显示，在Gemini 1.5 Pro的帮助下，在836平方米的真实测试空间中，让实体机器人执行了57种四大类型的指令任务，成功率平均在71%左右。

论文地址：https://arxiv.org/abs/2407.07775

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务-AI.x社区

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务-AI.x社区

研究人员在Gemini 1.5 Pro的文本、图像、音频等能力基础之上，开发了多模态视觉语言导航模型Mobility VLA。

在Mobility VLA模型中，Gemini 1.5 Pro会被用来理解用户的多模态指令。这些指令包括自然语言描述、图像或者二者的结合，例如，当用户手持一个物品并询问“我应该把这个放在哪里？”时，Gemini 1.5 Pro需要能够理解这一指令的语义内容，识别出用户手中的物品。

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务-AI.x社区

在理解了用户的语言指令后，接下来Gemini 1.5 Pro会在示范旅游视频中定位与指令相关的目标帧。

一些示范数据提供了环境的先验知识，Gemini 1.5 Pro通过分析这些视频，能够识别出与用户指令相匹配的场景，并深入分析和对用户指令的精确匹配，确保机器人能够准确地导航到正确的位置。

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务-AI.x社区

在确定了目标帧后，Gemini 1.5 Pro的输出将被用作Mobility VLA低层策略的输入。

低层策略主要负责生成实体机器人的实际各种动作，包括前进、后退或转向。Gemini 1.5 Pro通过其长上下文处理能力，能够在整个视频的背景下识别出最合适的目标帧，并将这些信息传递给低层策略，从而帮助机器人生成精确的导航路径。

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务-AI.x社区

此外，Gemini 1.5 Pro在Mobility VLA模型中的作用不仅限于理解用户指令和定位目标。凭借其超长的上下文处理能力，还有助于提升导航的准确性和鲁棒性。

在复杂的真实环境中，机器人可能会遇到各种意外情况，例如，遭遇座椅等障碍物或实时的环境变化。Gemini 1.5 Pro能够通过其对环境的深度理解，帮助机器人快速适应这些变化，对接下来的行动指令做出准确判断，在面对复杂和动态的环境时，仍能保持高效的导航性能。

谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务-AI.x社区

为了测试Mobility VLA在实体机器人的帮助能力，研究人员构建了一个836平方米的真实空间，里面有架子、桌子、椅子等各种日常家具，还使用了无需推理、需要推理、多模态等多种类型指令进行了综合测试。

实验结果显示，在无需推理的20个指令中，机器人的成功率达到了80%，显示出其在处理直接且明确的导航任务时的高效性。

在需要推理的15个指令中，机器人也达到了80%的成功率，这证明了其在理解和处理复杂用户指令方面拥有相当出色的能力。

尽管在小物体类别都得12个指令中，成功率略有下降至40%，但这也在一定程度上反映了小物体识别的挑战性。而在多模态的10个指令中，机器人的成功率再次提升至85%，显示了其在整合视觉和语言信息方面的优势。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/YQaPG08Xy0HYtear_McUKg

标签

赞

收藏

回复

举报

回复

相关推荐

ChatGPT实体化了！手机变身ChatGPT实体机器人，只需一个配件，能说话还会做梦，真的牛！

pangguiyu • 4515浏览 • 0回复
大模型一定就比小模型好？谷歌的这项研究说不一定

轻薄滴假象 • 3000浏览 • 0回复
谷歌 DeepMind CEO Hassabis 畅谈 Gemini、Scalin Law、通用机器人、大模型开源、超级人工智能

lintoms • 2914浏览 • 0回复
Meta NLLB团队：将神经机器翻译扩展到200种语言，问鼎Nature！

AIGC最前线 • 4067浏览 • 0回复
探讨 | 大模型在传统NLP任务的使用姿势

NLP工作站 • 3980浏览 • 0回复
大型语言模型与智能机器人集成的调查研究

AIRoobt • 3538浏览 • 0回复
苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

Aceryt • 3405浏览 • 0回复
大型语言模型（LLM）在机器人领域的机遇、挑战与展望

AIRoobt • 5940浏览 • 0回复
新版PyTorch：AI任务加速与Intel GPU集成

鲁班模锤1 • 3283浏览 • 0回复
LLM+P：赋予大语言模型最佳机器人规划能力

AIRoobt • 3250浏览 • 0回复
大模型在机器人领域的应用：机遇、挑战与前景

AIRoobt • 4795浏览 • 0回复
训练模拟人形机器人的五种强化学习技术大PK

51CTO内容精选 • 4003浏览 • 0回复
丰田、波士顿动力联手开发，实体大型行为模型机器人

Aceryt • 2292浏览 • 0回复
探讨 | 大模型在传统NLP任务的使用姿势

NLP工作站 • 3340浏览 • 0回复
将大语言模型集成到现有软件系统的完整指南

51CTO内容精选 • 3391浏览 • 0回复
使用大模型实现一个聊天机器人思路以及困难点

AI探索时代 • 3021浏览 • 0回复
12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X：7B具身多模态动作模型

angel • 3899浏览 • 0回复
机器人ChatGPT时刻！英伟达开源世界大模型，完美模拟物理世界！

Aceryt • 3619浏览 • 0回复
为什么大模型在 OCR 任务上表现不佳？

Baihai_IDP • 1444浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦 2025-04-24 09:57:36发布
字节跳动开源多模态AI Agent—UI-TARS-1.5 2025-04-23 11:55:00发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇：谷歌通过数据增强、对比调优，减少多模态模型幻觉

下一篇：美国律师协会：ChatGPT等生成式AI，能帮助律师提升效率

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载