Meta推出开放世界具身问答数据集OpenEQA：视觉大模型在具身智能上还有很长的路要走！原创

发布于 2024-4-15 14:53

浏览

0收藏

想象一个实体化的 AI 代理，充当家庭机器人的大脑或时尚的智能眼镜。这样的代理需要利用视觉等感知模态来理解周围环境，并能够用清晰、日常语言有效地与人交流。这类似于构建“世界模型”，即代理对外部世界的内部表示，可以通过语言查询。这是一个长期愿景和一个艰巨的研究挑战——Meta正在积极探索。

近日，Meta发布了开放词汇体验问答（OpenEQA）框架——一个衡量 AI 代理通过开放词汇问题来理解其环境的新基准。这类似于我们如何评估人类对概念的理解，即通过问问题并评估他们的答案。OpenEQA 包含两个任务：

（1）叙事记忆EQA，其中实体化的 AI 代理根据其对过去经验的回忆来回答问题；
（2）主动EQA，在其中代理必须在环境中采取行动以收集必要的信息并回答问题。

Meta推出开放世界具身问答数据集OpenEQA：视觉大模型在具身智能上还有很长的路要走！ -AI.x社区

Meta使用OpenEQA对几个最先进的视觉+语言基础模型（VLMs）进行了基准测试，并发现即使是性能最好的模型（GPT-4V达到48.5%）与人类表现（85.9%）之间也存在显著差距。特别值得关注的是，对于需要空间理解的问题，即使是最好的VLMs几乎是“盲目”的——也就是说，它们的表现并不比仅文本模型好多少，这表明利用视觉信息的模型并没有从中获得实质性的好处，并且在回答视觉问题时依赖于在文本中捕获的有关世界的先验知识。举个例子，对于问题“I'm sitting on the living room couch watching TV. Which room is directly behind me?”，模型基本上是随机猜测不同的房间，而没有从视觉叙事记忆中获得明显的好处，这应该提供对空间的理解。这表明，在实体化AI代理准备好进入主流之前，需要在感知和推理方面进行额外的改进。

OpenEQA将具有挑战性的开放词汇问题与以自然语言回答的能力相结合。这产生了一个直观的基准测试，显示了对环境的强大理解，并对当前的基础模型构成了重大挑战。我们希望这项工作能激发更多的研究，帮助AI理解和沟通它所看到的世界。

论文：https://open-eqa.github.io/assets/pdfs/paper.pdf

数据集：https://github.com/facebookresearch/open-eqa

本文转载自公众号AIGC最前线

原文链接：https://mp.weixin.qq.com/s/DYeA726vYh8ADVQwdJsJiw

标签

51CTO

51CTO博客

51CTO学堂

Meta推出开放世界具身问答数据集OpenEQA：视觉大模型在具身智能上还有很长的路要走！原创

51CTO

51CTO博客

51CTO学堂

Meta推出开放世界具身问答数据集OpenEQA：视觉大模型在具身智能上还有很长的路要走！ 原创

Meta推出开放世界具身问答数据集OpenEQA：视觉大模型在具身智能上还有很长的路要走！原创