OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

人工智能 智能汽车
多模态大语言模型(MLLMs)的进展导致了对基于LLM的自动驾驶的兴趣不断增长,以利用它们强大的推理能力。

本文经自动驾驶之心公众号授权转载,转载请联系出处。

从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。

题目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者单位:北京理工大学,NVIDIA,华中科技大学

开源地址:GitHub - NVlabs/OmniDrive

多模态大语言模型(MLLMs)的进展导致了对基于LLM的自动驾驶的兴趣不断增长,以利用它们强大的推理能力。然而,利用MLLMs强大的推理能力来改进规划行为是具有挑战性的,因为它需要超越2D推理的完整3D情境意识。为了解决这一挑战,本工作提出了OmniDrive,这是一个关于智能体模型与3D驾驶任务之间强大对齐的全面框架。框架从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。这种基于查询的表示允许我们联合编码动态对象和静态地图元素(例如,交通车道),为3D中的感知-行动对齐提供了一个简洁的世界模型。进一步提出了一个新的基准,其中包括全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D基础、反事实推理、决策制定和规划。广泛的研究表明,OmniDrive在复杂的3D场景中具有出色的推理和规划能力。

网络结构

实验结果

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2024-05-09 09:29:31

3D模型自动驾驶

2022-01-24 15:51:58

AI模型数据

2010-09-30 10:31:43

J2ME3D

2024-09-27 09:51:06

2022-09-14 09:23:51

Java3D引擎

2024-12-10 09:40:00

AI3D模型

2024-11-06 09:47:00

2023-09-19 13:11:26

自动驾驶研究

2024-06-17 12:33:34

2023-06-02 10:33:35

2020-08-26 10:37:21

阿里3D

2023-10-31 12:29:11

AI模型

2022-07-13 10:20:14

自动驾驶3D算法

2024-01-29 06:50:00

3D模型

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2023-08-18 08:00:00

游戏开发3D模型

2021-06-02 06:24:05

计算机视觉3D无人驾驶

2018-03-28 09:18:35

CITE智能制造3D打印馆

2024-07-18 06:58:36

2024-05-16 09:24:17

3D技术
点赞
收藏

51CTO技术栈公众号