LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

这篇论文致力于解决当前多模态大语言模型 (MLLMs) 在自动驾驶应用中存在的关键挑战，尤其是将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆 (AVs) 必须对3D环境做出准确的决策，这一扩展显得尤为重要。3D空间理解对于AV来说必不可少，因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。

当前的多模态大语言模型（如LLaVA-1.5）通常仅能处理较低分辨率的图像输入（例如），这是由于视觉编码器的分辨率限制和LLM序列长度的限制。然而，自动驾驶应用需要高分辨率的多视角视频输入，以确保车辆能在长距离内感知环境并安全决策。此外，现有的许多2D模型架构难以有效处理这些输入，因为它们需要大量的计算和存储资源。

在此背景下，本文提出了一种全新的3D MLLM架构，借鉴了Q-Former风格的设计。该架构采用交叉注意力解码器，将高分辨率的视觉信息压缩到稀疏查询中，使其更易于扩展到高分辨率输入。这种架构与视角模型家族（如DETR3D、PETR(v2)、StreamPETR和Far3D）具有显著的相似性，因为它们都利用了稀疏的3D查询机制。通过对这些查询附加3D位置编码并与多视角输入进行交互，本文的架构实现了对3D空间的理解，从而更好地利用了2D图像中的预训练知识。

除了模型架构的创新，本文还提出了一个更具挑战性的基准——OmniDrive-nuScenes。该基准涵盖了一系列需要3D空间理解和长距离推理的复杂任务，并引入了反事实推理基准，以通过模拟决策和轨迹来推测潜在结果。这一基准有效弥补了当前开放式评估中偏向于单一专家轨迹的问题，从而避免了在专家轨迹上的过拟合。

综上所述，本文通过提出一个全面的端到端自主驾驶框架OmniDrive，在LLM-agent的基础上提供了一种有效的3D推理和规划模型，并构建了一个更具挑战性的基准，推动了自动驾驶领域的进一步发展。具体贡献如下：

提出了一种3D Q-Former架构，适用于各种驾驶相关任务，包括目标检测、车道检测、3D视觉定位、决策制定和规划。
引入了OmniDrive-nuScenes基准，这是第一个为解决规划相关挑战而设计的QA基准，涵盖了精确的3D空间信息。
实现了在规划任务上的最佳表现。

详解OmniDrive

整体结构

本文提出的OmniDrive-Agent结合了Q-Former和基于查询的3D感知模型的优点，在多视角图像特征中高效获取3D空间信息，解决自主驾驶中的3D感知与规划任务。整体架构如图所示。

视觉编码器：首先，使用共享的视觉编码器提取多视角图像特征。
位置编码：将提取的图像特征与位置编码一起输入到Q-Former3D中。
Q-Former3D模块：其中，表示拼接操作。为了简洁起见，公式中省略了位置编码。此步骤后，查询集合成为交互后的。其中，表示3D位置编码，是多视角图像特征。

多视角图像特征采集：接下来，这些查询从多视角图像中收集信息：
查询初始化与自注意力：在Q-Former3D中，初始化检测查询和载体查询，并进行自注意力操作以交换它们之间的信息：

输出处理：

感知任务预测：利用感知查询预测前景元素的类别和坐标。
载体查询对齐与文本生成：载体查询则通过单层MLP对齐至LLM令牌的维度（如LLaMA中的4096维度），并进一步用于文本生成。

载体查询的作用

通过该架构设计，OmniDrive-Agent能够高效地从多视角图像中获取丰富的3D空间信息，并结合LLM进行文本生成，为3D空间感知与自主驾驶提供新的解决方案。

Multi-task and Temporal Modeling

作者的方法受益于多任务学习和时序建模。在多任务学习中，作者可以为每个感知任务集成特定的Q-Former3D模块，并采用统一的初始化策略（请参见\cref{Training Strategy}）。在不同的任务中，载体查询能够收集不同交通元素的信息。作者的实现涵盖了诸如中心线构建和3D目标检测等任务。在训练和推理阶段，这些模块共享相同的3D位置编码。

关于时序建模，作者将具有top-k分类分数的感知查询存储在记忆库中，并逐帧传播。传播后的查询通过交叉注意力与当前帧的感知查询和载体查询进行交互，从而扩展模型对视频输入的处理能力。

Training Strategy

OmniDrive-Agent的训练策略分为两个阶段：2D预训练和3D微调。在初始阶段，作者首先在2D图像任务上对多模态大模型（MLLMs）进行预训练，以初始化Q-Former和载体查询。移除检测查询后，OmniDrive模型可以被视为一个标准的视觉语言模型，能够基于图像生成文本。因此，作者采用LLaVA v1.5的训练策略和数据，在558K图文对上预训练OmniDrive。在预训练期间，除Q-Former外，所有参数保持冻结状态。随后，使用LLaVA v1.5的指令调优数据集对MLLMs进行微调。在微调过程中，图像编码器保持冻结，其他参数均可训练。

在3D微调阶段，目标是增强模型的3D定位能力，同时尽可能保留其2D语义理解能力。为此，作者为原始的Q-Former添加了3D位置编码和时序模块。在该阶段，作者使用LoRA技术以较小的学习率微调视觉编码器和大语言模型，并以相对较大的学习率训练Q-Former3D。在这两个阶段中，OmniDrive-Agent的损失计算仅包括文本生成损失，而不考虑BLIP-2中的对比学习和匹配损失。

OmniDrive-nuScenes

为了对驾驶多模态大模型代理进行基准测试，作者提出了OmniDrive-nuScenes，这是一个基于nuScenes数据集的新型基准，包含高质量的视觉问答（QA）对，涵盖了3D领域的感知、推理和规划任务。

OmniDrive-nuScenes的亮点在于其完全自动化的QA生成流程，该流程使用GPT-4生成问题和答案。类似于LLaVA，作者的流程将3D感知的标注作为上下文信息提供给GPT-4。在此基础上，作者进一步利用交通规则和规划模拟作为额外输入，帮助GPT-4更好地理解3D环境。作者的基准不仅测试模型的感知和推理能力，还通过涉及注意力、反事实推理和开环规划的长时域问题，挑战模型在3D空间中的真实空间理解和规划能力，因为这些问题要求对未来几秒内的驾驶规划进行模拟以得出正确答案。

除了用于离线问答的生成流程外，作者还提出了一个在线生成多样化定位问题的流程。这个流程可以看作是一种隐含的数据增强方式，用于提升模型的3D空间理解和推理能力。

Offline Question-Answering

在离线QA生成流程中，作者使用上下文信息来生成nuScenes上的QA对。首先，作者使用GPT-4生成场景描述，并将三视角的前视图和三视角的后视图拼接成两幅独立的图像输入到GPT-4中。通过提示输入，GPT-4可以描述天气、时间、场景类型等信息，并识别各视角的方向，同时避免逐视角描述，而是以相对自车的位置描述内容。

接下来，为了让GPT-4V更好地理解交通元素之间的相对空间关系，作者将对象和车道线的关系表示成类似文件树的结构，并根据对象的3D边界框，将其信息转换成自然语言描述。

随后，作者通过模拟不同的驾驶意图生成轨迹，包括车道保持、左侧换道和右侧换道，并利用深度优先搜索算法将车道中心线连接起来，生成所有可能的行驶路径。此外，作者对nuScenes数据集中自车轨迹进行了聚类，选取具有代表性的驾驶路径，并将其作为模拟轨迹的一部分。

最终，通过对离线QA生成流程中的不同上下文信息进行组合，作者能够生成多种类型的QA对，包括场景描述、注意力对象识别、反事实推理和决策规划。GPT-4可以基于模拟和专家轨迹识别威胁对象，并通过对驾驶路径的安全性进行推理，给出合理的驾驶建议。

Online Question-Answering

为了充分利用自动驾驶数据集中的3D感知标注，作者在训练过程中以在线方式生成大量定位类任务。这些任务旨在加强模型的3D空间理解和推理能力，包括：

2D到3D定位：给定特定相机上的2D边界框，模型需要提供对应对象的3D属性，包括类别、位置、大小、朝向和速度。
3D距离：基于随机生成的3D坐标，识别目标位置附近的交通元素，并提供它们的3D属性。
车道到对象：基于随机选择的车道中心线，列出该车道上的所有对象及其3D属性。

Metrics

OmniDrive-nuScenes数据集涉及场景描述、开环规划和反事实推理任务。每个任务侧重不同的方面，难以使用单一指标进行评估。因此，作者针对不同的任务设计了不同的评估标准。

对于场景描述相关任务（如场景描述和注意力对象选择），作者采用常用的语言评估指标，包括METEOR、ROUGE和CIDEr来评估句子相似性。在开环规划任务中，作者使用碰撞率和道路边界交叉率来评估模型的性能。对于反事实推理任务，作者使用GPT-3.5提取预测中的关键字，并将这些关键字与真实情况进行比较，以计算不同事故类别的精确率和召回率。

实验结果

上表展示了对规划相关任务的消融研究结果，包括反事实推理和开环规划的性能评估。

完整模型，即Q-Former3D，在反事实推理和开环规划任务上都表现出色。在反事实推理任务中，模型在“红灯违规”和“可通行区域违规”类别上都展示了较高的精准率和召回率，分别为57.6%/58.3%和48.5%/58.6%。同时，该模型在“碰撞”类别中取得了最高的召回率（72.6%）。在开环规划任务中，Q-Former3D在平均碰撞率和路界交叉率上均表现出色，分别达到了3.79%和4.59%。

移除在线训练数据（No Online）后，反事实推理任务中的“红灯违规”类别召回率有所提高（65.6%），但整体性能略有下降。碰撞和可通行区域违规的精准率和召回率均较完整模型略低，而开环规划任务的平均碰撞率上升至4.93%，平均路界交叉率下降到4.02%，这反映出在线训练数据对于提高模型整体规划性能的重要性。

在架构消融实验中，Q-Former2D版本在“红灯违规”类别上取得最高精准率（58.3%）和较高召回率（61.1%），但其他类别的表现不如完整模型，特别是“碰撞”和“可通行区域违规”类别的召回率明显下降。在开环规划任务中，平均碰撞率和路界交叉率均高于完整模型，分别为3.98%和6.03%。

采用Dense BEV架构的模型在所有类别的反事实推理任务上均表现较好，但召回率整体偏低。开环规划任务中的平均碰撞率和路界交叉率分别达到了4.43%和8.56%。

当移除时间模块时（No Temporal），模型在反事实推理任务的表现显著下降，特别是平均碰撞率上升至6.07%，路界交叉率达到5.83%。

在感知监督方面，移除车道线监督（No Lane）后，模型在“碰撞”类别的召回率显著下降，而反事实推理任务的其他类别和开环规划任务的指标表现相对稳定。完全移除物体与车道线的3D感知监督（No Object & Lane）后，反事实推理任务各类别的精准率和召回率均有下降，特别是“碰撞”类别的召回率降至53.2%。开环规划任务中的平均碰撞率和路界交叉率分别升至6.77%和8.43%，显著高于完整模型。

从以上实验结果可以看出，完整模型在反事实推理和开环规划任务中表现出色。在线训练数据、时间模块以及车道线与物体的3D感知监督对模型性能的提升起到了重要作用。完整模型能够有效地利用多模态信息进行高效的规划与决策，而消融实验的结果进一步验证了这些组件在自动驾驶任务中的关键作用。

同时，来看NuScenes-QA的表现：展示了OmniDrive在开环规划任务中的性能，与其他现有方法进行了对比。结果显示，OmniDrive++（完整版本）在各项指标上均取得了最佳表现，尤其在开环规划的平均误差、碰撞率和路界交叉率三个方面均优于其他方法。

OmniDrive++的表现：OmniDrive++模型在1秒、2秒和3秒的预测时间内，L2平均误差分别为0.14、0.29和0.55米，最终平均误差仅为0.33米。此外，该模型的平均碰撞率和平均路界交叉率也分别达到了0.30%和3.00%，远低于其他方法。尤其在碰撞率方面，OmniDrive++在1秒和2秒的预测时间段内都实现了零碰撞率，充分展示了其出色的规划和避障能力。

与其他方法的对比：相较于其他先进的基准模型，例如UniAD、BEV-Planner++和Ego-MLP，OmniDrive++在所有关键指标上都表现优异。UniAD在使用高层级命令和自车状态信息的情况下，其L2平均误差为0.46米，而OmniDrive++在相同设置下的误差更低，为0.33米。同时，OmniDrive++的碰撞率和路界交叉率也比UniAD显著降低，尤其在碰撞率方面减少了近一半。

与BEV-Planner++相比，OmniDrive++在所有预测时间段内的L2误差均显著降低，尤其在3秒预测时间段内，误差由0.57米降至0.55米。同时，在碰撞率和路界交叉率方面，OmniDrive++也优于BEV-Planner++，碰撞率由0.34%降至0.30%，路界交叉率由3.16%降至3.00%。

消融实验：为了进一步评估OmniDrive架构中的关键模块对性能的影响，作者还比较了不同版本的OmniDrive模型的表现。OmniDrive（不使用高层级命令和自车状态信息）在预测误差、碰撞率和路界交叉率方面均明显逊于完整模型，尤其是在3秒预测时间段内的L2误差达到了2.84米，平均碰撞率高达3.79%。

当仅使用OmniDrive模型（无高层级命令和自车状态信息）时，预测误差、碰撞率和路界交叉率有所改善，但与完整模型相比仍有差距。这表明，整合高层级命令和自车状态信息对提高模型的整体规划性能具有显著作用。

整体而言，实验结果清晰地展示了OmniDrive++在开环规划任务上的卓越性能。通过整合多模态信息、高层级命令和自车状态信息，OmniDrive++在复杂的规划任务中实现了更精准的路径预测和更低的碰撞率与路界交叉率，为自主驾驶的规划与决策提供了强有力的支持。

讨论

作者提出的OmniDrive代理和OmniDrive-nuScenes数据集在多模态大模型领域引入了一种新的范式，能够解决3D环境中的驾驶问题，并为此类模型的评估提供了一个全面的基准。然而，每个新方法和数据集都具有其优点和不足之处。

OmniDrive代理提出了一种两阶段的训练策略：2D预训练和3D微调。在2D预训练阶段，通过利用LLaVA v1.5的图像文本配对数据集预训练Q-Former和carrier queries，实现了图像特征与大型语言模型之间的更好对齐。在3D微调阶段，引入了3D位置信息编码和时间模块，增强了模型的3D定位能力。通过利用LoRA对视觉编码器和语言模型进行微调，OmniDrive既保持了对2D语义的理解，又增强了对3D定位的掌握。这样分阶段的训练策略充分发挥了多模态大模型的潜力，使其在3D驾驶场景中具有更强的感知、推理和规划能力。另一方面，OmniDrive-nuScenes作为一种全新的基准，专门为评估驾驶大模型的能力设计。其完全自动化的QA生成流程通过GPT-4生成高质量的问答对，涵盖了从感知到规划的不同任务。此外，在线生成的定位任务也为模型提供了隐含的数据增强，帮助其更好地理解3D环境。该数据集的优势还在于它不仅测试模型的感知和推理能力，还通过长时域问题来评估模型的空间理解和规划能力。这种全面的基准为未来多模态大模型的研发提供了强有力的支持。

然而，OmniDrive代理和OmniDrive-nuScenes数据集也存在一些不足之处。首先，由于OmniDrive代理在3D微调阶段需要微调整个模型，训练资源需求较高，使得训练时间和硬件成本显著增加。此外，OmniDrive-nuScenes的数据生成完全依赖GPT-4，虽然保证了问题的质量和多样性，但也导致生成的问题更倾向于自然语言能力强的模型，这可能使模型在基准测试时更依赖于语言特性而非实际驾驶能力。尽管OmniDrive-nuScenes提供了一个全面的QA基准，但其覆盖的驾驶场景仍然有限。数据集中涉及的交通规则和规划模拟仅基于nuScenes数据集，这使得生成的问题难以完全代表现实世界中的各种驾驶场景。此外，由于数据生成流程的高度自动化，生成的问题难免会受到数据偏见和提示设计的影响。

结论

作者提出的OmniDrive代理和OmniDrive-nuScenes数据集为3D驾驶场景中的多模态大模型研究带来了新的视角和评估基准。OmniDrive代理的两阶段训练策略成功地结合了2D预训练和3D微调，使得模型在感知、推理和规划方面均表现出色。OmniDrive-nuScenes作为全新的QA基准，为评估驾驶大模型提供了全面的指标。然而，仍需进一步研究以优化模型的训练资源需求，改进数据集的生成流程，并确保生成的问题能够更准确地代表现实驾驶环境。总体而言，作者的方法和数据集在推进驾驶领域多模态大模型研究方面具有重要意义，为未来的工作奠定了坚实基础。