全面超越OccWorld！Occ-LLM：Occ世界模型再度问鼎SOTA-51CTO.COM

写在前面&出发点

大语言模型（LLMs）在机器人和自动驾驶领域取得了重大进展。本研究提出了首个基于占用的大语言模型（Occ-LLM），这是将大语言模型与一种重要表示方式相结合的开创性尝试。为了有效地将占用信息编码为大语言模型的输入，并解决与占用相关的类别不平衡问题，研究提出了运动分离变分自编码器（MS-VAE）。这种创新方法利用先验知识，在将动态对象和静态场景输入定制的变分自编码器（VAE）之前进行区分。这种分离增强了模型专注于动态轨迹的能力，同时有效地重建静态场景。Occ-LLM在关键任务中的有效性得到了验证，包括4D占用预测、自车规划和基于占用的场景问答。综合评估表明，Occ-LLM显著优于现有的最先进方法，在4D占用预测任务中，交并比（IoU）提高了约6%，平均交并比（mIoU）提高了4%。这些发现凸显了Occ-LLM在重塑机器人和自动驾驶当前范式方面的变革潜力。

行业介绍

大语言模型发展迅速，已成为推动各行业人工智能发展的重要力量。最初为自然语言处理设计的大语言模型，因其强大的泛化能力，在自动驾驶等复杂领域也展现出了卓越的适应性。这些能力对于目前缺乏泛化性的机器人或自动驾驶系统而言至关重要。当前，大语言模型在自动驾驶中的应用主要基于图像输入，但这种方式缺乏全面理解环境所需的空间感知能力。现有的基于视觉和基于激光雷达的方法，虽然增强了车辆导航和环境理解能力，但计算成本高，且中间推理过程往往缺乏透明度。

在自动驾驶中，占用是一种极具表现力的模态，它通过全面表示场景的前景和背景，提供丰富的空间和语义信息。这种通用表示方式有助于感知物体，无论其具体类别是已知还是未知。值得注意的是，像特斯拉这样的领先汽车制造商，正逐步在其车辆中采用基于占用的系统，这凸显了向这种强大的环境解释方法的转变。

我们旨在利用大语言模型复杂的分析和泛化能力，开发一种用于自动驾驶各种下游任务的基础模型，以解释和利用占用网格。然而，将占用表示直接集成到大语言模型中具有挑战性，这是由于占用类别不平衡，以及代表空气的体素占主导地位，导致学习效率低下和内存问题。为了克服这些挑战，提出了一种名为运动分离变分自编码器（MS-VAE）的新方法。该方法将占用场景中与可移动物体（如汽车、行人）相关的体素，与不可移动结构（如街道、绿植）相关的体素分离。这样做增强了模型对动态对象轨迹的关注，并改善了静态场景的重建，类似于残差学习。这种分离显著降低了学习难度，提高了模型的整体性能。

基于占用的大语言模型（Occ-LLM）经过精心设计，可满足自动驾驶领域的多种应用需求。该模型的主要应用包括4D占用场景预测、自车规划和基于占用的场景问答，这些应用对于提高自动驾驶系统的安全性、效率和可靠性至关重要。为了验证模型的有效性，研究人员进行了广泛的评估，将Occ-LLM与其他最先进的方法进行比较。结果显示，Occ-LLM性能卓越，在4D占用场景预测中，IoU达到32.52%，mIoU达到20.99%，显著优于最先进模型（其IoU为26.63%，mIoU为17.14%，3秒平均值）。在自车规划方面，该模型将3秒平均L2距离降至0.28米，而领先的替代模型为1.17米。此外，在基于占用的场景问答中，Occ-LLM始终能提供准确可靠的回答，从而增强了自动驾驶系统的决策能力。

主要贡献如下：

引入了用于自动驾驶的基于占用的大语言模型Occ-LLM，展示了卓越的场景理解能力。
提出运动分离变分自编码器MS-VAE，通过区分可移动和不可移动元素来管理大量占用网格数据，在各项指标上提升了系统性能。
通过在4D占用场景预测、自车规划和基于占用的场景问答中的应用，展示了Occ-LLM的多功能性，说明了其在自动驾驶多个维度上的优越性。
通过接入现有的占用预测方法，展示了Occ-LLM的泛化能力，说明了其在自动驾驶中的实用性。

相关工作

1）多模态大语言模型

多模态大语言模型的最新进展引发了广泛关注，它将大语言模型的先进推理能力与图像、视频和音频数据相结合。这些模型在零样本和少样本图像分类、分割和目标检测等任务中表现出色，充分利用了视觉和文本数据之间的协同作用。在自动驾驶领域，大语言模型弥补了关键差距，增强了场景理解能力，提供了更丰富的语义上下文，并促进了当前系统所缺乏的决策过程。已经有几种方法被提出，以在自动驾驶中利用大语言模型。基于视觉的方法，如DriveGPT4，通过解释视频输入生成与驾驶相关的文本响应；而像HiLM-D这样的模型，则通过高分辨率视觉数据增强危险识别和意图预测能力。基于激光雷达的方法利用矢量化视觉嵌入，赋予大语言模型环境感知能力，实现对驾驶场景的详细分析。

2）占用网络

近年来，3D语义占用通过明确建模3D网格内每个体素的占用状态，提供了对环境更详细的表示。SSCNet率先引入语义场景补全任务，整合了几何和语义信息。随后的研究通常利用具有明确深度信息的几何输入。MonoScene提出了第一种用于语义场景补全的单目方法，使用3D UNet来处理通过视线投影生成的体素特征。基于转移架构设计了各种网络。此外，一些同期研究专注于提出用于3D语义占用预测的环视基准，推动了占用领域的快速发展。OccWorld基于3D占用学习世界模型，因其可解释性和效率备受关注。这里尝试以大语言模型为桥梁，统一占用任务。

Occ-LLM方法

Occ-LLM框架将大语言模型与占用表示相结合，以改进自动驾驶系统。该框架增强了空间和语义理解能力，有助于场景解释和决策制定。首先使用现有方法将多视图图像转换为占用表示。下面首先介绍核心的运动分离变分自编码器MS-VAE，它能够区分动态和静态元素，降低计算负载并提高学习效率。MS-VAE的输出经过进一步处理和展平，输入到大语言模型中。Occ-LLM专为各种自动驾驶任务设计，支持4D占用预测、自车规划和基于占用的场景问答，提高了自动驾驶的安全性和有效性。

1）运动分离变分自编码器

基于已有的多模态大语言模型集成方法，研究旨在训练一个变分自编码器，以促进模态融合并降低计算成本。将占用表示直接集成到大语言模型中面临挑战，因为占用类别不平衡，且空气体素占主导，导致数据表示稀疏且低效。为了克服这一问题，研究提出了运动分离变分自编码器MS-VAE，它可以分离占用网格中的动态和静态组件。这提高了编码效率，并将重点转移到对自主导航至关重要的动态元素上。因此，MS-VAE能够更平衡、有效地集成到大语言模型框架中。

MS-VAE的核心概念是训练两个不同的VQ-VAEs，分别对移动和静态占用体素进行编码和解码。不过研究发现，使用两个不同的codebook分别处理移动和静态体素，同时保持单个编码器和解码器，也能获得令人满意的结果。为了清晰阐述，用数学公式描述该方法。

设表示输入的占用表示，和分别表示移动和静态体素。编码器将输入映射到潜在空间。对于MS-VAE，为移动和静态体素定义两个单独的潜在变量和：

每个编码后的潜在变量和在相应的codebook和中搜索，并在输入解码器之前，被最相似的codebook entry替换。这个过程表示为：

解码器从量化后的潜在变量和重建输入：

为了便于在占用表示中分离运动和静态元素，基于体素的分类进行变换。设表示可移动类别的集合。在修改后的占用表示中，定义运动和空气填充的指示函数如下：

定义指示函数，使得：

如果否则

则修改后的运动占用和静态占用为：

其中，air表示静态占用网格中空气的表示，通常编码为代表未占用空间的占位值。

为了重建原始占用表示，利用来区分活动运动区域。重建后的占用将静态和运动组件组合如下：

训练MS-VAE的总体损失函数结合了重建损失和承诺损失，以确保编码后的潜在变量接近codebook entries：

通过为移动和静态体素使用单独的codebook，同时保持统一的编码器和解码器，并适当地处理占用表示，MS-VAE有效地捕捉了每种体素类型的独特特征，从而改善了占用重建和泛化能力。

此外，整体VAE架构参考了OccWorld实现中的方法，具体将占用视为具有16个通道的2D数据，并使用2D VAE进行编码和解码。然而，为了保留三维信息的完整性，在编码器之前和解码器之后都集成了一层轻量级3D卷积。这种修改尊重了占用表示固有的空间维度，显著提高了重建占用的质量。与传统使用2D VAE相比，这种方法显著提高了占用表示在三维空间中的保真度。

2）占用与大语言模型集成的预处理

Patchify：使用MS-VAE对原始占用表示进行编码后，得到的潜在表示仍然很大。为了解决这个问题，采用类似于视觉Transformer（ViT）的方法，将占用潜在空间划分为小网格并展平。研究发现，path大小对占用重建质量有显著影响。这是因为预测未来占用帧涉及感知和低级视觉任务。例如，感知任务通常受益于较大的patch大小，有助于更好地理解输入数据的语义信息；相反，低级视觉任务通常采用较小的patch大小，以实现更高质量的数据重建。通过消融研究确定，patch大小为10时可获得最佳结果。

帧分离：研究发现，每个帧展平后的占用潜在表示相对较长，直接连接多个帧展平后的占用潜在表示会导致生成的占用出现位置漂移。这种漂移表现为一个帧的部分占用出现在后续帧中，从而造成级联错位。为了解决这个问题，提出了一个简单但有效的解决方案：在每个占用潜在帧的开头和结尾添加特定的文本标记。具体来说，在开头使用“”，在结尾使用“”。这些标记在推理时界定了帧之间的间隔，有效地消除了漂移问题。

预融合：引入一种预融合方法，以更好地建立占用表示与自车动作之间的联系。该方法首先通过多个MLP层对自车动作进行编码。类似于SE-Net的方法，然后使用编码后的动作潜在变量作为权重，对占用特征进行调制。这种技术增强了占用表示与自车动作之间的一致性，提高了模型的整体性能。

3）下游任务

Occ-LLM框架支持多种对增强自动驾驶系统至关重要的下游任务，包括4D占用预测、自车规划和基于占用的场景问答。任务切换通过特定提示进行管理：“<4-D occupancy forecasting and self-ego planning>”启动4D占用预测和自车规划的组合任务，而“”触发问答任务。这些任务共同增强了态势感知和决策能力。4D占用预测用于预测环境动态，这对于预测危险至关重要。自车规划利用这些预测实现安全、高效的导航。基于占用的场景问答用于解释复杂情况，有助于做出明智的决策。这些能力共同显著提高了自动驾驶系统的安全性、可靠性和效率。

实验分析

我们展示了一系列广泛的实验，以评估所提出的Occ-LLM的性能。研究使用Llama2作为基础模型。使用交并比（IoU）和平均交并比（mIoU）指标评估4D占用预测。使用L2距离指标评估自车规划能力。

采用Nuscenes数据集，该数据集包含1000个场景。这些场景分为700个用于训练，150个用于验证，150个用于测试。每个场景包含大约50帧，对应一个占用场景。占用表示的维度为(200, 200, 16)，其中前两个维度(200, 200)代表长度和宽度，16代表高度。这种数据集配置能够在各种场景下全面评估和验证模型的性能。

1）与最先进方法的比较

4D占用预测和自车规划：表1将研究方法与4D占用预测和运动规划领域的最先进方法进行了比较，提供了1秒、2秒和3秒间隔的IoU、mIoU和L2距离等指标。研究方法在准确性和一致性方面始终优于最先进方法。

评估的方法包括基于激光雷达的方法，如IL、NMP和FF，以及基于摄像头的方法，如UniAD、VAD-Base和OccNet。研究还将预测的占用数据集成到Occ-LLM框架中，像BevFormer+Ours这样的模型实现了更高的性能，平均IoU达到23.79%，mIoU达到10.21%，L2距离为0.43米。

与基于占用的方法相比，研究方法超越了OccWorld，平均IoU达到32.52%，mIoU达到20.99%，L2距离为0.28米，展示了在自动驾驶中更高的准确性和可靠性。

问答：研究提出的方法展示了专为自动驾驶场景定制的先进问答能力。如图5所示，该系统有效地解释多视图相机输入，以预测占用情况，并对有关驾驶环境的查询提供准确响应。它可以识别场景中的关键对象，为自车推荐安全的操作，并描述潜在的危险，如准备过马路的行人。

为了定量评估系统的性能，使用标准指标（即BLEU、ROUGE L、CIDEr和GPT Score），将该系统与DriveLM模型进行了对比评估。研究模型在所有指标上均优于DriveLM，获得了更高的分数。这些结果证实了研究方法在自动驾驶环境中提供准确且上下文相关答案的有效性。

2）消融研究

OccWorld的VAE与MS-VAE的对比分析：表3比较了OccWorld的VAE与研究提出的MS-VAE，结果显示MS-VAE在重建性能上有显著提升。添加3D卷积层和运动分离策略提高了IoU和mIoU，MS-VAE的IoU达到62.74%，mIoU达到71.08%，而OccWorld的VAE分别为59.07%和60.50%。

Patchify中不同patch大小的对比分析：表4研究了不同patch大小对重建性能的影响。patch大小为10时表现最佳，在训练集上IoU为32.48%，mIoU为26.16%，在验证集上IoU为27.12%，mIoU为26.83%，能够在细节捕捉和效率之间取得平衡。

Occ-LLM模块的消融研究：表5展示了Occ-LLM模块的消融研究。基线模型的IoU为20.