MIT最新！多模态LLM真的无所不能吗？大模型能解决一切难题吗？-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

本文对自动驾驶领域内多模态大型语言模型（MLLMs）的应用进行了审慎的审视，并对一些常见的假设提出了质疑/验证，重点关注它们通过闭环控制环境中的图像/帧序列推理和解释动态驾驶场景的能力。尽管GPT-4V等MLLMs取得了显著的进步，但它们在复杂、动态的驾驶环境中的性能在很大程度上仍未经过测试，呈现出广阔的探索领域。我们从固定车载摄像头的角度，对各种MLLMs作为驾驶世界模型的能力进行了全面的实验研究。发现表明，虽然这些模型能够熟练地解释单个图像，但在合成描述动态行为的帧之间的连贯叙述或逻辑序列时却遇到了很大的困难。实验显示出在预测（i）基本车辆动力学（前进/后退、加速/减速、右转或左转），（ii）与其他道路参与者（例如，识别超速车辆或重交通）的交互，（iii）轨迹规划，以及（iv）开放集动态场景推理时存在相当大的不准确性，这表明模型训练数据存在偏差。为了进行这项实验研究，本文介绍了一个专门设计的模拟器DR I V ESI M，用于生成各种驾驶场景，为评估MLLMs在驾驶领域提供了平台。此外，还贡献了完整的开源代码和一个新的数据集“EVAL-LLM-DRIVE”，用于评估驾驶中的MLLMs。结果凸显了当前最先进的MLLMs在现有能力方面的关键差距，强调了需要增强的基础模型来提高它们在现实世界动态环境中的应用性。

主要贡献

为此，在这项工作中，研究了MLLMs在驾驶场景中的推理能力，旨在衡量它们在闭环驾驶中理解复杂、动态环境以及通过整合从安装在驾驶车辆上的固定摄像头捕获的视觉数据序列来做出适当决策的能力，就像MLLM是驾驶员一样。

• 一项全面的实验研究，以评估不同MLLMs在涉及闭环驾驶和决策制定的场景中推理/理解场景的能力。测试涵盖了环境交互的多个方面，包括自身车辆的驾驶动态、其他道路参与者的动态互动、轨迹规划以及开放集驾驶场景推理；更多细节见第I-A节。

• DRIVESIM；一个专门设计的模拟器，用于生成各种驾驶场景，从而提供了一个平台，用于从固定车内摄像头视角（与驾驶员视角相同）测试、评估/基准测试MLLMs在理解和推理现实世界驾驶场景方面的能力。

• 令人惊讶的发现表明，包括GPT-4V和Claude3在内的领先MLLMs在解释、推理以及在动态场景中采取正确行动方面存在困难，即，在闭环驾驶设置中的帧序列存在重大不准确性。这个问题在各种最先进的（SOTA）模型中均有观察到，很可能是由于它们的训练数据存在偏差。

• DRIVESIM的开源代码，以及一个新的数据集“EVAL-LLM-DRIVE”，用于评估MLLMs作为驾驶世界模型的能力。

主要验证目标

一个驾驶世界模型应该包含环境交互和场景推理的多个方面，定义并测试如下：

（i）自身车辆动态：首先，仔细审查模型捕捉基本驾驶动态的能力，如方向性（前进或后退运动）、速度变化（加速或减速）以及道路调整（右转或左转）。

（ii）其他道路参与者的动态互动：在掌握基础之后，进一步挑战模型去推理其他道路参与者的动态互动：检测快速行驶的车辆、识别交通拥堵以及其他场景。

（iii）规划能力：接着，检查了模型规划准确驾驶轨迹的能力，检查它们是否能够有效避开沿途的障碍物。

（iv）开放集场景推理：适应性的最终测试体现在开放集推理中，我们的测试打破了传统的驾驶预期。它构造了诸如飞机在道路上紧急降落或动物突然出现的不可预测场景，挑战了MLLMs在这个精心设计的世界模型中能够预期和正确互动的边界。

DRIVESIM作为世界模型的GT

为了测试MLLMs作为驾驶世界模型的能力，需要理解图2中展示的各个组件，我们提供了DR I V ESI M作为基准驾驶世界模型，它能够通过模拟广泛的驾驶场景来探究MLLMs在（i）到（iv）各方面的推理能力，这些方面包括从基本车辆动态到与其他道路使用者的交互以及意外事件，为测试MLLMs系统创建了一个丰富、动态的环境。令人惊讶的是，在闭环设置下的动态驾驶场景中评估MLLMs的能力在很大程度上仍未被探索，这可能是由于缺乏合适的模拟器或数据集。驾驶场景的复杂性，包括其连续运动和不可预测的事件，使得准确模拟现实世界条件变得困难。DRIVESIM填补了这一空白，它提供了一个多功能的平台，能够模拟从标准场景到意外事件的广泛驾驶情况，同时允许对自车动态进行详细的操控，并将（开放集）角色如动物、路障和车辆添加到模拟中，丰富了可测试场景的种类，并增强了平台在探测模型方面的实用性。这个模拟环境对于测试MLLMs随时间推理、解释序列和与动态世界交互的能力至关重要。

通过在模拟器上进行严格测试获得的广泛实验结果揭示了当前MLLMs状态的一个悖论。虽然这些模型在理解单个图像方面显示出强大的能力，但在将描绘动态行为的一系列帧合成连贯的叙述或逻辑方面却存在显著的困难。

这种缺陷在它们尝试推理车辆运动时尤为明显，比如识别一辆车是向前还是向后移动；例如，GPT-4V将所有生成的场景都预测为向前行驶，达到了50%的准确率！在加速或减速方面，它达到了35%的准确率（甚至低于随机猜测！），并明显偏向于减速，而在确定转弯方向时，它达到了53%的准确率，并且在右转和左转场景中都是随机猜测的方式。在交通检测方面，GPT-4V能够达到75%的准确率，但有一个明显的限制，即它更可能报告没有交通。最后，GPT-4V在识别超速车辆方面表现极差，它仅在30个包含超速车辆的场景中检测到了两个。这些结果在所有最先进的MLLMs中都是一致的，包括Claude3、LLaVa-1.6、InstructBLIP等。

此外，实验研究中还提供了开放集推理实验——仍然展示了当前最先进的MLLMs的局限性。可能的原因是MLLMs训练数据中的偏差，因为通常车辆都是向前移动的，而且在驾驶中让车辆减速比加速更安全。总之，这些实验突显了模型在将离散视觉信息随时间连接起来以推断运动方面的关键差距，表明它们在当前状态下在理解现实世界动态中固有的流动性和连续性方面存在限制。

方法介绍

为了满足实验设置的要求，这需要一个受控环境和反事实测试（即生成与原始数据集不同的反事实数据，而不是MLLMs的反事实推理），在nuScenes数据集的基础上开发了一个数据驱动的模拟器。这种方法有效地平衡了传感器逼真度、闭环模拟和场景设置可控性，使其成为我们用例的理想选择。在随后的部分中，将概述模拟器的关键特性，并阐述它们对我们理解驾驶场景中MLLMs推理过程的实证研究的重要性。

闭环传感器合成与控制。实验方法的核心涉及通过闭环执行决策制定来探究MLLMs的推理过程，具体提出的问题包括：

• 如果车辆采取与数据集中不同的行动，结果会如何？

要解决这个问题，需要实施传感器合成以适应假设的“如果...会怎样”的场景。从自车的初始位置开始，利用车辆动力学进行闭环控制，并将输入空间特征化如下：（i）使用自行车模型表示加速和转向速度，（ii）通过自行车模型的集成版本表示速度和转向角，以及（iii）相对于局部坐标系进行直接姿态调整（用于无动力学的运动规划）。为了促进传感器合成，结合实际传感器测量和重仿真技术，结合地图信息（这对于后续部分中的对象/行为者合成和行为建模也至关重要）。从高层次上讲，地图信息包括相互连接的车道段和其他几何元素，这些元素定义了各种道路组成部分，如停车线和交通标志。沿着每个车道段，都有与传感器测量值（如相机图像）相关联的样本点。通过车辆动力学导出的姿态与地图上的最近样本点进行匹配，结合传感器的方向，为渲染和行为建模提供了局部坐标系。对于渲染，首先通过应用于RGB图像和稀疏LiDAR点的深度完成技术来获取深度信息。随后，使用针孔相机模型将RGB像素投影到3D空间中，创建一个可以从不同视点渲染的3D网格。利用基于局部坐标系到用于重仿真的目标RGB图像和用户定义的相机内参计算出的外参，我们可以对最终图像进行渲染。

场景中的对象和角色合成。'如果...会怎样'实验设置的另一个方面涉及处理如“如果一只鹿突然出现在路边？”这样的场景。这需要具备在场景中模拟合成对象或角色的能力。基于前面描述的3D重建流程，我们将所需对象和角色的3D网格无缝集成到场景中。这些网格可以高效地通过利用LLMs对Objaverse数据集上注释的文本理解能力来获取。例如，可以识别出表明相应网格代表动物的注释。利用地图的几何和语义信息，将网格放置在合理的位置和方向上。示例包括自车所在车道的旁边、交通灯下方、停车线上方等。

角色的行为建模。在添加了合成角色之后，这些角色的行为或移动对于MLLMs的推理过程变得至关重要。这引入了探索以下场景的必要性：

• “如果一架飞机在头顶飞过或降落在路上怎么办？”或者 • “如果汽车因为交通堵塞而减速怎么办？”

对于地面车辆的行为，采用比例-积分-微分（PID）控制器进行转向控制，以跟踪从地图或运动计划中获取的参考路径；对于加速控制，使用智能驾驶员模型（IDM），该模型专注于在自车前方最近且可能导致与自车碰撞的移动物体。对于运动规划，采用带有五次多项式轨迹生成的状态网格规划器，其中目标状态网格被确定为在当前车道或相邻车道中自车前方特定距离的位置。为了模拟其他角色的行为，通过在预定义的起始和结束姿态之间进行样条插值来创建轨迹。重点是模拟合成角色对自车、自身以及场景中其他已存在角色或对象的反应行为，而不是已存在实体的行为。

实验研究

这里展示了SOTA MLLMs（大规模语言模型）作为DR I V ESI M提出的关键场景中的世界模型的性能，这些场景与图2中展示的类别相对应。我们使用第I-A节中解释的范式来测试MLLMs作为驾驶世界模型的能力，具体来说，测试它们确定自车运动的能力：车辆是前进还是后退？是在加速还是减速？是左转还是右转？所有这些都是以分类的方式进行的。然后，评估街道上其他因素的推理能力，以确定它是否检测到超速车辆（是否有超速车辆？）或交通拥堵（是否有交通拥堵？）。此外，测试MLLMs在开放（甚至异常）环境（如提供突然出现动物或静态物体甚至飞机降落的图像）中的决策能力（自车是否能在同一车道内继续行驶？）。最后，可以测试MLLMs在尝试保持在车道内的同时选择最佳轨迹绕过障碍物的能力（应该遵循哪条轨迹？）。在表I中，展示了Claude3、GPT-4V、LLaVA-1.6、InstructBLIP和MiniGPT4-v2在这些情况下的表现。

视频场景表示。我们的目标是为模型提供由DR I V ESI M生成的视频输入，以模拟真实世界驾驶场景中的摄像头视角。我们提供不同级别的视频信息，以便评估时序推理。这种设置如图6所示。使用模拟的视频数据创建了一个视频帧网格，其中每个帧之间相隔半秒。测试了不同数量的帧：三个、六个和九个。这种输入格式是为了避免模型在采用多查询方法解析图像时可能遇到的问题，同时避免在提供大量帧时遇到上下文长度限制。

Prompting。除了这些帧之外，还必须提供一个适当的文本提示以获得响应。提示必须告知模型图像的格式，即帧来自安装在移动汽车上的摄像头，并获得对相关问题的响应。这在图6中的示例提示中有所展示，该提示询问自车是否正在经历交通拥堵或无交通拥堵。当提示自车动作和其他角色行为场景时，遵循类似的格式。要求描述每一帧中可能正在发生的事情，以确保模型理解它正在解析视频并遵循正确的帧顺序，然后可以手动验证每一帧的解释。

评估。将从MLLM获得的结果与DRIVESI M提供的真实情况进行比较。为了进一步扩展表I中给出的这一评估过程的结果，深入探讨了自车运动、其他角色行为、开放集和规划推理的具体内容。由于GPT-4V和Claude3作为当前可用的最大模型之一以及在评估中观察到的高水平推理能力，这里提供了一个更复杂的分析，重点关注这两个模型。

1）自车运动推理

评估了高加速率、低加速率、高减速率和低减速率的情况

如表I所示，对于大多数模型，性能大约为50%，尤其是GPT-4V，表现较差，仅为32%。在图4中探索了GPT-4V和Claude3的性能。这些混淆矩阵是在我们向模型提供高和低加速率以及减速率场景时得到的。请注意，在这些测试中，GPT-4V偏向于减速的响应。有趣的是，与真实情况是加速相比，当真实情况是减速时，模型预测为加速的情况更多。对于Claude3，虽然仍然偏向于减速，但其程度没有GPT-4V那么极端。

2）他车运动推理

交通与无交通是基于其他道路使用者行为的一种常见情况。交通的产生主要有两个来源：道路上的其他车辆数量以及给定其他车辆的情况下，自车能够移动的速度。因此，几何理解对于观察场景中的其他车辆数量是必要的，而几何和时序推理的结合则用于判断交通流的速度。在我们的模拟器中，我们提供了四个级别的交通情况。(i) 最低级别，即无交通标签，表示与自车在同一车道上没有其他车辆，允许自车自由行驶。(ii) 次低级别，同样标记为无交通，是指虽然有其他车辆与自车在同一车道上，但这些车辆的速度足够快，不会阻碍自车的期望速度。(iii) 下一级别，我们将其标记为交通，是指有大量其他车辆，但交通流是缓慢且稳定的。(iv) 最高级别，我们也将其标记为交通，是指大量车辆都以非常慢的速度移动。图6展示了一个最高级别交通状况的视频。即使只是匆匆一瞥，由于其他车辆的密度和自车的缓慢移动，人类也能清晰地分辨出交通状况的程度。

为了消除查询模型时的歧义，我们必须明确“交通”的含义。因此，我们在提示的相应部分中指定了：“是否有交通导致车辆减速？”（如图6中的提示所示）。在使用此提示进行评估时，发现与自车运动案例相比，这种情况下的准确率普遍更高，如表I所示。进一步在图8中探索了GPT-4V和Claude3的结果，该图显示了当我们将高低不同交通流量的场景提供给模型时，描述混淆矩阵的折线图。预测总体上与交通水平呈正相关，其中Claude3在识别高交通水平时更为成功，而GPT-4V在识别无交通时特别成功。尽管不是完美的，但模型在识别交通方面的能力是在自车运动和其他行为者场景中取得的最高成功率。

3）开集推理

场景中动物和静态物体的看似随机的放置是DRIVESIM能够评估多语言大型模型（MLLMs）的开放集场景之一。作为人类驾驶员，你已经准备好应对这些意外情况。如果静态物体在路上，你会减速或避开它，但如果它不在路上，你的驾驶方式就不会改变。然而，对于动物来说，存在它是否会移动的不确定性，因此无论如何，你都必须减速或避开它。因此，从人类的角度来看，图11中呈现的场景中应该怎么做是很清楚的。我们可以看到，大型模型GPT-4V和Claude3在这些情况下的推理相当成功，如表I所示，以及图11中GPT-4V的响应所示。

飞机着陆与头顶飞过是一个我们能够通过DRIVESIM探索的引人入胜的开放集场景。人类驾驶员可能不知道如何应对这样的极端情况，但我们可以观察多语言大型模型（MLLMs）的行为。图12中的帧展示了一个飞机着陆或头顶飞过的场景。在用于编制表I结果的主要提示中，我们观察到，无论飞机是否着陆，模型都建议你不能继续行驶，因为存在风险：这是一个合理的反应。因此，我们探索了一些假设场景，这些场景真正考验了模型对飞机运动的几何和时序理解，这与其他驾驶场景完全不同。

4）规划推理

最后，我们展示了我们的规划实验。通过DRIVESIM，我们能够生成到地图上某个点的规划，并在相机视图中进行可视化。我们还可以将静态物体引入场景中，并评估多语言大型模型（MLLMs）是否能够选择绕过这些障碍物的规划。在图13中，我们展示了针对给定场景的四种规划评估方法：(1) 无障碍物，(2) 物体不阻挡任何轨迹，(3) 物体阻挡中间和右侧轨迹，(4) 物体阻挡中间和左侧轨迹。考虑到保持在同一车道内的目标，并且给出了三种轨迹选择，人类驾驶员在每个例子中都会有明确的选择：(1) 绿色，(2) 绿色，(3) 蓝色，和(4) 红色。为了运行评估，我们需要使用不同风格的提示来在单张图像中选择轨迹。因此，我们使用了图13中显示的提示，其中我们还指定了保持在同一车道内的目标，因此总是有一个正确的选择。从表I中我们可以看到，较大的模型GPT-4V和Claude3的准确率显著优于其他模型。然而，它们的成功率仍然只有大约50%，这对于旨在用于闭环规划的模型来说并不理想。因此，需要进一步探究以找出限制的来源。我们通过在提示中添加“同时避开障碍物”将Claude3的性能从45%提高到55%。这一改进揭示了多语言大型模型作为世界模型在提高准确率方面的失败。

结论

这项工作展示了包括GPT-4V和Claude3在内的当前最先进的多语言大型模型（SOTA MLLMs）作为驾驶世界模型的现有能力。尽管它们在单个图像分析方面表现出色，但通过我们广泛的实验结果，它们在跨多个驾驶场景帧进行推理方面的局限性已经变得显而易见。我们观察到，无法处理各种场景明显是由于预期车辆运动的偏差所致，例如在道路上行驶时的向前运动。尽管许多准确率水平似乎随机，但DRIVESIM允许我们深入探究预测背后的推理能力，揭示偏差的详细信息。虽然在理解现实世界动态方面存在局限性，但明确的前进道路展示了如何改进它们。未来的工作可以利用DRIVESIM为微调MLLMs提供数据，结合先进的仿真功能（如路径规划），以增强对下一代MLLMs的评估。