都在搞端到端，试问端到端自动驾驶的基石到底是什么？-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

基础模型的出现彻底改变了自然语言处理和计算机视觉领域，为其在自动驾驶（AD）中的应用铺平了道路。这项调查对40多篇研究论文进行了全面回顾，展示了基础模型在增强AD中的作用。大型语言模型有助于AD的规划和模拟，特别是通过其在推理、代码生成和翻译方面的熟练程度。与此同时，视觉基础模型越来越适用于关键任务，如3D目标检测和跟踪，以及为仿真和测试创建逼真的驾驶场景。多模态基础模型，集成了不同的输入，显示了非凡的视觉理解和空间推理，对端到端AD至关重要。这项调查不仅提供了一个结构化的分类法，根据基础模型在AD领域的模式和功能对其进行分类，还深入研究了当前研究中使用的方法。它确定了现有基础模型和尖端AD方法之间的差距，从而规划了未来的研究方向，并提出了弥合这些差距的路线图。

简介

深度学习（DL）与自动驾驶（AD）的融合标志着该领域的重大飞跃，吸引了学术界和工业界的关注。配备了摄像头和激光雷达的AD系统模拟了类似人类的决策过程。这些系统基本上由三个关键组成部分组成：感知、预测和规划。Perception利用DL和计算机视觉算法，专注于物体检测和跟踪。预测预测交通代理的行为及其与自动驾驶汽车的相互作用。规划通常是分层结构的，包括做出战略性驾驶决策、计算最佳轨迹和执行车辆控制命令。基础模型的出现，特别是在自然语言处理和计算机视觉领域，为AD研究引入了新的维度。这些模型是不同的，因为它们在广泛的网络规模数据集上进行训练，并且参数大小巨大。考虑到自动驾驶汽车服务产生的大量数据和人工智能的进步，包括NLP和人工智能生成内容（AIGC），人们对基础模型在AD中的潜力越来越好奇。这些模型可能有助于执行一系列AD任务，如物体检测、场景理解和决策，具有与人类驾驶员相似的智力水平。

基础模型解决了AD中的几个挑战。传统上，AD模型是以监督的方式训练的，依赖于手动注释的数据，这些数据往往缺乏多样性，限制了它们的适应性。然而，基础模型由于在不同的网络规模数据上进行训练，显示出卓越的泛化能力。它们可以用从广泛的预训练中获得的推理能力和知识，潜在地取代规划中复杂的启发式基于规则的系统。例如，LLM具有从预训练数据集中获得的推理能力和常识性驾驶知识，这可能会取代启发式基于规则的规划系统，后者需要在软件代码中手工制定规则并在角落案例中进行调试的复杂工程工作。该领域中的生成模型可以为模拟创建真实的交通场景，这对于在罕见或具有挑战性的情况下测试安全性和可靠性至关重要。此外，基础模型有助于使AD技术更加以用户为中心，语言模型可以用自然语言理解和执行用户命令。

尽管在将基础模型应用于AD方面进行了大量研究，但在实际应用中仍存在显著的局限性和差距。我们的调查旨在提供一个系统的重新审视，并提出未来的研究方向。LLM4Drive更侧重于大型语言模型。我们在现有调查的基础上，涵盖了视觉基础模型和多模态基础模型，分析了它们在预测和感知任务中的应用。这种综合方法包括对技术方面的详细检查，如预先训练的模型和方法，并确定未来的研究机会。创新性地，我们提出了一种基于模式和功能对AD中的基础模型进行分类的分类法，如图1所示。以下部分将探讨各种基础模型在AD环境中的应用，包括大型语言模型、视觉基础模型和多模态基础模型。

Large Language Models in AD

概述

LLM最初在NLP中具有变革性，现在正在推动AD的创新。BERT开创了NLP中的基础模型，利用转换器架构来理解语言语义。这种预先训练的模型可以在特定的数据集上进行微调，并在广泛的任务中实现最先进的结果。在此之后，OpenAI的生成预训练转换器（GPT）系列，包括GPT-4，由于在广泛的数据集上进行了训练，展示了非凡的NLP能力。后来的GPT模型，包括ChatGPT、GPT-4，使用数十亿个参数和数万亿个单词的爬行网络数据进行训练，并在许多NLP任务上取得了强大的性能，包括翻译、文本摘要、问题回答。它还展示了从上下文中学习新技能的一次性和少量推理能力。越来越多的研究人员已经开始应用这些推理、理解和上下文学习能力来应对AD中的挑战。

AD中的应用

推理与规划

AD的决策过程与人类推理密切相似，因此必须对环境线索进行解释，才能做出安全舒适的驾驶决策。LLM通过对各种网络数据的培训，吸收了与驾驶相关的常识性知识，这些知识来自包括网络论坛和政府官方网站在内的众多来源。这些丰富的信息使LLM能够参与AD所需的细微决策。在AD中利用LLM的一种方法是向他们提供驾驶环境的详细文本描述，促使他们提出驾驶决策或控制命令。如图2所示，这个过程通常包括全面的提示，详细说明代理状态，如坐标、速度和过去的轨迹，车辆的状态，即速度和加速度，以及地图细节，包括红绿灯、车道信息和预定路线）。为了增强对交互的理解，LLM还可以被引导在其响应的同时提供推理。例如，GPT驾驶员不仅建议车辆行动，还阐明了这些建议背后的理由，大大提高了自动驾驶决策的透明度和可解释性。这种方法，以LLM驾驶为例，增强了自动驾驶决策的可解释性。同样，“接收、推理和反应”方法指示LLM代理人评估车道占用情况并评估潜在行动的安全性，从而促进对动态驾驶场景的更深入理解。这些方法不仅利用LLM理解复杂场景的固有能力，还利用它们的推理能力来模拟类似人类的决策过程。通过整合详细的环境描述和战略提示，LLM对AD的规划和推理方面做出了重大贡献，提供了反映人类判断和专业知识的见解和决策。

预测

Prediction预测交通参与者未来的轨迹、意图以及可能与自车交通工具的互动。常见的基于深度学习的模型基于交通场景的光栅化或矢量图像，对空间信息进行编码。然而，准确预测高度互动的场景仍然具有挑战性，这需要推理和语义信息，例如路权、车辆的转向信号和行人的手势。场景的文本表示可以提供更多的语义信息，并更好地利用LLM的推理能力和预训练数据集中的公共知识。将LLM应用于轨迹预测的研究还不多。与仅使用图像编码或文本编码的基线相比，他们的评估显示出显著的改进。

用户界面和个性化

自动驾驶汽车应便于用户使用，并能够遵循乘客或远程操作员的指示。当前的Robotaxi远程辅助界面仅用于执行一组有限的预定义命令。然而，LLM的理解和交互能力使自动驾驶汽车能够理解人类的自由形式指令，从而更好地控制自动驾驶汽车，满足用户的个性化需求。LLM代理还能够基于预定义的业务规则和系统要求来接受或拒绝用户命令。

仿真和测试

LLM可以从现有的文本数据中总结和提取知识，并生成新的内容，这有助于仿真和测试。ADEPT系统使用GPT使用QA方法从NHTSA事故报告中提取关键信息，并能够生成用于模拟和测试的各种场景代码。TARGET系统能够使用GPT将流量规则从自然语言转换为特定领域的语言，用于生成测试场景。LCTGen使用LLM作为强大的解释器，将用户的文本查询转换为交通模拟场景中地图车道和车辆位置的结构化规范。

方法和技巧

研究人员在自然语言处理中使用类似的技术，将LLM用于自动驾驶任务，如即时工程、上下文和少镜头学习，以及来自人类反馈的强化学习。

Prompt Engineering

Prompt engineering采用复杂的输入提示和问题设计来指导大型语言模型生成我们想要的答案。

一些论文增加了交通规则作为前置提示，以使LLM代理符合法律。Driving with LLMs有交通规则，涵盖红绿灯过渡和左侧或右侧驾驶等方面。

LanguageMPC采用自上而下的决策系统：给定不同的情况，车辆有不同的可能动作。LLM代理还被指示识别场景中的重要代理，并输出注意力、权重和偏差矩阵，以从预先定义的动作中进行选择。

Fine-tuning v.s. In-context Learning

微调和上下文学习都用于使预先训练的模型适应自动驾驶。微调在较小的特定领域数据集上重新训练模型参数，而上下文学习或少镜头学习利用LLM的知识和推理能力，在输入提示中从给定的例子中学习。大多数论文都专注于上下文学习，但只有少数论文使用微调。研究人员对哪一个更好的结果喜忧参半：GPT-Driver有一个不同的结论，即使用OpenAI微调比少镜头学习表现得更好。

强化学习和人类反馈

DILU提出了反射模块，通过人工校正来存储好的驾驶示例和坏的驾驶示例，以进一步增强其推理能力。通过这种方式，LLM可以学会思考什么行动是安全的和不安全的，并不断反思过去的大量驾驶经验。Surreal Driver采访了24名驾驶员，并将他们对驾驶行为的描述作为思维链提示，开发了一个“教练-代理”模块，该模块可以指导LLM模型具有类似人类的驾驶风格。

限制和未来方向

幻觉与危害

幻觉是LLM中的一大挑战，最先进的大型语言模型仍然会产生误导和虚假信息。现有论文中提出的大多数方法仍然需要从LLM的响应中解析驱动动作。当给定一个看不见的场景时，LLM模型仍然可能产生无益或错误的驾驶决策。自动驾驶是一种安全关键应用程序，其可靠性和安全性要求远高于聊天机器人。根据评估结果，用于自动驾驶的LLM模型的碰撞率为0.44%，高于其他方法。经过预先培训的LLM也可能包括有害内容，例如，激烈驾驶和超速行驶。更多的人在环训练和调整可以减少幻觉和有害的驾驶决策。

耗时和效率

大型语言模型通常存在高延迟，生成详细的驾驶决策可能会耗尽车内有限计算资源的延迟预算。推理需要几秒钟的时间。具有数十亿个参数的LLM可能会消耗超过100GB的内存，这可能会干扰自动驾驶汽车中的其他关键模块。在这一领域还需要做更多的研究，如模型压缩和知识提取，以使LLM更高效、更容易部署。

对感知系统的依赖

尽管LLM具有最高的推理能力，但环境描述仍然依赖于上游感知模块。驾驶决策可能会出错，并在环境输入中出现轻微错误，从而导致重大事故。LLM还需要更好地适应感知模型，并在出现错误和不确定性时做出更好的决策。

Sim to Real Gap

大多数研究都是在仿真环境中进行的，驾驶场景比真实世界的环境简单得多。为了覆盖现实世界中的所有场景，需要进行大量的工程和人类详细的注释工作，例如，该模型知道如何向人类屈服，但可能不擅长处理与小动物的互动。

视觉基础模型

视觉基础模型在多个计算机视觉任务中取得了巨大成功，如物体检测和分割。DINO使用ViT架构，并以自监督的方式进行训练，在给定局部图像块的情况下预测全局图像特征。DINOV2利用10亿个参数和12亿幅图像的多样化数据集对训练进行了扩展，并在多任务中取得了最先进的结果。Segment-anything模型是图像分割的基础模型。该模型使用不同类型的提示（点、框或文本）进行训练，以生成分割掩码。在数据集中使用数十亿分割掩码进行训练后，该模型显示了零样本传递能力，可以在适当的提示下分割新目标。

扩散模型是一种广泛应用于图像生成的生成基础模型。扩散模型迭代地将噪声添加到图像，并应用反向扩散过程来恢复图像。为了生成图像，我们可以从学习的分布中进行采样，并从随机噪声中恢复高度逼真的图像。稳定扩散模型使用VAE将图像编码为潜在表示，并使用UNet将潜在变量解码为逐像素图像。它还有一个可选的文本编码器，并应用交叉注意力机制生成基于提示的图像（文本描述或其他图像）。DALL-E模型使用数十亿对图像和文本进行训练，并使用稳定的扩散来生成高保真图像和遵循人类指令的创造性艺术。

人们对视觉基础模型在自动驾驶中的应用越来越感兴趣，主要用于3D感知和视频生成任务。

感知

SAM3D将SAM应用于自动驾驶中的3D物体检测。激光雷达点云被投影到BEV（鸟瞰图）图像中，它使用32x32网格生成点提示，以检测前景目标的遮罩。它利用SAM模型的零样本传输能力来生成分割掩模和2D盒。然后，它使用2D box内的激光雷达点的垂直属性来生成3D box。然而，Waymo开放数据集评估显示，平均精度指标与现有最先进的3D目标检测模型仍有很大差距。他们观察到，SAM训练的基础模型不能很好地处理那些稀疏和有噪声的点，并且经常导致对远处物体的假阴性。

SAM应用于3D分割任务的领域自适应，利用SAM模型的特征空间，该特征空间包含更多的语义信息和泛化能力。

SAM和Grounding DINO用于创建一个统一的分割和跟踪框架，利用视频帧之间的时间一致性。Grounding DINO是一个开放集目标检测器，它从目标的文本描述中获取输入并输出相应的边界框。给定与自动驾驶相关的目标类的文本提示，它可以检测视频帧中的目标，并生成车辆和行人的边界框。SAM模型进一步将这些框作为提示，并为检测到的目标生成分割掩码。然后将生成的目标掩码传递给下游跟踪器，后者比较连续帧中的掩码，以确定是否存在新目标。

视频生成和世界模型

基础模型，特别是生成模型和世界模型可以生成逼真的虚拟驾驶场景，用于自动驾驶仿真。许多研究人员已经开始将扩散模型应用于真实场景生成的自动驾驶。视频生成问题通常被公式化为一个世界模型：给定当前世界状态，以环境输入为条件，该模型预测下一个世界状态，并使用扩散来解码高度逼真的驾驶场景。

GAIA-1由Wayve开发，用于生成逼真的驾驶视频。世界模型使用相机图像、文本描述和车辆控制信号作为输入标记，并预测下一帧。本文利用预训练的DINO模型的嵌入和余弦相似性损失提取更多的语义知识用于图像标记嵌入。他们使用视频扩散模型从预测的图像标记中解码高保真驾驶场景。有两个单独的任务来训练扩散模型：图像生成和视频生成。图像生成任务帮助解码器生成高质量的图像，而视频生成任务使用时间注意力来生成时间一致的视频帧。生成的视频遵循高级真实世界约束，并具有逼真的场景动力学，例如目标的位置、交互、交通规则和道路结构。视频还展示了多样性和创造力，这些都有现实的可能结果，取决于不同的文本描述和自我载体的行动。

DriveDreamer还使用世界模型和扩散模型为自动驾驶生成视频。除了图像、文本描述和车辆动作，该模型还使用了更多的结构性交通信息作为输入，如HDMap和目标3D框，使模型能够更好地理解交通场景的更高层结构约束。模型训练分为两个阶段：第一阶段是使用基于结构化交通信息的扩散模型生成视频。

限制和未来方向

目前最先进的基础模型（如SAM）对于3D自动驾驶感知任务（如物体检测和分割）没有足够好的零样本泛化能力。自动驾驶感知依赖于多个摄像头、激光雷达和传感器融合来获得最高精度的物体检测结果，这与从网络上随机收集的图像数据集大不相同。当前用于自动驾驶感知任务的公共数据集的规模仍然不足以训练基础模型并覆盖所有可能的长尾场景。尽管存在局限性，现有的2D视觉基础模型可以作为有用的特征提取器进行知识提取，这有助于模型更好地结合语义信息。在视频生成和预测任务领域，我们已经看到了利用现有扩散模型进行视频生成和点云预测的有希望的进展，这可以进一步应用于创建自动驾驶模拟和测试的高保真场景。

多模态基础模型

多模态基础模型通过从多种模态（如声音、图像和视频）获取输入数据来执行更复杂的任务，例如从图像生成文本、使用视觉输入进行分析和推理，从而受益更多。

最著名的多模态基础模型之一是CLIP。使用对比预训练方法对模型进行预训练。输入是有噪声的图像和文本对，并且训练模型来预测给定的图像和文字是否是正确的对。训练该模型以最大化来自图像编码器和文本编码器的嵌入的余弦相似性。CLIP模型显示了其他计算机视觉任务的零样本转移能力，如图像分类，以及在没有监督训练的情况下预测类的正确文本描述。

LLaVA、LISA和CogVLM等多模态基础模型可用于通用视觉人工智能代理，它在视觉任务中表现出优异的性能，如目标分割、检测、定位和空间推理。

将通用知识从大规模预训练数据集转移到自动驾驶中，多模态基础模型可用于目标检测、视觉理解和空间推理，从而在自动驾驶中实现更强大的应用。

视觉理解和推理

传统的物体检测或分类模型对于自动驾驶来说是不够的，因为我们需要更好地理解场景的语义和视觉推理，例如识别危险物体，了解交通参与者的意图。现有的基于深度学习的预测和规划模型大多是暗箱模型，当事故或不适事件发生时，这些模型的可解释性和可调试性较差。在多模态基础模型的帮助下，我们可以生成模型的解释和推理过程，以更好地研究问题。

Talk2BEV提出了一种融合视觉和语义信息的场景创新鸟瞰图（BEV）表示。该管道首先从图像和激光雷达数据中生成BEV地图，并使用通用视觉语言基础模型添加对物体裁剪图像的更详细的文本描述。然后，BEV映射的JSON文本表示被传递给通用LLM，以执行Visual QA，其中包括空间和视觉推理任务。结果表明，它很好地理解了详细的实例属性和目标的更高层次意图，并能够就自我载体的行为提供自由形成的建议。

统一感知和规划

Wen对GPT-4Vision在感知和规划任务中的应用进行了早期探索，并评估了其在几个场景中的能力。它表明GPT-4Vision可以了解天气、交通标志和红绿灯，并识别场景中的交通参与者。它还可以提供这些目标的更详细的语义描述，如车辆尾灯、U型转弯等意图和详细的车辆类型（如水泥搅拌车、拖车和SUV）。它还显示了基础模型理解点云数据的潜力，GPT-4V可以从BEV图像中投影的点云轮廓识别车辆。他们还评估了模型在规划任务中的性能。考虑到交通场景，GPT4-V被要求描述其对车辆行动的观察和决定。结果显示，与其他交通参与者的互动良好，遵守了交通规则和常识，例如在安全距离内跟车，在人行横道上向骑自行车的人让行，在绿灯变绿之前保持停车。它甚至可以很好地处理一些长尾场景，比如门控停车场。

限制和未来方向

多模态基础模型显示了自动驾驶任务所需的空间和视觉推理能力。与传统的目标检测相比，在闭集数据集上训练的分类模型、视觉推理能力和自由形式的文本描述可以提供更丰富的语义信息，可以解决许多长尾检测问题，如特种车辆的分类、警察和交通管制员对手势的理解。多模态基础模型具有良好的泛化能力，可以很好地利用常识处理一些具有挑战性的长尾场景，例如在受控访问的门口停车。进一步利用其规划任务的推理能力，视觉语言模型可用于统一感知规划和端到端自动驾驶。

多基础模型在自动驾驶中仍然存在局限性。GPT-4V模型仍然存在幻觉，并在几个例子中产生不清楚的反应或错误的答案。该模型还显示出在利用多视图相机和激光雷达数据进行精确的3D物体检测和定位方面的无能，因为预训练数据集只包含来自网络的2D图像。需要更多特定领域的微调或预训练来训练多模态基础模型，以更好地理解点云数据和传感器融合，从而实现最先进的感知系统的可比性能。

结论和未来方向

我们对最近将基础模型应用于自动驾驶的论文进行了总结和分类。我们基于自动驾驶中的模态和功能建立了一个新的分类法。我们详细讨论了使基础模型适应自动驾驶的方法和技术，例如上下文学习、微调、强化学习和视觉教学调整。我们还分析了自动驾驶基础模型的局限性，如幻觉、延迟和效率，以及数据集中的领域差距，从而提出了以下研究方向：

在自动驾驶数据集上进行特定领域的预训练或微调；
强化学习和人在环对齐，以提高安全性并减少幻觉；
2D基础模型对3D的适应，例如语言引导的传感器融合、微调或3D数据集上的few-shot学习；
用于将基础模型部署到车辆的延迟和内存优化、模型压缩和知识提取。

我们还注意到，数据集是自动驾驶基础模型未来发展的最大障碍之一。现有的1000小时规模的自动驾驶开源数据集远远少于最先进的LLM所使用的预训练数据集。用于现有基础模型的网络数据集并没有利用自动驾驶所需的所有模式，如激光雷达和环视摄像头。网络数据域也与真实的驾驶场景大不相同。

我们在图5中提出了长期的未来路线图。在第一阶段，我们可以收集一个大规模的2D数据集，该数据集可以覆盖真实世界环境中驾驶场景的所有数据分布、多样性和复杂性，用于预训练或微调。大多数车辆都可以配备前置摄像头，在一天中的不同时间收集不同城市的数据。在第二阶段，我们可以使用激光雷达使用更小但质量更高的3D数据集来改善基础模型的3D感知和推理，例如，我们可以作为教师使用现有最先进的3D目标检测模型来微调基础模型。最后，我们可以在规划和推理中利用人类驾驶示例或注释来进行对齐，从而达到自动驾驶的最大安全目标。