VAD v2端到端SOTA | 远超DriveMLM等方法（地平线）-51CTO.COM

从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的，但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中，为了应对不确定性问题，作者提出了VADv2，一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列，将传感器数据转换为环境标记嵌入，输出动作的概率分布，并从中采样一个动作来控制车辆。仅使用摄像头传感器，VADv2在CARLA Town05基准测试中实现了最先进的闭环性能，显著优于所有现有方法。它能够在完全端到端的方式下稳定运行，甚至不需要基于规则的封装。

闭环演示可以在https://hgao-cv.github.io/VADv2中找到。

1 Introduction

端到端自动驾驶是近期重要且热门的领域。大量的人类驾驶演示数据易于获取。从大规模演示中学习类似人类的驾驶策略似乎很有希望。

然而，规划的不确定性和非确定性使得从驾驶演示中提取驾驶知识变得具有挑战性。

为了展示这种不确定性，图1中提出了两种情境:

跟随另一辆车。人类驾驶员有各种合理的驾驶操作，包括保持跟随或变道超车;
与迎面来车的交互。

人类驾驶员有两种可能的驾驶操作，即让行或超车。从统计学的角度来看，行动（包括时机和速度）具有高度随机性，受到许多无法建模的潜在因素的影响。

现有的基于学习的方法遵循确定性范式直接回归动作。回归目标是未来轨迹，在[16, 54]中是控制信号（加速度和转向）。这种范式假设环境和动作之间存在确定性的关系，但这并非实际情况。人类驾驶行为的变化导致了回归目标的不确定性。特别是当可行解空间非凸时（见图1），确定性建模无法处理非凸情况，并可能输出中间动作，造成安全问题。此外，这种基于确定性回归的规划器倾向于输出主导轨迹，即在训练数据中出现最频繁的轨迹（例如停止或直行），这会导致不理想的规划性能。

在这项工作中，作者提出了概率性规划以应对规划的不确定性。据作者所知，VADv2是第一个使用概率建模来拟合连续规划动作空间的工作，这与之前使用确定性建模进行规划的做法不同。作者将规划策略建模为一个环境条件下的非定常随机过程，表示为，其中是驾驶环境的历史和当前观察，是一个候选的规划动作。与确定性建模相比，概率建模能更有效地捕捉规划中的不确定性，从而实现更准确且安全的规划性能。

规划动作空间是一个高维的连续时空空间。作者求助于概率场函数来建模从动作空间到概率分布的映射。由于直接拟合连续的规划动作空间是不可行的，作者将规划动作空间离散化为一个大的规划词汇表，并使用大量驾驶演示来基于规划词汇表学习规划动作的概率分布。对于离散化，作者收集了所有驾驶演示中的轨迹，并采用最远轨迹采样方法选择N个代表性轨迹，这些轨迹作为规划词汇。

概率性规划有两个其他优点。首先，概率性规划模型模拟了每个动作与环境之间的相关性。与仅为目标规划动作提供稀疏监督的确定性建模不同，概率性规划不仅能为正样本提供监督，也能为规划词汇中的所有候选提供监督，这带来了更丰富的监督信息。此外，在推理阶段，概率性规划是灵活的。它输出多模态规划结果，并且易于与基于规则和基于优化的规划方法结合。由于作者模拟了整个动作空间上的分布，作者可以灵活地将其他候选规划动作添加到规划词汇中并进行评估。

基于概率性规划，作者提出了VADv2，一个端到端的驾驶模型，它以流式方式接收环视图像序列作为输入，将传感器数据转换成标记嵌入，输出动作的概率分布，并采样一个动作来控制车辆。仅使用摄像头传感器，VADv2在CARLA Town05基准测试中实现了最先进的闭环性能，显著优于所有现有方法。丰富的闭环演示可以在https://hgao-cv.github.io/VADv2上找到。VADv2在完全端到端的方式下稳定运行，即使没有基于规则的封装也可以。

作者的贡献总结如下：

作者提出概率性规划以应对规划中的不确定性。作者设计了一个概率场，将动作空间映射到概率分布，并从大规模驾驶演示中学习动作的分布。
基于概率性规划，作者提出了VADv2，一个端到端的驾驶模型，它将传感器数据转换为环境标记嵌入，输出动作的概率分布，并从中采样一个动作来控制车辆。
在CARLA模拟器中，VADv2在Town05基准测试上实现了最先进的闭环性能。闭环演示表明，它能够以端到端的方式稳定运行。

2 Related Work

感知。 感知是实现自动驾驶的第一步，对驾驶场景的统一表征有利于其轻松整合到下游任务中。鸟瞰图（BEV）表示近年来已成为一种常见策略，它有效支持场景特征编码和多模态数据融合。LSS 是一项开创性工作，通过显式预测图像像素的深度来实现透视视图到BEV的转换。

另一方面，BEVFormer 通过设计空间和时序注意力机制，避免了显式的深度预测，并取得了令人印象深刻的检测性能。后续工作通过优化时序建模和BEV转换策略，持续提高了在下游任务中的性能。在矢量化映射方面，HDMapNet 通过后处理将车道线分割转换为矢量地图。VectorMapNet 以自回归方式预测矢量地图元素。MapTR 引入了排列等价和分层匹配策略，显著提升了映射性能。LaneGAP 引入了针对车道图的路径建模。

运动预测。 运动预测旨在预测驾驶场景中其他交通参与者的未来轨迹，辅助自车做出明智的规划决策。传统的运动预测任务利用历史轨迹和高清地图等输入来预测未来轨迹。然而，近年来端到端的运动预测方法将感知和运动预测结合起来。在场景表示方面，一些研究采用栅格化的图像表示并使用卷积神经网络进行预测。

其他方法则采用向量化表示，并使用图神经网络或Transformer模型进行特征提取和运动预测。一些研究将未来的运动视为密集占用和流，而不是个体 Level 的未来航点。一些运动预测方法采用高斯混合模型（GMM）来回归多模态轨迹。这可以应用于规划中来建模不确定性。但模式的数量是有限的。

规划。 基于学习的规划由于其数据驱动性质以及随着数据量的增加而带来的令人印象深刻的性能，近年来已显示出巨大的潜力。早期尝试采用了完全的黑箱精神，其中传感器数据直接用于预测控制信号。然而，这种策略缺乏可解释性，且难以优化。此外，还有许多研究结合了强化学习和规划。通过在闭环仿真环境中自主探索驾驶行为，这些方法实现了甚至超越人类水平的驾驶性能。

然而，在模拟与现实之间的架桥，以及处理安全问题，将强化学习策略应用于真实驾驶场景提出了挑战。模仿学习是另一个研究方向，模型通过学习专家驾驶行为以获得良好的规划性能，并发展出接近人类的驾驶风格。近年来，端到端自动驾驶技术已经出现，将感知、运动预测和规划整合到单一模型中，形成了一种完全数据驱动的方法，展示了有前景的性能。UniAD巧妙地整合了多个感知和预测任务以增强规划性能。VAD探索了向量化场景表征用于规划的潜力，并摆脱了密集地图的束缚。

自动驾驶领域的大型语言模型。大型语言模型（LLM）展示的可解释性和逻辑推理能力可以在自动驾驶领域提供极大的帮助。近期的研究探讨了LLM与自动驾驶的结合。一方面，有用LLM通过问答（QA）任务来进行驾驶场景理解和评估的工作。

另一方面，还有研究更进一步，在基于LLM的场景理解之上加入了规划。例如，DriveGPT4接受历史视频和文本（包括问题及额外的信息，如历史控制信号）作为输入。编码后，这些输入被送入LLM，预测问题的答案和控制信号。而LanguageMPC则接收历史 GT 感知结果和以语言描述形式的高清地图。它采用一种思维链分析的方法来理解场景，最终LLM从预定义的集合中预测规划动作。每个动作对应一个具体的执行控制信号。VADv2从GPT中获得灵感，以解决不确定性问题。不确定性同样存在于语言建模中。

在特定语境下，下一个词是非确定性的和概率性的。LLM从大规模语料库中学习下一个词的条件概率分布，并从这个分布中抽样一个词。受到LLM的启发，VADv2将规划策略建模为一种环境条件下的非定常随机过程。VADv2离散化动作空间以生成规划词汇表，根据大规模驾驶演示近似概率分布，并在每个时间步从分布中抽样一个动作来控制车辆。

3 Method

VADv2的总体框架如图2所示。

VADv2以流方式接收多视角图像序列作为输入，将传感器数据转换为环境标记嵌入，输出动作的概率分布，并采样一个动作来控制车辆。使用大规模驾驶演示和场景约束来监督预测的分布。

Scene Encoder

图像中的信息是稀疏和低级的。作者使用编码器将传感器数据转换为实例级标记嵌入，以明确提取高级信息。包括四种标记：地图标记、代理标记、交通元素标记和图像标记。VADv2使用一组地图标记来预测地图的向量表示（包括车道中心线、车道分隔线、道路边界和行人横道）。

此外，VADv2还使用一组代理标记来预测其他交通参与者的运动信息（包括位置、方向、大小、速度和多模态未来轨迹）。交通元素在规划中也起着至关重要的作用。VADv2将传感器数据转换为交通元素标记以预测交通元素的状态。

在CARLA中，作者考虑两种类型的交通信号：交通灯信号和停车标志。地图标记、代理标记和交通元素标记都受到相应监督信号的监督，以确保它们明确编码相应的高级信息。作者还把图像标记作为规划的场景表示，它们包含丰富的信息，并且是对上述实例级标记的补充。此外，导航信息和自我状态也通过MLP编码到嵌入中。

Probabilistic Planning

作者提出概率性规划以应对规划过程中的不确定性。作者将规划策略建模为一个条件于环境的非定常随机过程，表述为。作者基于大规模驾驶演示近似地估计规划动作空间为一个概率分布，并在每个时间步从该分布中采样一个动作来控制车辆。

规划动作空间是一个高维连续时空空间。由于直接拟合连续的规划动作空间是不可行的，作者将规划动作空间离散化为一个大的规划词汇表。具体来说，作者收集了驾驶演示中的所有规划动作，并采用最远轨迹采样方法选择个代表性动作作为规划词汇。中的每条轨迹都是从驾驶演示中采样的，因此自然满足自车动力学约束，这意味着当轨迹转换为控制信号（转向、油门和刹车）时，控制信号值不会超出可行范围。默认情况下，设为4096。

作者将规划词汇中的每个动作表示为航点序列。每个航点对应于一个未来的时间戳。假设概率关于是连续的，并且对的小偏差不敏感，即，。

受到 NeRF 的启发，该方法在5D空间（）上建模连续辐射场，作者采用概率场来从动作空间到概率分布的连续映射。作者将每个动作（轨迹）编码成高维规划 Token 嵌入，使用级联Transformer解码器与环境信息进行交互，并结合导航信息和自我状态来输出概率，即，

是一个编码函数，它将来自的每个坐标映射到一个高维嵌入空间，并且分别应用于轨迹的每个坐标值。表示位置。作者使用这些函数将连续输入坐标映射到一个更高维的空间，以更好地近似一个高频场函数。

Training

作者使用三种监督方式来训练VADv2，分别是分布损失、冲突损失和场景标记损失。

分布损失。作者从大规模的驾驶演示中学习概率分布。使用KL散度来最小化预测分布和数据分布之间的差异。

在训练阶段，将真实轨迹作为正样本添加到规划词汇中。其他轨迹被视为负样本。作者对接近真实轨迹的负轨迹分配不同的损失权重。这样的轨迹受到的惩罚较少。

冲突损失。 作者利用驾驶场景的约束帮助模型学习关于驾驶的重要先验知识，并进一步规范预测的分布。具体来说，如果规划词汇中的一个动作与其他代理的未来运动或道路边界发生冲突，那么这个动作就被视为负样本，作者施加一个显著的损失权重以降低此动作的概率。

场景标记损失。 地图标记、代理标记和交通元素标记通过相应的监督信号进行监督，以确保它们明确编码对应的高级信息。

地图 Token 的损失与MapTRv2相同。采用损失来计算预测地图点与真实地图点之间的回归损失。Focal Loss用作地图分类损失。

代理标记的损失由检测损失和运动预测损失组成，这与VAD中的相同。使用损失作为回归损失来预测代理属性（位置、方向、大小等），并使用Focal Loss来预测代理类别。对于每个与 GT 代理匹配的代理，作者预测个未来轨迹，并使用具有最小最终位移误差（minFDE）的轨迹作为代表性预测。然后，作者计算此代表性轨迹与 GT 轨迹之间的损失作为运动回归损失。此外，采用Focal Loss作为多模态运动分类损失。

交通元素标记由两部分组成：交通灯标记和停车标志标记。一方面，作者将交通灯标记发送到多层感知机（MLP）以预测交通灯的状态（黄、红、绿）以及交通灯是否影响本车。另一方面，停车标志标记也被发送到MLP以预测停车标志区域与本车之间的重叠。利用Focal Loss（focal loss）来监督这些预测。

Inference

在闭环推理中，作者可以从分布中灵活地获取驾驶策略。直观地说，作者在每个时间步采样概率最高的动作，并使用PID控制器将选定的轨迹转换为控制信号（转向、油门和刹车）。

在实际应用中，有更多健壮的策略可以充分利用概率分布。一种好的实践是，将top-K动作作为 Proposal 进行采样，并采用基于规则的包装器来过滤 Proposal ，以及基于优化的后处理解算器进行细化。此外，动作的概率反映了端到端模型有多自信，可以作为在传统PnC和学习型PnC之间切换的判断条件。

4 Experiments

Experimental Settings

广泛使用的CARLA 仿真器被采纳来评估VADv2的性能。按照常见的做法，作者使用Town05长和Town05短基准来进行闭环评估。具体来说，每个基准都包含几个预定义的驾驶路线。Town05长包含10条路线，每条路线大约1公里长。Town05短包含32条路线，每条路线长70米。Town05长验证了模型的综合能力，而Town05短则专注于评估模型在特定场景下的性能，例如在交叉路口前变道。

作者使用CARLA官方的自主代理人在Town03、Town04、Town06、Town07和Town10中随机生成驾驶路线来收集训练数据。数据以2Hz的频率进行采样，作者收集了大约300万帧用于训练。对于每一帧，作者保存了6个摄像头的环视图像、交通信号、其他交通参与者的信息以及自车状态信息。

此外，通过预处理CARLA提供的OpenStreetMap 格式的地图，作者获得了用于训练在线地图模块的向量地图。需要注意的是，地图信息仅在训练期间作为 GT 提供，VADv2在闭环评估中并未利用任何高清晰度地图。

Metrics

对于闭环评估，作者使用了CARLA的官方指标。路线完成度表明了代理完成的路线距离的百分比。违规得分表示沿路线发生的违规程度的量化。典型的违规包括闯红灯、与行人发生碰撞等。每种违规类型都有一个相应的惩罚系数，发生的违规越多，违规得分就越低。

驾驶得分是路线完成度与违规得分的乘积，这是评估的主要指标。在基准评估中，大多数研究采用了基于规则的包装器来减少违规。为了与其他方法进行公平的比较，作者遵循通常的做法，在基于学习策略上采用基于规则的包装器。

对于开环评估，采用L2距离和碰撞率来展示学习到的策略在何种程度上类似于专家演示的驾驶。在消融实验中，作者采用开环指标进行评估，因为开环指标计算速度快且更稳定。作者使用CARLA官方的自主代理在Town05 Long基准上生成验证集以进行开环评估，并且将结果在所有验证样本上取平均值。

Comparisons with State-of-the-Art Methods

在Town05长距离基准测试中，VADv2取得了85.1的驾驶分数，98.4的路程完成度，以及0.87的违规分数，如表1所示。与之前的最先进方法相比，VADv2在路程完成度更高的同时，显著提高了驾驶分数，增加了9.0。

值得注意的是，VADv2仅使用摄像头作为感知输入，而DriveMLM同时使用了摄像头和激光雷达。此外，与之前仅依赖摄像头最佳方法相比，VADv2显示出更大的优势，驾驶分数的显著提高达到了16.8。

作者在表2中展示了Town05短距离基准的所有公开可用作品的成果。与Town05长距离基准相比，Town05短距离基准更侧重于评估模型在特定驾驶行为上的能力，例如在拥堵的车流中变道以及在与交叉口前变道。相较于之前的结果，VADv2在驾驶得分和路线完成率上分别显著提升了25.3和5.7，这展示了VADv2在复杂驾驶场景中的综合驾驶能力。

Ablation Study

表3展示了在VADv2中的关键模块的消融实验。如果没有分布损失（ID 1）提供的专家驾驶行为监督，模型在规划准确性方面表现不佳。

冲突损失提供了关于驾驶的关键先验信息，因此如果没有冲突损失（ID 2），模型的规划准确性也会受到影响。场景标记将重要的场景元素编码成高维特征，规划标记与场景标记交互，学习驾驶场景的动态和静态信息。当任何类型的场景标记缺失时，模型的规划性能将会受到影响（ID 3-ID 6）。当模型融合了上述所有设计时，可以实现最佳的规划性能（ID 7）。

Visualization

图3展示了VADv2的一些定性结果。第一张图像展示了在不同驾驶速度下，VADv2预测的多模态规划轨迹。第二张图像展示了在换道场景中，VADv2对向前缓行和多模态左转轨迹的预测。第三张图像描述了在路口的右换道场景，VADv2为直行和向右换道预测了多条轨迹。最后一张图像展示了一个换道场景，其中目标车道有一辆车，VADv2预测了多条合理的换道轨迹。

5 Conclusion

在这项工作中，作者提出了VADv2，这是一个基于概率规划的端到端驾驶模型。在CARLA模拟器中，VADv2运行稳定，并取得了目前最先进的闭环性能。这种概率范式的可行性主要得到了验证。然而，其在更复杂的真实世界场景中的有效性仍有待探索，这将作为未来的工作。