入行端到端自动驾驶，今年必读的十篇最前沿论文-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

End to End methods for Autonomous Driving

近几年，自动驾驶技术的发展可谓是日新月异。从2021年的BEV+Transformer范式到2022年的Occupancy网络，再到2023年以来，“端到端”思路被炒得火热，如今各大厂商几乎都推出了自己的做端到端系统：2023年8月特斯拉发布FSD V12；2024年4月商汤绝影发布面向量产的端到端自动驾驶解决方法UniAD；2024年5月，百度发布Apollo ADFM作为支持L4级别自动驾驶的大模型；2024年5月，小鹏汽车也发布自己的端到端大模型包含感知大模型XNet+规控大模型XPlanner+大语言模型XBrain三个部分……

不论是主机厂还是智驾解决方案供应商，每一家都有自己的端到端算法，但是到底什么是端到端？业内一直在讨论，没有一个明确的定义。但是笔者认为，来自大佬王乃岩的知乎回答，可能可以给读者们提供一些思考。简单总结就是：输入各种传感器的数据，可以直接输出控制信号的或者行驶轨迹的，可以称之为狭义端到端；而广义端到端可以认为是提供了一种对于感知信息（也许是隐式）的全面表示，能够自动地无损地作用于PnC的模型。

对于我们自动驾驶从业人员来说，follow新的技术，一直是我们的工作之一。今天笔者就带来一份详细的端到端自动驾驶论文的总结，供大家学习入门。

ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning

论文链接：https://arxiv.org/pdf/2207.07601
论文时间：2022.7
论文作者：Shengchao Hu， Li Chen, Penghao Wu, et al.
所属团队：上海交通大学人工智能实验室，上海市人工智能实验室，加利福尼亚州圣地亚哥分校，et al.

这篇论文提出了一个名为ST-P3的端到端视觉基础自动驾驶系统，旨在通过空间-时间特征学习来提升自动驾驶任务中的感知、预测和规划性能。现有的自动驾驶范式通常采用多阶段分散的流水线任务，但这种方法的缺点在于各个阶段间可能存在信息损失和不一致性。为了克服这些问题，ST-P3采用了一种一体化的方法，直接从原始传感器数据生成规划路径或控制信号，从而在整个网络中同时优化特征表示。ST-P3系统的核心在于其空间-时间特征学习方案，该方案通过三个主要的技术改进来增强特征学习：自我中心对齐累积技术（Ego-centric Aligned Accumulation）：在感知阶段，该技术通过预测深度信息将多视角相机输入的特征转换到3D空间，并在变换到鸟瞰图（BEV）之前，将过去和当前的3D特征进行累积，以保留几何信息。双通道建模（Dual Pathway Modelling）：在预测阶段，ST-P3不仅考虑当前状态的不确定性，还结合了过去的运动变化，通过两个通道来增强对未来场景的预测能力。先验知识精细化单元（Prior-Knowledge Refinement）：在规划阶段，ST-P3利用从早期网络阶段获得的中间表示来规划安全舒适的轨迹，并引入一个精细化模块来进一步优化轨迹，考虑如交通信号灯等视觉元素。

Planning-oriented Autonomous Driving

论文链接：https://arxiv.org/pdf/2212.10156
论文时间：2023.3
论文作者：Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, et al.
所属团队：OpenDriveLab, OpenGVLab，上海人工智能实验室, 武汉大学, 商汤科技研究院

在传统的自动驾驶系统中，感知、预测和规划任务通常由独立的模型分别处理，这种模块化的方法虽然简化了研发流程，却存在着信息在模块间传递时丢失、误差累积以及特征对齐问题。UniAD通过一个统一的网络将这些任务整合在一起，优化了任务间的信息流通和协调，从而显著提升了整个系统的性能和可靠性。UniAD的核心是其端到端的设计，它将多个关键任务——包括目标检测、多目标跟踪、在线地图构建、运动预测、占用预测和规划——封装在一个网络中。这种设计允许系统从全局视角捕获驾驶场景的语义和几何信息，并通过统一的查询接口实现不同任务间的有效通信。例如，感知模块的输出可以直接用于预测模块，而预测结果又可以指导规划器制定安全有效的行驶策略。从实现的角度说，UniAD采用了Transformer解码器结构，利用自注意力机制来处理感知和预测任务中的序列化数据。它通过TrackFormer进行目标的检测和跟踪，通过MapFormer实现在线地图构建，通过MotionFormer预测其他车辆和行人的未来运动轨迹，通过OccFormer预测未来场景的占用网格图。最终，规划器结合这些信息，使用非线性优化策略生成最终的行驶轨迹，确保自动驾驶车辆能够安全地导航。

ReasonNet: End-to-End Driving with Temporal and Global Reasoning

论文链接：https://arxiv.org/pdf/2305.10507
论文时间：2023.5
论文作者：Hao Shao, Letian Wang, Ruobing Chen, et al.
所属团队：商汤科技研究院, 多伦多大学, 香港中文大学 MMLab, 上海人工智能实验室

ReasonNet是为解决自动驾驶车辆在城市密集交通场景中部署的挑战而设计的端到端驾驶框架。该框架特别关注于预测场景的未来演变和对象的未来行为，以及处理罕见的不利事件，如遮挡对象的突然显现。这些能力对于确保自动驾驶车辆能够安全、可靠地运行至关重要。框架的核心在于其两个创新的推理模块：时序推理和全局推理。时序推理模块通过分析和融合不同帧之间的特征，有效地处理了对象随时间的运动和相互作用，同时维护了一个记忆库来存储和利用历史特征，这有助于对遮挡对象进行追踪和预测。全局推理模块则进一步增强了框架的能力，通过模拟对象与环境之间的交互和关系，来识别和处理不利事件，尤其是那些可能被遮挡的对象，从而提高了整体的感知性能。为了全面评估框架的性能，研究者开发了DriveOcclusionSim，这是一个包含多种遮挡事件的驾驶模拟基准测试。ReasonNet的成功不仅体现在理论上，更在于其在实际模拟环境中的卓越表现。该框架通过多任务学习，联合目标包括对象检测、占用预测、交通标志预测和路径点预测，提高了对复杂交通场景的全面理解。此外，框架中的感知模块能够处理和融合来自多个传感器的数据，生成对导航至关重要的鸟瞰图特征。控制策略则利用预测的路径点和交通标志来指导自动驾驶车辆的行驶。

FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

论文链接：https://arxiv.org/pdf/2308.01006
论文时间：2023.8
论文作者：Tengju Ye2, Wei Jing3, Chunyong Hu, et al.
所属团队：西湖大学，Udeer.ai，菜鸟网络，阿里巴巴集团

这篇论文提出了一个名为FusionAD的新型自动驾驶多模态融合神经网络框架，首次探索了如何将相机和激光雷达的信息融合，以端到端的方式优化预测和规划任务。具体来说，研究者首先构建了一个基于Transformer的多模态融合网络，有效地产生基于融合的特征。与基于相机的端到端方法UniAD相比，FusionAD进一步建立了一个融合辅助的模态感知预测和状态感知规划模块（FMSPnP），该模块利用多模态特征进行优化。在nuScenes数据集上进行的广泛实验表明，FusionAD在感知任务（如检测和跟踪）上平均提高了15%，在占用预测精度上提高了10%，在平均位移误差（ADE）分数上从0.708降低到0.389，并减少了碰撞率从0.31%到0.12%。这些结果表明，FusionAD在预测和规划任务上达到了当时最先进的性能，同时在中间感知任务上也保持了竞争力。FusionAD的核心贡献在于提出了一种基于BEV（鸟瞰图）融合的多传感器、多任务端到端学习方法，与仅基于相机的BEV方法相比，大大改进了结果。研究者提出的FMSPnP模块结合了模态自注意力和细化网络，用于预测任务，以及放松的碰撞损失和与矢量化自我信息的融合，用于规划任务。实验研究表明，FMSPnP提高了预测和规划结果。

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

论文链接：https://arxiv.org/pdf/2303.12077
论文时间：2023.8
论文作者：Bo Jiang, Shaoyu Chen, Qing Xu, et al.
所属团队：华中科技大学，地平线

VAD通过将驾驶场景建模为完全矢量化的表示来实现高效和安全的轨迹规划。与依赖于密集光栅化场景表示（例如语义地图、占用地图等）的传统方法相比，VAD利用矢量化的智能体运动和地图元素作为明确的实例级规划约束，不仅提高了规划的安全性，还显著提升了计算效率。在nuScenes数据集上的实验表明，VAD在减少规划误差和碰撞率方面取得了突破性进展，同时大幅提高了推理速度，这对于自动驾驶系统的实际部署至关重要。VAD的核心优势在于其创新的矢量化规划约束，这些约束包括自车的碰撞约束、自我边界越界约束和自我车道方向约束，它们共同作用于规划轨迹，确保了自动驾驶车辆在复杂交通环境中的安全性和合理性。此外，VAD采用了BEV（鸟瞰图）查询和agent查询，通过注意力机制隐式学习场景特征，并利用这些特征指导规划决策。VAD的端到端学习框架允许模型直接从传感器数据中学习，无需依赖预先构建的地图或复杂的后处理步骤，这一点在提高规划速度和减少计算资源消耗方面发挥了关键作用。

VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

论文链接：https://arxiv.org/pdf/2402.13243
论文时间：2024.2
论文作者：Shaoyu Chen, Bo Jiang, Hao Gao, Bencheng Liao, et al.
所属团队：华中科技大学，地平线

VADv2是一篇探索概率规划在端到端自动驾驶中的应用的研究论文。这项工作的核心是解决传统确定性规划方法在处理规划不确定性时的不足，特别是在面对非凸可行解空间时的挑战。本文提出的模型采用概率规划范式，将规划策略视为环境条件化的非平稳随机过程，通过从大规模驾驶演示中学习，来拟合连续规划动作空间的概率分布。输入是多视图图像序列，这些图像以流式传输的方式被转换成环境token嵌入，模型输出动作的概率分布，并从中采样一个动作来控制车辆。这样的概率规划方法具有两个显著优势。首先，概率规划能够对每个动作与环境之间的相关性进行建模，与只能为目标规划动作提供稀疏监督的确定性建模不同，概率规划可以为规划词汇表中的所有候选动作提供监督，从而带来更丰富的监督信息。其次，概率规划在推理阶段非常灵活，能够输出多模态规划结果，并且易于与基于规则和基于优化的规划方法相结合。此外，我们可以灵活地将其他候选规划动作添加到规划词汇表中，并评估它们，因为我们对整个动作空间进行了分布建模。VADv2的框架包括场景编码器、概率规划模块和训练过程。场景编码器将传感器数据转换为实例级token嵌入，包括地图token、智能体token、交通元素token和图像token。概率规划模块则利用大规模驾驶演示和场景约束来监督预测的分布。训练过程中，VADv2采用分布损失、冲突损失和场景token损失三种监督信号，以学习从驾驶演示中得到的概率分布。

SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

论文链接：https://arxiv.org/pdf/2405.19620
论文时间：2024.5
论文作者：Wenchao Sun, Xuewu Lin, Yining Shi, et al.
所属团队：清华大学，地平线

这篇论文提出了SparseDrive，一种端到端的自动驾驶系统，旨在解决现有自动驾驶模型在规划安全性和效率方面的不足。传统的自动驾驶系统采用模块化设计，将感知、预测和规划等任务解耦为独立的模块，这导致了信息丢失和误差累积。而端到端的方法虽然在优化时能够全面考虑，但其性能和效率通常不尽人意，特别是在规划安全方面。SparseDrive通过探索稀疏场景表示和重新审视端到端自动驾驶的任务设计，提出了一种新颖的范式。具体来说，SparseDrive由一个对称的稀疏感知模块和一个并行运动规划器组成。稀疏感知模块通过对称的模型架构统一了检测、跟踪和在线地图构建任务，学习驾驶场景的完全稀疏表示。并行运动规划器则利用从稀疏感知中获得的语义和几何信息，同时进行运动预测和规划，产生多模态轨迹，并采用分层规划选择策略，包括碰撞感知重分模块，以选择合理且安全的轨迹作为最终规划输出。SparseDrive的设计有效提高了端到端自动驾驶的性能和效率。在nuScenes数据集上的实验结果表明，SparseDrive在所有任务的性能上都大幅超越了先前的最先进方法。此外，SparseDrive的碰撞感知重分模块和多模态规划方法，使得规划器能够基于运动预测结果评估规划轨迹的碰撞风险，并据此调整轨迹的得分，从而确保了规划的安全性。SparseDrive的这些设计选择通过广泛的消融实验得到了验证，证明了其在提高规划性能方面的有效性。

Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

论文链接：https://arxiv.org/pdf/2406.06978
论文时间：2024.6
论文作者：Zhenxin Li, Kailin Li, Shihao Wang, et al.
所属团队：英伟达，复旦大学，华东师范大学，北京理工大学，南京大学，南开大学

Hydra-MDP是一篇探讨端到端自动驾驶多模态规划的论文，提出了一种新颖的多教师模型范式，通过从人类和基于规则的教师那里进行知识蒸馏来训练学生模型。通过一个多头解码器来实现多模态规划，该解码器学习针对不同评估指标量身定制的多样化轨迹候选。与传统的端到端方法不同，Hydra-MDP不依赖于不可微的后处理过程，而是利用基于规则的教师的知识，以端到端的方式学习环境如何影响规划。Hydra-MDP的解决方案包括感知网络和轨迹解码器两个主要部分。感知网络基于官方挑战基线Transfuser构建，利用图像和激光雷达数据提取环境token，这些tokens编码了丰富的语义信息。轨迹解码器则采用固定规划词汇表来离散化连续动作空间，并通过多层变换器编码器和解码器结合环境线索。论文的关键创新之一是多目标Hydra蒸馏策略，通过两步过程扩展学习目标：首先，对整个训练数据集的规划词汇进行离线模拟；其次，在训练过程中引入模拟得分的监督。这种策略将规则基础的驾驶知识蒸馏到端到端规划器中，提升了闭环性能。

End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation

论文链接：https://arxiv.org/pdf/2406.17680
论文时间：2024.6
论文作者：Mingzhe Guo, Zhipeng Zhang, et al.
所属团队：北京交通大学，卡尔动力KARGOBOT

这篇论文提出了一种名为UAD（Unsupervised pretext task for end-to-end Autonomous Driving）的新方法，旨在解决当前端到端自动驾驶（E2EAD）模型在环境感知和预测任务中对昂贵的模块化和手动3D标注的依赖问题。UAD的核心创新在于引入了一个无监督的前置任务，通过预测驾驶场景中的角空间对象性和时序动态来模拟环境，从而消除了对手动标注的需求。此外，UAD采用了自监督的训练策略，通过学习在不同增强视图下预测轨迹的一致性，增强了在转向场景中的规划鲁棒性。UAD方法的提出基于对现有E2EAD模型的观察，这些模型通常模仿传统驾驶栈中的模块化架构，需要大量高质量的3D标注数据来监督感知和预测子任务。这种设计虽然取得了突破性进展，但存在明显的缺陷：一是对大规模训练数据的扩展构成了重大障碍；二是每个子模块在训练和推理中都需要大量的计算开销。为了解决这些问题，UAD框架采用了一个新颖的角度感知预文本设计，通过预测BEV空间中每个扇区区域的对象性来获取空间知识，并通过自回归机制预测未来状态来捕获时序信息。在实验中，UAD在nuScenes数据集上取得了最佳的开放环路评估性能，并在CARLA模拟器中展示了稳健的闭环路驾驶质量。

DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba

论文链接：https://arxiv.org/pdf/2408.03601
论文时间：2024.8
论文作者：Chengran Yuan, Zhanqi Zhang, Jiawei Sun, et al.
所属团队：新加坡国立，Moovita

这篇论文介绍了一种叫作DRAMA的新型端到端运动规划器，它基于Mamba模型，旨在解决自动驾驶领域中的运动规划问题。运动规划是自动驾驶车辆的核心能力之一，它负责生成在复杂和高度动态环境中既安全又可行的轨迹。然而，由于其他道路使用者的意图预测、交通标志和信号的理解、道路拓扑结构的复杂性等因素，实现可靠和高效的轨迹规划是一个挑战。DRAMA通过融合相机、激光雷达鸟瞰图（BEV）图像以及自车状态信息，生成一系列未来自车轨迹。与传统基于Transformer的方法相比，这些方法由于注意力机制的二次复杂度而在序列长度上计算量大，DRAMA通过减少计算密集度的注意力复杂度，展现出处理日益复杂场景的潜力。利用Mamba融合模块，DRAMA高效且有效地融合了相机和激光雷达模态的特征。此外，论文还引入了Mamba-Transformer解码器，增强了整体规划性能，这一模块普遍适用于任何基于Transformer的模型，尤其是对于长序列输入的任务。论文还引入了一种新颖的特征状态丢弃（Feature State Dropout, FSD）机制，该机制通过在训练和推理时不增加时间的情况下，通过减少有缺陷的传感器输入和丢失的自车状态的不利影响，提高了规划器的鲁棒性。具体来说，DRAMA采用了一个编码器-解码器架构，其中编码器利用多尺度卷积和Mamba融合模块有效地从相机和激光雷达BEV图像中提取特征，并通过FSD模块增强模型的鲁棒性。解码器则采用了Mamba-Transformer解码层来生成自车的未来轨迹。这种架构不仅提高了模型的效率和性能，而且通过减少模型大小和训练成本，提高了模型的可扩展性和实用性。论文的实验部分展示了DRAMA在多种场景下的规划结果，包括在没有明确交通信号控制的情况下准确执行停车让行行人的命令，以及在低速场景中熟练地进行停车操作。