地平线&港大最新端到端进展！HE-Drive：VLM+扩散模型发大力-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

本文提出了HE-Drive：首个模仿人类驾驶为核心的端到端自动驾驶系统，旨在生成同时具备时间一致性和舒适性的轨迹。近期研究表明，基于模仿学习的规划器和基于学习的轨迹评分器能够有效生成并选择高度模仿专家演示的准确轨迹。然而这类轨迹规划和评分器面临生成时间不一致且不舒适的轨迹的困境。为了解决上述问题，HE-Drive首先通过稀疏感知提取关键的三维空间表示，这些表示随后作为条件输入，传递给基于条件去噪扩散概率模型（DDPM）的运动规划器，生成具备时间一致性的多模态轨迹。随后，基于视觉语言模型（VLM）引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆，确保类人的端到端驾驶体验。实验结果表明，HE-Drive在nuScenes和OpenScene数据集上实现了SOTA性能（即比VAD减少了71%的平均碰撞率）和效率（即比SparseDrive快1.9倍），同时在真实世界数据中提供了最舒适的驾驶体验。

代码链接：https://github.com/jmwang0117/HE-Drive

总结来说，本文的主要贡献如下：

基于扩散的运动规划：本文提出了一种基于扩散的运动规划器，通过以稀疏感知网络提取的3D表示为条件，并结合历史预测轨迹的速度、加速度和偏航角，生成时间一致性和多模态的轨迹。
即插即用的轨迹评分：本文引入了一种新颖的基于视觉语言模型（VLMs）引导的轨迹评分器及舒适度指标，弥补了类人驾驶的不足，使其能够轻松集成到现有的自动驾驶系统中。
优秀的开环和闭环测试结果：HE-Drive在nuScenes和OpenScene数据集上实现了最先进的性能（即相比VAD减少了71%的平均碰撞率）和效率（即比SparseDrive快1.9倍），同时在真实世界数据集上将舒适度提升了32%，展示了其在各种场景中的有效性。

文章简介

图1：本文展示了HE-Drive，这是首个类人端到端驾驶系统。HE-Drive将多视角传感器数据作为输入，并在复杂场景中输出最优行驶路径。

端到端范式将感知、规划和轨迹评分任务集成到一个统一模型中，以规划目标进行优化，最近在推动自动驾驶技术发展方面展示了显著的潜力（图1a）。最新研究提出了基于模仿学习的运动规划器，它们通过大规模驾驶演示学习驾驶策略，并使用基于学习的轨迹评分器从多个预测候选轨迹中选择最安全、最准确的轨迹来控制车辆。然而，尽管现有的规划器和评分器在预测准确性方面取得了显著进展，它们仍面临生成时间不一致轨迹的挑战，即连续的预测在时间上不稳定且不一致，以及选择不舒适轨迹的问题，这些轨迹表现为连续制动，导致车辆停顿或过大的转弯曲率。

本文提出了HE-Drive，这是首个以类人驾驶为核心的端到端自动驾驶系统，旨在解决上述两个问题，如图2所示。具体而言，本文发现由基于模仿学习的规划器生成的轨迹在时间一致性方面存在的问题主要源于两个因素：时间相关性和泛化能力。首先，这些规划器依赖当前帧过去几秒的信息来预测未来轨迹，忽略了连续预测之间的相关性。其次，它们的性能受到离线收集的专家轨迹质量的限制，导致在系统动态变化和分布外状态下，所学的策略缺乏应对未见场景的泛化能力。受扩散策略在机器人操作中取得成功的启发，该策略采用视觉条件的扩散模型来精确表示多模态分布以生成动作序列，本文提出了一种基于扩散的规划器，能够生成具有强时间一致性的多模态轨迹。

此外，导致预测轨迹不舒适的关键原因在于次优轨迹评分器无法实现持续评估，并且缺乏衡量轨迹舒适度的通用指标。近期研究表明，基于学习的评分器在闭环场景中不如基于规则的评分器，而后者由于依赖手工设计的后处理方式，泛化能力有限。其他研究者探索了使用视觉语言模型（VLMs）来感知周围代理的运动和交通表示，从而决定下一步行动。然而，直接将VLMs作为驾驶决策者面临解释性差和严重幻觉问题。为了解决这些问题，本文提出了一种新颖的轨迹评分器和通用的舒适度指标，结合了基于规则评分器的可解释性与VLMs的适应性，能够根据驾驶风格（例如，激进或保守）进行调整，从而实现持续评估。

综上所述，HE-Drive是一种新颖的以类人驾驶为核心的端到端自动驾驶系统。该系统利用稀疏感知技术，通过稀疏特征来检测、跟踪并映射驾驶场景，生成三维空间表示。这些表示作为条件输入到基于扩散的运动规划器中，该规划器由条件去噪扩散概率模型（DDPM）驱动。最后，基于视觉语言模型（如Llama 3.2V）引导的轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆，确保类人风格的端到端驾驶体验。

HE-Drive方法详解

稀疏感知

HE Drive首先采用视觉编码器从输入的多视图相机图像中提取多视图视觉特征，表示为F。随后稀疏感知同时执行检测、跟踪和在线地图任务，为周围环境提供更高效、更紧凑的3D表示（见图2）。

基于扩散模型的运动规划

图2展示了我们基于扩散的运动规划器的整体流程。我们采用基于CNN的扩散策略作为基础，该策略由一个由1D卷积层、上采样层和FiLM（特征线性调制）层组成的条件U-Net组成。

运动规划器扩散策略：本文的方法（图7）采用了条件去噪扩散概率模型（DDPM），这是一个通过参数化马尔可夫链定义的生成模型，使用变分推理训练来模拟条件分布p（At | Ot）。DDPM由一个正向过程和一个反向过程组成，正向过程逐渐将高斯噪声添加到输入数据中，将其转换为纯噪声，反向过程迭代地对噪声数据进行去噪以恢复原始数据。

大模型指导下的轨迹评分

为了从DDPM生成的多模态轨迹中选择最合适的路径，我们引入了VLMs制导轨迹评分器（VTS），如图3所示。据我们所知，VTS是第一个结合了可解释性和零样本驾驶推理能力的轨迹评分器。通过利用视觉语言模型（VLM），悉尼威立雅运输公司可以根据各种驾驶因素（如碰撞概率和舒适度）有效地评估轨迹，从而实现透明的决策和对新驾驶场景的适应性，而无需进行广泛的微调（即终身评估）。

实验结果

图4：Llama 3.2V在nuScenes上的定性结果。本文展示了问题（Q）、上下文（C）和答案（A）。通过结合环视图像和文本数据，基于规则的评分器通过针对性的权重修改，实现了驾驶风格的微调。

图5：(a) 和 (b) 展示了轨迹生成和评分过程，其中(a) 中的灰色轨迹表示为最优路径，基于最低成本标准被选中用于车辆控制。

图6：(a) 显示了HE-Drive与两个基线模型在真实世界数据中舒适度指标的比较结果；(b) 显示了HE-Drive在闭环数据集OpenScene上的效率指标比较结果。

总结

本文介绍了HE-Drive，一种新颖的以类人驾驶为核心的端到端自动驾驶系统，旨在解决现有方法在实现时间一致性和乘客舒适度方面的局限性。HE-Drive集成了稀疏感知模块、基于扩散的运动规划器以及Llama 3.2V引导的轨迹评分系统。稀疏感知模块通过统一检测、跟踪和在线映射，实现了完全稀疏的场景表示。基于扩散的运动规划器在连续空间中生成多模态轨迹，确保时间一致性并模拟人类的决策过程。轨迹评分模块结合了基于规则的方法和Llama 3.2V，提升了系统的泛化能力、可解释性、稳定性和舒适度。广泛的实验表明，HE-Drive在开放环和闭环数据集上相较于最先进的方法表现出色，生成了具备更好时间一致性和乘客舒适度的类人轨迹。

地平线&港大最新端到端进展！HE-Drive：VLM+扩散模型发大力

写在前面&笔者的个人理解

文章简介

相关工作回顾

端到端自动驾驶

扩散模型用于轨迹生成

大模型用于轨迹评测

HE-Drive方法详解

稀疏感知

基于扩散模型的运动规划

大模型指导下的轨迹评分

实验结果

总结