本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面 && 笔者理解
传统的自动驾驶主要可以分为感知、预测、规控三个大的部分,其中预测模块承担着十分重要的角色,为下游规划路径提供重要的信息。然而,现实世界驾驶环境的复杂性,其中包括多个动态智能体(如车辆和行人)之间的相互作用,给预测造成了不小的挑战。这其中有一个重要任务就是轨迹预测,这涉及到基于它们当前的状态和环境来预测周围智能体的未来移动。
传统上,运动预测模型预测单个智能体的轨迹,而没有考虑它们之间的相互依赖性。在多智能体环境中,这种方法会导致次优的预测,因为它并不能捕捉到智能体之间的复杂交互。为了克服这些限制,最近的工作开始将规划信息纳入轨迹预测过程,允许系统做出更明智的决策。
- 论文链接:https://arxiv.org/pdf/2410.19639
在过去几年,自动驾驶的轨迹预测也有了显著的发展,许多方法利用多模态融合技术来提高准确性。比较早期模型依赖于历史轨迹和地图数据,通常将这些输入结合起来做预测。近期的工作会使用基于transformer的架构,引入了注意力机制以更好地整合这些不同的模态。这些模型大大提高了自动驾驶系统的预测能力,尤其是在智能体与其环境动态交互的场景中。另外,Planning-aware模型也作为提高轨迹预测的有效方法之一,比如:PiP和PRIME明确地将规划信息集成到预测框架中,允许系统在轨迹生成过程中考虑未来的目标。然而,这些方法通常因为处理数据所涉及的计算复杂性,在实时多智能体场景中表现并不理想。因此,基于扩散的模型最近被提出来解决这些问题,同时减少计算负担,同时保持高预测性能。
在这项工作中,作者提出了轨迹信息规划扩散(Trajectory-Informed Planning Diffusion,TIP-D)模型,该模型基于扩散框架的优势,并直接将规划特征集成到运动预测过程中,目的是结合规划信息来提高轨迹预测的准确性和可解释性。作者的方法能够通过利用交叉注意力机制动态融合规划特征与环境数据,同时预测多个智能体的轨迹。此外,TIP-D模型在计算复杂性上实现了显著降低,与现有的最先进方法相比降低了80%以上,同时在复杂的多智能体驾驶场景中保持了高准确性。
相关工作
多模态融合
在运动预测中,准确的轨迹预测依赖于不同信息模态的整合,例如智能体的历史轨迹和地图数据。为了更好地捕捉运动动态的复杂性,最近的研究扩展到包括规划轨迹、交通状态和车道方向等额外模态。这些增强旨在提供对动态环境更全面的理解,允许模型以更高的准确性预测轨迹。Wayformer优化注意力机制以提高计算效率,而Scene Transformer使用统一的架构有效管理多智能体交互。同样,LatentFormer采用基于Transformer的方法,结合潜在变量来提高预测精度。这些策略证明了整合多个信息模态对于更准确、更可靠的运动预测的有效性。
Planning-aware运动预测
Planning-aware轨迹预测是多模态预测方法的一个关键方面,其中包含动态车辆信息的规划特征被整合到高级编码特征中。例如,PiP引入了一个双模块系统,其中规划耦合模块将未来规划注入交互特征中,目标融合模块编码和解码智能体之间的未来交互。PRIME通过使用基于模型的场景上下文进一步优化这种方法,通过查询各种张量生成保证可行性的未来轨迹。TPP专注于通过整合来自自我运动采样器的树状结构规划结果来改进规划轨迹,尽管它仍然使用采样器的输出作为直接输入,而不是与地图交互。此外,像Multipath++这样的模型已经证明了这些技术在运动预测挑战中实现最先进的性能的有效性,特别是通过使用有效整合这些多模态信息源的先进注意力和基于扩散的模型。作者的方法进一步发展了这一概念,实现了与Multipath++几乎相当的性能,同时参数数量极少。
方法论
输入表示
模型使用多模态嵌入策略将各种数据源,如历史轨迹、高清地图和规划轨迹,转换为统一的高维空间。这确保了模型能够捕捉到准确轨迹预测所需的复杂的空间和时间关系。
模型架构和融合机制
训练目标
作者将损失函数制定为多项任务损失的总和,并使用辅助学习方法来平衡它们。在训练阶段,作者还使用了联合损失来平衡最终输出和预测头部的输出,遵循TrackFormer的方法。
实验及结果
数据集
Argoverse 数据集包含 324,000 个场景,包括详细的轨迹序列、传感器数据(如 3D 激光雷达和摄像头图片)以及高清地图。数据集被划分为训练集、验证集和测试集,并支持轨迹预测的多模态融合。用于评估模型准确性和预测能力的指标包括最小平均位移误差(Minimum Average Displacement Error, minADE)、最小最终位移误差(Minimum Final Displacement Error, minFDE)、未命中率(Miss Rate, MR)和布里尔分数。
指标
实验结果
作者将提出的方法与最先进的Planning-aware运动预测技术进行比较,包括 PIP 和 PRIME 。PRIME 作为基准,作者的方法显示出显著的改进:minFDE 提高了 14.10%,minADE 提高了 30.33%,p-minADE 提高了 2.59%。作者的方法还优于基于图神经网络的方法,如 LaneGCN 、VDC 和 HGO。与基于扩散的方法如 mmdiffusion 和 Scenediffusion 相比,作者的方法取得了更优越的结果,与 Multipath++ 相比参数数量减少了 84.43%。
总之,作者提出的方法在 Argoverse 数据集上表现出色,实现了更高的预测准确性和效率,同时显著减少了参数数量和计算开销。
消融研究
作者在 Argoverse 数据集上使用 minFDE、minADE、Brier-minFDE 和 Brier-minADE 进行了消融研究,以 mmdiffusion 作为基线。Planning-Aware Encoder,整合 PreFusion-D,改进了 minFDE、minADE、Brier-minFDE 和 Brier-minADE,分别提高了 7.81%、0.24%、1.87% 和 0.33%。扩展联合损失改进了 minFDE 0.24% 和 minADE 1.45%。为所有智能体添加回归导致了进一步的增益,分别为 0.82% 和 1.47%。
写在最后
本文提出了一个Planning-aware的堆叠扩散网络,这是运动预测中的一个新框架。Planning-aware扩散预测未来轨迹时会使用多模态特征,尤其是先前的规划特征。为了获得更好的融合性能,作者设计并探索了四个融合模块,将规划信息聚合到堆叠扩散中。作者还提出了一种新的损失函数,迫使网络关注可行驶区域。在 Argoverse 运动预测基准测试中进行的实验证明了作者模型的有效性。