Hint-AD:面向可解释端到端!语言与感知-预测-规划全面对齐,助力多项任务SOTA

人工智能 新闻
今天为大家分享清华AIR&梅赛德斯-奔驰中国团队最新的端到端工作Hint-AD!

本文经自动驾驶之心公众号授权转载,转载请联系出处。

写在前面&出发点

自动驾驶中的端到端架构在可解释性方面面临重大挑战,这阻碍了人机之间的信任。为了执行诸如驾驶解释和3D字幕生成等任务,已探索过了人性化的自然语言。然而,以往的工作主要关注于声明式可解释性的范式,其中自然语言解释并未以自动驾驶系统的中间输出为基础,导致这些解释仅具有声明性质。相比之下,对齐式可解释性在语言与自动驾驶系统的中间输出之间建立了联系。在此,我们介绍了Hint-AD,这是一个集成的自动驾驶-语言系统,能够生成与自动驾驶模型的整体感知-预测-规划输出相对齐的语言。通过整合中间输出和一个用于有效特征适应的整体标记混合子网,Hint-AD实现了理想的准确性,在包括驾驶解释、3D密集字幕生成和指令预测在内的驾驶语言任务中取得了最先进的成果。

为了促进对nuScenes上驾驶解释任务的进一步研究,我们还引入了一个人工标注的数据集Nu-X。代码、数据集和模型均可在网上公开获取,网址为:https://air-discover.github.io/Hint-AD/

背景介绍

端到端的感知规划架构在自动驾驶(AD)和一般具身智能中至关重要,因为它具有利用大量数据进行自监督训练的潜力。然而,这些系统面临着严峻的可解释性挑战,在具身智能问题中,如自动驾驶,可解释性问题尤为突出。当自动驾驶系统直接输出控制信号时,人类乘客很难信任其决策。为了解决这个问题,自然语言作为一种高度用户友好的沟通媒介,已被探索用于通过诸如驾驶解释、3D密集字幕和视觉问答(VQA)等任务来增强可解释性。虽然人类驾驶员认识到BEV轨迹作为解释正在发生什么(WHAT)的价值,但语言提供了为什么发生这种情况(WHY)的补充视角。这些方法可以根据单一标准分为声明式可解释性和对齐式可解释性:即生成的语言是否与自动驾驶系统的中间输出对齐(图1)。

图片

  • 声明式可解释性如近期在驾驶解释、3D密集字幕和视觉问答等方面的研究所示,它直接生成自然语言,而不依赖于自动驾驶系统的中间输入。这种方法经常会产生幻觉,因为语言没有基于全面的中间输出,只是驾驶行为的合理化解释。
  • 对齐式可解释性要求语言与自动驾驶模型的内部状态保持一致。据我们所知,这种方法首先由[14]提出,他们将自动驾驶模型的注意力状态与语言解码器对齐,后来的工作将语言解码器与内部决策状态对齐。

然而,现有研究忽视了语言解码器与自动驾驶流程中的完整感知-预测-规划输出之间的对应关系,导致语言任务与自动驾驶任务之间存在差异。通过自动驾驶流程的中间输出来提高驾驶场景中语言任务准确性的潜力尚未被探索。为此,这里提出了Hint-AD,一个集成的自动驾驶-语言框架,旨在与自动驾驶模型的感知-预测-规划过程进行全面对齐,并生成高精度的语言,以促进自动驾驶的可解释性。

我们开发了两种方法来实现语言与自动驾驶模型之间的全面对齐以及语言输出的准确性:

(a) 开发了一个整体token混合模块,该模块将自动驾驶模型的中间输出token适应于语言解码器,重点在于稳健的特征提取和融合;

(b) 引入了一个对齐任务作为在线数据集,以将语言输出与自动驾驶模型的中间输出对齐,要求语言解码器在整个训练过程中解释自动驾驶模型推理过程中生成的中间token。

在UniAD和VAD这两个最先进的自动驾驶模型上实现了Hint-AD,这两个模型分别采用了光栅化和矢量化表示,以证明Hint-AD的通用性。实验结果表明,Hint-AD在各种语言任务上均达到了最先进的性能,包括驾驶解释(CIDEr得分比基线高出20.4%)、3D密集字幕(CIDEr得分比基线高出185%)、视觉问答(准确率提高1.2%)和驾驶指令预测(准确率提高1.2%)。对齐任务显著提高了语言输出与自动驾驶模型中间表示之间的一致性。此外,我们还贡献了一个基于nuScenes的人类标注的驾驶解释数据集Nu-X,以解决这个广泛使用的自动驾驶数据集上缺乏驾驶解释数据的问题。

相关工作介绍

端到端自动驾驶系统旨在构建一种能够处理传感器数据并直接输出车辆控制信号的架构。这些系统因能够解决传统模块化设计中存在的误差累积问题而备受研究关注,传统模块化设计将感知和规划分为不同的模块。其中,UniAD和VAD等杰出例子将模块化感知任务(如目标跟踪、地图构建、运动预测和轨迹规划)集成在一个统一的框架内。此外,还开发了用于端到端自动驾驶的离线数据集。

自动驾驶的可解释性,即为自动驾驶规划提供全面解释的能力,对于自动驾驶系统中的用户信任和系统透明度至关重要。自然语言作为一种与用户沟通的用户友好型媒介,已被探索用于通过驾驶解释、视觉问答(VQA)和3D密集字幕等方式来提高自动驾驶的可解释性。以前的工作主要集中在声明式可解释性上,一些方法使用视觉信息实现了驾驶解释任务。但是,自动驾驶模型的中间输出并未与语言输出对齐。其它论文提出了语言输出应基于自动驾驶系统内部状态的概念。也有人探索了将语言解码器与自动驾驶模型内部决策状态对齐的方法,但据我们所知,以前的工作尚未实现与自动驾驶模型整个感知-预测-规划过程的全面对齐。

Hint-AD方法

为了探索自然语言与端到端自动驾驶框架中的中间结果之间的全面对齐,我们提出了一个名为Hint-AD的新型框架,该框架包含三个模块:整体token混合器、语言解码器和传统自动驾驶框架。Hint-AD的概览如图2所示。图2中的现有自动驾驶流程可以是任何将自动驾驶分解为感知、预测和规划的端到端自动驾驶系统。为了不失一般性,在UniAD(作为Hint-UniAD)和VAD(作为Hint-VAD)的基础上实现了我们的方法,它们分别使用光栅化和矢量化表示。

图片

1)Hint-AD的整体框架

首先,从现有的感知-预测-规划架构的自动驾驶模型中提取中间查询token,生成跟踪token、运动token和规划token。其次,整体token混合器模块将对token进行适配,以作为语言解码器的输入。在此模块中,设计了一个实例混合器来合并每个检测实例的实例级跟踪和运动信息。还引入了鸟瞰图(BEV)block和实例block以进行进一步的特征提取,并将长度可变的实例token转换为固定长度。所有处理过的token都被连接起来作为文本生成的上context tokens。最后,context  tokens被格式化为prompt tokens,并与文本提示一起放入语言解码器中。我们采用了一种杠铃式适应范式,以实现语言解码器对context的高效理解。

为了在训练过程中使语言和自动驾驶pipeline的中间结果对齐,加入了额外的训练数据,称为对齐任务,这些数据在训练过程中在线构建。

2)Holistic token mixer

从自动驾驶pipeline中提取的查询tokens对于语言解码器来说并不是直接可理解的。针对这一问题,我们提出了一个整体token混合器架构。Hint-UniAD和Hint-VAD的具体实现略有不同。主要遵循Hint-UniAD的设计,而Hint-VAD的小幅调整则在附录中给出。

图片

3) Language decoder with barbell adaptation

将适配器放置在前端和后端的理由是,前端适配器有助于理解context信息,而后端适配器则增强了语言的微调。这种设计平衡了对高级context理解和精确语言适应的需求。在训练过程中,采用交叉熵损失作为字幕损失,仅对答案tokens进行监督。

4)Aligning language and intermediate outputs

为了使语言与自动驾驶模型的中间输出对齐,语言解码器需要对自动驾驶模型推理步骤中生成的每个token(即跟踪tokens中目标的位置)所包含的信息进行基于context的理解。我们通过在训练过程中添加一个在线对齐任务数据集来实现这一点。

图片

在对齐任务中,给定自动驾驶模型的中间输入,会生成一组提示-答案对(图3)。该任务包括四种类型的对齐:(a)计数对齐,要求语言解码器根据跟踪tokens解释帧中每种类型实例的数量;(b)位置对齐,要求模型根据特定实例token提供跟踪实例的位置;(c)运动对齐,涉及解码实例tokens中包含的速度信息;(d)规划对齐,要求语言解码器输出规划tokens中包含的未来轨迹点。

对齐任务中的所有问答对都是在训练过程中在线生成的。对齐任务极大地提高了语言解码器对中间令牌的上下文理解能力,从而大大提高了自动驾驶字幕的准确性。

5)Training pipeline

Hint-AD的整个训练流程包括两个阶段。在第一阶段,端到端的自动驾驶(AD)模型被独立训练。在第二阶段,冻结AD模型和大规模语言模型(MLLM)的所有参数,仅更新整体token混合器和适配器的参数。第二阶段的总可训练参数为87M。

实验设置

1)数据集和baselines

数据集。解释是人类学习和理解的重要指导工具。特别是在端到端自动驾驶(AD)系统的背景下,人类用户经常寻求解释来弥合传感器输入和AD行为之间的鸿沟 。目前,在自动驾驶研究中广泛使用的nuScenes数据集  没有提供此类解释。为了弥补这一空白并促进针对nuScenes的可解释性研究,我们引入了Nu-X,这是一个全面、大规模、经过人工标注的解释性数据集。Nu-X为nuScenes中的每一个34,000个关键帧提供了详细的contextual信息和多样化的语言表述。

一个解释性句子通常包括叙述和推理 ,例如:“<叙述>汽车正在并入右侧车道。<推理>为了超过前面的红色汽车。”在我们的数据集中,每个标题都包含这两个部分。

为了提供全面的分析,所有Hint-AD架构和基线都在以下数据集上进行了训练和评估:(1)对齐任务数据集,旨在通过要求语言解码器解释每个中间标记来将语言与AD模型的中间输出对齐,训练过程中在线生成真实答案;(2)TOD3Cap ,一个3D密集字幕数据集,为nuScenes中的64.3K个户外目标提供目标描述,并标注了外观、运动、环境和目标间空间关系;(3)NuScenesQA ,一个VQA数据集,覆盖了nuScenes的34K帧,包含五种问题类型,包括存在性、计数、查询对象、查询状态和比较;(4)驾驶指令数据集,我们在nuScenes上进行了标注,由方向和速度指令组成。

基线模型。我们选择了基准方法,这些方法既包括了语言生成领域的关键里程碑,也包括了自动驾驶背景下最先进的方法:(1)ADAPT 采用自回归方式,通过视觉-语言转换器生成句子。在文本和视频标记上使用了交叉注意力和稀疏注意力掩码;(2)BEV+Adapter 仅以鸟瞰图(BEV)特征作为输入,并使用LLaMA-Adapter-V2(与Hint-AD相同)作为语言解码器;(3)BEVDet+MCAN 使用模块化协同注意力网络(MCAN),其中包含用于单独的语言和视觉理解的自注意力层。堆叠的交叉注意力层用于跨模型特征交互。输入采用了来自BEVDet 的检测结果;(4)Vote2Cap-DETR  基于transformer架构,具有两个并行的特定于任务的头。查询被解耦为定位查询和字幕查询;(5)TOD3Cap 利用基于查询的检测头从BEV特征中生成一组3D目标proposal。然后,这些特征通过LLaMA-Adapter处理,作为语言模型的提示来生成密集字幕;(6)GPT-4o 是OpenAI开发的多模态模型,具备最先进的视觉能力,同时文本生成性能与其前身GPT-4相当;(7)Gemini-1.5 是谷歌开发的一款开创性的大型语言模型,专为处理具有扩展context长度的多模态输入而设计。

2)Comparing with baseline models

量化结果。在四个数据集上,针对不同类型的输入和主干模块分别展示了结果。对于Nu-X和TOD3Cap数据集,我们采用了四种标准的图像字幕评估指标,包括CIDEr (C) 、BLEU (B) 、METEOR (M)  和 Rouge (R) 。由于Nu-X中驾驶解释的全面性,还采用了GPT-3.5评分(G)来评估Nu-X。在测试TOD3Cap时,为匹配预测和真实边界框设置了0.25的阈值。对于NuScenes-QA和Command数据集,我们直接将生成的文本与真实文本进行比较以获得准确率。根据推理复杂性,QA被分为zero-hop (H0) and one-hop (H1)。从表1中可以得出以下结论:

图片

Hint-UniAD和Hint-VAD在多任务测试中均表现出高性能。两个系统均在Nu-X数据集上取得了最先进的结果,CIDEr分数比最佳基线(BEV+Adapter)高出3.8分(20.4%)。值得注意的是,Hint-UniAD在TOD3Cap任务上表现出显著优越的性能,CIDEr分数提高了222.3分(185%)。尽管HintVAD在该任务上的表现略低,但附录C.3中讨论了可能的解释。此外,在NuScenes-QA和Command数据集上,Hint-VAD的总体准确率分别比最佳基线高出0.6分和1.2分。这些结果凸显了所提出的Hint-AD架构的有效性。

定性结果。图3展示了一些定性结果。Hint-AD生成的文本显示出对场景的深刻理解,并且与自动驾驶模型的中间结果恰当地保持一致。

3)language和模型的对齐分析

量化语言与自动驾驶(AD)模型中间输出之间的一致性,我们对语言解码器的输出与AD感知模块的预测进行了评估,这些预测是在验证集上实时生成的。我们设计了四种不一致性协议:(a)计数不一致性(CD),用于衡量解码head和跟踪模型给出的每个类别实例数量之间的差异;(b)位置不一致性(PD),用于衡量特定实例的位置差异;(c)运动不一致性(MD),用于衡量速度差异,计算为字幕中速度与感知系统预测速度之间的平均距离;(d)规划不一致性(PLD),用于衡量轨迹点之间的差异。对Hint-AD进行了测试,包括对齐可解释性(原始设计)和声明性可解释性。与在声明性可解释性范式下运行的模型相比,对齐语言解码器的性能显著更优,这表明包括整体token混合器和对齐任务在内的对齐设计是有效的。

4)消融实验

整体对齐的有效性。为了评估整体语言-自动驾驶(AD)对齐在语言任务准确性上的有效性,我们通过从语言解码器的输入中移除跟踪、运动和规划tokens来进行了一项消融研究。表2中的结果表明,使用所有tokens可实现最高性能。跟踪tokens通过位置信息增强了3D密集字幕,而规划tokens则通过提供未来轨迹数据改进了命令预测。

图片

整体token混合器设计的消融研究。实例混合器和实例block增强了中间tokens的特征提取和适应性。表3中的结果表明,移除实例block和实例混合器会显著降低TOD3Cap和NuScenes-QA的性能,因为物体的位置和运动信息没有得到充分融合。

图片

一些结论

本工作提出了Hint-AD,这是一个集成的自动驾驶(AD)-语言框架,它将语言生成与自动驾驶模型的整体感知-预测-规划过程对齐,从而在多个自动驾驶字幕任务中实现了最先进的性能。同时,作为对齐可解释性实现的一项探索性研究,以下限制仍有待进一步研究解决:

  • 由于其针对特定流程的性质,中间输出格式的任何更改都需要对令牌混合器的设计进行修改。对于纯端到端模型(如黑盒模型),则需要进行调整以有效处理潜在输出。
  • 基于LLaMA的语言解码器相对耗时。有必要进一步研究更小的模型替代方案,如MiniChat-1.5-3B和StableLM-3B-4E1T。

随着大型语言模型(LLM)理解自动驾驶模型中间输出的潜力日益显现,未来研究可以进一步深入这一领域,并通过对齐可解释性增强用户对自动驾驶模型的信任。

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2023-10-10 09:31:35

自动驾驶技术

2024-04-17 09:56:24

算法模型

2024-04-17 09:50:28

自动驾驶端到端

2024-03-13 09:39:45

端到端自动驾驶

2024-06-19 09:45:07

2024-10-11 09:32:48

2023-10-30 09:47:00

自动驾驶技术

2021-11-29 14:53:02

物联网IOT

2023-10-13 09:43:36

自动驾驶数据

2022-06-01 17:16:42

端到端KQI业务

2024-02-27 15:14:04

自动驾驶技术

2024-03-29 09:32:03

模型训练

2021-03-29 10:56:51

人工智能深度学习

2014-05-12 11:30:22

2024-11-14 10:17:38

2021-03-19 17:59:30

深度学习音频程序

2009-07-12 13:22:31

2024-11-01 10:08:27

2023-07-03 07:42:42

2022-01-04 18:41:36

移动
点赞
收藏

51CTO技术栈公众号