DualBEV：大幅超越BEVFormer、BEVDet4D，开卷！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

这篇论文探讨了在自动驾驶中，从不同视角（如透视图和鸟瞰图）准确检测物体的问题，特别是如何有效地从透视图（PV）到鸟瞰图（BEV）空间转换特征，这一转换是通过视觉转换（VT）模块实施的。现有的方法大致分为两种策略：2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征，但深度预测的固有不确定性，尤其是在远处区域，可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征，并通过Transformer学习3D和2D特征之间对应关系的注意力权重，这增加了计算和部署的复杂性。

论文指出，现有的方法如HeightFormer和FB-BEV尝试结合这两种VT策略，但这些方法通常采用两阶段策略，由于双VT的特征转换不同，受到初始特征性能的限制，从而阻碍了双VT之间的无缝融合。此外，这些方法在实现自动驾驶的实时部署方面仍面临挑战。

针对这些问题，论文提出了一种统一的特征转换方法，适用于2D到3D和3D到2D的视觉转换，通过三种概率测量来评估3D和2D特征之间的对应关系：BEV概率、投影概率和图像概率。这一新方法旨在减轻BEV网格中空白区域对特征构建的影响，区分多个对应关系，并在特征转换过程中排除背景特征。

通过应用这种统一的特征转换，论文探索了使用卷积神经网络（CNN）进行3D到2D视觉转换的新方法，并引入了称为HeightTrans的方法。除了展示了其卓越的性能外，还展示了通过预计算加速的潜力，使其适用于实时自动驾驶应用。同时，通过整合这种特征转换，增强了传统的LSS流程，展示了其对当前检测器的普适性。

结合HeightTrans和Prob-LSS，论文介绍了DualBEV，这是一种创新的方法，它在一阶段内就考虑并融合了来自BEV和透视视图的对应关系，消除了对初始特征的依赖。此外，提出了一个强大的BEV特征融合模块，称为双特征融合（DFF）模块，通过利用通道注意力模块和空间注意力模块，进一步帮助精细化BEV概率预测。DualBEV遵循“广泛输入，严格输出”的原则，通过利用精确的双视图概率对应关系来理解和表示场景的概率分布。

论文的主要贡献如下：

揭示了3D到2D和2D到3D视觉转换之间的内在相似性，并提出了一种统一的特征转换方法，能够从BEV和透视视图两个方面准确建立对应关系，显著缩小了双策略之间的差距。
提出了一种新的基于CNN的3D到2D视觉转换方法HeightTrans，通过概率采样和查找表的预计算，有效且高效地建立精确的3D-2D对应关系。
引入了DFF用于双视图特征融合，这种融合策略在一阶段内捕获近远区域的信息，从而生成全面的BEV特征。
他们的高效框架DualBEV在nuScenes测试集上实现了55.2%的mAP和63.4%的NDS，即使没有使用Transformer，也突显了捕获精确双视图对应关系对视图转换的重要性。

通过这些创新，论文提供了一种克服现有方法限制，实现高效、准确物体检测的新策略，特别是在自动驾驶等实时应用场景中。

详解DualBEV

这篇论文提出的方法旨在通过统一的特征转换框架，DualBEV，解决自动驾驶中的BEV（鸟瞰图）对象检测问题。以下是方法部分的主要内容，概括了其不同子部分和关键创新。

DualBEV概述

DualBEV的处理流程从多个相机获取的图像特征开始，接着使用SceneNet生成实例mask 和深度图 . 接下来，通过HeightTrans模块和Prob-LSS流水线提取和转换特征，最后这些特征被融合并用于预测BEV空间的概率分布，以得到最终的BEV特征，用于后续任务。

HeightTrans

HeightTrans是基于3D到2D视觉转换的原理，通过选择3D位置并投影到图像空间，以及评估这些3D-2D对应关系。这个方法首先在预定义的BEV图中采样一组3D点，然后仔细考虑和过滤这些对应关系以生成BEV特征。HeightTrans通过采用多分辨率采样策略和概率采样方法来增强对小物体的关注，并解决背景像素带来的误导问题。此外，通过引入BEV概率来解决空白BEV网格的问题。HeightTrans模块是论文提出的关键技术之一，专注于通过3D到2D视觉转换（VT）来处理和转换特征。它基于从预定义的鸟瞰图（BEV）地图中选择3D位置，并将这些位置投影到图像空间，从而评估3D和2D之间的对应关系。以下是HeightTrans工作原理的详细介绍：

BEV Height

HeightTrans方法在处理高度时采用了一种多分辨率采样策略，覆盖整个高度范围（从-5米到3米），在兴趣区域（ROI，定义为-2米到2米内）的分辨率为0.5米，在此范围外的分辨率为1.0米。这种策略有助于增加对小物体的关注，这些小物体可能会在更粗糙的分辨率采样中被遗漏。

Prob-Sampling

HeightTrans在概率采样方面采用了以下步骤：

定义3D采样点：预定义一组3D采样点，每个点由其在3D空间中的位置定义。
投影到2D空间：利用相机的外参矩阵和内参矩阵，将3D点投影到2D图像空间中的点，其中表示点的深度。
特征采样：使用双线性网格采样器在投影位置处采样图像特征：
利用实例mask：为了避免投影位置落在背景像素上，利用SceneNet生成的实例mask 来代表图像概率，并将其应用于图像特征，以减少误导性信息的影响：
处理多重对应关系：使用三线性网格采样器在深度图中评估多个3D点映射到同一2D位置的情况，即投影概率：
引入BEV概率：为了解决BEV网格中空白格不提供有用信息的问题，引入BEV概率来表示BEV网格的占用概率，其中是BEV空间中的位置：

加速

通过预计算3D点在BEV空间中的索引，并在推理期间固定图像特征索引和深度图索引，HeightTrans能够加速视觉转换过程。最终的HeightTrans特征通过对每个BEV网格中预定义

Prob-LSS

Prob-LSS扩展了传统的LSS（Lift, Splat, Shoot）管道，通过预测每个像素的深度概率来促进其投影到BEV空间。该方法进一步整合了BEV概率，通过以下公式构建LSS特征：

这样做可以更好地处理深度估计中的不确定性，从而减少BEV空间中的冗余信息。

双特征融合（Dual Feature Fusion, DFF）

DFF模块旨在融合来自HeightTrans和Prob-LSS的特征，并有效地预测BEV概率。通过结合通道注意力模块和空间注意力增强的ProbNet，DFF能够优化特征选择和BEV概率预测，以增强对近处和远处对象的表征。这种融合策略考虑了来自两个流的特征的互补性，同时也通过计算局部和全局注意力来增强BEV概率的准确性。

总之，这篇论文提出的DualBEV框架通过结合HeightTrans和Prob-LSS，以及创新的双特征融合模块，实现了对3D和2D特征之间对应关系的高效评估和转换。这不仅桥接了2D到3D和3D到2D转换策略之间的差距，而且还通过预计算和概率测量加速了特征转换过程，使其适合实时自动驾驶应用。

该方法的关键在于对不同视角下的特征进行精确对应和高效融合，从而在BEV对象检测中实现了出色的性能。

实验

DualBEV方法的变体（带星号的DualBEV* ）在单帧输入条件下表现最佳，达到了35.2%的mAP和42.5%的NDS，这表明它在准确性和综合性能上都超过了其他方法。特别是在mAOE上，DualBEV*实现了0.542的分数，这是单帧方法中最好的。然而，它在mATE和mASE上的表现并没有明显优于其他方法。

当输入帧数增加到两帧时，DualBEV的表现进一步提升，mAP达到38.0%，NDS达到50.4%，这是所有列出方法中最高的NDS，表明DualBEV在处理更复杂的输入时能够更全面地理解场景。在多帧方法中，它在mATE、mASE、和mAAE上也展现了较强的性能，特别是在mAOE上有明显的改善，显示出其在估计物体方向上的优势。

从这些结果可以分析得出，DualBEV及其变体在多个重要的性能指标上均有出色表现，尤其是在多帧设置下，表明其对BEV对象检测任务具有较好的准确性和鲁棒性。此外，这些结果还强调了使用多帧数据的重要性，可以提高模型的整体性能和估计准确性。

下面是对各个消融实验结果的分析：

添加ProbNet、HeightTrans、CAF（Channel Attention Fusion）、SAE（Spatial Attention Enhanced）等组件逐步提升了Baseline的性能。
HeightTrans的加入显著提高了mAP和NDS，这表明在视觉转换中引入高度信息是有效的。
CAF进一步提升了mAP，但略微增加了延迟。
SAE的引入提升了NDS到最高的42.5%，同时对mAP也有提升，说明空间注意力机制有效地增强了模型性能。
不同的概率措施（投影概率，图像概率，BEV概率）逐步加入对比试验。
当全部三种概率同时使用时，模型达到了最高的mAP和NDS，这表明这些概率的结合对于模型性能至关重要。
Prob-Sampling在相似的延迟下（0.32ms），比其他的VT操作具有更高的NDS（39.0%），这强调了概率采样在性能上的优越性。
多分辨率（MR）采样策略相对于均匀采样策略，在使用相同数量的采样点时能达到相似或更好的性能。
通过将投影概率、图像概率和BEV概率加入到LSS流程，Prob-LSS的表现超过了其他的LSS变体，提高了mAP和NDS，显示了结合这些概率的有效性。
与多阶段的精细化（Refine）策略相比，单阶段的添加（Add）策略和DFF模块都能取得更高的NDS，而DFF在mAP上也有轻微的提升，这表明DFF作为一种单阶段的融合策略，在效率和性能上都是有益的。

消融实验表明了HeightTrans、概率措施、Prob-Sampling和DFF等组件及策略对提高模型性能至关重要。此外，多分辨率采样策略在高度信息上的使用也证明了其有效性。这些发现支持了作者在方法部分提出的每一项技术都对模型性能有正面贡献的论点。

讨论

这篇论文通过一系列消融实验展示了其方法的性能。从实验结果可以看出，论文提出的DualBEV框架和它的各个组成部分均对提高鸟瞰图（BEV）对象检测的准确性具有积极影响。

论文的方法通过将ProbNet、HeightTrans、CAF（Channel Attention Fusion）、和SAE（Spatial Attention Enhanced）模块逐步引入到基线模型中，显示出在mAP和NDS两个指标上均有显著提升，这证明了每个组件在整个架构中都发挥了重要作用。尤其是引入SAE后，NDS得分提高到了最高点42.5%，同时延迟只有轻微增加，这表明了该方法在精度和延迟之间取得了良好的平衡。

概率消融实验结果进一步证实了投影概率、图像概率和BEV概率在提高检测性能方面的重要性。当这些概率被逐一引入时，系统的mAP和NDS得分稳步提升，这表明了将这些概率措施集成到BEV对象检测任务中的重要性。

在视觉转换（VT）操作的比较中，论文提出的Prob-Sampling方法与其他操作如SCAda和Bilinear-Sampling相比，显示出较低的延迟和更高的NDS得分，这强调了其在效率和性能上的优势。此外，对于不同的高度采样策略，采用多分辨率（MR）策略而不是统一采样能够进一步提高NDS得分，这表明了考虑场景中不同高度的信息对于提升检测性能的重要性。

此外，对于不同的特征融合策略，论文展示了DFF方法在简化模型的同时，依然能够维持高NDS得分的能力，这意味着在一阶段处理流程中融合双流特征是有效的。

然而，尽管论文提出的方法在多个方面表现出色，每项改进也都会导致系统复杂度和计算成本的增加。例如，每引入一个新的组件（如ProbNet、HeightTrans等），系统的延迟都会有所增加，尽管延迟的增加是微小的，但在实时或低延迟要求的应用中，这可能成为考虑因素。此外，虽然概率措施有助于性能提升，但也需要额外的计算资源来估计这些概率，可能导致更高的资源消耗。

论文提出的DualBEV方法在提高BEV对象检测的精度和综合性能方面取得了显著的成果，特别是在将深度学习的最新进展与视觉转换技术相结合的方面。但这些进步是以轻微增加计算延迟和资源消耗为代价的，实际应用时需要根据具体情况权衡这些因素。

结论

该方法在BEV对象检测任务中表现出色，显著提高了准确性和综合性能。通过引入概率采样、高度转换、注意力机制和空间关注增强网络，DualBEV成功地提升了多个关键性能指标，特别是在鸟瞰图（BEV）的精度和场景理解方面。实验结果表明，论文的方法在处理复杂场景和不同视角数据时尤为有效，这对于自动驾驶和其他实时监控应用至关重要。