多模态卷进车路协同 | V2VFormer++：首个多模态V2V框架问世！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

笔者的个人理解

最近出现的多车辆协作感知旨在促进联网自动车辆（CAV）的远距离和大规模感知能力。尽管如此，人们付出了巨大的努力将协同感知制定为仅 LiDAR 的 3D 检测范例，而忽略了密集图像的重要性和补充。在这项工作中，我们构建了第一个多模态车对车协同感知框架，称为 V2VFormer++，其中单个摄像头-LiDAR 表示与鸟瞰 (BEV) 空间的动态通道融合 (DCF) 相结合，并且来自相邻车辆的以自我为中心的 BEV 地图由全局-局部transformer模块聚合。具体来说，开发了采用 MLP 设计的通道token混合器 (CTM)，以捕获相邻 CAV 之间的全局响应，并且位置感知融合 (PAF) 进一步从局部角度研究每个自我网络地图之间的空间相关性。通过这种方式，我们可以战略性地确定哪些 CAV 适合协同以及如何从它们中聚合最重要的信息。在公开的 OPV2V 和 V2X-Sim2.0 基准上进行了定量和定性实验，我们提出的 V2VFormer++ 得到了最先进的协同感知性能，展示了其有效性和先进性。此外，消融研究和可视化分析进一步表明，其对现实场景中的各种干扰具有很强的鲁棒性。

V2VFormer++的主要思路是什么？

作为前沿技术，自动驾驶被视为智能交通系统（ITS）的发展趋势，为解决交通拥堵、碰撞和排放污染等棘手问题提供了一种有前景的解决方案。随着深度学习和计算机视觉的发展，环境感知作为自动驾驶系统的重要组成部分，在物体检测和分割任务方面也取得了长足的进步。在准确性和效率方面都获得了显着的性能改进。由于复杂的交通场景和变化的物理条件，单纯依靠自车视角信息很难保证鲁棒性和安全的传感性能。因此，如何挖掘和聚合多源信息来增强感知能力是学术界和工业界的热点问题。

最近出现了基于信息融合和数据共享的车车（V2V）协同感知，它通过低延迟车辆通信战略性地整合来自邻近联网自动车辆（CAV）的多视图环境。这样，可以显着缓解各种驾驶场景中出现的盲点、超视距、遮挡等感知挑战，同时使自动驾驶汽车具备远距离、大范围的感知能力如图1所示。根据不同的协同策略，当前的工作关于多智能体感知可以分为三个层次。一方面，早期融合将来自每辆车的原始传感器数据传输到目标车辆，然而，由于难以承受的计算开销和通信带宽，它无法满足实时系统的要求。另一方面，后期融合通过数学运算（即求和和平均）或注意力机制直接对各个检测进行重新加权，大大提高了运行速度。然而，不同车辆的误报可能会以这种方式被放大，累积的空间位移会逐步损害多智能体的协同性能。中间特征协同由于其在准确性和速度之间更好的权衡而越来越受欢迎，将 CAV 紧凑的特征的表示（例如 BEV 地图）转换为统一坐标，以便在全局视图中全面了解交通场景。给定多个 BEV 特征，基于图的方法创建一个加权协同图，其中每个节点表示单个车辆及其实时姿态信息，成对边缘通过空间权重矩阵定义相邻车辆之间的关系。此外，基于 Transformer 的算法对编码序列执行自注意力或交叉注意力操作，以捕获 CAV 之间的局部和全局依赖性。作为替代方案，通过最远点采样（FPS）有效地选择关键点表示来突出显示重要点，只有当它存在于候选提案中时才会被进一步保留。总之，这些工作的流程是在自我坐标上结合车辆间表示来增强特征，但由于激光雷达点的稀疏性和不均匀性，很容易出现特征模糊和语义缺陷。更重要的是，以前的协同策略在投影到参考坐标后显式地构建空间特征关系，但研究全局中 CAV 之间的通道交互并非易事。

在本文中，我们将感知转化为3D目标检测任务，并开发了多模态车车协同感知框架，称为V2VFormer++。对于每个 CAV，提出了一种相机-LiDAR 范例来克服仅 LiDAR 检测的缺点，它用密集的上下文（即纹理、轮廓等）补偿精确的几何形状，以实现多功能的环境描述。为了获得统一平面上的表达表示，我们通过视图变换将两种异构模态投影到鸟瞰图（BEV）空间中，并进一步设计了一种简单而高效的多模态融合模块动态通道融合（DCF）像素 -以自适应方式进行点对应聚合。通过这种方式，可以通过边际计算预算充分利用每个以自我为中心的视角的丰富语义属性。对于车辆到车辆的感知，提出了一种新颖的全局-局部变换策略来聚合 CAV 的中间特征。具体来说，我们首先采用MLP设计的通道token混合器（CTM）来计算不同车辆之间的全局响应，从而根据相关性得分来匹配每个自我网络对。为了更多地关注感兴趣区域（RoI），引入了位置感知融合（PAF）来关注所有车辆的信息区域，并且还使用自注意力transformer探索了局部的像素级特征语义。最后，我们对 OPV2V 和 V2X-Sim 2.0数据集进行了全面的实证研究，提出的 V2VFormer++ 实现了最先进的协作感知精度，对比同行（例如，多车辆单模式和多车辆多模式）大幅提高。此外，对不同配置和场景的消融分析进一步表明其针对现实世界中断的鲁棒性和通用性。

综上所述，这项工作的贡献主要描述如下：

我们提出了 V2VFormer++，这是第一个多模态车辆间协同感知框架，它使用来自单独车辆的异构模态来增强多智能体协作性能。
动态通道融合（DCF）模块旨在以自适应方式从相机和 LiDAR BEV 视图进行对应聚合。
全局-局部transformer协同是一种中间融合策略，其中开发通道token混合器（CTM）用于捕获CAV之间的全局响应，并利用位置感知融合（PAF）模块从局部角度探索空间语义。
没有花里胡哨的东西，我们的 V2VFormer++ 报告了 OPV2V和V2X-Sim 2.0基准测试中最先进的协同检测性能，其性能显着优于所有替代方案。此外，消融研究和可视化结果进一步证明了其针对现实场景中各种干扰的鲁棒性。

领域目前的工作

本节旨在回顾基于 LiDAR 和摄像头 LiDAR 3D 目标检测以及车车协同感知的相关研究。

A. 基于 LiDAR 的 3D 检测

根据不同的数据格式，基于LiDAR的3D检测可大致分为三类：基于点、基于体素和混合表示。基于点的算法直接使用PointNet 和PointNet ++架构的原始LiDAR数据来进行可靠的几何特征提取，前者采用集合抽象（SA）运算符来聚合逐点表示并利用变换网络（T-Net）用于输入和特征级别的特征对齐，而后者通过分层采样方法进一步从点云学习局部和全局上下文。对于3D检测任务，3DSSD同时引入距离（D-）和特征（F-）最远点采样（FPS）策略来处理点表示的稀疏性，并通过SSD（单级）进行目标定位和分类探测器）类似的架构。为了更好地区分前景点和背景，CenterPoint 提取关键点特征以从目标的中心点预测 3D 边界框，而 IA-SSD利用 SSD 架构的实例感知特征进行 3D 目标检测。基于体素的检测器是一种有效的范例，其中 3D 点空间首先被离散化为规则网格，然后引入卷积网络来处理每个体素内编码的细粒度特征。作为开创性工作，VoxelNet设计了堆叠体素特征编码（VFE）层来进行逐点信息提取，然后利用 3D 卷积进行局部中间特征聚合。为了加快推理速度，SECOND 开发了 3D 稀疏卷积来进行高效体素特征编码，而 PointPillars将点云折叠为 2D 表示并使用稀疏卷积主干。受 2D Faster RCNN 思想的启发，Deng et al.提出了一种名为 Voxel RCNN 的两阶段 3D 检测框架，在精度和效率之间具有更好的权衡，首先生成粗略的 3D 候选推荐，并在第二阶段通过体素 RoI 池化层执行框细化。此外，CAGroup3D探索全卷积3D池化来增强每个推荐框内的主干特征，追求最终的检测性能。将逐点特征与体素特征结合起来进行 3D 目标检测的研究最近成为一个热点问题。 STD遵循稀疏到密集的检测范式，该范式通过新颖的球形锚从原始点获得准确的推荐，并通过点池化从稀疏点表达生成紧凑的表示。 PV-RCNN使用体素集抽象模块将3D场景概括为一组关键点，并通过RoI网格池化将特定于推荐的特征抽象为密集网格。此外，PV-RCNN++引入了位置敏感融合模块，用于点云和体素网格上的特征增强。 Part-A2 Net由部分感知和部分聚合阶段组成，前者旨在生成具有目标内部分位置的高质量推荐，而后者在池化后根据空间位置关系进行框细化。 SE-SSD采用一对teacher和student检测器，采用有效的基于 IoU 的匹配策略和一致性 ODIoU 损失来提高性能。此外，Noh et al.提出了一种新的 HVPR 架构，它将基于点和基于体素的特征集成到单个 3D 表示中，并设计了细心的多尺度特征模块，以从稀疏和不规则的点模式中学习尺度感知信息。在本文中，我们采用 PointPillars 作为单车 LiDAR 骨干网，以实现效率和精度之间的权衡。

B. 相机-LiDAR 3D 物体检测

相机-LiDAR融合感知最近展示了其优越性并引起了3D检测的广泛关注，它弥补了仅激光雷达方法的稀疏性、不确定性和语义碎片化。在没有复杂的伪激光雷达生成过程的情况下，Pointpainting设计了一种基于顺序的融合机制，首先用图像分割网络产生的像素级语义得分来修饰原始点云，然后将它们放入任何仅激光雷达流程中。 3D-CVF将密集的相机体素投影到 BEV 平面上，并通过自适应门控注意力图连接每个模态。此外，Chen et al.通过可学习的透视对齐而不是固有的投影矩阵建立像素-体素视图关联，灵活地实现异构表示的一致性。最近，Transfusion首次尝试将transformer引入相机 LiDAR 3D检测中，因为它在远程依赖建模方面具有优越性。它应用两个顺序解码器层将目标查询与 BEV 平面上的粗略 LiDAR 和精细增益图像特征软关联，逐步增强感知性能。类似地，UVTR通过基于transformer的解码器和概率深度分布将图像特定空间扩展到体素，并进一步通过知识迁移进行交叉注意特征交互。 BEVFusion将多模态流转换为规范坐标，并采用动态融合策略来防止 LiDAR 故障造成的故障情况。在本文中，我们的目标是一种简单而优雅的像素点融合范式，其中异构特征可以转换为统一的表示，并且两个 BEV 图以自适应聚合的方式投影到与高度无关的自车平面上。

C. 车与车协同感知

车辆对车辆（V2V）协同感知最近随着先进的车辆通信和信息融合而出现，从而为缓解单智能体检测带来的超视距和盲点挑战提供了有效的解决方案。总体而言，该流程将来自联网自动车辆（CAV）的多视图周围感知数据与以自车为中心的观察相结合，以促进全局感知能力，并且根据不同的合作阶段，先前的工作可主要分为早期、中期和后期协同。 Cooper主要共享多分辨率 LiDAR 点，并将自己的稀疏表示投影到紧凑的空间中，然后使用稀疏点云目标检测（SPOD）网络来适应低密度点云。然而，它在早期融合方式中导致了难以承受的计算开销。相反，后期融合方法结合了来自不同车辆的独立预测，并进行推荐细化以产生最终结果。 Hurl et al.引入了用于安全消息选择的信任机制，并集成了一种新颖的 TruPercept 根据一致性得分重新加权输出。然而，由于过度依赖个体预测，这种方法很容易出现不令人满意的结果。为了在感知精度和推理延迟之间进行权衡，相邻车辆之间的中间特征融合已被广泛探索，以追求良好的性能增益。 Wang et al. 提出了一种基于图的方法，通过卷积门控循环单元（ConvGRU）迭代捕获和更新每辆车的地理信息。为了强调代理的重要性，DiscoNet通过边缘权重矩阵丢弃车辆之间高度相似的像素，并通过知识蒸馏构建整体几何拓扑。为了模拟现实世界中传输延迟的影响，Liu et al.提出了一个三步握手通信协议，包括请求、匹配和连接，确定与哪个协同者交互。此外，Liu et al.考虑了一种可学习的自我注意机制来推断自我代理是否进行额外的通信以获得更多信息。 Hu et al.开发了一种新颖的稀疏置信图来掩盖特征压缩的无关紧要元素。作为车载摄像头的细粒度和密集预测，Xu et al.研究了 BEV 平面下的仅相机地图预测框架，该框架利用新颖的融合轴向（FAX）注意来重建地平面上的动态场景。尽管上述算法取得了显着的性能，但它们主要关注局部区域中 CAV 之间的空间相关性，而没有用于重叠语义细化的全局特征交互。在这项工作中，我们尝试设计一种名为 V2VFormer++ 的新型中间特征协作，它显式地捕获每辆车之间的全局响应，并且自我网络对利用基于变压器的操作以位置方式关注局部判别特征。

图1 协同感知的优势。左边。汽车在路口行驶时未能提前感知公共车辆（PV）的潜在威胁。借助联网自动车辆（CAV），可以将整体视图信息传输到自车（Ego），以规避盲点区域的交通冲突。右边。检测结果在鸟瞰（BEV）空间中可视化。

图2. V2VFormer++架构图。对于每辆车，采用具有特定模态backbone的双流网络在 BEV 平面中进行相机-LiDAR 特征提取（使用稀疏交叉注意 SCA 模块进行相机-视图变换），并设计动态通道融合（DCF）以实现精细 - 粒度像素点聚合。给定多模态BEV图，进行数据压缩和共享以生成一组在自车-坐标处的特征图。随后，提出了全局-局部transformer协同策略，用于相邻 CAV 之间的通道语义探索和空间相关建模。最后，将多车辆融合图输入到预测头中以进行目标分类和定位回归。

方法的整体设计

在本节中，我们将介绍所提出的多模态车对车协同感知框架V2VFormer++。如图2所示，整体架构主要包含四个部分：（1）用于多视图相机和LiDAR点特征提取的模态特定backbone； (2)像素点融合模块，用于自适应地聚合语义和几何信息；（3）具有自注意力机制的信息区域的全局局部transformer； (4)用于产生目标定位和分类分数的预测头。

图3 根据相机特征生成BEV地图的示意图。 BEV 地图由一组从世界坐标采样的 X-Y 网格初始化。同时，利用滑动窗口采样方法将BEV和多尺度相机图划分为更小的比例。线性投影后，查询（）、键（）和值（）嵌入被输入稀疏交叉注意（SCA）模块以进行迭代 BEV 映射更新。

图4 动态信道融合(DCF)示意图。给定相机-LiDAR BEV 地图和，DCF 以元素方式将它们连接起来，并采用 3 × 3 卷积来探索有价值的语义和几何信息。经过全局平均池化算子和 MLP（由 1 × 1 卷积实现）后，sigmoid 函数 δ(·) 产生通道特征重新加权的激活概率。结果，从每个单视图编码器模块生成多模态融合图

A. 特定模态的backbone

为了促进不同模态的有效特征学习，我们采用特定于模态的backbone来进行相机和激光雷达特征提取。对于单个车辆，给定一组环视图像，ResNet 风格的backbone网络被用于从相机图像中进行全面的特征学习，其中包含几个strided的 3 × 3 卷积层，后面是批归一化（BN）和修正线性单元（ReLU）。此外，shortcut连接也是用1×1卷积构建的，从而实现稳定的梯度传播和信息传递。这样，相机分支产生多尺度特征图，其中表示不同分辨率下特征图的高度、宽度和通道数，n是特征尺度的数量。

先前关于从透视到鸟瞰（BEV）空间的空间投影的工作明确地通过相机内在和外在参数进行深度估计，然而，特征模糊和不准确的对应反而不可避免地损害了最终的性能。在这项工作中，我们主要从世界坐标中采样一组X-Y平面上的网格，然后将它们投影到图像平面上，形成感知范围内的BEV图，如图3所示。为了利用深度信息根据各种相机设置，采用新颖的稀疏交叉注意（SC A）模块来实现正面图像和 BEV 表示之间的特征交互。具体来说，首先利用自适应滑动窗口采样策略将多尺度特征和 BEV 映射的分辨率划分为较小的比例，并具有可承受的计算开销。给定窗口大小和，得到的特征块和 BEV 网格分别表示为和。通过独立的线性投影，我们进一步从两个分区序列生成查询 Qbev、键 Kcam 和值 Vcam，然后通过位置嵌入来突出显示空间信息。因此，稀疏交叉注意过程可以在数学上描述为等式1-4：

其中Linear(·)是具有全连接层的线性投影，Multi Head(·)是多头自注意力层，Concate[·]是逐元素特征连接，σ(·)是softmax函数，h 是头数，F F N(·) 定义了用多层感知机实现的前馈网络，L N(·) 是层归一化[55]。我们进行了三个 SCA 块以进行分层特征聚合和空间相关性建模，最终图像BEV图可表示为。

对于 LiDAR 分支，我们采用 PointPillars [27] backbone进行点特征提取。将原始点云表示为，其中和分别代表空间坐标、反射率和点的数量，形成具有相应索引的堆叠柱张量，并且我们利用简单的 PointNet [21] 架构进行柱特征提取。为了生成伪 BEV 图像，这些特征被进一步分散回 X-Y 平面，并引入 2D CNN backbone，用于将多分辨率图合并为密集 LiDAR BEV 特征。

B. 像素点融合模块

给定与模态无关的 BEV 表示和，一个直观的想法是将它们连接在一起以进行多模态特征增强。尽管如此，由于固有的异构性，它很容易遭受空间错位，直接串联或求和运算通常会导致粗略的信息融合，而没有完全的目标语义监督。为此，我们设计了一个动态通道融合（DCF）模块，以通道方式利用图像和 LiDAR 上下文信息，如图 4 所示。更具体地说，我们根据索引连接每对像素点特征，并采用3×3卷积来探索有价值的语义和几何线索，从而得到重新组织的特征。为了突出目标的可辨别性，将全局平均池算子 G AP(·) 应用于特征通道，并进一步利用具有 sigmoid 函数 δ(·) 的多层感知器（MLP）来产生通道激活概率。最后，我们将其与卷积特征 Fconv 相乘，生成每辆车的联合特征图。整个过程可以表述为等式 5：

总的来说，DCF 提供了一种有效的解决方案，可以在统一的自上而下平面中利用两种模态的通道语义，并且由于其高效的设计，这个简单的模块不会降低推理速度。

图5 全局-局部transformer示意图。给定一组以自车为中心的特征图，通道token混合器（CTM）通过池化算子生成“补丁×通道”表，经过MLP模块后，softmax函数σ（·）输出全局响应值，形成通道 -混合映射。在位置感知注意融合（PAF）中，进行标记化以将嵌入划分为一系列固定大小的窗口特征，并进一步采用多头自注意（MHSA）来探索每个联网自车的空间相关性。请注意，附加的相对偏差 B 负责每个查询键对的上下文关系编码。

C. 全局-局部Transformer

对于每辆联网车辆，我们开发了一种编码器-解码器架构，其中融合图被输入到堆叠的 1 × 1 卷积中以进行渐进式数据压缩，并相应地执行几次反卷积以进行特征恢复，称为。为了补偿时空异步，我们还采用仿射变换将不同的 CAV 特征投影到以自车为中心的视图中，其中表示使用传感器校准矩阵的扭曲函数，k 是附近汽车的数量。结果，我们在通信范围内的自车坐标处获得一组特征图，其中表示目标车辆。

以前的工作通常通过既不接收附近 CAV 的所有表示也不丢弃低相关性协同者提供的整个消息来增强单个特征图，前者不可避免地会导致重叠区域中的特征冗余，而后者可能会导致车辆之间的信息交互不足。为此，我们提出了一种新颖的全局局部transformer，其中包括用于通道语义过滤和在整体视图中跨车辆间补丁进行混合的通道token混合器（CTM），以及用于局部区域的空间相关性建模。图5说明了全局-局部transformer的整体结构。

1）通道token混合器（CTM）

两阶段转换可以参考token化和混合过程。给定 CAV 特征图，我们主要利用 3D 特征池算子（即全局最大池化 (GM P(·)) 和全局平均池化 ( G AP(·)) 分别反映通道信息的特殊性和共性。然后，通过将它们连接并扁平化 (flatten(·)) 为图像标记序列来进行特征向量化，形成“patches×channels”表。整个过程可以描述为等式 6：

随后，Mixer 通过两层 MLP 将线性特征投影到隐藏空间，然后进行层归一化和高斯误差线性单元（GE LU(·)）。它作用于表 T 的行，映射，并在所有行之间共享信息，从而促进通道通信。最后，将 sofxmax 函数应用于通道重要性评估，并以元素方式将其与 CAV 图相乘，如等式 7 所示：

其中表示线性投影的权重，N是矩阵乘法，⊗表示特征通道上的算子，是隐藏层中的可调通道数，表示通道混合特征图。受益于 MLP 的强大功能，CTM 能够动态过滤不相关的表征（即重叠信号），同时捕获分散在每个位置图中的全局响应。更重要的是，它巧妙性地跨通道执行特征混合，以增强有价值的信息表达，并显着节省内存。

2）位置感知注意力融合（PAF）

为了进一步捕获车辆之间的远程依赖性，基于transformer的架构被广泛应用，并使用自注意机制来探索每个自车网络图的空间关系。尽管如此，它需要更长的训练周期才能收敛，并且密集的点积运算带来了难以承受的计算预算。在这项工作中，我们设计了一个位置感知注意力融合（PAF）模块，该模块由基于稀疏窗口的标记化和自注意力机制组成，具有针对所有位置的局部特征交互的相对偏移量。形式上，通道混合映射被线性投影到高维空间，以生成三个特征嵌入（为了简化，e = 1, 2, 3 和）。随后，我们将它们分割成一系列大小分别为N×N的3D不重叠窗口，形成，和，它们的维度相同。值得注意的是，窗口级划分比逐像素图上的密集计算可以达到有效的标记化。因此，每个标记被展平以生成查询（Q）、键（K）和值（V）的序列，并且我们进一步引入具有相对偏差的多头自注意力（M H S A（·））层来探索车辆内和车辆间的空间相关性。与位置嵌入（PE）类似，是一个固定大小的窗口索引，负责从每个查询键对中学习上下文关系。从数学上讲，PAF 过程可以描述为等式8-11：

其中 Window[·] 表示窗口级patch分区。我们利用两层自注意力操作来利用细粒度的位置信息，多车辆融合图可以称为。利用窗口级注意力的优势，PAF模块不仅对位姿估计和偏移误差具有鲁棒性，而且轮廓感知属性（例如边缘和边界）也可以提高难物体的检测性能。

D. 预测头

正如通常所做的那样，联合特征图被送到分类和回归头中，分别用于目标类别和定位预测。值得注意的是，采用非极大值抑制（NMS）的后处理来去除冗余建议。

模型训练时，损失函数包含分类和回归部分。给定真实框 θ，其中表示目标中心，定义 3D 框尺寸， θ是航向，我们采用焦点损失[56]（F L(·)）来平衡背景-前景样本，并利用平滑的函数来监督3D框大小。详细信息可以参考等式12-14：

其中β和β是权重参数，α和γ是焦点损失的超参数，是估计的softmax概率。请注意，在平滑计算之前，航向方向 θ由正弦函数（即 θθ )）编码，其中 θ和 θ 分别表示真实角度和预测角度。

实验对比一览

在本节中，我们对车辆间感知基准进行定量和定性实验，以研究我们提出的框架及其组件的有效性。详细信息（即数据集、实施、消融研究等）将描述如下。

A 数据集

OPV2V是一个大规模的车车协同感知数据集，它建立在OpenCDA平台和CARLA模拟器之上。一般来说，它包含由四个车载摄像头和一个64通道LiDAR传感器生成的12k帧3D点云和RGB图像，230k个3D框注释覆盖了完整的360°视图。在我们的实验中，沿 x、y 和 z 轴的检测范围分别设置为 [-64,64] m、[-40,40] m 和 [-3,1] m。该模型使用 6765 个和 1980 个样本进行了训练和验证，我们在 2170 个 Default 和 550 个 Culver City 分割上测试了最终的协同性能。

V2X-Sim 2.0 是用于车辆到一切（V2X）感知评估的综合多模态基准，由 CARLA 和微交通模拟器 SUMO 联合仿真。它由 3 个 CARLA 城镇交叉口的 20 秒交通流中的 100 个场景组成，包含 37.2k 训练数据、5k 验证数据和 5k 测试数据。每个场景有 2-5 个 CAV，配备 6 个摄像头和 1 个 32 通道 LiDAR，以及 GPU 和 IMU 传感器。同样，在我们的研究中，感知区域被限制为[-32,32]m×[-32,32]m×[-3,2]m。

B 实现细节

实验平台基于8块NVIDIA Tesla V100 GPU，我们默认定义通信范围为70m。对于 OPV2V，我们引入课程学习策略来模仿人类认知机制：模型在 sim 模式下训练 35 个 epoch，并在真实设置（例如，定位误差、异步开销等）下训练另外 10 个 epoch。由 Adam优化，初始学习率为 0.0002，权重衰减为 0.02，余弦学习率调度器。此外，还采用了一些技巧（即预热和提前停止）来保证训练稳定性，并将 NMS 后处理的分数和 IoU 阈值分别设置为 0.6 和 0.15。对于V2X-Sim 2.0，我们遵循DiscoNet设置。 NMS 过程的分数和 IoU 阈值设置为 0.6 和 0.15。

将分辨率为520×520像素裁剪的图像输入ResNet-34编码器进行多尺度特征提取，生成的BEV网格为0.25m。我们在分层 SCA 模块中采用四个注意力头 (h = 4)，窗口大小 D = (8,8,16) 和 G = (16,16,32)。此外，体素大小沿 x-y-z 轴设置为 (0.25, 0.25, 4)，在全局局部变换器中，窗口大小 N 为 4。除非另有说明，我们报告 3D 检测平均精度 (AP) 为 0.5， 0.7 IoU 阈值进行公平比较。

C 定量结果

表 I 说明了我们提出的 V2VFormer++ 和四个对应方案在 OPV2V Default 和Culver City上的协同感知结果。一方面，我们从每个单视图模块中删除相机流，并评估仅 LiDAR 的检测性能，称为 V2VFormer++-L。据观察，我们提出的方法在 Default 和 Culver City 集上优于 CoBEVT 和Where2comm方法，性能提升了 2.3% ∼ 7.5% 和 2.0% ∼ 2.8% AP@0.7，这表明了其有效性和优越感。另一方面，我们将相同的相机流附加到仅 LiDAR 的协同检测器（即 V2VNet、CoBEVT、Where2comm）中，并评估多模态检测精度。我们提出的 V2VFormer++ 给出了最佳的协同感知性能：它在默认 IoU 阈值 0.5 和 0.7 下实现了 93.5% 和 89.5% AP，比三种替代方案高出 0.3% ∼ 0.9% AP@0.5 和 0.1% ∼ 1.7% AP@ 0.7。此外，V2VFormer++在Culver City上与第一梯队Where2comm相当（仅落后0.2% AP），展示了其竞争力和适应性。

表1：COBEVT [48]、WHERE2COMM [16]、V2VNET [14] 和 V2VFORMER++ 在 OPV2V 测试分割上取得的检测结果，我们用粗体字体突出显示 0.5 和 0.7 IOU 阈值时的最佳精度

表2：WHEN2COM、WHO2COM、V2VNET、DISCONET 和 V2VFORMER++ 在 V2X-SIM 2.0 测试集上取得的检测结果。此外，我们列出了上界和下界性能，并且还用粗体突出显示了 0.5 和 0.7 IOU 阈值时的最佳精度

同时，V2X-Sim 2.0测试集上的协同检测结果也列于表II中，我们基于DiscoNet重现了不同的融合策略（例如早期、中期和后期）。我们的 V2VFormer++ 实现了最先进的协同检测精度，分别为 72.7% AP@0.5 和 65.5 AP@0.7。与其他中间对应部分（例如 DiscoNet）相比，V2VFormer++ 在两个 IoU 阈值下都获得了超过 10% 的 AP 提升，这意味着所提出的特征协同的进步。此外，它的表现比上限高出 9.4% AP@0.5 和 5.3% AP@0.7 。我们认为，由于原始点云噪声较大，该模型无法利用相邻 CAV 的有意义信息，而我们的中间表示提供了丰富的目标语义和几何信息，以合理地促进协同感知性能。

D 消融研究

为简单起见，将对 OPV2V Default 和 Culver City 进行消融研究，以衡量我们提出的框架的有效性和稳健性。

1）组件的有效性：为了澄清，我们选择 V2VNet作为基准，在Default上达到 85.0% AP@0.5 和 72.0% AP@0.7%，在Culver City上达到 80.9% AP@0.5 和 64.0% AP@0.7，分别如表III所示。当附加具有动态通道融合（DCF）的相机分支时，它在 0.5 和 0.7 IoU 阈值下提供 7.6% ∼ 19.0% 的精度增益。此外，我们用全局局部transformer取代了 V2VNet 提出的空间感知图神经网络（GNN），以衡量其对协同感知的贡献。同样，它在默认情况下提供 10.0% AP@0.7 收益。最后，V2VFormer++将具有全局局部transformer的DCF纳入基线，并观察到最佳性能，证明了每个组件的有效性。

为了进一步研究单车视图下的异构数据融合，我们用相机流扩展了仅 LiDAR 的检测器（例如，V2VNet、CoBEVT 和Where2comm），并采用两种相机-LiDAR 聚合方法进行比较。如表IV所示，动态通道融合（DCF）在不同协作框架之间提供了比串联（Concate）更好的多模态特征组合：尽管性能略有下降，但它稳定地在Default 和 Culver City上提供0.4％∼1.0％AP@0.5和0.4％ ∼ 4.0% AP@0.7。受益于通道池化和重新加权操作，DCF能够充分利用来自各种模态的语义和几何信息，并且富有表现力的多模态表示有利于协同性能的增强。

表3 各个组件对 OPV2V 测试分割的有效性的消融研究。准确度的提升/下降分别在括号中用不同的颜色突出显示

表4 多模态融合方法对 OPV2V 测试分割的性能贡献的消融研究。准确度的提升/下降分别在括号中用不同的颜色突出显示

2）鲁棒性测试：为了分析协同感知的鲁棒性，我们首先对几种多模态感知框架进行课程学习，并列出了OPV2V Default集在不同模式配置下的协同结果，如表五所示。 Sim/Real 定义了不带/带数据压缩的理想/现实世界传输，而Perfect/Noisy 条件代表不带/带定位误差（例如高斯噪声）和通信延迟（超过 200ms 的均匀分布）的理想/损坏环境。

显然，所提出的 V2VFormer++ 显示了针对不同损坏的强大鲁棒性：它在 Sim+Noisy 级别上实现了 84.9% AP@0.5 和 58.5% AP@0.7 的良好检测精度，并在 Sim+Noisy 级别上提供了 6.0% 和 16.9% AP 增益。当在真实环境中从 Perfect 转换到 Noisy 时，所有协同的准确度都会大幅下降，例如，V2VNet 中的 AP@0.5 为 6.3%，AP0.7 为 10.9%。我们的 V2VFormer++ 报告可接受的性能下降为 2.1% AP@0.5 和 9.6% AP@0.7，表明具有良好的稳定性和通用性。

我们进一步添加高斯噪声和均匀分布来模拟不同的真实干扰，并验证了抗位置误差、航向误差和通信延迟的能力，如图6所示。显然，在具有标准偏差 (std) σ 的高斯分布上的定位偏移量，我们提出的方法在对抗干扰方面表现出了显着且有利的性能，而对应算法（例如 CoBEVT [48]）随着偏移值的增加而出现明显的性能下降。此外，它不易受到 std σ 变化航向噪声的影响，并且在 [0, 400]ms 时延下也能保持良好的 AP 结果。总体而言，表明V2VFormer++在面对严酷的实际场景时具有突出的鲁棒性和抗干扰能力。由于课程学习策略，该模型可以逐步探索固有的重要信息，我们认为这些知识将有助于保持相当大的感知性能。更重要的是，全局-局部transformer协同策略将以自车为中心的视角与多视图表示有机地结合在一起，这有助于在遮挡和超线区域中进行硬采样感知。

表5 针对 OPV2V 默认分割上各种模式配置的模型鲁棒性消融研究。准确度增益分别在括号中突出显示

图 6. 稳健性测试的消融研究。值得注意的是，所有实验都是在 OPV2V 默认分割上进行的。左边。 IoU阈值0.7时位置误差与AP结果的关系；中间。 IoU阈值0.7时航向误差与AP结果的关系；右边。时间延迟和AP结果之间的关系在0.7 IoU阈值下。

图7.动态通道融合（DCF）模块激活的注意力图的可视化结果。从左到右随机选择四种常见场景（即直线、合并、曲线和交叉），并在每列中相应列出一对激光雷达真值（GT）和注意力图。注意到激活值较大的点意味着该区域发生目标的可能性较高。

图8.全局-局部transformer协同策略激活的注意力图的可视化结果。从左到右随机选择四种常见场景（即直线、合并、曲线和交叉），并在每列中相应列出一对激光雷达地面实况（GT）和注意图。注意到激活值较大的点意味着该区域发生目标的可能性较高。

图 9. OPV2V 测试分割中的检测可视化。从上到下，我们列出了原始相机图像、LiDAR 真值（GT）以及 CoBEVT [48]、Where2comm [16] 和 V2VFormer++ 实现的感知结果。注意到GT和预测框分别用红色和绿色绘制，我们还用蓝色圆圈突出了V2VFormer++的优越性和先进性。显然，与其他方法相比，我们提出的方法显示出更准确、更鲁棒的协同检测性能，即使在严重遮挡、盲点和超线区域也是如此。

E 定性结果

最后通过定性实验深入分析fuison模块的效果。我们还展示了协同检测结果，以反映我们提出的 V2VFormer++ 的优势。

1）注意力图：如图7和图8所示，我们在直线、合并、曲线、交叉点处分别展示了一对LiDAR真值（GT）和DCF在全局局部transformer协同后的激活图评价。得益于有效的 DCF 设计，激活点可以大致对应 LiDAR GT 中的目标区域，从而使模型能够聚焦于物体的高电位或感兴趣区域 (RoI)。 DCF 以动态逐点方式探索特征通道语义，因此可以从相机和 LiDAR 模式中充分利用有价值的信息。类似地，全局-局部transformer通过通道方式和位置感知重要性使用来自相邻 CAV 的多视图表示。它将提供更广泛和更长的探测范围，并且突出显示的点可以引导模型检测被遮挡或很少看到的物体。

2）检测可视化：如图 9 所示，我们显示了 V2VFormer++ 与 CoBEVT [48] 和Where2comm [16] 方法的比较可视化结果。通常，我们提出的算法始终保持非常精确和稳健的检测结果，特别是在具有挑战性和模糊性的场景中。它在其他同类技术无法做到的难样本（即遮挡、盲点和超线区域）中仍然表现出出色的感知能力，表明了其优越性和先进性。

V2VFormer++的潜力与优势

在本文中，我们首次尝试了具有多模态表示的车车协同框架，称为V2VFormer++。对于单个车辆，提出了具有稀疏交叉注意（SCA）变换和动态通道融合（DCF）的双流架构，用于统一鸟瞰（BEV）空间下的相机-LiDAR特征聚合，从而利用语义和完整的几何信息。为了更好地利用相邻 CAV 的车辆间相关性，我们设计了一种两阶段全局-局部transformer协同策略，其中通道token混合器 (CTM) 捕获分散在每个位置地图和位置感知融合 (PAF) 中的全局响应并从局部角度探索每个自车网络对的空间关系。在 OPV2V [19] 和 V2X-Sim 2.0 [20] 基准上进行了实证实验，结果证明我们提出的 V2VFormer++ 我们的方案以大幅优势领先于所有同类方案，表明了其有效性和优越性。此外，消融研究和可视化分析进一步揭示了其对现实场景中各种干扰的强大鲁棒性。

未来的工作将继续研究不利因素如何影响多智能体感知算法，例如延迟、有损包等。此外，如何优化推理效率对于实际部署也相对重要。

原文链接：https://mp.weixin.qq.com/s/43PcnUS3DerA6WbKEAsmRQ