Mamba和自动驾驶结合会是未来的趋势么？今年最前沿的十五篇文章一探现状！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面

近一个月Mamba文章集中爆发，基于之前的发展，已经开始大规模应用在相关的下游任务上。今天自动驾驶之心就带大家盘点一下Mamba在自动驾驶相关任务中的应用，涉及3D检测、点云分割、跟踪、轨迹预测、Occ、深度估计、检测等多个方向！

从整体上看，Mamba在序列任务中的应用更多；性能方面还未能超越Transformer的方法，但优势在于速度和精度的balance，值得未来更进一步的探索！

MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders

论文链接：https://arxiv.org/abs/2408.15101v1
代码链接：https://github.com/EnVision-Research/MTMamba

港科技的工作：多任务密集场景理解为多个密集预测任务训练模型，具有广泛的应用场景。捕捉长期依赖性和增强跨任务交互对于多任务密集预测至关重要。本文提出了一种基于Mamba解码器的多任务场景理解新架构MTMamba++。它包含两种类型的核心块：自任务Mamba（STM）块和跨任务Mama（CTM）块。STM通过利用状态空间模型来处理远程依赖性，而CTM显式地对任务交互进行建模，以促进跨任务的信息交换。我们设计了两种类型的CTM块，即F-CTM和S-CTM，分别从特征和语义的角度增强跨任务交互。在NYUDv2、PASCAL Context和Cityscapes数据集上的实验表明，MTMamba++的性能优于基于CNN和Transformer的方法。

Enhanced Prediction of Multi-Agent Trajectories via Control Inference and State-Space Dynamics

论文链接：https://arxiv.org/abs/2408.12609

在自动系统领域，准确预测附近车辆和行人的轨迹对于确保安全和运营效率至关重要。本文介绍了一种基于状态空间动态系统建模的轨迹预测新方法，该方法为智能体赋予了具有有形物理含义的模型。为了提高动态系统中状态估计的精度，本文还提出了一种新的控制变量建模技术。该技术利用了一种新引入的模型，称为“Mixed Mamba”，来推导初始控制状态，从而提高了这些变量的预测精度。此外，所提出的方法巧妙地将图神经网络与状态空间模型相结合，有效地捕捉了多智能体交互的复杂性。这种组合为预测一系列场景中的多智能体轨迹提供了一个强大且可扩展的框架。综合评估表明，该模型在各种指标和数据集上优于几个既定的基准，突显了其在推进自动驾驶系统轨迹预测方面的巨大潜力。

MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering

论文链接：https://arxiv.org/abs/2408.11464v1
项目主页：https://github.com/Hub-Tian/MambaOcc

中科院&美团的工作：占用率预测引起了人们的广泛关注，并在自动驾驶系统的发展中显示出巨大的优势。占用预测在几何和语义信息方面带来的细粒度环境表示，促进了开放场景下的一般感知和安全规划。然而，在利用基于体素的三维密集表示和基于Transformer的二次注意力的现有工作中，它也带来了高昂的计算成本和繁重的参数。为了应对这些挑战，本文提出了一种基于Mamba的占用预测方法（MambaOcc），该方法采用BEV特征来减轻3D场景表示的负担，并采用线性Mamba风格的注意力来实现高效的远程感知。此外，为了解决Mamba对序列顺序的敏感性，我们提出了一种具有可变形卷积的局部自适应重排序（LAR）机制，并设计了一种由卷积层和Mamba组成的混合BEV编码器。对Occ3D nuScenes数据集的广泛实验表明，MambaOcc在准确性和计算效率方面都达到了最先进的性能。例如，与FlashOcc相比，MambaOcc提供了更优的结果，同时将参数数量减少了42%，计算成本减少了39%。

MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation

论文链接：https://arxiv.org/abs/2408.10602v1
开源链接：https://github.com/Chengjt1999/MV-MOS

南方科技大学&华南师范团队的工作：有效地总结密集的3D点云数据并提取运动目标的运动信息（运动目标分割，MOS）对于自动驾驶和机器人应用至关重要。如何有效地利用运动和语义特征，避免3D-2D投影过程中的信息丢失，仍然是一个关键挑战。本文通过融合点云不同二维表示的运动语义特征，提出了一种新的多视图MOS模型（MV-MOS）。为了有效地利用互补信息，所提出模型的运动分支结合了鸟瞰图（BEV）和距离图（RV）表示的运动特征。此外引入了一个语义分支，以提供运动对象的补充语义特征。最后，利用Mamba模块将语义特征与运动特征融合，为运动分支提供有效指导。我们通过综合实验验证了所提出的多分支融合MOS框架的有效性，我们提出的模型在SemanticKITTI基准上优于现有的最先进模型。

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

论文链接：https://arxiv.org/abs/2408.10487
开源链接：https://github.com/Event-AHU/MambaEVT

近年来，基于事件相机的视觉跟踪因其独特的成像原理和低能耗、高动态范围和高时间分辨率的优点而受到越来越多的关注。由于使用视觉Transformer和静态模板进行目标定位，当前基于事件的跟踪算法正逐渐遇到性能瓶颈。本文提出了一种新的基于Mamba的视觉跟踪框架，该框架采用线性复杂度的状态空间模型作为骨干网络。搜索区域和目标模板被馈送到视觉Mamba网络中，以同时进行特征提取和交互。搜索区域的输出标记将被输入跟踪头进行目标定位。更重要的是，我们考虑使用Memory Mamba网络在跟踪框架中引入动态模板更新策略。通过考虑目标模板库中样本的多样性并对模板存储模块进行适当调整，可以集成更有效的动态模板。动态和静态模板的有效组合使我们基于Mamba的跟踪算法能够在多个大规模数据集（包括EventVOT、VisEvent和FE240hz）上实现精度和计算成本之间的良好平衡。

OccMamba: Semantic Occupancy Prediction with State Space Models

论文链接：https://arxiv.org/abs/2408.09859

中科大&上海AI Lab等团队的工作：由于存在大量占用单元、严重遮挡、有限的视觉线索、复杂的驾驶场景等因素，训练用于语义占用预测的深度学习模型具有挑战性。最近的方法通常采用基于Transformer的架构，因为它们在学习输入条件权重和远程关系方面具有很强的能力。然而基于Transformer的网络因其二次计算复杂性而让人望而却步，严重削弱了它们在语义占用预测中的有效性和部署。受Mamba架构的全局建模和线性计算复杂性的启发，我们提出了第一个基于Mamba的语义占用预测网络，称为OccMamba。然而，由于语言域和3D域之间固有的域差距，将Mamba架构直接应用于占用预测任务会产生不令人满意的性能。为了缓解这个问题，我们提出了一种简单而有效的3D-1D重排序操作，即高度优先的2D Hilbert展开。它可以最大限度地保留点云的空间结构，并促进曼巴块的处理。我们的OccMamba在三个流行的占用率预测基准上达到了最先进的性能，包括Openccupancy、SemanticKITTI和SemanticPOSS。值得注意的是，在Openccupancy上，我们的OccMamba分别比之前最先进的Co-Occ高出3.1%的IoU和3.2%的mIoU。

MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model

论文链接：https://arxiv.org/abs/2408.09178

国防科大的工作：通过检测进行跟踪一直是多目标跟踪（MOT）领域的主流范式。这些方法通常依赖于卡尔曼滤波器来估计目标的未来位置，假设目标是线性运动的。然而，在跟踪舞蹈和体育等场景中表现出非线性和多样化运动的目标时，它们却做得不够。此外，在MOT中使用基于学习的运动预测器的关注有限。为了应对这些挑战，我们求助于探索数据驱动的运动预测方法。受状态空间模型（SSM）（如Mamba）在具有近线性复杂度的长期序列建模中的巨大期望的启发，我们引入了一种名为Mamba-motion Predictor（MTP）的基于Mamba的运动模型。MTP旨在模拟舞者和运动员等目标的复杂运动模式。具体来说，MTP将对象的时空位置动态作为输入，使用双Mamba编码层捕获运动模式，并预测下一个运动。在现实世界中，对象可能会因遮挡或运动模糊而丢失，导致其轨迹过早终止。为了应对这一挑战，我们进一步扩大了MTP的应用范围。我们以自回归的方式使用它，通过利用它自己的预测作为输入来补偿缺失的观测值，从而有助于更一致的轨迹。我们提出的跟踪器MambaTrack在Dancetrack和SportsMOT等基准测试中表现出了先进的性能，这些基准测试的特点是复杂的运动和严重的遮挡。

RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba

论文链接：https://arxiv.org/abs/2408.08827v1

安徽大学的工作：现有的RGBT跟踪方法通常设计各种交互模型来执行每一层的跨模态融合，但由于计算量大，无法执行所有层之间的特征交互，这在鲁棒的多模态表示中起着至关重要的作用。为了解决这个问题，本文提出了一种名为AINet的新型全层多模态交互网络，该网络在渐进融合Mamba中对所有模态和层进行高效和有效的特征交互，以实现鲁棒的RGBT跟踪。尽管已知不同层中的模态特征包含不同的线索，但由于在平衡交互能力和效率方面存在困难，在每一层中构建多模态交互总是具有挑战性的。同时，考虑到RGB和热模态之间的特征差异在一定程度上反映了它们的互补信息，我们设计了一种基于差异的融合曼巴（DFM），以实现具有线性复杂度的不同模态的增强融合。当与所有层的特征交互时，涉及大量的令牌序列（本研究中为3840个令牌），因此计算负担很大。为了解决这个问题，我们设计了一个Order动态融合Mamba（OFM），通过动态调整Mamba中不同层的扫描顺序来执行所有层的高效和有效的特征交互。对四个公共RGBT跟踪数据集的广泛实验表明，AINet在现有最先进的方法中取得了领先的性能。

DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba

论文链接：https://arxiv.org/abs/2408.03601v2
项目主页：https://chengran-yuan.github.io/DRAMA/

新加坡国立大学的工作：运动规划是一项具有挑战性的任务，在高度动态和复杂的环境中生成安全可行的轨迹，形成自动驾驶汽车的核心能力。在本文中提出了DRAMA，这是第一个基于Mamba的自动驾驶汽车端到端运动规划器。DRAMA融合了相机、特征空间中的LiDAR鸟瞰图图像以及自车状态信息，以生成一系列未来的自车轨迹。与传统的基于Transformer的序列长度二次注意力复杂度方法不同，DRAMA能够实现计算强度较低的注意力复杂度，显示出处理日益复杂的场景的潜力。DRAMA利用本文提出的Mamba融合模块，高效地融合了相机和激光雷达的功能。此外，我们引入了一个Mamba Transformer解码器，可以提高整体规划性能。该模块普遍适用于任何基于Transformer的模型，特别是对于具有长序列输入的任务。我们进一步引入了一种新的特征状态丢弃，在不增加训练和推理时间的情况下提高了规划器的鲁棒性。广泛的实验结果表明，与基线Transfuser相比，DRAMA在NAVSIM数据集上实现了更高的精度，参数更少，计算成本更低。

MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking

论文链接：https://arxiv.org/abs/2408.07889

大连理工的工作：现有的RGB-T跟踪算法通过利用Transformer架构的全局交互能力和广泛的预训练模型取得了显著进展。尽管如此，这些方法主要采用图像对外观匹配，并面临着注意力机制固有的高二次复杂度的挑战，导致时间信息的利用受到限制。受最近出现的状态空间模型Mamba的启发，该模型以其令人印象深刻的长序列建模能力和线性计算复杂性而闻名，这项工作创新性地提出了一个基于纯Mamba的框架（MambaVT），以充分利用时空上下文建模进行鲁棒的可见热跟踪。具体而言，我们设计了long-range跨帧集成组件，以全局适应目标外观变化，并引入短期历史轨迹提示，根据局部时间位置线索预测后续目标状态。广泛的实验表明，视觉Mamba在RGB-T跟踪方面具有巨大的潜力，MambaVT在四个主流基准上实现了最先进的性能，同时需要更低的计算成本。我们的目标是将这项工作作为一个简单而强大的基线，刺激该领域的未来研究。

MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection

论文链接：https://arxiv.org/abs/2408.00438v1

重庆理工的工作：基于变换器的单目3D对象检测技术的最新进展在从单个2D图像推断3D属性方面表现出了卓越的性能。然而，大多数现有方法依赖于资源密集型的转换器架构，这通常会导致处理长序列数据时计算效率和性能的显著下降。为了应对这些挑战并推进单目3D目标检测技术，我们提出了一种创新的网络架构MonoMM，一种多尺度Mamba-Enhanced用于实时单目3D目标检测的网络。这种设计良好的架构主要包括以下两个核心模块：聚焦多尺度融合（FMF）模块，该模块侧重于以较低的计算资源消耗有效地保存和融合来自不同尺度的图像信息。通过精确调节信息流，FMF模块增强了模型对尺度变化的适应性和鲁棒性，同时保持了图像细节。深度感知特征增强Mamba（DMB）模块：它利用图像特征的融合特征作为输入，并采用一种新颖的自适应策略来全局整合深度信息和视觉信息。这种深度融合策略不仅提高了深度估计的准确性，而且提高了模型在不同视角和环境条件下的性能。此外，MonoMM的模块化设计提供了高度的灵活性和可扩展性，便于根据特定的应用需求进行调整和优化。在KITTI数据集上进行的大量实验表明，我们的方法优于以前的单目方法，实现了实时检测。

LION: Linear Group RNN for 3D Object Detection in Point Clouds

论文链接：https://arxiv.org/abs/2407.18232v1
代码链接：https://happinesslz.github.io/projects/LION/

华科&港大&百度的工作：在大规模3D点云感知任务（如3D对象检测）中，变换器的优势受到建模远程关系时二次计算成本的限制。相比之下，线性RNN具有较低的计算复杂度，适用于长距离建模。为了实现这一目标，我们提出了一种基于LInear grOup RNN（即对分组特征执行线性RNN）的简单有效的基于窗口的框架，用于精确的3D对象检测，称为LION。关键属性是允许在比基于变换器的方法大得多的组中进行足够的特征交互。然而，由于线性群RNN在处理空间建模方面的局限性，将其有效应用于高度稀疏点云中的3D对象检测并非易事。为了解决这个问题，我们简单地引入了一个3D空间特征描述符，并将其集成到线性组RNN算子中，以增强它们的空间特征，而不是盲目地增加体素特征的扫描顺序。为了进一步解决高度稀疏点云中的挑战，我们提出了一种3D体素生成策略，利用线性群RNN作为自回归模型的自然属性来加密前景特征。大量实验验证了所提出的组件的有效性以及我们的LION在不同线性群RNN算子（包括Mamba、RWKV和RetNet）上的泛化能力。此外，值得一提的是，我们的LION Mamba在Waymo、nuScenes、Argoverse V2和ONCE数据集上达到了最先进的水平。最后但同样重要的是，我们的方法在小型但流行的KITTI数据集上支持各种高级线性RNN算子（例如RetNet、RWKV、Mamba、xLSTM和TTT），以便快速体验我们基于线性RNN的框架。

Serialized Point Mamba: A Serialized Point Cloud Mamba Segmentation Model

论文链接：https://arxiv.org/abs/2407.12319v1

湖南大学的工作：点云分割对于机器人视觉感知和环境理解至关重要，可以实现机器人导航和3D重建等应用。然而，处理点云数据的稀疏和无序特性给高效和准确的分割带来了挑战。受Mamba模型在自然语言处理中的成功启发，我们提出了序列化点云Mamba分段模型（序列化点Mamba），该模型利用状态空间模型动态压缩序列，减少内存使用，提高计算效率。Serialized Point Mamba将局部全局建模功能与线性复杂性相结合，在室内和室外数据集上实现了最先进的性能。这种方法包括分阶段点云序列学习、网格池和条件位置编码等新技术，促进了不同点云任务的有效分割。我们的方法在Scannet上实现了76.8 mIoU，在S3DIS上实现了70.3 mIoU。在Scannetv2实例分段中，它记录了40.0 mAP。它还具有最低的延迟和合理的内存使用，使其成为基于曼巴的点语义分割模型中的SOTA。

Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

论文链接：https://arxiv.org/abs/2406.10700v2

港理工&中科院等团队的工作：基于序列化的方法对3D体素进行序列化，并在输入到Transformers之前将其分组为多个序列，已证明其在3D对象检测中的有效性。然而，将3D体素序列化为1D序列将不可避免地牺牲体素的空间接近度。由于具有特征大小的Transformer的二次复杂性，通过现有的基于序列化的方法扩大组大小很难解决这个问题。受状态空间模型（SSM）最新进展的启发，我们提出了一种体素SSM，称为体素曼巴，它采用无组策略将整个体素空间序列化为单个序列。SSM的线性复杂性鼓励了我们的无组设计，减轻了体素空间接近度的损失。为了进一步增强空间邻近性，我们提出了一种双尺度SSM块来建立层次结构，在1D序列化曲线中实现更大的感受野，并在3D空间中实现更完整的局部区域。此外，我们通过位置编码在无组框架下隐式地应用窗口分割，这通过编码体素位置信息进一步增强了空间接近度。我们在Waymo Open Dataset和nuScenes数据集上的实验表明，Voxel Mamba不仅比最先进的方法具有更高的精度，而且在计算效率方面也显示出显著的优势。

Mamba YOLO: SSMs-Based YOLO For Object Detection

论文链接：https://arxiv.org/abs/2406.05835v1
代码链接：https://github.com/HZAI-ZJNU/Mamba-YOLOv1

在深度学习技术快速发展的推动下，YOLO系列为实时目标探测器设定了新的基准。研究人员在YOLO的基础上不断探索重参数化、高效层聚合网络和无锚技术的创新应用。为了进一步提高检测性能，引入了基于Transformer的结构，显著扩展了模型的感受野，并实现了显著的性能提升。然而，这种改进是有代价的，因为自我关注机制的二次复杂性增加了模型的计算负担。幸运的是，状态空间模型（SSM）作为一种创新技术的出现有效地缓解了二次复杂性带来的问题。鉴于这些进展，我们介绍了一种基于SSM的新型目标检测模型Mamba YOLO。Mamba YOLO不仅优化了SSM基础，而且专门适用于目标检测任务。鉴于SSM在序列建模中的潜在局限性，如感受野不足和图像局部性弱，我们设计了LSBlock和RGBlock。这些模块能够更精确地捕获局部图像依赖关系，并显著增强模型的鲁棒性。在公开的基准数据集COCO和VOC上进行的广泛实验结果表明，Mamba YOLO在性能和竞争力方面都超越了现有的YOLO系列，展示了其巨大的潜力和竞争优势。

MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation

论文链接：https://arxiv.org/abs/2406.04532v1

在自监督深度估计领域，卷积神经网络（CNN）和变换器传统上占据主导地位。然而，由于其局部关注或计算需求，这两种架构都难以有效地处理长期依赖关系。为了克服这一局限性，我们提出了MambaDepth，这是一种为自监督深度估计量身定制的多功能网络。我们从曼巴架构的优势中汲取灵感，曼巴架构以其对长序列的熟练处理以及通过状态空间模型（SSM）高效捕捉全球背景的能力而闻名，我们介绍了MambaDepth。这种创新的架构将U-Net在自我监督深度估计方面的有效性与Mamba的先进功能相结合。MambaDepth是围绕纯粹基于Mamba的编码器-解码器框架构建的，它结合了跳过连接来维护网络各级的空间信息。这种配置促进了广泛的特征学习过程，能够在深度图中捕获精细细节和更广泛的上下文。此外，我们在Mamba块内开发了一种新的集成技术，以促进编码器和解码器组件之间不间断的连接和信息流，从而提高深度精度。在已建立的KITTI数据集上进行的全面测试表明，MambaDepth在自监督深度估计任务中优于领先的基于CNN和Transformer的模型，使其能够实现最先进的性能。此外，MambaDepth在Make3D和Cityscapes等其他数据集上证明了其卓越的泛化能力。MambaDepth的性能预示着自监督深度估计的有效远程依赖建模的新时代。