1. 一眼概览
MobileMamba 提出了一种轻量级多感受野视觉 Mamba 网络,通过三阶段网络设计和 MRFFI(Multi-Receptive Field Feature Interaction) 模块,在提升模型推理速度的同时,实现更高精度,超越现有 CNN、ViT 和 Mamba 结构。
2. 核心问题
当前轻量级视觉模型主要基于 CNN 和 Transformer:
• CNN 局部感受野限制了全局建模能力。
• Transformer 具备全局感受野,但高分辨率下计算复杂度高(O(N²))。
• 现有 Mamba 轻量级模型虽然 FLOPs 低,但推理速度较慢。
MobileMamba 旨在:
• 优化 Mamba 的推理速度,在保证低 FLOPs 的情况下提高吞吐量。
• 增强多尺度感受野交互,兼顾长短距离特征捕获和高频细节提取。
• 适应高分辨率任务,在分类、目标检测、语义分割等任务上提升表现。
3. 技术亮点
1. 三阶段网络设计
• 通过权衡四阶段和三阶段网络,选用三阶段架构,在相同吞吐量下提升精度,或在相同精度下提升吞吐量。
2. MRFFI(多感受野特征交互)模块
• WTE-Mamba(长程小波变换增强 Mamba):结合全局建模与高频边缘信息提取。
• MK-DeConv(多核深度卷积):提取不同尺度信息,增强局部感受野。
• 消除冗余身份映射(Eliminate Redundant Identity):减少通道冗余,提高计算效率。
3. 训练 & 测试策略优化
• 知识蒸馏(Knowledge Distillation) 提高轻量级模型的学习能力。
• 扩展训练轮次(Extended Training Epochs) 进一步提升精度上限。
• 归一化层融合(Normalization Layer Fusion) 在测试时加速推理。
4. 方法框架
图片
MobileMamba 通过以下核心步骤优化推理和特征提取:
1. 多感受野特征交互(MRFFI)
• 通过 WTE-Mamba 进行长程信息提取,同时结合小波变换增强高频特征。
• MK-DeConv 采用不同大小的卷积核进行局部信息交互,提高多尺度感知能力。
• 通过 消除冗余身份映射 降低计算成本,提高推理速度。
2. 轻量级 Mamba 结构
• 采用三阶段设计,减少计算量,提高吞吐量。
• 结合 多方向扫描和低秩状态空间映射,提升计算效率。
3. 优化训练与推理
• 知识蒸馏:从更强的教师模型学习,提高小模型性能。
• 延长训练轮数:实验发现 300 轮未完全收敛,延长到 1000 轮可提升准确率。
• 归一化层融合:在推理时减少计算冗余,提高计算效率。
5. 实验结果速览
图片
MobileMamba 在多个基准测试中展现了优越性能:
✅ ImageNet-1K 分类
• MobileMamba-B4 83.6% Top-1,比 EfficientVMamba 提升 +1.8%,且推理速度提升 ×3.5 倍。
✅ 目标检测(COCO)
• Mask R-CNN:相比 EMO 提升 mAP +1.3↑,吞吐量 +57%↑。
• RetinaNet:比 EfficientVMamba 提升 mAP +2.1↑,推理速度提升 ×4.3 倍。
✅ 语义分割(ADE20K)
• Semantic FPN:比 EdgeViT 提升 mIoU +1.1↑,FLOPs 仅为其 20%。
• PSPNet:比 MobileViTv2 提升 mIoU +0.4↑,FLOPs 仅 11%。
6. 实用价值与应用
• 边缘设备视觉计算:适用于智能手机、嵌入式设备、物联网(IoT)等资源受限场景。
• 自动驾驶与监控:在高分辨率场景下提供高效视觉计算,适用于目标检测、分割任务。
• 医疗影像分析:通过多感受野特性,提取关键医学影像特征,提高诊断效率。
7. 开放问题
MobileMamba 的多感受野特征交互策略是否适用于其他任务,如视频理解或 3D 视觉?
如何进一步优化 MobileMamba 以提升 CPU/移动端推理速度?
能否结合 LoRA 或其他参数高效微调方法,提升 MobileMamba 在特定任务上的适应性?