港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

人工智能 智能汽车
本文提出了OccProphet,这是一种用于占用预测的全新纯视觉框架。

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!相比此前最先进的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,内存占用减少近60%,仅需24G显存即可完成训练和推理。代码即将开源。

  • 论文链接:https://arxiv.org/abs/2502.15180
  • 代码链接:https://github.com/JLChen-C/OccProphet

图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%

动机

提升自动驾驶车辆对动态环境的感知与预测能力,是自动驾驶安全性和可靠性的迫切需求。传统的占据感知(Occupancy Perception)方法通过学习空间中的占据状态,能够理解环境的当前和过去状态,而无法预测未来动态。事实上,预测未来场景对于安全驾驶和避免碰撞至关重要。

这篇文章研究基于相机的占用预测(Occupancy Forecasting),能够理解自动驾驶车辆周围环境的动态变化,并对未来进行合理预测。考虑到现有的基于相机的占据预测方法(例如Cam4DOcc)计算成本高,不具备在计算资源受限的边缘设备(例如自动驾驶车辆)的部署能力,这篇文章的主要动机在于开发一种轻量且高效的框架——OccProphet。

它仅仅使用环视图片序列作为输入,能准确预测未来时刻的4D占据(时间维度+空间维度)。在轻量化处理上,OccProphet引入了三大精简模块(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合与三元组注意力融合策略,旨在在显著降低计算需求的同时提升预测的准确性。这一进步,首次展现了4D占用感知在自动驾驶车辆上部署的可行性

方法详解

如图2所示,OccProphet 是一种新型的仅基于摄像头的占据预测框架,它不管在训练阶段还是推理阶段都是计算友好的。

图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。

  • 观察器(Observer)模块:高效且有效地聚合多帧观测(即多帧3D体素特征)中的时空信息。
  • 预报器(Forecaster)模块:在 Observer 的输出基础上,自适应地预测未来状态,从而确保在各种交通状况下的灵活性。
  • 细化器(Refiner)模块:通过促进帧间交互,进一步提升这些预测的质量。
  • 预测器(Predictor):将经过优化的未来状态解码为占用或占用流。

OccProphet 在创新性方面主要做出了以下贡献:

  • 一种新颖的仅基于摄像头的占用预测框架,在训练和推理过程中都兼具高效性和有效性,适用于车载部署。
  • 一个轻量级的观察器-预报器-细化器框架。观察器(Observer)模块从历史观测中提取时空特征;预报器(Forecaster)模块有条件地预测粗略的未来状态;细化器(Refiner)模块则进一步提升预测准确性。
  • 实验结果表明,OccProphet在预测准确性上更胜一筹,同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。

关键组件

观察器(Observer)

Efficient 4D Aggregation(高效4D聚合)

图3:高效4D聚合模块图3:高效4D聚合模块

Tripling-Attention Fusion(三元组注意力融合)

图4:三元组注意力融合(左)和三元组分解操作(右)图4:三元组注意力融合(左)和三元组分解操作(右)

三元组注意力融合模块(TAF)专为促进多个三维特征间的时空交互而设计,通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间,从而以较低的计算成本保留三维场景信息。具体而言,三元组分解操作将三维特征分解为场景、高度和BEV三个分支,分别压缩三维特征至一维或二维特征,减少后续计算开销。场景分支提取全局上下文,提供对场景的整体理解;高度分支保留垂直细节,作为2D BEV分支的补充线索,增强三维几何信息的表现能力。

预报器 (Forecaster)

图5:预报器的结构图5:预报器的结构

细化器(Refiner)

实验

网络的训练使用4块(至少1块)RTX4090 GPU,测试使用1块RTX4090 GPU(24G显存)。

实验结果表明,OccProphet在预测准确性和效率上均表现出色,在三个数据集上相对于最先进的Cam4DOcc模型,其占用预测准确性分别提升了4%∼18%,同时运行速度提高了约1.6倍,计算成本降低了58%∼78%。

定性实验

图6:Cam4DOcc与OccProphet的定性实验图6:Cam4DOcc与OccProphet的定性实验

Cam4DOcc和OccProphet在未来2秒内的占用预测可视化。红色虚线矩形表明OccProphet的结果相比Cam4DOcc的结果与真实标注更加一致。第一行结果表明OccProphet在低光照条件下具有较强的适应性。

定量实验

图7:不同表征形式之间的比较

图7:不同表征形式之间的比较

采用E4A表征在性能上优于BEV和TPV表征,且参数更少,计算成本仅略有增加。

图8:在细粒度的一般运动物体和一般静态物体上的4D占用预测性能图8:在细粒度的一般运动物体和一般静态物体上的4D占用预测性能

OccProphet在细粒度的4D占用预测上具有明显优势。

图9:模型复杂度的比较图9:模型复杂度的比较

与Cam4DOcc相比,OccProphet的参数量、内存占用和FLOPs均降低了58%-78%,同时OccProphet在未来帧的平均IoU上实现了相对4%的提升,并且其FPS达到了Cam4DOcc的2.6倍。

更多定性和定量实验及分析见论文。OccProphet将激励在高效占用预测及其车载部署等领域的更多研究。

结论

本文提出了OccProphet,这是一种用于占用预测的全新纯视觉框架。该框架采用了一个Observer Forecaster Refiner管道,专门用于高效和有效的培训和推理。这种效率和有效性是通过4D聚合和对低分辨率特征进行三重注意力融合来实现的。实验结果证明了OccProphet在预测准确性和效率方面的优越性。在三个数据集上,它在占用率预测方面比最先进的Cam4DOcc高出4%至18%,同时运行速度提高了2.6倍,计算成本降低了58%-78%。我们希望OccProphet能够推动未来在高效占用率预测及其在车载部署中的应用方面的研究。

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2024-01-19 13:41:00

AI模型

2024-07-31 09:30:00

2024-09-20 09:53:11

2023-07-18 14:19:00

模型AI

2023-03-29 07:22:06

公共预览版Microsoft

2022-12-20 11:20:07

PeaZip 8开源压缩软件

2021-03-10 15:19:01

工具代码开发

2022-02-22 16:21:04

Windows 11微软

2022-06-15 11:19:19

MySQL数据库

2022-04-27 09:24:22

前端代码速度

2025-02-14 10:56:58

2024-11-27 14:30:00

模型训练

2023-11-28 09:37:12

3D自动驾驶

2022-05-25 10:04:43

Go编程

2022-06-07 08:07:05

GoNode.js

2024-12-12 10:20:00

自动驾驶生成

2024-01-09 12:58:21

PC性能NVIDIA

2023-11-23 18:19:15

腾讯腾讯混元Angel

2017-05-11 11:30:43

MySQL查询速度

2009-12-24 09:30:38

Opera性能测试
点赞
收藏

51CTO技术栈公众号