本文经自动驾驶之心公众号授权转载,转载请联系出处。
原标题: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering
论文链接:https://arxiv.org/pdf/2306.09117.pdf
论文思路:
在这份技术报告中,本文提出了本文的解决方案,命名为UniOCC,用于在CVPR 2023 nuScenes Open Dataset Challenge中以视觉为中心的3D占用预测轨道。现有的占用预测方法主要侧重于使用三维占用标签优化三维volume空间的投影特征。然而,这些标签的生成过程非常复杂和昂贵(依赖于3D语义标注),并且受体素分辨率的限制,它们不能提供细粒度的空间语义。为了解决这一限制,本文提出了一种新的统一占用(UniOcc)预测方法,明确施加空间几何约束,并通过体射线渲染(volume ray rendering)补充细粒度语义监督。本文的方法显著提高了模型的性能,并在降低人工标注成本方面展示了良好的潜力。考虑到标注3D占用的费力性,本文进一步提出了深度感知的Teacher Student(DTS)框架,以提高使用无标记数据的预测精度。本文的解决方案在官方单模型排行榜上获得51.27% mIoU,在本次挑战赛中排名第三。
网络设计:
在这一挑战中,本文提出了UniOcc,这是一种利用体渲染(volume rendering)来统一二维和三维表示监督的通用解决方案,改进了多摄像机占用预测模型。本文没有设计新的模型架构,而是将重点放在以通用和即插即用的方式增强现有模型[3,18,20]上。
本文将占用表示提升到NeRF-style表示[1,15,21],允许使用体渲染(volume rendering)生成2D语义和深度地图。这使本文能够在2D像素级别上执行细粒度的监督。通过对通过三维体素的射线进行采样,得到所渲染的二维像素语义和深度信息。这种几何遮挡关系和语义一致性约束的显式集成为模型提供了显式的指导,并确保遵守这些约束。
值得一提的是,UniOcc有潜力减少对昂贵的3D语义标注的依赖。在没有3D占用标签的情况下,仅使用本文的体渲染(volume rendering)监督进行训练的模型,甚至比使用3D标签监督进行训练的模型表现更好。这突出了减少对昂贵的3D语义标注的依赖的令人兴奋的潜力,因为场景表示可以直接从负担得起的2D分割标签学习。此外,利用SAM[6]和[14,19]等先进技术,还可以进一步降低二维分割标注的成本。
本文还介绍了深度感知Teacher Student(DTS)框架,这是一种自监督的训练方法。与经典的Mean Teacher[16]不同,DTS增强了教师模型的深度预测,在利用无标记数据的同时实现稳定和有效的训练。此外,本文应用了一些简单而有效的技术来提高模型的性能。这包括在训练中使用visible masks,使用更强的预先训练的骨干,增加体素分辨率,以及实现Test-Time Augmentation(TTA)。
图1。本文的UniOcc框架的概述。
图2。深度感知的Teacher-Student框架。
实验结果:
引用:
Pan, M., Liu, L., Liu, J., Huang, P., Wang, L., Zhang, S., Xu, S., Lai, Z., & Yang, K. (2023). UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering. ArXiv. /abs/2306.09117
原文链接:https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg