本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面&笔者的个人理解
在这个信息化的时代,无人驾驶汽车和智能机器人正成为现实生活中的重要角色。为了让这些机器更好地理解和导航我们的世界,它们需要能够看到并理解它们周围的环境。这就像是教机器“阅读”现实世界的三维空间故事。今天汽车人为大家介绍了一个名为Sparse Guidance Network(SGN)的智能系统,它使用一种特殊的方式来提升机器的这种“阅读”能力。SGN通过某种方式让机器更快地学习和辨认周围的物体,就像在拼图游戏中找到正确的拼图块一样。研究人员通过大量的测试,证明了SGN能够在这个复杂的三维拼图游戏中胜出,尤其是在一个叫做SemanticKITTI的挑战中,这是一个检验机器“视力”的考验。虽然SGN在帮助机器“看”得更清楚方面做得很好,但研究人员仍在寻找方法,使它变得更小、更快、更聪明,这样未来无人驾驶汽车和智能机器人就可以更安全、更有效地帮助我们。
文章的主要思路
SGN探讨了3D语义场景补全(SSC)的问题,这是一个在户外驾驶场景中特别重要的研究领域。传统上,这个问题主要依赖于昂贵的激光雷达(LiDAR)技术来捕获周围环境的三维信息。然而,近年来,研究开始转向更经济的基于纯视觉的SSC解决方案。先前的工作,如MonoScene、OccDepth、SurroundOcc和OccFormer等,大多采用了将二维图像转换为三维体积,再通过复杂的3D模型处理的方法。虽然这些方法在技术上有所创新,但它们通常依赖于重型的3D模型来处理提升的三维特征,这使得它们在清晰的分割边界方面表现不足。
为了改进这一点,VoxFormer等方法提出了使用可见区域来完成不可见结构的方法。这种方法采用两阶段框架:第一阶段用于查询proposal,第二阶段用于密集化和分割。这种稀疏到密集的方法在效率和可扩展性上优于之前的密集处理方法,但它在查询的类内特征分离、查询信息的准确性以及全局信息考虑等方面仍存在限制。
针对这些限制,论文提出了一种新型的端到端基于纯视觉的SSC框架,称为Sparse Guidance Network(SGN)。SGN的核心思想是利用几何先验和占用信息,从具有语义和占用意识的种子体素向整个场景扩散语义。与传统方法不同,SGN采用了一种密集-稀疏-密集的设计,并引入了混合引导和有效的体素聚合来加强类内特征的分离和加速语义扩散的收敛。此外,SGN还利用了各向异性卷积来实现灵活的接收场,同时减少计算资源的需求。
这一创新方法在SemanticKITTI数据集上进行了广泛的实验,结果显示SGN在性能上优于现有的最先进方法。即使是SGN的轻量级版本SGN-L,也在内存和参数量方面更为节省,同时在mIoU和IoU两个重要指标上取得了显著的提升。这样的效果得益于SGN在设计上的高效性和新颖性,特别是在处理稀疏数据和加速语义扩散方面的创新,这使得SGN能够在保持轻量级的同时,提供强大的场景理解能力。
SGN方法详解
概述
Sparse Guidance Network(SGN)的总体框架展现了一种密集-稀疏-密集的设计,旨在通过几何先验和占用信息,从具有语义和占用意识的种子体素将语义扩散到整个场景中。具体步骤如下:SGN以RGB图像为输入,使用ResNet-50结合FPN来构建图像编码器,以从RGB图像中提取二维特征。这些提取的特征 为后续体素特征的形成提供了坚实的基础,其中 是时间输入的图像数量, 是特征通道数, 表示图像分辨率。SGN通过3D-2D投影映射(使用纯视觉参数)对二维特征进行采样,构建三维特征。这种简单的投影映射操作为后续的上下文建模提供了粗糙的体积场景表示。该映射过程比可学习的LSS和交叉注意力机制更简便和明确。数学上,三维特征 是从二维特征 采样得到的。SGN基于深度预测生成稀疏体素提案,用于动态索引种子体素。根据体素提案和三维特征,SGN设计了混合引导以注入语义和几何线索,促进特征学习。SGN开发了体素聚合层,形成信息丰富的体素特征,这些特征进一步通过多尺度语义扩散模块进行处理,以进行最终的语义占用预测。
总的来说,SGN通过其创新的设计和流程,能够有效地处理和解释三维场景,提供准确的语义场景补全。
Feature Learning with Hybrid Guidance
在"Feature Learning with Hybrid Guidance"这一部分中,SGN通过结合几何引导和稀疏语义引导,来增强信息丰富的体素特征。这种方法旨在解决直接处理视图变换模块产生的3D特征 的重型模型在获取清晰分割边界方面不够鉴别力的问题。
- Geometry Guidance:首先,在视图变换模块后接一个辅助的3D占用头作为几何引导,以提供粗略的几何意识。具体来说,利用各向异性卷积层和线性层构建3D占用头。这种各向异性卷积将3D卷积操作分解为三个连续的不同方向的1D卷积,并且每个1D卷积都配备了不同核大小的混合器,从而增强了模型从输入数据中学习和提取有意义特征的能力。通过辅助头对提升的3D特征 进行3D占用 的预测,对粗略场景表示应用引导,并为后续种子特征的语义预测和扩散提供几何先验。
- Sparse Semantic Guidance:为了更有效和高效地从具有粗糙体积信息的3D特征中学习所有体素的语义,提出了从种子体素向整个场景传播语义的方法。具体来说,生成稀疏体素提案来选择种子体素,并鼓励种子特征之间的类间可分性。
- Sparse Voxel Proposal:设计了一个稀疏体素提案网络(SVPN),以动态选择种子体素,从而进行后续的语义上下文学习。SVPN包括深度估计和从粗到细的占用预测。
- Semantic Guidance:在获得占用预测 和场景体素坐标 后,首先选择初始种子体素特征 和种子坐标 ,然后将这些种子体素特征和相应的体素索引输入语义引导模块进行相互作用。该模块具有两个稀疏编码器块(SEB),一个融合层和一个辅助语义头,每个编码器块包括一个稀疏特征编码器和一个稀疏几何特征编码器,输出具有多尺度上下文信息的特征。
- Voxel Aggregation:如图所示,进一步将具有语义意识的种子特征 和具有占用意识的特征 与表示粗略几何的3D特征 聚合,以构建最终的鉴别性体素特征 。特别地,利用非种子体素的坐标索引特征 从 中,然后将非
Multi-Scale Semantic Diffusion
在"Multi-Scale Semantic Diffusion"(多尺度语义扩散)这一部分中,SGN通过结合几何引导和稀疏语义引导学习特征,从而获得具有丰富语义上下文和空间几何线索的鉴别性体素特征。接着,设计了多尺度语义扩散(MSSD)模块,以基于几何和空间占用线索,将语义信息从种子特征扩散到整个场景。
MSSD模块包含三个各向异性卷积层和ASPP模块,这些构成部分既轻量级又能有效捕获不同大小实例的多尺度特征。之后,使用由线性层和softmax层组成的头部来从扩散的体素特征中预测最终的语义场景预测 。
沿用MonoScene的做法,SGN在 的语义和几何结果上采用Scene-Class Affinity Loss,以同时优化类别精度、召回率和特异性度量。最终预测的整体损失函数表达为:
其中, 和 分别代表语义和几何结果的Scene-Class Affinity Loss, 代表交叉熵损失。
通过这种设计,MSSD模块能够有效地将语义信息从精选的种子体素扩散到整个场景,从而在保持模型轻量的同时,实现对复杂三维环境的深入理解和准确的语义场景补全。
实验结果
在SemanticKITTI隐藏测试集上,针对语义场景补全的性能比较中,SGN(Sparse Guidance Network)展示了卓越的实验表现。SGN的三个变体——SGN-S、SGN-L和SGN-T——均超越了先前方法的性能。特别地,SGN-T版本在多项个别类别上以及(mIoU)上都取得了最佳成绩。
SGN-T在'road'(道路)类别上实现了最高的IoU,为60.40%,同时在较困难识别的类别,如'truck'(卡车)、'motorcyclist'(摩托车手)和'traffic sign'(交通标志)上,也展现了出色的识别能力,分别达到了28.40%、4.50%和8.30%的IoU。这些成绩不仅在单个类别上表现出色,而且在整体性能上,SGN-T以15.76%的mIoU率先于所有列出的方法,这反映了其在各个类别上的综合性能强度。
SGN-L和SGN-S也表现出了不俗的性能,与SGN-T相比,它们在某些类别上略有不足,但在'car'(汽车)、'bicyclist'(骑自行车的人)和'pole'(杆子)等类别上取得了傲视群雄的结果。这表明SGN框架在不同尺寸和参数设置下仍然能够保持其语义理解的能力。
整体而言,SGN方法的优异表现证明了其对于SemanticKITTI数据集上的3D语义场景补全任务的有效性,特别是在处理复杂场景和细粒度类别的识别上。SGN的成功归因于其独特的体素特征聚合和多尺度语义扩散能力,这使得它能够在3D空间中更加准确地推断和标记各种类别。
关于SGN讨论
在SGN中,提出的Sparse Guidance Network (SGN) 方法为三维语义场景补全问题提供了一种创新的解决方案。SGN的主要优点在于其使用了一种高效的密集-稀疏-密集设计,这种设计不仅优化了计算资源的使用,还通过有效的语义和几何引导提高了模型对于场景中物体边界的鉴别能力。此外,SGN通过多尺度语义扩散模块有效地处理了不同尺寸的实例,进一步提高了其在多个类别上的识别性能,尤其是在具有挑战性的SemanticKITTI数据集上。
尽管SGN在多项指标上表现出色,但也存在一些潜在的限制。首先,虽然SGN通过稀疏体素提案网络动态选择种子体素,但这个过程可能会错过一些重要的特征,尤其是在场景中较为稀疏或难以区分的区域。其次,SGN在推断过程中放弃了辅助3D头,这可能会限制模型在捕捉复杂几何形状时的能力。此外,尽管SGN在效率和性能上取得了平衡,但如何进一步减少模型的参数数量和内存占用,以适应资源受限的应用场景,仍然是一个值得探讨的问题。
未来,SGN的研究可以在以下几个方面进一步发展。首先,可以探索如何改进稀疏体素提案网络,以更准确地捕捉和利用场景中的重要特征。其次,可以研究新的网络架构或训练策略,以更好地利用在推断过程中丢弃的辅助3D头中的信息。此外,对于模型的轻量化和优化也有很大的发展空间,例如,通过网络剪枝或知识蒸馏来减小模型大小,提高在边缘设备上的部署效率。最后,模型泛化能力的提升也是未来研究的一个重要方向,如何使模型能够适应不同的环境和条件,包括不同光照、天气以及传感器配置,将是推动该领域进一步发展的关键。通过解决这些问题,SGN及其未来的变体有望在三维语义理解和场景重建领域取得更广泛的应用。
结论
总结来说,作者提出了Sparse Guidance Network(SGN),这是一种新颖的端到端框架,用于基于纯视觉的三维语义场景补全。SGN利用其密集-稀疏-密集的设计,有效地结合了几何和语义引导,从而提高了语义分割的准确性。通过在SemanticKITTI数据集上进行广泛的实验,SGN证明了其在多个类别上的优越性能,尤其是在mIoU指标上,展示了其对于各种尺寸物体的鉴别能力。虽然SGN存在一些局限性,比如在处理稀疏区域时可能会错过一些特征,但它的整体表现表明了一个强大的框架,为未来三维语义场景补全的研究提供了新的方向。未来工作可以集中在进一步优化模型结构、提高泛化能力和效率上,以实现更广泛的应用。
原文链接:https://mp.weixin.qq.com/s/JrxSaaeKJ656741vwBr5xA