写在前面
NeRF技术兴起于2020年,自此掀起了三维重建领域新一轮的革新风暴。三年时间飞逝,新的算法和改进层出不穷,其视觉质量逐步提高突破。并且在该技术的支持下,许多领域都取得了突破性的成果。近几年的顶会上也涌现出大量关于NeRF的文章,NeRF已经逐渐成为世界计算机视觉领域里面的一个非常主流的领域。为何NeRF会在短时间内受到如此广泛的重视?这是因为相比于传统几何的三维重建方法,NeRF更加简单且逼真。若要对NeRF"更简单、更逼真"的优势进行深刻了解,就需要进一步了解传统几何三维重建与NeRF三维重建的pipeline。
自动驾驶需要三维重建技术来帮助车辆更好地了解周围环境(如驾驶场景理解、同步定位和建图以及城市场景重构)。重建技术可重建车辆周围的环境,为自动驾驶系统提供更准确的环境信息。这有助于自动驾驶系统更好地规划驾驶路径,避免碰撞,提高驾驶安全性。图1展示了自动驾驶与3D重建技术之间的关系。
图1 自动驾驶与3D重建技术的关系示意图
在三维场景重建方法中,主动式重建技术由于其设备成本高、检测速度慢和算法泛化差等原因,因而在室外场景的应用中表现不佳。以多视角立体视觉法为研究重点的被动式重建技术采集速度快、设备效益高、整体系统的灵活性和鲁棒性强,而其中神经辐射场(Neural Radiance Field,NeRF)作为计算机视觉领域隐式辐射场的代表,以其高度逼真的渲染质量、自由灵活的场景表示和端到端的学习框架受到研究人员的喜爱。
但NeRF per-pixel ray marching的原理天然使得效率低、过度平滑且容易发生灾难性遗忘。因此研究人员开始思考,有没有更好更快的三维场景表达形式,以实现高质量重建。
至此3DGS问世。
三维高斯喷溅(3D Gaussian Splatting, 3D GS)结合了显式辐射场的数据存储优势和隐式辐射场的网络优化特点,实现了高速度运行、高质量渲染和高可靠交互的目标,刷新了三维场景重建的各项指标SOTA,有望为高级别自动驾驶的实现提供强有力的技术支持。
原始的3DGS算法聚焦在静态场景的重建,但自动驾驶场景却是动静态场景的结合,因此最开始在自动驾驶中的应用受到了一定的限制。而自4DGS问世以来,这种限制逐渐被打破。
为了基于3D GS的场景重建技术在自动驾驶领域得到更全面更广泛的普及与推广,本文梳理了3D GS有关主题材料,并侧重于展现其优异的整体性能和蓬勃的发展态势。本文的重点在于探究基于3D GS的场景重建技术的发展脉络,其在自动驾驶领域的应用情况以及目前面临的挑战与研究前沿。本文的结构框架概略图如图1所示,具体介绍如下:第2节主要介绍3D GS研究背景,包括三维场景重建方法以及3D GS有关研究进展。第3节介绍了3D GS的主体模块,并重点揭示了3D GS核心公式的推导过程。第4节论述了3D GS在自动驾驶领域三个主要方面的应用,展现其灵活高效的优势。第5节强调了在自动驾驶领域3D GS的进一步研究方向,挖掘其潜在能力。本文的宗旨是以通俗易懂的方式带领读者了解3D GS这一种新兴技术在自动驾驶领域的研究情况,为研究人员思考如何促进高级别自动驾驶的实现提供有益帮助。
图2 论文框架示意图
1 主要贡献
第一点是全面的最新综述。我们的调查报告对自动驾驶中的3D GS进行了广泛和最新的综述,涵盖了3D场景重建方法的经典和前沿方法。
第二点是核心公式的数学介绍。我们的研究详细阐述了3D GS的数学基础,推导并说明了核心数学公式。
第三点是对未来方向的洞察。我们的调查分析了目前3D GS在自动驾驶方面的技术局限性,为未来研究提出了一些研究方向。
我们的调查可以为研究人员了解、探索、应用这种新颖的研究方法提供一个有效、便捷的途径,促进 3D GS 在自动驾驶领域的发展和应用。
引用格式如下:Zhu, H., Zhang, Z., Zhao, J. et al. Scene reconstruction techniques for autonomous driving: a review of 3D Gaussian splatting. Artif Intell Rev 58, 30 (2025). https://doi.org/10.1007/s10462-024-10955-4
2 研究背景回顾
三维场景重建方法依据设备采集数据方式的不同可以分为主动式重建技术和被动式重建技术。主动式重建技术指的是数据采集设备(如LiDAR或3D扫描仪等)主动发射信号(如激光、声波、电磁波等)至目标物体,并接收回波以解析目标的深度信息,通过数值逼近的方法来重建三维轮廓。其中,面向自动驾驶的代表方法有结构光法、TOF激光飞行时间法、三角测距法等。相较于主动式重建技术,被动式重建技术可以基于自然场景光照而得到图像数据,通过特定算法解算得到物体的立体空间信息。由于其具备设备成本低廉、应用部署快速和算法鲁棒性高等优点,因此被动式重建技术在室外场景重建受到广泛应用。其中,面向自动驾驶的代表方法有单目视觉法(Monocular Stereo Vision,MSV)、双目视觉法(Binocular Stereo Vision,BSV)和多视角立体视觉法(Multi-View Stereo,MVS)等。MSV仅使用一台摄像设备拍摄照片即可完成三维场景重建,其代表算法有阴影恢复形状法、纹理恢复形状法和轮廓恢复形状法等。MVS在BSV的基础上进一步增加相机和视角数量,依据多张已知相机姿态的图像联立建立密集的对应关系,得到场景物体表面密集的三维点云[31]。MVS不依赖于特定外界环境条件,精度高、采集快、成本低,是三维场景重建技术中的热门研究领域和重点难点领域。MVS依据处理方式的不同可以分为传统方法和深度学习方法两大类。传统MVS重建方法主要依靠视差和几何约束的思想来对三维场景进行重建,其场景几何的数学表示主要有体素、网格、点云和深度图四大类[32]。基于深度学习的MVS重建方法将其他方法的优秀思想引入神经网络,在重建质量、自动化程度和效率方面取得了显著进步。基于NeRF的三维场景重建算法具有出色的多视角一致性和连续性,无需显式三维标注,适应性强、易扩展,成为场景重建的重要研究方法之一。
但NeRF主要使用隐式的基于坐标的模型将空间坐标映射到像素值,使用体渲染和神经网络进行直接渲染,计算要求严、渲染时间过长、训练成本高。在这种背景下,三维高斯泼溅(3D Gaussian Splatting,3D GS)技术的出现作为一种范式转换方法,重新定义了场景重建与渲染的边界。如图3所示,相较于主流的NeRF算法,3D GS既保留了高质量场景重建的优点,又确保在短时间内实现SOTA级别的实时渲染效果,成为2023年末席卷三维场景重建领域的重要且突出的研究方法。
图3 3D GS与主流NeRF算法的重建质量与运行速度比较
自从法国蔚蓝海岸大学(Université Côte d’Azur,UAC)于2023年8月开源3D GS项目后,学术界掀起了轩然大波,各类衍生模型层出不穷。在自动驾驶领域,3D GS同样革新了三维场景重建和局部环境感知技术。面对蓬勃发展的自动驾驶技术,以3D GS为代表的场景重建技术在确保自动驾驶车辆安全、可靠行驶方面发挥着至关重要的作用。3D GS通过对周围环境的精确感知和快速建模,为自动驾驶系统提供了丰富的环境信息,帮助车辆更好地理解周围环境,从而做出更安全、更有效的驾驶决策。目前,已有一定的文献对3D GS的应用情况进行了综述总结,但是这些文献涵盖范围较广,关于自动驾驶领域的针对性不强。
3 3D GS数学机理
NeRF与3D GS之间一个重大的区别在于辐射场的显隐式表达。辐射场是一种量化三维空间中光的强度、分布、效果等参数的模型,可以被函数式(1)表示。
三维场景重建技术采用体素、点云等显式辐射场表示方式的一大考虑是其非常适合基于GPU/CUDA的快速光栅化。3D GS采取灵活高效的表达策略,使用3D高斯来对三维场景进行重建,并结合NeRF的网络特性来合理优化系列参数。这种融合显隐式的场景重建模式既利用了显式存储数据的可查询、可编辑性质,又吸收了隐式匹配优化数据的自动性、准确性,在保证高效的形状表示、高质量的渲染能力同时又具有快速的训练速度和实时性能。
原始3D GS模型主要基于三个模块:3D Gaussians表示模块,属性优化模块和实时渲染模块,其主要流程图如图3所示。综合来看,3D GS通过三个关键模块的紧密集成,成功地解决了三维重建领域现有算法在速度和质量之间的权衡问题。3D Gaussians表示模块提供了对复杂三维形状的紧凑和连续描述,属性优化模块确保了高斯函数能够精确地匹配输入数据,而实时渲染模块利用GPU加速的高效算法实现了高质量渲染、快速渲染和动态更新。这三个模块相互补充,共同实现了在保持高质量视觉效果的同时,3D GS可以提供快速响应和实时性能,从而在速度和质量之间取得了理想的平衡。
图4 3D GS三大模块的流程示意图
可微分3D GS方法具备可微分体积表示法的特性,可以对渲染结果进行反向传播梯度,从而实现基于梯度的优化;并且又不需要像传统的结构化体素表示法将三维空间划分为规则的网格,而可以直接在任意位置进行采样和渲染;同时通过对三维空间中的点进行高斯分布采样,根据采样结果计算颜色和密度可以明确渲染过程,从而实现快速混合渲染。基于以上特性,可微分3D GS基于无法向的稀疏(SfM)点集完成高质量新视图合成的目标,可以作为一种高效场景表示法来进行三维场景重建。3D GS的数学推导部分主要由多元高斯函数的表示、高斯体的初始化和高斯体的喷溅三部分组成[99-101]:
3.1 多元高斯函数的表示
3.2 高斯体的初始化
3.3 高斯体的喷溅
传统光栅化是3D图形渲染中的一个关键步骤,它的主要任务是将三维空间中的几何形状(通常是三角形)转换成二维屏幕上的像素,并对其进行着色从而生成最终的图像。在现代的图形处理单元(GPU)管线中,光栅化过程通常是由硬件自动完成的,因此3D GS需要自主设计和优化CUDA内核以实现光栅化程序。3D GS将高斯体投影到投影平面后得到的2D图形称为喷溅(Splatting)。
4 3D GS在自动驾驶中的应用
4.1 新视角合成
新视角合成就是这样一种将三维场景转换到新的视角的技术,它通过三维重建算法(如表面重建、体绘制等)来创建周围环境的三维模型,并将其转换到新的视角。在实际应用过程中,3D GS凭借其高效的点云处理速度、鲁棒的表面重建流程、实时的数据处理性能和灵活的视角转换过程等优势为新视角合成研究注入了新的活力。针对对于具有反射表面的场景(尤其是离散3D高斯模型)的渲染问题,Yingwenqi Jiang等人提出了一种名为GaussianShader的新型模型。GaussianShader基于3D高斯模型的最短轴方向提出了一种新的法线估计框架,并设计了一个细致的损失函数,以使法线和高斯球的几何形状保持一致,在效率和视觉质量之间取得了良好的进步和平衡。面对单目和小镜头重建技术面对的场景物体存在相互遮挡或缺乏纹理,光照条件和动态场景存在变化以及场景绝对尺度的不确定性。David Charatan等人提出了一种前向模型pixelSplat,使用3D高斯基元从图像对中重建3D辐射场,解决了广角新视角综合的问题。同时,部分研究人员结合3D GS的显式结构特点和其他方法的优异特性,在新视角合成领域不断刷新各项指标记录。
4.2 场景理解
新视角合成任务的目标是融合现有数据创建一个统一的三维场景表示,以便车辆能够准确理解当前环境。而场景理解的任务便是对环境信息进行分析、解释和推理,以识别和理解场景中对象的基本属性、联结关系以及整体布局。如图4所示,目前3D场景理解主要可以分为“3D+2D”场景理解和“3D+语言”场景理解两大类,其主要区别在于信息融合的方式和侧重点的不同。
图5 3D场景理解分类情况示意图
“3D+2D”场景理解侧重于将3D空间信息与2D图像信息相结合,以实现对场景的全面解读和解释。由于3D GS的优异性能表现,部分研究人员指出可以将2D分割基础模型的细颗粒度分割能力提炼到3D GS中,以避免传统方法的推理过程中多次前向传播导致的巨大算力和时间成本。Jiazhong Cen等人有机结合了2D分割基础模型与3D GS模型,提出了一种可以在毫秒级3D高斯中进行细粒度的3D交互式分割方法SAGA。“3D+语言”场景理解则将3D空间信息与自然语言信息相结合,以实现对场景的描述和解释。Sebastian Koch等人提出了一种无需标记场景图数据即可预测3D场景图的模型Open3DSG。Open3DSG首次依据3D点云进行交互式图表示的场景创建,利用2D视觉-语言模型的知识,通过3D图神经网络预测开放词汇的3D场景图。
4.3 同时定位与建图(SLAM)
VSLAM(Visual SLAM)依靠视觉信息进行姿态估计和地图生成,具有成本低廉、信息丰富和集成便捷等突出优点,是SLAM研究中的重点研究方向之一。Chi Yan等人提出了第一个在SLAM领域中使用3D GS表示的模型GS-SLAM。几乎在同一时间,Nikhil Keetha等人提出了基于3D GS的稠密RGB-D SLAM解决方案SplaTAM。Hidenobu Matsuki等人提出了首个完全基于3D GS的单目SLAM模型Gaussian Splatting SLAM,利用高斯体为唯一的3D 表示,以3 FPS速度首次实现了基于3D GS的实时增量式重建。同样地,Gaussian-SLAM、Photo-SLAM、NEDS-SLAM等其他工作进一步推动了3D GS-based SLAM的发展。
5. 3D GS研究前沿
5.1 结构优化
结构优化是任何算法提高性能和效率的关键途径。虽然3D GS技术能够有效地分离地面点与非地面点,但在面对遮挡、不同光照条件、快速移动物体等挑战时,其准确性和鲁棒性都会受到影响。此外,为了满足实时性的要求,3D GS技术需要进一步减少对计算资源的依赖,提高处理速度。3D GS的结构优化可以通过高斯体管理的优化、主体架构的精简、伪影现象的消除等方法来提升3D GS技术的性能,使其更加精准、高效和可靠,从而更好地适应各种复杂的现实驾驶场景。Hanlin Chen等人提出的NeuSG模型中,通过增加尺度正则化来引导高斯体的中心接近曲面,同时使用神经隐式模型来完善高斯体的点云,最终生成了具有复杂细节的完整重建曲面。主体架构的精简是指对3D GS的3D Gaussians表示模块,属性优化模块和实时渲染模块三大模块的系统架构进行优化和简化。Liu, Yan等人针对移动设备上三维重建的实时渲染问题,采用双溅射架构降低计算成本,通过减少对低贡献点的处理减少冗余数据的生成,引入线程饱和溢出操作加快整体收敛速度,并使用体素化点云进一步降低了渲染和训练开销。最终对于大规模场景数据集,改进方法在保证渲染质量的同时可以平均减少37.08%的模型空间占用。3D GS在新视角合成过程中,可能存在相机视图与训练视图之间存在多视图不一致的现象,即为伪影现象。Zehao Yu等人认为这种现象主要是使用了2D膨胀滤波器以及缺乏3D频率约束造成的。他们提出的Mip-Splatting模型引入了一个3D平滑滤波器,并用模拟2D盒式滤波器的2D Mip滤波器代替2D2D膨胀滤波器。
5.2 4D场景重建
基于3D GS在静态场景重构和新视角合成的成功与潜力,研究人员希望将3D GS进一步扩展应用到动态场景中,以实现高级别自动驾驶的实时性要求。4D场景重建技术不仅需要车载系统高质量重建3D空间结构,还需要考虑时间维度上的变化,特别是捕捉复杂动态的刚性运动对象。Lingzhe Zhao等人[157]将3D GS引入运动模糊图像的处理,提出了一种名为BAD-Gaussians的模型。BAD-Gaussians引入了专为运动模糊图像设计的光度束调整公式,首次在3D GS拼接框架内实现了运动模糊图像的实时渲染性能。4D场景重建技术要求模型对运动过程中光线变换具有较强的追踪能力,Jian Gao等人[159]开发一个基于3D高斯表示的综合渲染流水线Relightable 3D Gaussian,可以支持重照、编辑和射线追踪的重建三维点云,可以达到实时渲染水平。同时,已经有部分研究人员着手直接建立4D GS模型。虽然具体的研究方法不同,但其核心思路就是引入同一尺度来协调好3D GS与时间戳之间的动态关系。Guanjun Wu等人使用紧凑表示和高效变形场来建模高斯体的运动和形状变化,随后将高斯体喷溅到时间戳图像上,最终建立了同一的4D GS模型。
5.3 车辆导航
导航技术可以为车辆提供必要的位置信息和行驶路线,是实现高级别自动驾驶的关键性基础性服务之一。基于3D GS在自动驾驶的场景重建领域表现出的优异性能,将3D GS进一步扩展到自动驾驶导航领域的研究中,可以有效打破现有导航方法的质量和效率瓶颈,实现自动驾驶导航精度和可靠性的跨越发展。当车载系统可以对世界环境进行逼真的物理模拟时,意味着车辆导航行驶中将具备模拟和预测周围环境变化的能力,从而能够更加智能地感知、规划和决策。Tianyi Xie等人将基于物理的牛顿动力学与3D GS无缝集成,提出了一种可以有效进行物理模拟的新型模型PhysGaussian。在车辆导航过程中,如何将多模态融合数据进行精确得到时空对准是重要的研究方向之一。Quentin Herau等人提出了一种基于3D GS的校准方法3DGS-Calib,与现有的隐式神经方法相比校准速度更快、校准精度更高,可以高效完成车载多模态的时空校准任务。探索一种适普通用、简洁高效的目标导航算法框架是目前自动驾驶车辆导航领域研究人员的共同目标之一。Xiaohan Lei等人提出了一种基于3D GS的实例图像目标导航模型GaussNav,将原先的实例图像目标导航任务转化为相对容易处理的点目标导航任务,利用子高斯划分、语义高斯构建和高斯导航三个主要阶段有效定位目标物体,最终性能实现了显著提升。
6. 结论
本文对面向自动驾驶的基于3D GS的三维场景重建技术研究进行了全面综述,叙述了3D GS的基本情况和在自动驾驶领域的应用情况,内容涵盖了目前的最新研究成果。本文首先对3D GS的研究背景做出全面介绍。随后,本文以3D GS核心公式的数学机理探究为主体,讨论了3D GS高性能的原因。然后,本文针对3D GS在自动驾驶领域的新视角合成、场景理解和SLAM三个主要应用方向展开论述,强调其对自动驾驶领域带来的革命性研究风潮。最后,本文深入探讨了3D GS在该领域面临的问题和研究前沿方向。本文针对性地概述了3D GS作为新兴三维场景重建技术的基本原理、发展情况和在自动驾驶领域的应用情况,旨在为研究人员快速理解与熟悉3D GS提供可靠渠道,为相关科研工作提供更加广阔的视野和思路。