本文经自动驾驶之心公众号授权转载,转载请联系出处。
自动驾驶仿真重建的终局???上交和英伟达等团队最新的工作OmniRe,性能直接拉爆了一众算法,PSNR超越StreetGS四个多点!!!可谓是3DGS的集大成者。具体来说,OmniRe将动态目标分为刚体和非刚体,车辆和行人/骑行人的步态重建的性能非常惊艳!背景是比较常见的background+sky。静态要素的重建效果也非常棒,像红绿灯,车道线等等。
写在前面&笔者的个人理解
本文介绍了OmniRe,这是一种高效重建高保真动态城市场景的整体方法。最近使用神经辐射场或高斯splatting对驾驶序列进行建模的方法已经证明了重建具有挑战性的动态场景的潜力,但往往忽视了行人和其他非车辆动态参与者,阻碍了动态城市场景重建的完整流程。为此,我们提出了一种用于驾驶场景的全面3DGS框架,称为OmniRe,它允许对驾驶过程中的各种动态目标进行准确、完整的重建。OmniRe基于高斯表示构建动态神经场景图,并构建多个局部规范空间,对各种动态参与者进行建模,包括车辆、行人和骑行人等。这种能力是现有方法无法比拟的。OmniRe允许我们全面重建场景中存在的不同目标,随后能够实时模拟所有参与者参与的重建场景(~60 Hz)。对Waymo数据集的广泛评估表明,我们的方法在定量和定性上都大大优于先前最先进的方法。我们相信,我们的工作填补了推动重建的关键空白。
项目主页:https://ziyc.github.io/omnire/
文章简介
随着自动驾驶越来越多地采用端到端模型,对可扩展且无域差异的仿真环境的需求变得更加明显,这些环境可以在闭环仿真中评估这些系统。尽管使用艺术家生成资源的传统方法在规模、多样性和逼真度方面达到了极限,但数据驱动方法在生成数字孪生体方面的进展,通过从设备日志中重建仿真环境,提供了强有力的替代方案。确实,神经辐射场(NeRFs)和高斯点云(GS)已经成为重建具有高视觉和几何保真度的3D场景的强大工具。然而,准确且全面地重建动态驾驶场景仍然是一个重大挑战,特别是由于现实环境中多样化的参与者和运动类型的复杂性。
已经有若干工作尝试解决这一挑战。早期的方法通常忽略动态参与者,仅专注于重建场景的静态部分。后续的工作则旨在通过以下两种方式之一来重建动态场景:(i) 将场景建模为静态和时间依赖的神经场的组合,其中不同场景部分的分解是一种自发属性,或者(ii) 构建一个场景图,其中动态参与者和静态背景被表示为节点,并在其标准框架中重建和表示。场景图的节点通过编码相对变换参数的边连接,这些参数表示每个参与者随时间的运动。尽管前者是一种更通用的公式化方法,后者提供了更高的可编辑性,并且可以直接用经典行为模型进行控制。然而,场景图方法仍然主要关注可以表示为刚体的车辆,从而在很大程度上忽略了其他在驾驶仿真中至关重要的易受伤害的道路使用者(VRUs),如行人和骑自行车者。
为了填补这一关键空白,本文的工作旨在对所有动态参与者进行建模,包括车辆、行人和骑自行车者等。与在工作室中使用多视角系统建模目标不同,从室外场景中重建动态参与者极具挑战性。以人类为例,从部分观察中重建人类本身就是一个具有挑战性的问题,在驾驶场景中,由于传感器观察分布不利、环境复杂且频繁遮挡,这一问题变得更加复杂。事实上,即使是最先进的人体姿态预测模型,也常常难以预测出准确的姿态,特别是对于那些距离较远或被其他物体遮挡的行人(例如图3)。此外,还有其他动态参与者,如轮椅上的个人或推婴儿车的人,这些都无法简单地用参数化模型来进行建模。
为了应对这些相互强化的挑战,本文提出了一个能够处理多样化参与者的“全景”系统。本文的方法OmniRe高效地重建了包含静态背景、驾驶车辆和非刚性运动动态参与者的高保真动态驾驶场景(见图1)。具体来说,本文基于高斯点云表示构建了一个动态神经场景图,并为不同的动态参与者构建了专用的局部标准空间。遵循“因材施教”的原则,OmniRe利用了不同表示方法的集体优势:(i) 车辆被建模为静态高斯,通过刚体变换模拟其随时间的运动;(ii) 近距离行走的行人使用基于模板的SMPL模型进行拟合,通过线性混合蒙皮权重(linear blend skinning weights)实现关节级控制;(iii) 远距离和其他无模板的动态参与者则使用自监督变形场(deformation fields)进行重建。这种组合允许对场景中大多数感兴趣的目标进行准确表示和可控重建。更重要的是,本文的表示方法可以直接适用于自动驾驶仿真中常用的行为和动画模型(例如图1-(c))。
总结来说,本文的主要贡献如下:
- 本文提出了OmniRe,这是一种动态驾驶场景重建的整体框架,在参与者覆盖和表示灵活性方面体现了“全景”原则。OmniRe利用基于高斯表示的动态神经场景图来统一重建静态背景、驾驶车辆和非刚性运动的动态参与者(第4节)。它能够实现高保真的场景重建,从新视角进行传感器仿真,以及实时可控的场景编辑。
- 本文解决了从驾驶日志中建模人类和其他动态参与者所面临的挑战,例如遮挡、复杂环境以及现有人体姿态预测模型的局限性。本文的研究结果基于自动驾驶场景,但可以推广到其他领域。
- 本文进行了大量实验和消融研究,以展示本文整体表示方法的优势。OmniRe在场景重建和新视点合成(NVS)方面达到了最先进的性能,在完整图像指标上显著超越了以往的方法(重建提高了1.88的PSNR,NVS提高了2.38的PSNR)。对于动态参与者,如车辆(提高了1.18的PSNR)和人类(重建提高了4.09的PSNR,NVS提高了3.06的PSNR),差异尤为显著。
相关工作回顾
动态场景重建。神经表征是主导的新视角合成。这些已经以不同的方式进行了扩展,以实现动态场景重建。基于变形的方法和最近的DeformableGS提出使用规范空间的3D神经表示来对动态场景进行建模,并结合将时间依赖观测值映射到规范变形的变形网络。这些通常仅限于运动受限的小场景,不足以应对具有挑战性的城市动态场景。基于调制的技术通过直接将图像时间戳(或潜码)作为神经表示的额外输入来操作。然而,这通常会导致公式构建不足,因此需要额外的监督,例如深度和光流(Video NeRF和NSFF),或从同步相机捕获的多视图输入(DyNeRF和Dynamic3DGS)。D2NeRF提出通过将场景划分为静态和动态场来扩展这一公式。在此之后,SUDS和EmerNeRF在动态自动驾驶场景中表现出了令人印象深刻的重建能力。然而,它们使用单个动态场对所有动态元素进行建模,而不是分别建模,因此它们缺乏可控性,限制了它们作为传感器模拟器的实用性。将场景显式分解为单独的代理可以单独控制它们。这些代理可以表示为场景图中的边界框,如神经场景图(NSG),该图在UniSim、MARS、NeuRAD、ML-NSG和最近的基于高斯的作品StreetGaussians、DrivingGaussians和HUGS中被广泛采用。然而,由于时间无关表示的限制或基于变形的技术的限制,这些方法仅处理刚性目标。为了解决这些问题,OmniRe提出了一种高斯场景图,该图结合了刚性和非刚性目标的各种高斯表示,为各种参与者提供了额外的灵活性和可控性。
人体重建。人体具有可变的外观和复杂的运动,需要专门的建模技术。NeuMan建议使用SMPL身体模型将射线点扭曲到规范空间。这种方法能够重建非刚性人体,并保证精细控制。同样,最近的研究,如GART、GauHuman和HumanGaussians,将高斯表示和SMPL模型相结合。然而,这些方法在野外并不直接适用。然而,这些方法仅关注形状和姿态估计,在外观建模方面存在局限性。相比之下,我们的方法不仅对人体外观进行建模,还将这种建模整合到一个整体的场景框架中,以实现全面的解决方案。城市场景通常涉及众多行人,观察稀少,通常伴随着严重的遮挡。
OmniRe方法详解
如图2所示,OmniRe构建了一个高斯场景图表示,它全面覆盖了静态背景和各种可移动实体。
Dynamic Gaussian Scene Graph Modeling
Gaussian Scene Graph:为了在不牺牲重建质量的情况下灵活控制场景中的各种可移动目标,本文选择高斯场景图表示。我们的场景图由以下节点组成:(1)一个表示远离自车的天空的天空节点,(2)一个代表建筑物、道路和植被等静态场景背景的背景节点,(3)一组刚性节点,每个节点代表一个可刚性移动的物体,如车辆,(4)一组模拟行人或骑行人的非刚性节点。类型为(2,3,4)的节点可以直接转换为世界空间高斯分布。这些高斯分布被连接起来,并使用[17]中提出的光栅化器进行渲染。天空节点由一个优化的环境纹理贴图表示,单独渲染,并与具有简单阿尔法混合的光栅化高斯图像组成。
Background Node:背景节点由一组静态高斯表示。这些高斯是通过累积激光雷达点和随机生成的额外点来初始化的。
Rigid Nodes:刚性目标由该目标的局部空间和车辆位姿表示。
Non-Rigid Nodes:与刚性车辆不同,行人和骑行人等非刚性动态类都与人类有关,需要额外考虑他们在世界空间中的全局运动和在局部空间中的连续变形,以准确重建他们的动态。为了能够完全解释底层几何结构的重建,我们将非刚性节点进一步细分为两类:用于步行或跑步行人的SMPL节点,具有支持关节水平控制的SMPL模板,以及用于分布外的非刚性实例(如骑自行车者和其他无模板的动态实体)的可变形节点。
Non-Rigid SMPL Nodes:SMPL提供了一种表示人体姿态和变形的参数化方法,因此我们使用模型参数来驱动节点内的3D高斯分布。
Non-Rigid Deformable Nodes:这些节点充当分布外非刚性实例的回退选项,例如,即使是最先进的SMPL预测器也无法提供准确估计的极其遥远的行人;或长尾模板较少的非刚性实例。因此,我们建议使用通用的变形网络来拟合节点内的非刚性运动。具体来说,对于节点h,世界空间高斯分布定义为:
Sky Node:同[6,47]一样,本文使用单独的环境地图来适应观察方向的天空颜色。我们得到的最终渲染结果如下:
Reconstructing In-the-Wild Humans
为了初始化非刚性SMPL节点的参数,我们扩展了一个现成的预测器4D Humans,该预测器根据原始视频输入估计人体姿势。然而它存在几个实际限制,阻碍了它在我们的环境中的可用性。我们通过以下模块讨论并解决这些挑战,以在频繁遮挡的情况下,从野外拍摄的多视图图像中预测准确且时间一致的人体姿势。
- Human ID Matching:4D Humans仅设计用于处理单目视频。在我们的环视设置中,这种限制导致同一个人在不同视图之间失去联系(图3(a))。为了解决这个问题,我们使用检测和GT框之间的mIoU将检测到的人的估计姿态与数据集中的GT ID进行匹配,确保在环视中一致地识别出每个行人。
- Missing Pose Completion:4D Humans很难预测被占用个体的SMPL姿势,这在自动驾驶场景中很常见,导致预测缺失。我们通过从相邻帧中插值姿势来恢复丢失的姿势。如图3(b)所示,该过程能够为被占用的个体恢复准确的姿势,从而实现暂时完整的姿势序列。
- Scene-Pose Alignment:作为一个与相机无关的通用模型,4D Humans假设一个虚拟相机的所有视频输入参数都是固定的。相比之下,真实的相机具有不同的参数。这会导致预测姿势的比例和位置与现实世界坐标系之间的错位。我们使用每个人可用的box大小和位置数据来校正预测姿势的比例和位置。
- Pose Refinement:姿态预测器、插值和对齐估计的误差会导致人体姿态噪声。我们利用这些嘈杂的姿态来初始化SMPL节点的动态,并在训练过程中通过优化重建损失来联合细化每个个体的每帧姿态。我们的消融研究表明,人体姿态细化对于提高重建质量和姿态精度至关重要。
整体的训练损失如下:
实验结果
我们使用每10帧作为NVS的测试集,在场景重建和新视图合成(NVS)任务中评估我们的方法。我们报告了完整图像以及与人类和车辆相关区域的PSNR和SSIM评分,以评估动态重建能力。表1中的定量结果表明,OmniRe优于所有其他方法,在与人类相关的区域有显著的优势,验证了我们对动态参与者的整体建模。此外,虽然StreetGS和我们的方法以类似的方式对车辆进行建模,但我们观察到,即使在车辆区域,OmniRe也略优于StreetGS。这是由于StreetGS中缺乏人体建模,这使得来自人体区域的监控信号(如颜色、激光雷达深度)会错误地影响车辆建模。StreetGS面临的问题是我们对场景中几乎所有内容进行整体建模的动机之一,旨在消除错误的监督和意外的梯度传播。
此外,我们在图4中显示了可视化,以定性评估模型性能。尽管PVG在场景重建任务中表现良好,但在高度动态的场景中,它难以完成新颖的视图合成任务,导致新颖视图中的动态目标模糊(图4-f)。HUGS(图4-e)、StreetGS(图4-d)和3DGS(图10-h)无法恢复行人,因为它们无法对非刚性物体进行建模。DeformableGS(图10-g)在具有快速运动的室外动态场景中会出现极端运动模糊,尽管在室内场景和小运动的情况下取得了合理的性能。EmerNeRF在一定程度上重建了移动的人类和车辆的粗略结构,但难以处理精细的细节(图4-c)。与所有这些方法相比,我们的方法忠真实地重建了场景中任何目标的精细细节,处理了遮挡、变形和极端运动。我们建议读者查看我们的项目页面,了解这些方法的视频比较。
几何形状。除了外观,我们还研究了OmniRe是否可以重建城市场景的精细几何。我们评估了训练帧和新帧上激光雷达深度重建的均方根误差RMSE和CD。附录中提供了评估程序的详细信息。表4报告了结果。我们的方法远远优于其他方法。图5显示了与其他方法相比,我们的方法实现的动态参与者的精确重建。
结论
我们的方法OmniRe使用高斯场景图进行全面的城市场景建模。它实现了快速、高质量的重建和渲染,为自动驾驶和机器人模拟带来了希望。我们还为复杂环境中的人体建模提供了解决方案。未来的工作包括自我监督学习、改进的场景表示和安全/隐私考虑。
更广泛的影响。我们的方法旨在解决自动驾驶模拟中的一个重要问题。这种方法有可能加强自动驾驶汽车的开发和测试,从而可能带来更安全、更高效的自动驾驶系统。以安全可控的方式进行模拟仍然是一个开放且具有挑战性的研究问题。
道德与隐私。我们的工作不包括收集或注释新数据。我们使用符合严格道德准则的成熟公共数据集。这些数据集确保敏感信息(包括可识别的人类特征)被模糊或匿名化,以保护个人隐私。我们致力于确保我们的方法以及未来的应用程序以负责任和道德的方式使用,以维护安全和隐私。
限制。OmniRe仍然存在一些局限性。首先,我们的方法没有明确地模拟光照效果,这可能会导致模拟过程中的视觉和谐问题,特别是在组合在不同光照条件下重建的元素时。应对这一不平凡的挑战需要我们在当前工作范围之外做出不懈的努力。对光效建模和增强模拟真实感的进一步研究对于实现更令人信服和和谐的结果仍然至关重要。其次,与其他每场景优化方法类似,当相机明显偏离训练轨迹时,OmniRe会产生不太令人满意的新视图。我们认为,整合数据驱动的先验,如图像或视频生成模型,是未来探索的一个有前景的方向。