闭环仿真杀器!DrivingSphere:理想提出直接构建高保真4D世界

人工智能 智能汽车
今天为大家分享澳门大学&理想汽车最新的工作—DrivingSphere!构建高保真4D世界的闭环仿真框架。

写在前面&笔者的个人理解

近年来,端到端自动驾驶算法取得了重大进展,准确评估这些模型是一项非常紧迫的任务。为了安全、负责任地进行评估,必须有一个精确的模拟环境,准确反映现实世界的驾驶条件。这个要求通常包括两个方面:一是高保真传感数据的生成,二是闭环反馈机制的实现。

当前最常使用的评估方法是开环仿真方法。虽然这些基准测试提供了真实的驾驶数据,但它们的分布相对固定,且缺乏多样性,限制了它们评估自动驾驶算法的泛化能力。总而言之,尽管具有高保真传感数据,但这些开环评估解决方案无法提供评估自主系统如何响应动态变化和决策所需的动态反馈。

另外一种即闭环仿真方法,其提供反馈驱动系统,其中代理的行为会影响其他代理和环境,并受其影响。然而,由于缺乏处理视觉传感器输入的能力,限制了它们与基于视觉的端到端模型的相互作用。基于游戏引擎的模拟器创造了可扩展且物理上逼真的环境,但它们的输出通常与现实世界的传感器数据不同,限制了它们在验证基于实际输入的算法方面的作用。

针对上述提到的相关问题,为了应对这些挑战,我们提出了一种新颖的几何感知闭环模拟框架,可捕捉二维视觉和三维几何特性,同时与基于视觉的端到端驱动代理无缝集成,它利用几何先验信息来生成逼真且可控的驾驶场景,称之为DrivingSphere。与现有的相关仿真框架相比,我们提出的DrivingSphere。与现有的仿真算法框架相比,DrivingSphere 有三个显著特点

  • 丰富的仿真粒度:与过去仅对道路和汽车进行建模的方法不同,我们的方法允许包括以前未建模的元素,例如建筑物、植被和其他环境结构。虽然这些非交通元素并不直接参与交通流,但它们的存在会显著影响驾驶模型的输入,从而影响复杂驾驶场景中的决策过程。
  • 物理和空间真实感:由于我们的模型明确地表示了 4D 空间中的场景和交通参与者,因此它能够精确地描绘不同交通元素之间的物理相互作用和遮挡关系。这确保每个视点和位置自然地遵循深度和遮挡等物理原理,从而实现全球道路布局、交通参与者及其行为的结构化协调。
  • 高视觉一致性和保真度:我们的模型更加努力地将场景中每个交通参与者的外观和唯一 ID 关联起来,从而跨帧和视图提供稳定且高保真的时间和空间一致性。

下图是我们的算法模型和开环与闭环仿真的整体框架进行对比

图片

论文链接:https://arxiv.org/pdf/2411.11252

算法模型网络结构&技术细节梳理

在详细介绍本文提出的DrivingSphere算法框架之前,下图展示了DrivingSphere的整体网络结构图。

图片

DrivingSphere 是一个生成闭环模拟框架,它将基于占用的 4D 世界建模与先进的视频渲染技术相结合,提供高保真视觉输出,增强自动驾驶场景中的仿真真实感和代理与环境的相互作用。具体来说,DrivingSphere 从动态环境合成开始,从地图草图生成静态背景,从参与者库中选择交通参与者,并更新参与者位置,以构成具有占用格式的 4D 驾驶环境。接下来,视觉场景合成调节自车周围的占用数据,准确捕捉遮挡关系和细粒度语义信息,以生成高保真多视图视频。最后,闭环反馈机制实现动态、响应调整,其中自主代理不断接收更新的视觉数据并生成修改模拟环境的控制信号,为算法测试和改进提供全面的平台。

Dynamic Environment Composition

以前的驾驶模拟方法经常忽略建筑物、障碍物和植被等静态和多样化元素。虽然这些元素不是直接的交通参与者,但它们是自动驾驶系统感知输入的一部分,影响最终的驾驶决策。例如,建筑物等静态物体可能会阻挡传感器的视线,导致其他车辆或行人的遮挡。障碍物或植被会给自动驾驶系统带来传感器伪影或误报。这两种情况都可能导致错误的决策,例如不必要的刹车或车道变换。为了解决这个问题,我们提出了一种动态环境组合来构建一个配备复杂数字资产的综合自动驾驶驾驶世界。

静态场景生成:一种生成静态3D场景的直接方法是直接使用现有数据集中的真值占用数据,例如 nuScenes中的波士顿地区。然而,这种方法仅限于数据收集期间捕获的特定区域,限制了其对其他城市地区的适用性。为了解决这一限制,我们提出了一个占用扩散模型 OccDreamer,该模型以 BEV 地图和文本描述为条件,能够为任何所需的城市区域生成静态场景。OccDreamer 的框架集成了以下组件,如下图所示。

图片

获得潜在表示后,我们使用占用 VAE 解码器对其进行解码,得到扩展区域,然后通过合并操作将两个区域组合成更大的场景

图片

动态参与者选择:为了补充静态场景,我们在 4D 驾驶世界中填充了动态参与者,从而创建了逼真的交通流。我们构建了一个参与者库,根据与用户通过 CLIP 提供的描述的语义相似性来选择参与者,如果未指定,则从相关类别中随机抽样,以确保上下文多样性。这种灵活的选择过程允许在 4D 驾驶世界中动态地集成相关和多样化的参与者,支持现实和适应性强的交通模拟。

4D 世界构成:通过计算静态背景、动态前景参与者及其位置,我们将它们整合到综合 4D 驾驶世界中。任意时间 t 的世界状态由以下公式表示:

图片

Visual Scene Synthesis

先前的生成模型倾向于采用 2D 视觉条件,无法准确捕捉现实世界驾驶场景中固有的几何和语义复杂性。因此,我们的视觉场景合成采用了 VideoDreamer,将上一步构建的占用驱动的 4D 驾驶世界转换为高保真视觉结果。整体框架如下图所示。

图片

具体来说,我们引入了一种双路径条件编码策略,该策略专注于将占用数据编码为其主要条件。我们通过开发一种 ID 感知的参与者编码方法,进一步增强了视图和帧之间外观的一致性。最后,我们集成了 OpenSora 的时空扩散变换器 (ST-DiT) 作为基础技术,以确保视觉一致性并生成无伪影的帧。

图片

每一个参与者的embedding可以按照如下的公式进行定义

图片

ControlNet-DiT:为了增强生成视频的视觉保真度和时间一致性,我们将 STDiT集成为我们的去噪器,利用堆叠有视图感知空间自注意力 (VSSA)、时间自注意力、交叉注意力和 FFN 的 ST-DiT 块。这种方法可确保对空间和时间连贯性的细粒度控制,从而生成无伪影的帧,满足自动驾驶模拟的高保真度要求。

Agent Interplay and Closed-Loop Simulation

我们实现了 DrivingSphere 模拟环境中自动驾驶代理的无缝协调,将代理分为两种主要类型:自车代理和环境代理。

自车代理:自车代理代表正在评估的自动驾驶系统。它由端到端模型驱动,接收视觉输入帧并每次输出预测的控制信号

图片

环境代理:环境代理负责控制模拟世界中所有其他参与者的行为和动作。为了实现真实的信息交换,我们使用支持多代理模拟的流量引擎。环境代理从模拟状态接收输入并输出控制信号,指示环境中参与者的移动和相互作用。整个过程可以描述如下

图片

实验结果&评价指标

我们首先根据真实的 nuScenes 数据评估 OccDreamer 中基于体素的场景和 VideoDreamer 中的视频序列的保真度,以评估领域差距。

我们进行定量和定性分析,以评估 OccDreamer 生成的占用数据的保真度。我们的方法在定量上优于现有方法,如下表所示。

图片

下图更加直观的展现了我们的方法在保持连贯性和保真度方面表现出了显著的优越性,远远优于其他方法。这一成功主要归功于几何感知占用编码和实例编码,它们确保了外观一致性,凸显了 VideoDreamer 在创建视觉一致、详细的驾驶环境以捕捉真实场景动态方面的稳健性。

图片

开环实验结果

在开环设置中,自动驾驶代理被动接收环境输入而不影响模拟动态,我们评估了 UniAD 在 DrivingSphere 和其他仿真器上的性能,如下表所示。

图片

相关的实验结果展示了自动驾驶代理在 DrivingSphere 上取得的优异 PDMS分数,表明其更高的视觉保真度减少了可能误导代理决策的感知不准确性。这一改进凸显了 DrivingSphere 适用于在紧密模拟真实世界条件的环境中测试自动驾驶系统。

闭环实验结果

在闭环评估中,自动驾驶代理接收视觉输入和输出控制信号,从而以交互方式塑造模拟。此评估设置涉及 100 条预定义轨迹,用于在受控但多样的场景中进行测试。相关实验结果如下表所示,UniAD的路线完成度 (RC) 得分相对较低,平均每条路线的完成度仅为 11.7%。与 DriveArena相比,我们的模拟始终能获得更好的性能指标,并且还表现出卓越的视觉保真度。

图片

结论

在本文中,我们提出了DrivingSphere,一个生成式闭环模拟框架,它弥补了传统闭环模拟和开环生成模型之间的差距。通过先进的基于占用的建模和可控的生成机制,DrivingSphere 为自动驾驶创建了逼真的高保真模拟。我们的实验展示了卓越的视觉质量、时间一致性以及在动态环境中有效测试自动驾驶算法的能力。

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2024-04-12 10:46:26

2024-10-28 13:30:00

2024-10-17 10:28:23

2013-03-11 13:40:48

4D打印

2024-09-10 11:21:30

2015-01-05 10:13:37

2023-04-14 14:02:40

视觉AI

2023-11-27 09:49:37

自动驾驶数据

2024-06-12 09:48:39

2024-06-04 09:52:25

2023-10-19 13:05:39

2024-01-03 10:05:07

自动驾驶4D雷达

2021-01-06 10:51:56

量子互联网网络安全

2021-04-14 15:03:16

数据性能存储

2021-08-06 08:20:38

微软Teams音乐传输

2023-04-28 09:24:50

自动驾驶数据

2023-06-09 13:40:47

2023-06-20 16:26:21

2022-06-25 21:26:45

自动驾驶技术

2024-11-25 08:50:00

点赞
收藏

51CTO技术栈公众号