端到端大一统前夕？GenAD：LLM和轨迹规划全搞定-51CTO.COM

今天汽车人和大家分享一篇自动驾驶领域中第一个大规模视频预测模型。为了消除高成本数据收集的限制，并增强模型的泛化能力，从网络获取了大量数据，并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频，涵盖了世界各地具有多样化天气条件和交通场景的区域。本文提出了GenAD，它继承了最近潜在扩散模型的优点，通过新颖的时间推理模块处理驾驶场景中的挑战性动态情况。它可以以zero-shot的方式泛化到各种未见的驾驶数据集，超越了一般或驾驶特定的视频预测模型。此外，GenAD可以被调整为一个动作条件的预测模型或一个运动规划器，具有在真实世界驾驶应用中的巨大潜力。

写在前面&笔者的个人理解

自动驾驶agents作为高级人工智能的一个有前景的应用，感知周围环境，构建内部世界模型表示，做出决策，并作出响应行动。然而，尽管学术界和工业界已经进行了数十年的努力，但它们的部署仍然受到限制，仅限于某些区域或场景，并且不能无缝地应用于整个世界。其中一个关键原因是学习模型在结构化自动驾驶系统中的有限泛化能力。通常，感知模型面临着在地理位置、传感器配置、天气条件、开放目标等多样化环境中泛化的挑战；而预测和规划模型则面临着无法泛化到具有不确定未来的情景和不同驾驶意图的挑战。受人类学习感知和认知世界的启发，本文主张将驾驶视频作为通用接口，用于泛化到不同的环境和动态未来。

基于这一观点，预测驾驶视频模型被认为是完全捕捉驾驶场景世界知识的理想选择（如上面图1所示）。通过预测未来，视频预测器基本上学习了自动驾驶的两个关键方面：世界如何运行，以及如何在复杂环境中安全操控。

近年来，社区已经开始采用视频作为表示观察行为和动作的接口，用于各种机器人任务。对于诸如经典视频预测和机器人技术的领域，视频背景主要是静态的，机器人的移动速度较慢，视频的分辨率较低。相比之下，对于驾驶场景，它需要应对室外环境高度动态化、agents具有更大运动范围以及传感器分辨率覆盖大范围视野的挑战。这些差异导致了自动驾驶应用面临着重大挑战。

幸运的是，在驾驶领域已经有一些初步尝试开发视频预测模型。尽管在预测质量方面取得了令人鼓舞的进展，但这些尝试并没有像经典机器人任务（例如控制）中那样实现理想的泛化能力，而是局限于限定的情景，例如交通密度低的高速公路，以及小规模的数据集，或者受限的条件，难以生成多样化的环境。如何发掘视频预测模型在驾驶领域的潜力仍然鲜有探索。

受以上讨论的启发，我们的目标是构建一个用于自动驾驶的视频预测模型，能够泛化到新的条件和环境。为了实现这一目标，需要回答以下问题：

（1）如何以可行和可扩展的方式获取数据？

（2）我们如何构建一个预测模型来捕捉动态场景的复杂演变？

（3）如何将（基础）模型应用于下游任务？

规模化数据。 为了获得强大的泛化能力，需要大量且多样化的数据。受基础模型从互联网规模数据中学习成功的启发，我们从网络和公共许可的数据集构建我们的驾驶数据集。与现有的选项相比，由于其受到监管的收集流程的限制，现有的选项在规模和多样性上受到限制，而在线数据在几个方面具有很高的多样性：地理位置、地形、天气条件、安全关键场景、传感器设置、交通元素等。为了确保数据具有高质量且适合大规模训练，我们通过严格的人工验证从YouTube上详尽地收集驾驶记录，并删除意外损坏帧。此外，视频与各种文本级别的条件配对，包括利用现有的基础模型生成和优化的描述，以及由视频分类器推断出的高级指令。通过这些步骤，我们构建了迄今为止最大的公共驾驶数据集OpenDV-2K，其中包含超过2000小时的驾驶视频，比广泛使用的nuScenes数据集大374倍。

通用预测模型。 学习一个通用的驾驶视频预测器面临几个关键挑战：生成质量、训练效率、因果推理和视角剧烈变化。我们通过提出一种新颖的两阶段学习的时间生成模型来解决这些方面的问题。为了同时捕捉环境细节、提高生成质量和保持训练效率，我们借鉴了最近潜在扩散模型（LDMs）的成功经验。在第一阶段，我们通过对OpenDV-2K图像进行微调，将LDM的生成分布从其预先训练的通用视觉领域转移到驾驶领域。在第二阶段，我们将所提出的时间推理模块插入到原始模型中，并学习在给定过去帧和条件的情况下预测未来。与传统的时间模块不同，我们的解决方案包括因果时间注意力和分离的空间注意力，以有效地建模高度动态的驾驶场景中的剧烈时空转移。经过充分训练，我们的自动驾驶生成模型（GenAD）能够以零样本方式泛化到各种场景。

仿真和规划的扩展。 在进行视频预测的大规模预训练之后，GenAD基本上了解了世界的演变方式以及如何驾驶。我们展示了如何将其学习到的知识应用于真实世界的驾驶问题，即仿真和规划。对于仿真，我们通过使用未来的自车轨迹作为额外条件，对预先训练的模型进行微调，将未来的想象与不同的自车行为联系起来。我们还赋予了GenAD在具有挑战性的基准测试中执行规划的能力，通过使用轻量级规划器将潜在特征转化为自车未来轨迹。由于其预先训练能力能够准确预测未来帧，我们的算法在仿真一致性和规划可靠性方面展现出了令人期待的结果。

OpenDV-2K Dataset

OpenDV-2K数据集 这是一个用于自动驾驶的大规模多模态数据集，以支持通用视频预测模型的训练。其主要组成部分是大量高质量的YouTube驾驶视频，这些视频来自世界各地，并经过精心筛选后被收入我们的数据集中。利用视觉-语言模型自动生成了这些视频的语言标注。为了进一步提高数据集中的传感器配置和语言表达的多样性，将7个公开授权的数据集合并到我们的OpenDV-2K中，如表1所示。

因此，OpenDV-2K总共包含了2059小时的视频与文本配对，其中1747小时来自YouTube，312小时来自公开数据集。使用OpenDV-YouTube和OpenDV-2K来指定YouTube拆分和整体数据集，分别表示YouTube拆分和整体数据集。

与先前数据集的多样性比较

表1提供了与其他公开数据集的简要比较。除了其显著的规模外，提出的OpenDV-2K在以下各个方面都具有多样性。

全球地理分布。 由于在线视频的全球性质，OpenDV-2K覆盖了全球40多个国家和244个城市。这相比于先前的公开数据集是一个巨大的改进，先前的数据集通常只收集在少数受限制的地区。在图2中绘制了OpenDV-YouTube的具体分布。

开放式驾驶场景。 本数据集提供了大量的现实世界中的驾驶经验，涵盖了像森林、大雪等极端天气条件以及对交互式交通情况做出的适当驾驶行为等稀有环境。这些数据对于多样性和泛化至关重要，但是在现有的公开数据集中很少被收集。

无限制的传感器配置。 当前的驾驶数据集局限于特定的传感器配置，包括内在和外在的相机参数、图像、传感器类型、光学等，这给使用不同传感器部署学习模型带来了巨大挑战。相比之下，YouTube驾驶视频是在各种类型的车辆上录制的，具有灵活的相机设置，这有助于在使用新的相机设置部署训练模型时的稳健性。

迈向高质量多模态数据集

驾驶视频收集与筛选。 从广阔的网络中找到干净的驾驶视频是一项繁琐且成本高昂的任务。为了简化这个过程，首先选择了某些视频上传者，即YouTubers。从平均长度和整体质量来看，收集了43位YouTuber的2139个高质量前视驾驶视频。为了确保训练集和验证集之间没有重叠，从中选择了3位YouTuber的所有视频作为验证集，其余视频作为训练集。为了排除非驾驶帧，如视频介绍和订阅提醒，丢弃了每个视频开头和结尾一定长度的片段。然后，使用VLM模型BLIP-2 对每个帧进行语言上下文描述。进一步通过手动检查这些上下文中是否包含特定关键字，来移除不利于训练的黑色帧和过渡帧。数据集构建流程的示意图见图3，下面介绍如何生成这些上下文。

YouTube视频的语言标注。 为了创建一个可以通过自然语言控制以相应地模拟不同未来的预测模型，为了使预测模型可控并提高样本质量，将驾驶视频与有意义且多样化的语言标注配对至关重要。为OpenDV-YouTube构建了两种类型的文本，即自车指令和帧描述，即“指令”和“上下文”，以帮助模型理解自车动作和开放世界的概念。对于指令，在Honda-HDD-Action上训练了一个视频分类器，用于标注4秒序列中的自车行为的14种类型的动作。这些分类指令将进一步映射到预定义字典中的多个自由形式表达。对于上下文，利用一个成熟的视觉语言模型BLIP-2，描述每个帧的主要目标和场景。有关标注的更多细节，请参阅附录。

用公共数据集扩大语言范围。 考虑到BLIP-2标注是为静态帧生成的，没有理解动态驾驶场景，例如交通灯的过渡，我们利用几个提供驾驶场景的语言描述的公共数据集。然而，它们的元数据相对稀疏，只有一些诸如“晴天的道路”之类的词语。使用GPT进一步提升它们的文本质量，形成描述性的“上下文”，并通过对每个视频剪辑的记录轨迹进行分类，生成“指令”。最终，我们将这些数据集与OpenDV-YouTube集成，建立OpenDV-2K数据集，如表1的最后一行所示。

GenAD框架

本节介绍了GenAD模型的训练和设计。如图4所示，GenAD分为两个阶段进行训练，即图像域转移和视频预测预训练。第一阶段将通用的文本到图像模型调整到驾驶领域。第二阶段通过提出的时间推理块和修改的训练方案，将文本到图像模型扩展为视频预测模型。最后，探讨了如何将预测模型扩展到动作条件预测和规划。

图像域迁移

车载相机捕捉了丰富的视野，包括道路、背景建筑、周围车辆等丰富的视觉内容，需要强大而鲁棒的生成能力来产生连续和逼真的驾驶场景。为了促进学习过程，首先在第一阶段进行独立的图像生成。具体地，使用SDXL初始化我们的模型，SDXL是一个用于文本到图像生成的大规模潜在扩散模型（LDM），利用其合成高质量图像的能力。它被实现为一个具有多个堆叠的卷积和注意力块的去噪θ，通过去噪的方式学习合成图像。具体来说，给定由前向扩散过程损坏的噪声输入潜在，通过以下目标函数被训练来预测的添加噪声ε：

其中 x 和分别是干净和嘈杂的潜在空间，t 表示不同噪声尺度的时间步长，c 是指导去噪过程的文本条件，它是上下文和指令的串联。为了训练效率，学习过程发生在压缩的潜在空间中，而不是像素空间。在采样过程中，模型通过迭代地去噪最后一步的预测，从标准高斯噪声中生成图像。然而，原始的SDXL是在通用域的数据上进行训练的，例如肖像和艺术画作，这些数据与自主系统无关。为了使模型适应于为驾驶场景合成图像，在OpenDV-2K中使用图像文本对进行文本到图像生成的微调，目标与方程（1）相同。在SDXL的原始训练之后，所有UNet的参数θ都在此阶段进行微调，而CLIP文本编码器和自编码器保持冻结状态。

视频预测预训练

在第二阶段，利用连续视频的几帧作为过去的观察，GenAD被训练来推理所有视觉观察，并以可信的方式预测未来的几帧。与第一阶段类似，预测过程也可以由文本条件指导。然而，由于两个基本障碍，预测高度动态的驾驶世界在时间上是具有挑战性的。

因果推理： 为了预测遵循驾驶世界时间因果关系的合理未来，模型需要理解所有其他agents和自车的意图，并了解潜在的交通规则，例如，交通信号灯转换时交通将如何变化。
视图变化剧烈： 与Typical视频生成基准相反，后者主要具有静态背景，中心目标的移动速度较慢，驾驶的视图随时间变化剧烈。每个帧中的每个像素可能会在下一个帧中移动到一个遥远的位置。

本文提出了时间推理block来解决这些问题。如图4(c)所示，每个block由三个连续的注意力层组成，即因果时间注意力层和两个解耦的空间注意力层，分别用于因果推理和模拟驾驶场景中的大的移位。

因果时间注意力。 由于第一阶段训练后的模型只能独立处理每个帧，本文利用时间注意力在不同的视频帧之间交换信息。注意力发生在时间轴上，并模拟每个网格特征的时间依赖性。然而，直接采用双向时间注意力在这里几乎无法获得因果推理的能力，因为预测将不可避免地依赖于随后的帧而不是过去的条件。因此，通过添加因果注意mask，限制注意力方向，鼓励模型充分利用过去的观察知识，并如实推理未来，就像在真实的驾驶中一样。在经验上发现，因果约束极大地使预测的帧与过去的帧保持一致。遵循通用做法，还在时间轴上添加了实现为相对位置嵌入的时间偏差，以区分序列的不同帧，用于时间注意力。

解耦的空间注意力。 由于驾驶视频具有快速的视角变化，在不同的时间步长中，特定网格中的特征可能会有很大的变化，并且很难通过时间注意力进行相关性和学习，因为时间注意力具有有限的感受野。考虑到这一点，引入了空间注意力来在空间轴中传播每个网格特征，以帮助收集用于时间注意力的信息。采用了一种解耦的自注意力变体，由于其具有线性计算复杂度，相对于二次完全自注意力，它更加高效。如图4(c)所示，这两个解耦注意层分别在水平和垂直轴上传播特征。

深度交互。 直觉上，第一阶段中调整的空间block独立地使每个帧的特征朝向照片逼真性，而第二阶段引入的时间block使所有视频帧的特征朝向一致性和一致性对齐。为了进一步增强时空特征交互，本文将提出的时间推理block与SDXL中的原始Transformer block交叉，即空间注意力，交叉注意力和前馈网络，如图4(b)所示。

零初始化。 与先前的做法类似，对于在第二阶段新引入的每个block，将其最终层的所有参数初始化为零。这样可以避免在开始时破坏经过良好训练的图像生成模型的先验知识，并稳定训练过程。

训练。 GenAD通过在噪声潜变量的共同去噪过程中利用过去帧和文本条件的指导来预测未来。首先将视频剪辑的T个连续帧投影到一批潜变量中，其中前m帧潜变量是干净的，代表历史观察，而其他n=T−m帧潜变量表示要预测的未来。然后，被转换为通过前向扩散过程产生的，其中t索引随机抽取的噪声尺度。模型被训练以预测受观察和文本c条件下的噪声。视频预测模型的学习目标如下所示：

其中，θ表示继承自第一阶段模型的参数，φ表示新插入的时间推理块。遵循[8]冻结θ，并仅训练时间推理块，以避免干扰图像生成模型的生成能力，并集中学习视频中的时间依赖性。请注意，只有来自受损帧的输出会对训练损失做出贡献，而来自条件帧的输出会被忽略。训练方法也可以很容易地应用于视频插值，只需进行轻微的修改，即交换条件帧的索引。

扩展。 依靠在驾驶场景中训练良好的视频预测能力，进一步挖掘了预训练模型在动作控制预测和规划方面的潜力，这对于真实世界的驾驶系统非常重要。在这里，探索了nuScenes上的下游任务，该任务提供了记录的姿态。

动作条件预测。 为了使我们的预测模型能够受到精确的自我行为控制并充当模拟器，使用成对的未来轨迹作为额外条件对模型进行微调。具体来说，使用Fourier embedding将原始轨迹映射到高维特征。经过线性层的进一步投影后，将其添加到原始条件中。因此，自我行为通过图4(b)中的条件交叉注意力层注入到网络中。

规划。 通过学习预测未来，GenAD获得了复杂驾驶场景的强大表示，这可以进一步用于规划。具体来说，通过冻结的GenAD的UNet编码器提取两个历史帧的时空特征，该编码器几乎是整个模型大小的一半，并将它们馈送到多层感知器（MLP）以预测未来的路标。通过冻结的GenAD编码器和可学习的MLP层，规划器的训练过程可以比端到端规划模型UniAD 加快3400倍，验证了GenAD学习的时空特征的有效性。

实验

设置与实验方案

GenAD在OpenDV-2K上分两个阶段学习，但具有不同的学习目标和输入格式。在第一阶段，模型接受（图像，文本）对作为输入，并在文本到图像生成上进行训练。将命令标注广播到包含的所有帧中，每4秒视频序列标注一个。该模型在32个NVIDIA Tesla A100 GPU上进行了300K次迭代训练，总批量大小为256。在第二阶段，GenAD被训练以在过去的潜变量和文本的条件下联合去噪未来的潜变量。其输入为（视频剪辑，文本）对，其中每个视频剪辑为2Hz的4秒。当前版本的GenAD在64个GPU上进行了112.5K次迭代训练，总batch大小为64。输入帧在两个阶段的训练中被调整为256×448的大小，并且以概率p = 0.1丢弃文本条件c，以启用无分类器的引导在采样中，这在扩散模型中通常用于改善样本质量。

视频预训练结果

与最近的视频生成方法的比较

将GenAD与最近的先进方法进行比较，使用OpenDV-YouTube、Waymo 、KITTI和Cityscapes上的未见过的地理围栏集合进行zero-shot生成方式。图5显示了定性结果。图像到视频模型I2VGen-XL和VideoCrafter1不能严格按照给定的帧进行预测，导致预测帧与过去帧之间的一致性较差。在Cityscapes上训练的视频预测模型DMVFN在其预测中遭遇了不利的形状扭曲，尤其是在三个未见过的数据集上。相比之下，尽管这些集合都没有包含在训练中，但GenAD表现出了显著的zero-shot泛化能力和视觉质量。

与nuScenes专家的比较

还将GenAD与最近可用的专门针对nuScenes训练的驾驶视频生成模型进行比较。表2显示，GenAD在图像保真度（FID）和视频连贯性（FVD）方面超过了所有先前的方法。

具体来说，与DrivingDiffusion相比，GenAD将FVD显著降低了44.5%，而没有将3D未来布局作为额外输入。为了公平比较，训练了一个模型变体（GenAD-nus）只在nuScenes数据集上进行训练。我们发现，尽管GenAD-nus在nuScenes上表现与GenAD相当，但它很难推广到未见过的数据集，例如Waymo，其中生成物会退化到nuScenes的视觉模式。相比之下，训练在OpenDV-2K上的GenAD在各个数据集上都表现出很强的泛化能力，如前图5所示。

在nuScenes上提供了语言条件预测样本，如图6所示，GenAD根据不同的文本指令模拟了相同起始点的各种未来。复杂的环境细节和自运动的自然过渡展示了令人印象深刻的生成质量。

消融研究

通过在OpenDV-2K的子集上进行75K步的训练，执行消融实验。从具有普通时间注意力的基线开始，逐渐引入我们提出的组件。值得注意的是，通过将时间块与空间块交错，FVD显著提高了（-17%），这是由于更充分的时空交互。时间因果关系和解耦的空间注意力都有助于更好的CLIP-SIM，改善了未来预测与条件帧之间的时间一致性。需要明确的是，表3中第四行和第三行显示的FID和FVD的轻微增加，并不真实反映了生成质量的下降，如[8, 10, 79]中所讨论的。每种设计的有效性如图7所示。

扩展结果

动作条件预测。 进一步展示了在nuScenes上微调的动作条件模型GenAD-act的性能，如图8和表4所示。给定两个起始帧和一个包含6个未来路径点的轨迹w，GenAD-act模拟了6个按照轨迹顺序的未来帧。为了评估输入轨迹w和预测帧之间的一致性，在nuScenes上建立了一个反向动力学模型（IDM）作为评估器，该模型将视频序列映射到相应的自车轨迹上。我们利用IDM将预测帧转换为轨迹ˆw，并计算w和ˆw之间的L2距离作为动作预测误差。具体来说，与具有文本条件的GenAD相比，GenAD-act将动作预测误差显著降低了20.4%，从而实现更准确的未来模拟。

规划结果。 表5描述了在nuScenes上的规划结果，其中可以获得自车的姿态真值。通过冻结GenAD编码器，并仅优化其顶部的附加MLP，模型可以有效地学习规划。值得注意的是，通过通过GenAD的UNet编码器预提取图像特征，规划适应的整个学习过程仅需在单个NVIDIA Tesla V100设备上花费10分钟，比UniAD规划器的训练高效3400倍。

结论

对GenAD进行了系统级开发研究，这是一个用于自动驾驶的大规模通用视频预测模型。还验证了GenAD学习表示适应驾驶任务的能力，即学习“世界模型”和运动规划。尽管在开放领域获得了改进的泛化能力，但增加的模型容量在训练效率和实时部署方面带来了挑战。设想统一的视频预测任务将成为未来关于表示学习和策略学习的研究的可扩展目标。另一个有趣的方向是将编码的知识提炼出来，用于更广泛的下游任务。