18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了-51CTO.COM

世界模型被广泛认为是实现通用人工智能的关键技术，其核心能力在于模拟真实世界的动态变化，并为决策提供精准的未来状态预测。在自动驾驶领域，世界模型的应用尤为引人注目。然而，现有数据集在视频多样性和行为复杂性方面的不足，限制了世界模型潜力的全面发挥。为了解决这一瓶颈，中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。

网站：https://drivingdojo.github.io/
论文：https://arxiv.org/pdf/2410.10738
代码：https://github.com/Robertwyq/Drivingdojo

世界模型的核心在于交互、知识以及泛化

世界模型刻画了智能体在当前状态下采取特定动作之后环境状态所有可能的变化的分布。相比于单纯关注于生成的图像质量，我们认为其他道路参与者的行为（other agents behavior）以及整体的世界动态（general world dynamics）也同样值得关注，即世界模型的交互、知识以及泛化能力。

交互：世界模型应具备合理预测动态交互行为的能力。例如，在自动驾驶场景中，系统需要准确预测自车与行人或其他道路使用者之间的交互。除了理解静态环境的变化，更重要的是能够提供动态反馈，以支持系统在复杂场景中的应对。

知识：世界模型应具备对环境中世界知识的深刻理解。例如，在自动驾驶场景中，系统需要能够理解红绿灯、升降杆等关键场景元素，以便作出恰当的驾驶决策。然而，仅通过像素级重建是否能准确建模这些知识仍然存在疑问，因此引入语言模型成为提升系统理解能力的关键手段。

泛化：世界模型的预测能力应能够扩展到新的未知场景，尤其是各种长尾场景，如稀有事件或极端环境下的驾驶表现。这种泛化能力是确保模型在真实世界中稳定运行的关键。

DrivingDojo 数据集

DrivingDojo 数据集相较于传统的感知数据集，经过精心的挖掘与筛选，更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏，到突然窜出的动物、夜晚的篝火、路上的羊群，包含了海量的长尾驾驶场景，为世界模型的研究提供了坚实的基础。

DrivingDojo 数据集包含大约 18k 个视频，平均时长约为 20 秒。整个数据集可以划分为三个子集，分别聚焦于驾驶行为、动态交互和世界知识的探索。

驾驶行为：还原真实驾驶操作的多样性

我们精心构建了一个名为 DrivingDojo-Action 的子集，全面覆盖驾驶操作的多样化场景，呈现纵向与横向行为的均衡分布：

纵向操作：包含加速、减速、紧急刹车和起停驾驶，精准展现车辆在速度调控中的动态表现。
横向操作：涵盖变道和车道保持，细致描绘车辆在空间选择和路径优化中的决策能力。

动态交互：捕捉复杂交通中的行为模式

除了在静态道路网络环境中进行导航外，建模多智能体之间的动态交互（如并入和让行）也是世界模型的一个关键任务。我们精心挖掘了这一子集，比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景，助力其更好地应对复杂的交通环境。

世界知识：赋能开放世界的智能理解

不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示，世界模型在像素空间中运行，展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态，例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解，世界模型为处理复杂交通情境提供了更可靠的基础。