世界模型再进化！博士AdaWM：自适应世界模型规划新SOTA-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

论文链接：https://arxiv.org/pdf/2501.13072

摘要

本文介绍了AdaWM：基于自适应世界模型的自动驾驶规划。基于世界模型的强化学习（RL）已经成为一种有前景的自动驾驶方法，它学习潜在动态模型并且用其训练规划策略。为了加快学习过程，通常使用预训练-微调范式，其中在线RL由预训练模型和离线学习的策略来初始化。然而，在RL中朴素地执行这类初始化可能会导致新任务中的在线交互期间性能急剧下降。为了应对这一挑战，本文首先分析了性能下降问题，并且确定了两个主要根本原因：规划策略的不匹配和动态模型的不匹配（由分布偏移导致）。本文进一步分析了这些因素对微调过程中性能下降的影响，研究结果表明，微调策略的选择在缓解这些影响方面发挥着关键作用。然后，本文引入了AdaWM，这是一种基于自适应世界模型的规划方法，其具有两个关键步骤：（a）不匹配识别，它量化了不匹配并且告知微调策略；（b）对齐驱动的微调，它使用高效的低秩更新选择性地更新策略或者模型。本文在具有挑战性的CARLA驾驶任务上进行实验，结果表明，AdaWM显著地改进了微调过程，使自动驾驶系统的性能更为鲁棒和高效。

主要贡献

本文的主要贡献总结如下：

1）本文量化了微调过程中观测到的性能差距，并且确定了两个主要根本原因：（1）动态模型不匹配；（2）策略不匹配。然后，评估每种原因对微调性能的相应影响；

2）本文引入了AdaWM，这是一种基于自适应世界模型的自动驾驶规划方法，它通过两个关键步骤实现了有效的微调：（1）不匹配识别；（2）对齐驱动的微调。此外，AdaWM分别为动态模型和策略引入了高效的更新方法；

3）本文在具有挑战性的CARLA环境中的多个任务上验证了AdaWM，展现了它在路径成功率（SR）和碰撞时间（TTC）方面实现卓越性能的能力。实验结果表明，AdaWM有效地缓解了各种新任务的性能下降问题，证实了识别和解决微调过程中不匹配的重要性。

论文图片和表格

总结

本项工作提出了AdaWM，这是一种基于自适应世界模型的规划方法，它缓解了自动驾驶中基于世界模型的强化学习（RL）的性能下降问题。根据理论分析，本文确定了导致性能下降的两个主要原因：动态模型不匹配和策略不匹配。本文提出了具有两个核心组件的AdaWM：不匹配识别和对齐驱动的微调。AdaWM评估了性能下降的主要来源，并且根据识别的不匹配对动态模型或者策略应用选择性低秩更新。在CARLA上的大量实验表明，AdaWM显著地提高了路径成功率和碰撞时间，验证了其有效性。本项工作强调了在解决具有挑战性的现实世界任务时选择高效且鲁棒的微调策略的重要性。未来研究存在若干条有前景的途径。首先，探索将AdaWM应用于自动驾驶以外的其它领域能够扩大其适用性。此外，将AdaWM扩展到考虑智能体之间交互的多智能体环境中，可以进一步提高其在复杂现实世界环境中的鲁棒性。