迈向L4！InstDriver：构建符合人类逻辑的运动规划算法（中科慧拓）-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

大语言模型在自然语言处理和生成方面的卓越能力，为自动驾驶技术带来了全新的活力。中科慧拓携手中国科学院自动化研究所、武汉大学、加州大学伯克利分校和西安交通大学，使用大语言模型开发了符合人类驾驶逻辑的运动规划算法InstDriver。中科慧拓技术团队基于人类的驾驶逻辑（如避免碰撞）和交通规则（如只在绿灯亮时行驶）生成驾驶指令数据。然后，通过模拟人类驾驶员思考方式的思维链InstructChain进行进一步推理，最终获得能够反映指令执行效果的运动规划。该思维链支持加入人类规则，并从驾驶数据中学习，从而实现运动规划的可解释性以及驾驶数据的可扩展性。InstDriver已在全球首个自动驾驶规划基准nuPlan框架中进行了广泛的开环和闭环测试，显示了其优异的性能。

论文链接：代码链接：https://github.com/bonbon-rj/InstructDriver

论文思路

自动驾驶技术对于提高道路安全至关重要，它可以减少交通拥堵，提高运输效率。目前广泛采用的自动驾驶流程包括感知、预测和运动规划，它们共同使车辆能够在复杂环境中导航。其中，运动规划尤为重要，它通过确定最佳路径和速度，在避免碰撞的同时确保车辆平稳安全地行驶。

传统的基于规则的方法利用预定义的规则和逻辑条件进行规划，这种方法具有很高的可解释性，但难以考虑到所有可能的情况。基于学习的方法在大量自动驾驶场景数据基础上进行训练，使模型能够学习和理解各种场景。尽管基于学习的方法性能卓越，但它们将运动规划视为黑箱预测问题，从而引发了人们对输出轨迹是否与人类驾驶行为一致的担忧。

随着大语言模型（LLM）的出现，最近的方法试图将其知识转移到运动规划中。尽管这些方法取得了令人鼓舞的成果，但它们通常依赖于预定义的规划目标，而且目前仍不清楚LLM是否真的掌握了人类驾驶的基本逻辑。由于缺乏真实世界的闭环评估，人们担心它们能否根据环境数据做出规划决策。

为了解决这个问题，我们提出了一种InstDriver方法，通过生成一系列基于人类驾驶逻辑的指令数据，使基于LLM的规划器与人类行为保持一致。另外，我们模拟人类驾驶员的思考方式提出了一个InstructChain模块，用于将这些指令组合起来，推理出最终的规划轨迹。InstDriver允许结合人类规则，并从驾驶数据中学习，从而实现可解释性和数据可扩展性。通过利用一系列中间指令，InstructChain增强了LLM处理复杂规划推理任务的能力。

我们的贡献总结如下：

我们提出了InstDriver，使LLM与一系列人类指令保持一致，确保它们与人类的驾驶逻辑保持一致。
我们提出了InstructChain，使LLM能够明确地跟随指令的执行，从而提供高度的可解释性。
我们在nuPlan框架内进行了广泛的开环和闭环实验，验证了所提方法的有效性，实现了具有竞争力的性能指标。

图1：InstDriver的动机。左图比较了不同的自动驾驶运动规划方法，展示了我们的方法在没有预定义目标的情况下发挥作用的能力，强调了其如何引导规划器产生类似人类的驾驶行为。右图说明了提供的指令与结果输出之间的对应关系。

方法设计

我们提出的InstDriver是一种指令微调的方法，通过构建与人类行为一致的指令数据对大语言模型进行微调，进而实现符合人类驾驶逻辑的规划器。其中InstructChain不仅反映了指令的执行情况，也展示了整个规划过程。它通过四个步骤来精细化运动规划的过程：

初步规划：对当前场景进行一个初步的高级语义动作规划，例如沿当前车道前进。
风险预测：通过预测自车的未来位置和识别可能的碰撞风险物体，并提供潜在碰撞方位以便后续的行动规划。
地图因素分析：考虑与交通环境有关的因素，包括交通信号、速度限制和车道线，确保行动计划的合规性与安全性。
高级动作规划：综合前三步获得的信息，制定细致的高级语义动作规划。

随后，最终的高级语义动作规划将会被映射到自动驾驶汽车的实际运动轨迹，用于仿真环境中进行模拟。

图2：InstDriver的运动规划过程概述。我们的方法将场景数据转换为文本描述，并通过设置特定指令，使经过微调的LLM能够生成符合人类驾驶行为的InstructChain和轨迹。随后将轨迹应用于模拟环境进行仿真。

实验结果

我们利用nuPlan提供的官方指标进评估，包括开环分数（OLS）、非反应性闭环分数（NR-CLS）和反应性闭环分数（R-CLS）。OLS包含平均距离误差、平均航向误差、最终距离误差、最终航向误差和缺失率等计算，NR-CLS和R-CLS涉及对驾驶区域和方向的适当性、驾驶轨迹的相似性以及对交通法规的遵守情况的评估。我们在nuPlan框架内进行了广泛的开环和闭环实验，并在开环指标上取得第二的成绩。

表一：在Test14-random和Test14-hard基准下与最新技术的模拟结果比较。粗体数字代表指标中的最高值，下划线数字代表次高值。其他方法的模拟结果来自PlanTF。

场景可视化

InstructChain提供了输出规划所涉及的中间过程的表示，其反映了整个规划过程，包括基于指令的理解和推理。以过路口为例，其揭示了规划器最初根据当前的车道标记直行，然后注意到左前方和右前方的碰撞风险。考虑到当前为绿灯且没有超速，它最终的规划为加速直行。这表明规划器可以根据给出的指令进行符合人类驾驶习惯的运动规划。

图3：规划器进行规划的过程图示，包含具体的自动驾驶场景及其对应的InstructChain。表明规划器可以根据给定的指令生成符合人类驾驶行为的规划。

总结

本文设计了符合人类驾驶逻辑的指令数据以及对应的思维链InstructChain，提出了基于大语言模型的运动规划算法InstDriver。我们在全球首个自动驾驶规划基准nuPlan框架中进行了广泛的开环和闭环测试，证明了所提出的InstDriver的优异性能。通过对InstructChain进行广泛的消融研究以及示例场景的可视化，展示了InstDriver可以根据指令生成符合人类驾驶习惯的驾驶行为。InstructChain不仅反映了规划器对指令的理解，还包含了对整个运动规划的推理过程，显示了其高度的可解释性。