把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图-51CTO.COM

作为本年度人工智能领域最重要的突破之一，大语言模型相关研究始终是各大相关领域的关注焦点。

近日，来自清华大学、中国科学院、MIT的科研人员对于大语言模型在人机交互领域中的应用进行了研究，设计了一种名为Co-Pilot的人机交互框架，使用提示引导ChatGPT（gpt3.5）在考虑人主观意图的同时完成简单的自动驾驶任务。

论文链接：https://www.researchgate.net/publication/374800815_ChatGPT_as_Your_Vehicle_Co-Pilot_An_Initial_Attempt

该研究作为最早一批使用原生语言大模型直接介入自动驾驶任务的尝试，揭示了大语言模型在自动驾驶领域进一步深入应用的可能性，也为后续相关研究指明了方向[1]。

研究背景：为什么使用大语言模型？

人车交互作为智能汽车发展的重要功能之一，对降低司机驾驶负担、提升乘客出行体验有很大帮助，相关功能也成为了消费者在选择时的重要标准。

尽管现有人机交互系统已经可以实现语音识别、指令执行等功能，但大多数情况下系统仅能根据既定指令的训练在有限范围内给出回答或响应，存在一定的局限性。

相比之下，大语言模型在此类能力上具有更好的表现：

1. 可以理解人的意图：

大语言模型具有推理能力，其可以从文字中理解说话者的真正意图，并给出相应的回应；

2. 拥有常识：

得益于大量的训练数据中包含的知识，大预言模型具有一定的常识，并掌握许多特定领域的基础知识与能力；

3. 对于不同任务的高度适应性：

通过调整提示词，大语言模型对于不同任务具有很好的适应性，可快速适配不同种类的任务，极大提升了应用与落地的效率。

基于此，大语言模型为解决人机共驾问题提供了一种新的思路。

为了探索大语言模型在自动驾驶人机交互领域的应用，研究人员提出了「Co-Pilot」架构，用于实现乘客、大语言模型以及车辆之间的交互。

为了验证方案的可行性，研究人员设计了两个不同种类的任务对其进行测试，实验效果达到了预期。

Co-Pilot：架构与核心

Co-Pilot架构如下图所示：

Co-Pilot主体机构包含了以下模块：

1. 编码器：将必要的信息组成提示，通过专用API发送至大语言模型。

2. LLM：大语言模型，本工作使用ChatGPT（GPT3.5-turbo-0301）。

3. 解码器：将自然语言回应解析为指令或数据，用于车辆的交互与控制。

4. 保险机制：考虑到大语言模型作为概率模型的本质，现阶段难以杜绝其在回答中出错，故预留该保险机制防止存在明显错误的指令影响车辆运行。

5. 记忆机制：保存Co-Pilot完成任务所必须的数据及其他信息，作为输入的重要组成部分，可在工作过程中被实时更新。

Co-Pilot主要拥有两种工作流程：

1. 实现流程：Co-pilot依据不同任务完成一次工作周期的流程。

2. 调优流程：车辆专家依据不同任务调整记忆机制的前置优化流程。

记忆机制

本文按照人类认知心理学对大语言模型内部的知识储存进行模拟[2]，提出了记忆机制用来划分自动驾驶场景中可能涉及到的信息，旨在全面提升Co-Pilot信息利用效率。

专家主导的黑箱优化

该方法利用黑箱优化中在低维空间进行无梯度优化的思想，利用专家的主观标注来评估任务完成效果，从而更新记忆中的内容来增强提示词，使得LLM进行少样本学习。

仿真实验

为了验证Co-Pilot架构的可靠性，本文设计了两个任务，在以MATLAB/Simulink为基础的仿真平台中开展。

实验一：轨迹跟随控制器选择

在该实验中，假设有一辆自动控制的汽车在预设路径上行驶，研究人员给定Co-Pilot当前车辆状态、路段情况等信息，要求其选择最符合当前乘客意图（如保证速度、紧随轨迹、体验舒适）的运动控制器。

运动控制器为已有预设模块，分别为NMPC控制器、Stanley + Preview控制器、PID控制器。

赛道总览

实验一的Co-Pilot具体结构

在调优环节中，研究人员分别对语义记忆与情景记忆进行了更新，其中语义记忆仅能提供对控制器的种类（A1）或定性描述（A2），而情景记忆可以提供对控制器在过去相似场景下的具体表现（A3）。

赛道被分为五个区段，研究人员根据Co-Pilot是否在各区段选出了最符合当前乘客意图的控制器进行打分（每个区段最优1分，次优0.5分，最差0分，赛道总分最高为5分），分析不同记忆对于Co-Pilot表现的影响，研究人员在「精确跟踪」与「保持稳定」两种意图下分别测试，测试结果显示，A1仅取得3分，Co-Pilot在所有区段均选择了NMPC控制器。

由于此时提供的信息有限，其只能根据训练中积攒的常识「NMPC的控制效果很好」做出判断。A2取得了7.5分，而A3取得了8.5分，证明情景记忆在相似任务中对Co-Pilot的推理最有帮助，使其可结合人类意图给出合理的反应。

接着，研究人员使用了调优后的A3提示模式开展了更复杂的实验。在此实验中，五个区段的人类意图不再保持一致且引入了更口语化表达的新意图「刺激」。

实验结果如下图所示，Co-Pilot在每个区段都能选出最符合乘客意图的控制器(由于控制器在切换时受到上一区段的车辆状态影响，导致被选控制器的效果与预期可能存在细微差异)。

实验二：双移线避障轨迹规划

在本实验中，研究人员将重点转移到规划类任务，向Co-Pilot描述当前路况，并要求其给出未来10s内的路径。

在调优环节中，研究人员更加侧重对于程序记忆的组织与优化，语义记忆与情景记忆中包含的信息基本不存在差异。在此的前提下，不同提示带来的显著结果差异更加值得深入探究。

四种提示的区别以及十次测试的平均得分情况

（打分依据：合理性满分5分、完成度满分3分、正确性满分2分）

四种提示下的代表轨迹

在使用B4提示的前提下，进一步引入不同种类的乘客意图，得到的代表性轨迹如下，可以看出在给出正确避让轨迹的基础上，Co-Pilot可以进一步调整轨迹使其符合乘客意图。

不同乘客意图的代表轨迹，均符合乘客意图

结果讨论

实验中我们可以注意到，提示中不同记忆的组合，对于LLM的表现有着显著影响。

1. LLM可根据常识以及记忆中包含的信息进行推理，在提供的信息不足以实现合理推断时，LLM可根据其训练中积累的经验做出决策；

2. 提示中的程序记忆在任务本身的描述上有时并不存在本质区别，但却对LLM的表现产生了很大影响。

这些现象引出了后续可能值得研究的更多问题：类似交通等复杂场景应该如何高效描述以发挥LLM的优势？LLM内部实现推理/完成任务的机制究竟如何？这些问题与大模型乃至人工智能的可解释性、安全性等重要问题息息相关。

未来展望与挑战

Co-Pilot是一种创新的尝试，它将LLM应用于人机混合智能[3]。LLM大大提高了人机通信的效率，使人类和机器更好地理解彼此。

人类专家对Co-Pilot进行调优的过程可以被视为系统的自适应学习。这使得深入的人机合作成为可能，并且在测试和调整人工智能系统方面具有巨大潜力。

LLM与现有平行学习架构[4]相结合，可进一步提升机器学习的效率

另一方面，正如本文实验中展示的，大语言模型通过海量数据训练得到的常识能在其工作中发挥重要作用。

后续在此基础上，多模态混合大模型（如视觉+语言模态）能够进一步打通「感知-规划-执行」的流程，使得此类大模型可胜任自动驾驶、机器人等需要与现实世界交互的复杂任务[5]。

当然，研究过程中涌现出的许多潜在挑战也值得关注：例如，怎样进一步提升LLM的性能？如何保证LLM表现得一致性、稳定性？在面对更复杂的动态场景时，如何保证LLM正确完成任务？

总结

本工作提出了一种将大语言模型直接用于人机共驾任务的Co-Pilot架构，并设计对应实验初步证明了架构的可靠性以及大语言模型在自动驾驶类任务中的可适用性，讨论了相关领域研究的潜在机遇及挑战。

该项工作已于近日发表于IEEE Transactions on Intelligent Vehicles，来自清华大学深圳国际研究生院的王诗漪以及来自清华大学自动化系的朱宇轩为本文共同第一作者，通讯作者为清华大学自动化系李力教授。