在混合交通流中网联自动驾驶车如何避撞：一个基于模型的强化学习方法-51CTO.COM

[[429494]]

arXiv上传于2021年10月11日的论文 “Addressing crash-imminent situations caused by human driven vehicle errors in a mixed traffic stream: a model-based reinforcement learning approach for CAV“，作者来自普渡大学的网联自动化交通中心（Center for Connected and Automated Transportation，CCAT)，其中一个是从CMU的机器人研究所（RI）来的访问教授。

本文也是研究混合交通流，即网联自动驾驶车 (CAV)、人类驾驶汽车 (HDV) 和网联人类驾驶车辆 (CHDV)组成，最近这种研究方向的论文不常见。

本文开发一个简单的基于模型的强化学习 (RL) 系统，部署在 CAV上生成预测和避免HDV引起碰撞的轨迹。该模型涉及端到端的数据驱动方法，包含基于深度学习的运动预测模型和通过MPC的快速轨迹规划算法。

这个系统不需要车辆动力学的物理环境先验知识或假设，是一种可以部署在任何类型车辆（例如卡车、公共汽车、摩托车等）的通用方法。在 CARLA 模拟器进行多个即将发生碰撞场景的训练和测试。

大家认为有车联网（V2X）的网联自驾车（CAV）是实现零事故的关键。不过，仍然需要很多安全紧要的场景数据，往往这个比较稀少缺乏。

基于模型的强化学习（RL）利用数据估计状态转换模型，然后根据估计模型进行规划。这种组合方法从两种方法中获益：数据/训练的高效和模型不可知性。

一般来说，用于AV轨迹规划的基于模型RL方法包含2个模块：状态预测和路径规划。状态预测作为对物理环境的估计，专门解决从先前信息推理未来状态的问题。换句话说，它根据历史轨迹“告诉”周围目标在不久的将来（预测范围）将达到的状态（位置、速度、加速度等）。

这里状态预测模块是基于神经网络结构，实验中测试了三种模型，包括3-layer fully connected neural network (FCN), single layer long short-term memory network (LSTM), single layer FCN (linear regression)。因为周围车辆的变化，采用分散预测模式，而不是中心化模式，即每个智体有不同的状态预测模型。

路径规划建立在状态预测模型之上。由于状态预测不完美，规划模块应该稳健地输出安全路径来阻止错误传播。其次，规划模块应该适应高动态场景，特别是在新智体出现的情况下（行人突然横穿马路或周围车辆激进变道）。

模型预测控制 (MPC) 是一种常见的控制方法，一种满足上述这两个标准的通用方法。关键思想是在每个时间步“重规划”，只执行当前最优轨迹的第一步。由于每个时间步评估动作的可行性，该方法能够处理快速变化的场景。

经典 MPC 试图将规划问题表述为具有“给定”物理环境模型（系统动力学）的复杂优化问题。在基于模型RL 设置中，作者把MPC 与数据驱动的状态预测模块结合，用快速简单的规划算法代替复杂优化算法。所提出方法的优点包括：数据高效、模型可解释、稳定和跨场景迁移（稳健）。

MPC的规划方法包括4个步骤：

(1) 每个时间步生成序列，每个序列包含ℎ个动作，其中是测试轨迹数，ℎ是规划范围。
(2) 每个轨迹，依次将总ℎ动作输入状态预测模型，计算每一步的未来状态和成本。
(3) 汇总每个轨迹的成本。
(4) 选取累积成本最低的轨迹，执行该轨迹的第一个动作。

整个端到端算法如下所示：

该端到端算法包含 3 个主要阶段：预热阶段（收集数据）；训练阶段（估计状态预测模型）和路径规划阶段（避免碰撞）。这 3 个步骤遵循基于模型 RL 方法的过程：收集经验、估计模型和用估计模型进行规划。测试（规划）阶段的经验可被加入重放内存，重新训练模型，保证部署之后仍然可以改进模型。

如图所示是2 种碰撞紧要情况：主要源于图中灰色车辆的非法或侵略性变道；红色车辆处于灰色车辆的盲点，这种情况在现实世界中会出现。

在CARLA中模拟4 辆车，如图所示：黄色车辆代表“有故障”的 HDV，而 CAV 为红色。

图中黄色 HDV 希望超车越过灰色车辆，但未能识别其盲点中的红色车辆 (CAV)。这种激进的变道可能会导致碰撞，尤其是在驾驶环境紧凑的情况下（CAV 不能用力刹车，因为这会导致与蓝色 HDV 发生追尾）。需要 CAV 产生一系列机动，避免系统崩溃。在模拟中，还建立黄色 HDV 从左侧超车的场景，可能导致和右侧 CAV 的侧面碰撞。

模拟步长为0.05s/step（或20step/s），黄色HDV的激进超车动作是通过Logitech G27 Racing Wheel手动驾驶生成。另外，作者开发了一个 Open AI gym 与 Python API 的接口连接 CARLA 模拟器。

如下是不同驾驶速度下成功避撞的实验结果比较：