在混合交通流中网联自动驾驶车如何避撞:一个基于模型的强化学习方法

人工智能 无人驾驶
本文研究混合交通流,即网联自动驾驶车 (CAV)、人类驾驶汽车 (HDV) 和网联人类驾驶车辆 (CHDV)组成,最近这种研究方向的论文不常见。

[[429494]]

 arXiv上传于2021年10月11日的论文 “Addressing crash-imminent situations caused by human driven vehicle errors in a mixed traffic stream: a model-based reinforcement learning approach for CAV“,作者来自普渡大学的网联自动化交通中心(Center for Connected and Automated Transportation,CCAT),其中一个是从CMU的机器人研究所(RI)来的访问教授。

本文也是研究混合交通流,即网联自动驾驶车 (CAV)、人类驾驶汽车 (HDV) 和网联人类驾驶车辆 (CHDV)组成,最近这种研究方向的论文不常见。

本文开发一个简单的基于模型的强化学习 (RL) 系统,部署在 CAV上生成预测和避免HDV引起碰撞的轨迹。该模型涉及端到端的数据驱动方法,包含基于深度学习的运动预测模型和通过MPC的快速轨迹规划算法。

这个系统不需要车辆动力学的物理环境先验知识或假设,是一种可以部署在任何类型车辆(例如卡车、公共汽车、摩托车等)的通用方法。在 CARLA 模拟器进行多个即将发生碰撞场景的训练和测试。

大家认为有车联网(V2X)的网联自驾车(CAV) 是实现零事故的关键。不过,仍然需要很多安全紧要的场景数据,往往这个比较稀少缺乏。

基于模型的强化学习(RL)利用数据估计状态转换模型,然后根据估计模型进行规划。 这种组合方法从两种方法中获益:数据/训练的高效和模型不可知性。

一般来说,用于AV轨迹规划的基于模型RL方法包含2个模块:状态预测和路径规划。 状态预测作为对物理环境的估计,专门解决从先前信息推理未来状态的问题。 换句话说,它根据历史轨迹“告诉”周围目标在不久的将来(预测范围)将达到的状态(位置、速度、加速度等)。

这里状态预测模块是基于神经网络结构,实验中测试了三种模型,包括3-layer fully connected neural network (FCN), single layer long short-term memory network (LSTM), single layer FCN (linear regression)。因为周围车辆的变化,采用分散预测模式,而不是中心化模式,即每个智体有不同的状态预测模型。

路径规划建立在状态预测模型之上。由于状态预测不完美,规划模块应该稳健地输出安全路径来阻止错误传播。其次,规划模块应该适应高动态场景,特别是在新智体出现的情况下(行人突然横穿马路或周围车辆激进变道)。

模型预测控制 (MPC) 是一种常见的控制方法,一种满足上述这两个标准的通用方法。关键思想是在每个时间步“重规划”,只执行当前最优轨迹的第一步。由于每个时间步评估动作的可行性,该方法能够处理快速变化的场景。

经典 MPC 试图将规划问题表述为具有“给定”物理环境模型(系统动力学)的复杂优化问题。在基于模型RL 设置中,作者把MPC 与数据驱动的状态预测模块结合,用快速简单的规划算法代替复杂优化算法。所提出方法的优点包括:数据高效、模型可解释、稳定和跨场景迁移(稳健)。

MPC的规划方法包括4个步骤:

  • (1) 每个时间步生成 序列,每个序列包含ℎ个动作,其中 是测试轨迹数,ℎ是规划范围。
  • (2) 每个轨迹,依次将总ℎ动作输入状态预测模型,计算每一步的未来状态和成本。
  • (3) 汇总每个轨迹的成本。
  • (4) 选取累积成本最低的轨迹,执行该轨迹的第一个动作。

整个端到端算法如下所示:

该端到端算法包含 3 个主要阶段:预热阶段(收集数据); 训练阶段(估计状态预测模型)和路径规划阶段(避免碰撞)。 这 3 个步骤遵循基于模型 RL 方法的过程:收集经验、估计模型和用估计模型进行规划。 测试(规划)阶段的经验可被加入重放内存,重新训练模型,保证部署之后仍然可以改进模型。

如图所示是2 种碰撞紧要情况:主要源于图中灰色车辆的非法或侵略性变道;红色车辆处于灰色车辆的盲点,这种情况在现实世界中会出现。

在CARLA中模拟4 辆车,如图所示:黄色车辆代表“有故障”的 HDV,而 CAV 为红色。

图中黄色 HDV 希望超车越过灰色车辆,但未能识别其盲点中的红色车辆 (CAV)。这种激进的变道可能会导致碰撞,尤其是在驾驶环境紧凑的情况下(CAV 不能用力刹车,因为这会导致与蓝色 HDV 发生追尾)。需要 CAV 产生一系列机动,避免系统崩溃。在模拟中,还建立黄色 HDV 从左侧超车的场景,可能导致和右侧 CAV 的侧面碰撞。

模拟步长为0.05s/step(或20step/s),黄色HDV的激进超车动作是通过Logitech G27 Racing Wheel手动驾驶生成。另外,作者开发了一个 Open AI gym 与 Python API 的接口连接 CARLA 模拟器。

如下是不同驾驶速度下成功避撞的实验结果比较:

 

责任编辑:张燕妮 来源: 自动驾驶的挑战和发展
相关推荐

2023-08-05 13:08:54

2023-01-04 10:02:53

强化学习自动驾驶

2021-10-15 15:29:59

自动驾驶数据人工智能

2021-05-11 12:08:39

大数据自动驾驶数据分析

2024-04-10 14:10:33

自动驾驶强化学习

2017-07-30 15:16:31

深度强化学习迁移交叉路口

2021-10-12 10:28:34

自动驾驶数据人工智能

2022-08-26 14:44:32

强化学习AI

2023-07-18 15:57:23

自动驾驶

2023-03-23 18:42:45

AI强化学习

2024-03-19 13:12:36

自动驾驶模型

2024-12-09 08:45:00

模型AI

2023-11-20 09:53:13

自动驾驶系统

2024-02-20 11:26:07

物联网

2021-12-16 10:45:22

自动驾驶数据人工智能

2024-10-10 09:26:07

2022-11-21 11:50:59

2022-07-12 09:42:10

自动驾驶技术

2021-11-18 22:43:56

自动驾驶技术安全

2020-11-06 10:36:39

自动驾驶
点赞
收藏

51CTO技术栈公众号