强化学习应用在自动驾驶中:一种通过人指导并基于优先经验的方法

人工智能 无人驾驶
强化学习(RL)需要定义和计算来解决优化和控制问题,这可能会损害其发展前景。将人的指导引入强化学习是提高学习性能的一种很有前途的方法,本文建立了一个基于人指导的强化学习框架。

[[428302]]

 arXiv在2021年9月26日上传的论文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者来自新加坡NTU(南洋理工)。

强化学习(RL)需要定义和计算来解决优化和控制问题,这可能会损害其发展前景。将人的指导引入强化学习是提高学习性能的一种很有前途的方法,本文建立了一个基于人指导的强化学习框架。

所提出的是一种在强化学习过程中适应人指导的 优先经验重放(prioritized experience replay,PER) 机制,提高RL算法的效率和性能。为减轻人的繁重工作量,基于增量在线学习(incremental online learning)方法建立一个行为模型来模仿人。

作者设计了两个具有挑战性的自动驾驶任务来评估所提出的算法:一个是T-路口无保护左转,另一个是高速堵车。

最近强化学习引入深度神经网络提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能够处理高维环境表征和泛化等。

不过问题是环境和智体的交互比较低效率。为此引入人的指导,有3个途径:1)人的专家反馈,给行为打分(behavior score);2)人的干预,一般是reward shaping方法;3)人的演示,上下文中监督学习。

如图是本文方法的RL算法框架:

提出的基于人指导优先经验回放(PER)机制中,TDQA表示提出的优先计算方案,即Time Difference Q-advantage,数字1-4表示数据的流向顺序,动作信号的虚线表示该框架允许间歇性的人在环(human-in-the-loop )的指导。

强化学习基于离散MDP来定义交互过程,这里采用不带策略的AC(actor- critic)架构。策略函数(即 actor )最大化价值函数Q,Q来自累计的未来reward,基于一个Bellman价值函数(即 critic )。

这个Bellman 价值函数只对最优策略进行评估,而不管执行交互的策略。 因此,RL 将策略评估过程和策略行为解耦,这使智体以一种不带策略的方式更新状态。

作者用神经网络作为函数逼近来制定actor和 critic,然后可以通过损失函数实现目标。

传统上,缓冲区存储的经验服从均匀分布,用均匀随机抽样从缓冲区获取批量经验,用于 RL 训练。在有限经验重放机制中,经验受制于非均匀分布,实际优先级取决于TD误差(temporal difference error)。

较大的 TD误差表明,经验值得在更高程度上学习。 因此,基于 TD误差的优先经验回放(PER)机制可以提高 RL 的训练效率。

在强化学习的训练中,采用了两种人指导的行为方式:干预和演示。

干预 :人的参与者识别 RL 交互场景,并根据先验知识和推理能力确定是否应该进行指导。 如果人参与者决定进行干预,可以操纵设备从 RL 智体(部分或全部)获得控制权。 干预通常发生在 RL 智体做灾难性操作或陷入局部最优陷阱。 因此,RL 可以学会避免干预出现的不利情况。

演示 :当干预事件发生时,人的参与者会执行行动,产生相应的奖励信号和下一步状态。 生成的转换组(transition tuple)可以看作是一段演示数据,因为是由人策略而不是 RL 行为策略造成的。 RL 算法可以从演示中学习人的专家行为。

在 RL 智体与环境的标准交互中,RL 的行为策略会输出探索环境的动作。一旦动作被发送到环境,交互的转换组将被记录并存储到经验重放缓存(buffer)。 特别注意的是,来自人的策略和 RL 策略的操作存储在同一个缓冲区中。

由于先验知识和推理能力,人的演示通常比 RL 行为策略的大多数探索更重要。 因此,需要一种更有效的方法来加权缓存的专家演示。 文中采用一种 基于优点的度量( advantage-based measure  ,而不是传统的优先经验重放(PER) TD 误差,以建立优先专家演示重放机制。

除了TD 误差度量外,该优点度量(因为基于Q计算,故称为 QA ,即 Q-advantage )也评估应该在多大程度去检索特定的专家演示转换组。通过 RL 训练过程,RL 智体的能力发生变化,一个专家演示转换组的优先级也随之变化,这就产生了动态优先机制。整个机制称为 TDQA ,把两个度量组合成一个对人的指导测度。

优先机制引入了对价值函数期望估计的偏差,因为它改变了缓存中的经验分布。 有偏的价值网络对强化学习渐近性影响不大,但在某些情况下可能会影响成熟策略的稳定性和鲁棒性。 作为可选操作,可以通过引入重要性采样(importance-sampling )权重到价值网络的损失函数,来退火偏差。

下面讨论人的参与者在 RL 训练环的行为:人的参与者可以干预该过程获得控制权,并用专家行动替代 RL 智体行动;由于持续重复训练情节和未成熟的 RL 策略,人的参与者在训练过程中不断进行演示显得很乏味,因此间歇性干预(intermittent intervention)成为更可行的解决方案。 这种情况下,人参与者只会干预那些关键场景(灾难行为或陷入局部最优)拯救 RL 智体并延长训练时间。

这里采用reward shaping方法,可防止 RL 陷入那些人为干预的状态。 然而,它仅在一个人为干预事件的第一时间触发惩罚。 这背后的原理是,一旦人的参与者获得控制权,其专家演示会惯性地持续一段时间,这里只有最初的场景被确认为关键场景。

下面把上述组件集成在一起,即优先人在环( Prioritized Human-In-the-Loop,即PHIL ) RL。具体来说,通过基于人指导的actor- critic框架,配备优先专家演示重放和基于干预的reward shaping 机制来获得整体的人在环 (human-in-the-loop)RL 配置。 基于不带策略 RL 算法,即双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),来实例化这个 PHIL 算法。 上述组件适用于各种 不带策略的 actor-critic RL 算法。

最后,整个PHIL-TD3算法总结如下所示:

结合前面的PHIL-RL,需要一个人的策略模型。该模型通过模仿实际人参与者的行为策略,来减轻人在环 RL 过程的工作量。

虽然人参与者进行 PHIL-RL 对提高性能最有帮助,但过度参与会使人疲劳。 作者训练了一个回归模型,与 RL 运行同时模仿人类策略,这个策略模型在必要时可以替代人。

分析一下RL 训练过程的人行为:人类干预间歇性地施加到环中,人演示逐渐补充到训练集(缓存)中;考虑到这一点,利用在线-和基于增量-的模仿学习算法(即Data Aggregation,DAgger)训练人策略模型,该算法不受离线大规模演示数据的收集影响。

注意:如果使用这个人策略模型与 PHIL 合作,模型的激活条件将根据特定环境手动定义。

下面讨论如何应用在自动驾驶场景:选择端到端问题的两个应用,即T-路口无保护左转和高速堵车。

如图是自动驾驶任务的环境配置: a 在 CARLA 建立的 T -路口设计的无保护左转场景; b 左转场景鸟瞰图,红色虚线表示左转轨迹; c 设计的在 CARLA 建立的高速公路拥堵场景; d 拥堵场景的鸟瞰图,其中红色虚线表示跟车轨迹。

T-路口无保护左转 :小路的自车试图左转并汇入主干道,路口没有交通信号引导车辆;假设自车的横向路径由其他技术规划,而纵向控制分配给 RL 智体;周围车辆以 [4, 6] m/s 范围随机的不同速度进行初始化,并由intelligent driver model (IDM) 控制执行车道保持行为;所有周围的驾驶员都具有侵略性,这意味着他们不会让路给自车;所有车辆的控制间隔设为 0.1 秒。

高速拥堵 :自车陷入严重拥堵并被其他车辆紧紧包围; 因此它试图缩小与领先车的差距,并以目标速度进行跟车;假设纵向控制由 IDM 完成,目标速度为 6m/s,而横向控制分配给 RL 智体;周围车辆初始化速度范围为 [4, 6] m/s,并由 IDM 控制以执行跟车行为;所有车辆的控制间隔设置为 0.1 秒;拥挤的周围车辆覆盖了车道标记,而自车道没有特定的前车,在这种情况下可能导致传统的横向规划方法无效。

下面定义RL的状态

RL的动作对两个场景是不同的:

T-路口左转

高速拥堵

奖励(reward)对两个场景也是不同的:

T-路口左转

高速

价值和策略函数的近似采用Deep CNN,如图所示:a)策略函数;b)价值函数

辅助函数:主要做车辆控制;当RL操纵方向盘时,纵向控制由IDM实现;当 RL 操纵踏板缝隙时,横向运动目标是通过比例积分 (PI) 控制器跟踪规划的航路点。

实验比较的基准算法是:

  • IA-TD3:Intervention Aided Reinforcement Learning (IARL)
  • HI-TD3:Human Intervention Reinforcement Learning (HIRL)
  • RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
  • PER-TD3:vanilla Prioritized experience replay (PER)

RL训练和推理的实验工作流如图(a-b)所示:

训练 硬件包括驾驶模拟器和高性能工作站。驾驶模拟器用于收集人驾驶数据以训练人的策略模型,工作站专门处理 RL 训练。 采用高保真自动驾驶仿真平台 CARLA来实现驾驶场景并生成RL-环境交互信息。

测试 硬件是机器人车辆。训练后的RL策略在车辆的计算平台上实现,通过无线网络与CARLA服务器进行通信。车载 RL 策略从 CARLA 接收状态信息并将其控制命令发回,远程操作完成自动驾驶任务。机器人车辆旨在测试 RL 策略在当前车载计算和通信情况下是否有效。

部分实验结果比较如下:

作者提出了一种算法 PHIL-TD3,旨在提高人在环 (human-in-the-loop )RL 的算法能力。 另外,引入了人的行为建模机制来减轻人参与者的工作量。 PHIL-TD3 解决两个具有挑战性的自动驾驶任务,即无保护T-路口左转和高速拥堵。

 

责任编辑:张燕妮 来源: 知乎
相关推荐

2023-01-04 10:02:53

强化学习自动驾驶

2023-08-05 13:08:54

2021-10-15 15:29:59

自动驾驶数据人工智能

2023-06-13 10:00:21

自动驾驶技术

2017-07-30 15:16:31

深度强化学习迁移交叉路口

2024-04-10 14:10:33

自动驾驶强化学习

2024-03-22 09:21:07

自动驾驶训练

2021-10-18 10:32:32

自动驾驶数据人工智能

2023-11-20 09:53:13

自动驾驶系统

2017-07-21 10:42:27

自动驾驶应用机器学习

2009-12-25 15:11:08

FTTH应用

2024-03-08 09:29:42

车道检测AI

2021-10-09 09:44:50

自动驾驶数据人工智能

2022-02-07 22:52:07

自动驾驶安全技术

2023-03-23 18:42:45

AI强化学习

2021-12-16 10:45:22

自动驾驶数据人工智能

2022-06-21 14:53:39

自动驾驶物联网传感器

2024-10-10 09:26:07

2022-07-12 09:42:10

自动驾驶技术

2023-04-11 07:46:11

平台arthas线诊断
点赞
收藏

51CTO技术栈公众号