基于数据正则化自博弈强化学习的人类兼容型自动驾驶-51CTO.COM

自动驾驶汽车面临的一个核心挑战是如何与人类合作。因此，在模拟环境中，将现实中的人类代理纳入到自主驾驶系统的可扩展训练和评估中至关重要。模拟代理通常是通过模仿大规模、高质量的人类驾驶数据集来开发的。然而，纯粹的模仿学习代理在多代理闭环环境中执行时经验上具有较高的碰撞率。为了构建在闭环设置中既逼真又有效的代理，研究人员提出了一种名为 Human-Regularized PPO（HR-PPO） 的多代理方法，其中代理通过与一个人类参考策略做自我对弈训练，并对偏离人类参考策略的行为施加了小的惩罚。与以往的方法相比，该方法以强化学习为主，仅利用了30分钟的不完美人类示范数据。在大量的多代理交通场景的评估中，HR-PPO 代理在实现目标方面非常有效，成功率达到 93%，越出道路的比率为 3.5%，碰撞率为 3%。与此同时，HR-PPO 代理以类似人类驾驶的方式行驶，在与人类驾驶协调的代理指标上表现出相当大的改进，特别是在高度互动的情景中。

当前的驾驶模拟器提供了基本的交互代理 - 简单的车辆跟随模型、基于规则的代理、记录的人类驾驶日志或模仿学习代理。这些模型无法创建具有挑战性的协调场景，或者在闭环中具有高碰撞率。