面向无信号交叉口的自动驾驶解决方案！涵盖强化学习的超全综述！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

目前，自动驾驶系统的发展愈发的成熟，但在无信号交叉路口的自动驾驶技术仍然被认为是机器学习的一个具有挑战性的应用，因为处理具有高度不确定性的复杂多智能体场景对于模型而言还是非常复杂的。因此，如何在这些无信号的交叉路口等安全关键环境中实现决策过程的自动化涉及场景理解以及学习稳健的驾驶行为相关的多个抽象层次，以使自动驾驶车辆能够进行高效的导航。

对于自动驾驶系统的决策任务而言，采用了层级的结构进行表示。各个层级分别包括规划下一步要去哪里、根据车载传感器的观察结果在短期和长期时间范围内做出决策、在同一环境中与其他智能体交互的影响下做出决策、确保车辆控制安全可靠、从驾驶历史信息和自然的人类驾驶风格中学习、与其他车辆协调共同执行某些任务。然而，在城市交叉路口的背景下，要使自动驾驶汽车能够在如此复杂的环境中安全高效地行驶，需要高度的自主性。但是对于目前的自动驾驶汽车，即使是完全自动驾驶的汽车，也无法始终完全安全行驶，也无法保证由于关键的决策错误而实现无碰撞的操作。

在无信号交叉口做出决策是一个非常棘手的过程。复杂的驾驶行为和交通控制信号的消失使得对其他交叉口用户的运动推断极具挑战性，如下图所示。

不同类型的无信号灯的交叉路口

基于此，目前在学术界和工业界已经进行了大量研究来探讨提高无信号交叉口驾驶安全性的算法。根据我们的深入调查，我们发现所提出的决策算法可以分为三大类：合作方法，包括博弈论、基于启发式的方法和混合方法。然而，上述这些方法由于需要调整的规则数量众多，因此设计此类规则以适应各种可能的交叉情况是一个繁琐的过程。基于机器学习的方法，尤其是强化学习方法，侧重于从车辆与交叉路口环境之间的交互中学习驾驶策略。目前，有不少的文献中已经广泛研究了应用现代基于强化学习的方法来学习无信号交叉口的最佳驾驶策略。

但是与现有的关于自动驾驶汽车强化学习的综述论文相比，我们的论文方法综述更加地关注基于强化学习的决策技术，特别是针对无信号交叉口这一领域，该领域尚未在文献中得到全面涵盖。基于此，本文将聚焦于在与无信号交叉口自动驾驶汽车行为运动规划相关的各个方面。

论文链接：https://www.arxiv.org/pdf/2409.13144

不确定性下的自动驾驶

无信号交叉口其他交叉口车辆运动预测的不确定性是由以下因素引起的

路口使用者的未知意图：其他路口参与者的运动与自身车辆的未来轨迹高度相关。因此，为了实现安全的路口导航，必须获得路口用户的精确运动预测。推断意图的主要困难来自于未知当前状态和隐藏变量的内在不确定性，即未知的最终目的地及其不可预见的未来纵向路径，以及它们与主体车辆交互的可能性。
传感器观测的噪声特性：从安装的传感器收集的测量值相关的噪声为决策问题增加了另一层不确定性。
环境遮挡、感知受限：环境障碍和遮挡会阻碍准确观察场景的能力。

下图展示了在四向无信号交叉口这些不确定性的来源示例。在设计复杂交叉路口环境中基于学习的决策方案时考虑这些不确定性对于自车安全穿越交叉路口至关重要。

在交叉路口穿越场景中，自主车辆需要处理与接近车辆相关的几种不确定性

驾驶员意图推理

准确推断和预测无信号交叉口处驾驶员的意图对于解决事故原因和确保如此多样化的多智能体环境中的道路安全至关重要。为了开发DII应用的算法，人们进行了多项研究。这些算法将意图推理问题作为分类问题来解决，其中意图根据驾驶行为进行分类，这些DII方法可以分为两类：基于索引的方法和基于学习的方法。在基于索引的方法中，安全指标用于检查交叉路口的驾驶行为，以制定风险评估方案。另外一类基于经典机器学习分类技术也已被用于意图推理应用当中。

近年来，受建模序列任务方面的有效性的启发，研究人员采用了深度结构化的循环神经网络来确定无信号交叉口处驾驶员的意图。下表总结了所调查的基于深度学习的意图推理方案，强调了它们的研究目标和重要特性。

决策挑战

由于深层结构神经网络在处理大型部分可观察状态-动作空间方面的优势，主要研究方向是开发基于学习的方案，以解决与自主穿越无信号交叉口相关的问题。因此，我们主要调研并介绍开发基于学习的不确定性决策算法所涉及的主要设计挑战，以及对相关最新解决方案的回顾。

（1）部分可观测性

在真实的多智能体自动驾驶环境中，智能体对其所交互的环境的信息不完整。因此，在这样的环境中设计一个强大的决策框架被认为是一个棘手的问题。在实际过程中，这类问题通常被建模为POMDP，学习一种驾驶策略以提供安全的操作，同时考虑到推断意图和运动规划过程中固有的随机性。下图展示了利用设计的LSTM网络架构来处理POMDP并表示四向停车无信号交叉口的决策问题。

通过上图可以看出，每个时间戳的动作输出是根据每个单独时间戳中网络的第一个LSTM和全连接层的观察输入获得的。随后，通过将前一步处的动作与当前步骤的观察作为第二个LSTM和全连接层的输入来生成Q值。

（2）连续动作空间中的训练

在现实的自动驾驶中，需要自主代理的持续动作才能安全、高效地完成导航任务。为了确保所用模型和能力的收敛性，我们必须以鲁棒的方式来处理这些连续的空间。某些研究者采用了深度确定性策略梯度DDPG，用于在四向无信号交叉口环境中生成连续动作，而不是离散的动作。

下图展示了利用深度强化学习与基于安全的连续控制相结合的方法，用于学习自动驾驶和防撞应用的最佳策略。由于这类集成策略很好的证明了在学习高速公路无碰撞驾驶策略方面的实用性，因此将这种高级深度强化学习方案与控制律相结合对于解决无信号交叉口框架内的连续控制问题至关重要。

既实现了基于Value的方法，又实现了基于Policy方法的示意图

（3）在高维状态-动作空间中进行训练

深度强化学习的核心是执行迭代优化过程来学习特定任务的策略。然而，随着状态-动作空间变大，迭代次数会呈指数增长。相关论文中提出一种CPPO网络框架，用于增强无信号交叉口自动驾驶汽车的标准PPO算法，详细的网络结构如下图所示。

此外，还有一些工作是基于图网络进行实现的，但是某些论文中提出，当前基于图的方法的局限性，这些方法无法涵盖整个道路网络，并且过度依赖手工制作的特征来进行车辆间交互建模，如下图所示。

通过上图可以看出，为了解决这些缺点，作者提出了一个框架，该框架可以在异构有向图中捕获道路网络和交通参与者的复杂性。这种表示可以处理不同的元素，例如，各种类型的车辆、行人、骑自行车的人、交通标志等及其独特的属性，从而捕捉道路网络及其用户的复杂性，而传统图表可能无法捕捉到全部范围并依赖于静态的手工制作的特征。然后，该图被巧妙地转换为具有可学习边缘的更简单的车辆图，表示连接车辆的路线。这使得强化学习算法能够在简化但有效的环境表示上运行，重点关注车辆在道路上行驶时的动态交互。相关的实验验证表明，具有可学习边缘特征的所提方案的性能得到了显着改善。这种增强表明车辆关系的表示更有效。

讨论和研究方向

根据相关论文的深入调查，可以得出结论，最先进的决策方案侧重于高级决策层，即行为路径规划的高级推理，而忽略了先前提出的其他低级层，包括低级运动规划和控制。此外，没有研究在真实驾驶环境中的实施和测试。实际上，由于领域不匹配，基于模拟的环境中强化模型的收敛并不一定能确保在现实场景中的可推广性。现实世界的观察在相关噪声序列和车辆动力学响应方面有所不同。因此，我们建议基于这些见解来进行相关研究的途径，以期推动研究领域的发展。

运动规划与低级控制集成

许多研究论文利用MPC原理探讨了城市无信号交叉口的运动规划问题和控制。从实际角度来看，在城市自动驾驶中实现精确决策需要将考虑车辆动力学的运动规划和低级控制层与基于强化学习的行为规划器相结合。这种集成对于确保基于强化学习的行为规划器操作可行至关重要。因此，在学习交叉路口穿越策略时结合运动规划层将确保可行的操作和高保真度，同时考虑到横向和纵向动力学。

此外，我们也将基于SAC的行为路径规划层与基于MPC的运动规划层的集成论文汇总在了下表中，该类方法可以实现更快的收敛速度和更高的成功率。

正如我们强调的分层决策的重要性，它集成了决策层，用于在复杂的多智能体环境中学习遍历策略，这些原则可以应用于应对更复杂的无信号交叉口环境所带来的挑战，这些交叉口环境的特点是遮挡和环境障碍阻碍了准确感知的实现。此外，在具有各种形状和几何形状的交叉口环境中，还有潜力提高模型的准确性和导航能力。

真实世界实验验证

如下表所示，大多数回顾过的方案都已在基于模拟的环境中进行了测试。这可能是有效的，因为强化学习技术需要收集大量基于现实世界的训练数据，这会耗费大量的精力和时间。

实际上，从建模传感器流式传输的模拟观测数据与真实数据具有不同的数据分布，这可能导致无法在未见过的真实数据上进行泛化。模拟数据分布与真实数据分布之间的差异，例如合成图像生成或车辆动力学中的不准确性，被称为现实差距。众所周知，在没有明确考虑现实差距的情况下，在模拟中训练的代理很难迁移到真实环境。为了纠正这个问题，引入了模拟到真实的迁移学习技术，以进一步促进在真实环境中训练强化学习方法。本文重点介绍了一些已在现实场景中得到验证的技术，以及认为在理论上或在机器人技术的其他领域很有前景但需要在现实场景中真实大小的车辆进行实验验证的其他技术。在那些具有验证结果的技术中，我们引入了域随机化和域自适应。虽然没有在模拟之外进行测试，但对抗性强化学习技术表现出对环境扰动的改进的鲁棒性。

受到GAN的启发，人们甚至可以对抗性地扰乱环境，以误导和破坏代理的稳定性。这种行为如下图所示，在自动驾驶中尤为明显，因为自动驾驶参与者的出错率预计远低于人类错误率。此外，自动驾驶驾驶员必须以人类从高层决策角度认可的方式行事。因此，风险规避算法是必要的，以避免可能被视为不必要的风险和危险。

如上图的子图(b)所示，基线算法将倾向于风险更高的驾驶习惯。随着方案的引入，训练有素的代理的表现更符合人类的行为和决策，如子图(d)和(e)所示。

结论

本论文整体回顾了与无信号交叉口决策相关的挑战的各个方面，重点关注基于学习的相关算法模型。从解决的驾驶场景、所涉及的挑战、提出的基于学习的设计以及在模拟和现实环境中的验证等方面讨论了这些工作。