2021年12月3日在arXiv上传的论文“Learning a Robust Multiagent Driving Policy for Traffic Congestion Reduction“,作者是美国德州奥斯丁分校和GM研发实验室。
自动和自主驾驶汽车(AV)的出现为系统级目标创造了机会,例如减少交通拥堵。可以在各种模拟场景中学习多智体减少拥塞的驾驶策略。虽然最初POC是集中控制器的小型封闭交通网络,但最近现实的环境已经证明成功,其中分散控制策略运行在车辆进入和离开的开放道路网络。然而,这些驾驶策略大多是训练的相同条件下进行测试的,尚未经过不同交通状况的鲁棒性全面测试,而这是实际场景的关键要求。本文提出了一种可学习的多智体驾驶策略,对各种开放网络交通条件具有鲁棒性,包括车辆流量、自动驾驶车在交通中的比例、布局和各种合并道路几何等。
考虑一个有主路和合并路的道路网络,如图所示。有车辆加入和离开网络,交通由人工驾驶和自动驾驶车辆组成。
假设人类驾驶员是自私的,并最优自己的出行时间,而自动驾驶车辆(AV)则是利他的(altruistic),愿意减少交通拥堵。目标是制定一种驾驶策略,控制每个AV,提高交通吞吐量(流出量)。策略可以通过手工编程或学习编码。强化学习(RL)已被证明能产生更好的策略,因此是首选方法。
减少拥堵的驾驶政策既可以是集中式,根据全球系统信息同时控制所有车辆,也可以是分散式的,每辆车根据其局部观测独立控制。没有车-车通信的分散式策略最现实,主要依赖于自身感知和驾驶能力,该文就采用这个。为了提高数据和计算效率,降低过拟合的风险,所有AV都学习并执行单一共享的驾驶策略,学习的参数量相对较少。
该多智体交通拥堵缓解问题可以描述为一个离散时间、有限的分散式部分可观测马尔可夫决策过程(DecPOMDP)。一个分散式、共享的驾驶策略是,在行动空间的一个概率密度函数,随机地将每个智体的局部观测映射至驾驶行为。
状态转换隐式地由开源软件SUMO的模拟环境控制。SUMO模拟人类驾驶模型对人类车辆运动进行建模,参数化并改变驾驶特性,如变道时的攻击性。SUMO还有强制车辆遵守安全规则和限速的机制。用加州大学伯克利分校的Flow软件与SUMO进行交互,Flow提供OpenAI Gym环境做为SUMO的包装,便于与各种强化学习(RL)算法实现交互,可指定进入每条道路的车辆数(流入量,车辆/小时),获取网络中车辆的位置和速度,控制每辆车的加速度,并测量流入量、流出量(车辆/小时)和平均速度(米/秒)。
基于与SUMO交互的Flow框架,使用近策略优化(PPO)算法开发分散式驾驶策略。本文根据作者以前论文(“Scalable multiagent driving policies for reducing traffic congestion“,arXiv,2021)采用的AV模型,对每个AV使用观测和奖励设计。每个AV的观测结果如下所示:
- 自车前后的最近车速度和距离,
- 当前车辆的速度,
- 从智体到下一个合并点的距离,
- 下一辆合并车辆的速度及其到合并路口的距离(假设其由车辆的摄像头/雷达得到,或由一些全球基础设施计算得到,与所有车辆共享)。
每个观测值,都通过其最大可能值,规范化成[0,1]的范围。而奖励函数定义为:
为了证明性能,将每个经过训练的策略与人类基准方法进行比较,其中网络中的所有车辆,都由SUMO提供的人类驾驶模型控制。每个人驾驶的车辆贪婪地最大化其速度,同时保持跟其领车预期的时间间隔。这种明确制定的策略不能很好地处理紧急合流车辆,可能导致潜在交通拥堵。
该文重点学习一种鲁棒的AV控制策略,可在一系列现实交通条件下减少交通拥堵,其特点是:
- 主流入率:主干道的流入交通量(车辆/小时);
- 合并流入率:合并路的流入交通量(车辆/小时);
- AV位置:AV在交通流中出现的位置;AV,可以在模拟的人类驾驶车辆中,均匀或随机地出现;
- AV渗入率:自主控制车辆的百分比;
- 合并道路几何:两个合并交叉点之间的距离。
将合并流入速率固定为 200 车辆/小时,并将主流入率范围设置为 [1600, 2000] 车辆/小时(模拟中造成从低到高的拥塞),AV 渗透率 (AVP) 在 [0, 40]% 以内。AV位置可以是随机的,也可以是均匀的。为均匀放置,每N辆人类驾驶车辆就会放置一个AV。对随机放置,AV被随机放置在模拟的人类驾驶车辆中。合并道路几何包括距离在 [200, 800] 米之间变化的一次或两次合并。
虽然现实世界中减少拥堵驾驶策略需要在各种交通条件下有效地运行,但大多数工作,在和策略训练相同的条件下,进行测试。在现实世界中,对每种条件组合,部署单独的策略是不切实际的。因此这里主要目标是,要了解学习对现实世界交通条件变化采取鲁棒性的单一驾驶策略是否可行,明白如何找到此类策略。
基于RL驾驶策略的性能,取决于训练时的交通状况。做改变此类训练条件的详细实验发现,在高流入量、中等AV渗透率和随机车辆放置条件下,训练的策略对各种实际感兴趣的现实条件具有鲁棒性。结果是在比较了30个策略后得出的,每项策略都是在多种交通条件组合下进行训练的。在3.7 GHz Intel 12核i7处理器上,每个策略的训练大约需要7小时。每个策略使用相同的100个随机种子进行100次评估,每次评估大约需要1小时。
将交通条件沿其定义维度离散化为总共30种具有代表性的条件组合:考虑主流入为1650, 1850和2000车辆/小时,车辆在主路上“均匀”或“随机”布置。在均匀车辆布置中,两辆RL车辆之间的车辆数量是固定的,而在随机车辆布置中,所有车辆随机分布在主路上。将训练AV渗透率分为五个级别:10%、30%、50%、80%、100%。基于3×2×5离散化,训练了30个策略,每种条件组合一个策略。
然后,在前面提到的交通条件对每个经过训练的策略进行评估,得出相应的数据点,描述产生的流出量和平均速度。这些数据点用以下约定进行标记。数据点的标签由两部分组成:(i)待评估策略的训练条件,以及(ii)策略的评估条件。这个策略的训练条件表示车辆安置、主流入量、合并流入量和AV渗透率,以“-”分隔。例如,“random-2000-200-30”表示在随机车辆安置下训练的策略,主流入量为2000辆/小时,合并流入量为200辆/小时,AV渗透率为30%。
在训练和评估期间,AV可以均匀或随机地放置在交通中。在现实世界部署经过训练的策略时,典型的AV布局是随机的,除非AV运营商特意地均匀分布AV。虽然均匀布局很难部署,但可能更容易训练,因为生成数据的熵较低。
这些策略子集性能如图所示:
红色曲线表示在随机车辆放置情况下训练策略的评估结果,蓝色曲线表示在均匀车辆放置情况下训练策略的结果。在随机车辆布置(图a)和均匀车辆布置(图b)下,用流出量和平均速度这两个指标对这些策略策进行评估。在评估随机放置或均匀放置时,随机放置训练的策略优于人类基准方法以及均匀放置训练的策略。具体而言,图a中的结果证实了一种直觉,即随机车辆安置进行评估时,在随机车辆安置下训练策略应比在均匀车辆安置下训练的政策具有更好的性能。然而,与直觉相反,训练时随机放置也会在均匀放置测试时产生更稳健的策略。假设这种性能的提高是由于随机放置RL车辆时收集的数据更加多样化。
先验而言,目前尚不清楚AV渗透率对于提高训练策略鲁棒性的理想方法是什么。一方面,由于更多AV收集更多的数据,训练期间较高的AV渗透率有望通过收集更多训练数据找到更好的策略。另一方面,一个较小AV渗透率在训练过程中学习一个控制之下系统的策略,并且当添加更多AV时,期望它与一个过度控制之下系统一起工作。
在一系列AV渗透率下训练了不同的策略,对其在不同AV渗透率和主流入量下的表现进行全面比较。评估结果的代表如图所示:
图a–图c显示,当确定主流入量时,在AV渗透率 30%(红色曲线)下训练策略在不同AV渗透率下评估,其流出量和平均速度都具有竞争力,在各种评估AV渗透率中都具有最佳性能。如果修正AV渗透率,但在评估期间改变主流入量,那么图d–图f表明,在AV渗透率30%下训练策略,与不同AV渗透率下训练策略相比,仍然具有显著优势。
可以假设,这些中等AV渗透率在训练期间表现最好,因为(i)策略经过良好训练,有足够的AV收集训练数据;(ii)有一定数量的人类驾驶车辆,所学的策略,对减少这些人类驾驶车辆造成的交通挤塞,是有用的。
对于所选择的车辆布置和AV渗透率,剩下的问题是,是否能够确定训练期间使用的最佳主流入量。实验发现较高的主流入量带来更鲁棒的策略。
根据AV渗透率30%和不同主流入量,对经过训练策略进行全面比较。评估结果的代表如图所示:
在评估期间确定主流入量和不同的AV渗透率时,图a–图c显示,在主流入量2000辆/小时(绿色曲线)下训练的策略,在流出量和平均速度方面,都比在AV渗透率 30%和不同主流入量下训练的其他策略,有更好的表现。类似地,如果在评估期间固定AV渗透率但改变主流入量,则在主流入量2000辆/小时下训练的策略在所有用AV渗透率 30%训练的策略也具有最佳性能。
可以假设,在最高流入量下训练策略优于其他策略,因为较高的主流入量在训练时产生更多不同的车辆密度。具体而言,模拟动力学可导致高流入量,包括密集车辆放置和稀疏车辆放置,而较低的主流入量往往导致稀疏车辆分布。
进一步分析策略对其他现实条件的鲁棒性。
自动驾驶车辆充当驾驶策略的控制器,用来影响交通流。如果道路上AV太少,该策略可能无法影响交通流。随着AV数量的增加,影响流量的能力增加。一个实际问题是,为了实现统计上显著的拥塞减少效果,需要多少AV。
为进行敏感性分析,首先采用先前的最佳策略(random-2000-200-30),然后将其性能与不同评估AV穿透率下的人类基准方法进行比较。在相同流入量和AV渗透率情况下评估,收集选定策略和人类基准方法的流出量。结果如图所示:
随着在评估期间增加AVs数量,流出量性能也会增加。与纯人类基准方法相比,为了确定显著改善所需的最小AV量,进行独立样本t-test,收集p-value,其确定所选策略流出量是否比纯人类基准方法统计上显著改善。用p- value 0.001作为显著性截断,当部署时AV渗透率量大于或等于2%时,所选策略的性能明显优于人类基准方法。
发现最鲁棒的策略,即random-2000-200-30,是在单车道、单合并场景中学习的。选更复杂道路结构,两条不同距离的合并路,测试该策略对此的鲁棒性。考虑图中两条合并道路的交通网络。
实验中,第一个合并匝道位于模拟主路起点500米处,第二个合并匝道位于第一个合并匝道之后200、400、600或800米处,主路总长1500米,合并路总长250米。测试random-2000-200-30策略,采用随机AV放置,主流入量为1800辆/小时,合并流入量为200辆/小时,采取一系列AV渗透率和两条合并路之间的上述间距。
结果如图所示:
其中蓝色曲线显示待测试策略的性能,红色曲线显示人类基准方法的性能。random-2000-200-30策略比人类基准方法更好,即使合并闸道距离仅200米。当增加这两个入口匝道之间距离时,性能会提高。当距离较小时,第二个合并匝道处的交通拥堵会干扰第一个合并匝道处的交通流,但是靠近第一个匝道的RL车辆无法观测这些。随着增加这两个合并匝道之间的距离,这种干扰会减少,靠近这两个合并匝道的交通流AV可以越来越独立地处理。因此,当这两个合并匝道距离变得更远时,AV的决策过程类似于单一合并道路的决策过程—只需要考虑下一个进入路口的交通流。相应地,所选择的策略有效地减少双匝道场景的交通拥堵;随着这两个闸道之间距离的增加,其性能也会提高。
本文提出了一种学习减少拥堵的驾驶策略,在道路合并场景中,在实际感兴趣的交通条件下鲁棒地执行。具体而言,该策略降低了AV渗透率0%-40%的拥堵,减少了1600辆/小时(轻度拥堵)至2000辆/小时(重度拥堵)的交通流量,还有交通中随机AV设置以及两条不同距离合并的道路。发现该策略的过程包括(i)通过扫描实际感兴趣的交通条件空间来生成测试基准,(ii)在随机AV放置和扫描车辆流入空间和AV渗透率产生的条件组合上训练30个驾驶策略,以及(iii)选择性能最高的策略。
虽然最近人们对开发通用的鲁棒RL训练方法越来越感兴趣,但是实验发现,随机化AV设置,以及交通条件空间上搜索有效的训练设置,可以有效地实现鲁棒性。