arXiv上传于2022年2月10日的论文“Transferable and Adaptable Driving Behavior Prediction”,伯克利分校工作。
虽然自动驾驶汽车仍难以解决道路行驶中的挑战性问题,但人类早已掌握高效、可迁移和可适应的驾驶本质。通过模仿人类在驾驶过程中的认知模型和语义理解,HATN,一个分层框架,为多智体密集交通环境的驾驶行为生成高质量、可迁移和可适应的预测。这个分层方法由高级别意图识别策略和低级轨迹生成策略组成。其中定义一种新的语义子任务,并给出每个子任务的通用状态表示。有了这些技术,分层结构可以在不同的驾驶场景中迁移。
此外,该模型通过在线适应模块捕捉个人和场景之间驾驶行为的变化。在开源INTERACTION数据集,通过十字路口和环岛的轨迹预测任务展示该算法的性能。
提出的HATN(Hierarchical Adaptable and Transferable Network)框架由四部分组成:
1)左侧,提取自车的交互车辆,并构造语义图(Semantic Graph,SG)。在SG中,定义动态插入区域(Dynamic Insertion Areas,DIA)为图形的节点,自车可以选择插入其中。
2) 高级别的语义图网络(Semantic Graph Network,SGN)以SG为输入,负责对车辆之间的关系进行推理,并预测单个车辆的意图,例如插入哪个区域和相应的目标状态。
3) 低级别编解码网络(Encoder Decoder Network,EDN)接收每辆车的历史动态和意图信号,并预测其未来轨迹。
4) 在线适应(OA)模块根据历史预测误差在线适应EDN的参数,该误差捕捉个体和场景特定的行为。
如图是HATN的方框图:
下表正式阐明HATN每个模块的输入和输出:
关于各个模型的描述如下:
HATNSG (scene graph representation)SGNEDNMEKF(modified Extended Kalman Filter)
提取的DIA是一个动态区域,可以由自智体在路上插入或进入。每个DIA由前智体形成的前边界、后智体形成的后边界和参考线形成的两个侧边界组成。如图是DIA提取和SG构建过程:当其他车辆的车道参考线(通过Dynamic Time Warping 算法确认)与自车的车道参考线交叉时,基于冲突点,提取DIA并将其视为节点来构建SG。
为了推断任意两个节点之间的关系,受Graph Attention Network(GAN)的启发,设计一个基于注意的关系推理层。
一旦高级别策略决定了要去哪里,低级别策略就负责通过更精细粒度处理信息来实现这一目标,其从分层设计中得到好处:
1)学习被简化,因为车辆只需要关心自己的动力学,而交互、避撞、道路几何的考虑则留给高层策略来处理(信息隐藏);
2) 该策略仅为达到目标(奖励隐藏)而优化,这是可控和可解释的,因为不同措施的效果可以更好地验证;
3) 学习的策略可以在不同的场景中转换和重用。
在实践中,来自高级别策略的预测意图信号本身可能携带来自高层策略或数据分布的误差方差。实证发现,最佳性能表现在:
1)在Frenet坐标下;
2)包括速度和偏航等输入特征;
3)应用增量预测和位置对齐等表示技巧;
4)在输入特征中添加目标状态和解码步骤等意图信号。
不同的驾驶场景也不可避免地会产生额外的行为变化。因此,利用在线适应(基于卡尔曼滤波器)将定制的个人和场景模式注入到模型中。在线适应的关键点是,由于驾驶员无法直接沟通,历史行为可能是驾驶员驾驶模式的重要线索,基于此,调整模型参数以更好地适应个人或场景。
在线适应背后的直觉是,尽管给定了相同的目标状态,但驾驶员仍有不同的方式来实现它。捕获这种定制模式可以改善生成的行为人类相似性。其整个算法的伪代码如下图:
如下是3个实验场景:
1) 自车如何与其他车辆交互以通过一个共同冲突点(一次交互);
2) 自车如何与其他车辆互动,以通过一系列冲突点(一系列互动);
3) 无需再训练就将自车迁移到环岛场景时,自车与其他车辆的交互方式(场景可迁移交互)。
场景:一次交互场景:一系列交互场景:可迁移交互
下两个表是在十字路口和环岛场景中HATN和其他6种方法的比较:
1.无时域:该方法不考虑历史信息,即只考虑当前时间步长t的信息。
2.GAT:这种方法使用绝对特征来计算节点之间的关系,而不是使用相对特征。这种方法对应于原始的图形注意网络(GAN)。
3、单智体:该方法只考虑自车意图预测的损失,不考虑其他车辆的意图预测。
4.两层图:这方法有一个两层图来进行信息嵌入,即两次利用图进行聚合。
5.多头:这方法利用多头注意机制来稳定学习。该方法在Sec中操作关系推理。4.2.2独立并行多次,并连接所有聚合特征作为最终聚合特征。
6.Seq Graph:该方法首先在每个时间步对图进行关系推理,然后将聚合图序列馈送到RNN中进行时间处理。作为比较,我们的方法首先将每个节点的历史特征序列嵌入到RNN中,然后使用每个节点在当前时间步的隐藏状态从RNN中进行关系推理。
一些观察:
1)HATN在交叉口和环岛实现了最低误差;
2) 由于缺乏时域信息,无时域方法在交叉口和环岛场景中都是最差的;
3) GAT方法产生的错误比HATN高得多,尤其是在环岛场景(58%),这表明在关系推理中使用相关特征的必要性;
4) HATN优于单智体方法,这意味着将所有车辆生成的目标状态纳入损失函数,可以增加数据并鼓励交互推理;
5) 两层图法是最接近HATN的方法,尽管根据训练记录,它有严重的过拟合;
6) 多头方法在交叉口场景中获得了第二高精度,但在环岛场景中的性能要差得多,仔细调整或搜索合适的头数可以来改善;
7) 在交叉口和环岛的情况下,Seq Graph方法是第二差的,这可能意味着对、过去的交互进行复杂编码很难帮助预测,但确实会使学习更加困难。
下表是意图信号的影响:
如下表是基于规则和基于学习的方法和HATN的比较: