端到端方法,目前基于learning的打不过基于rule的方法吗?

人工智能 新闻
这篇文章,想来探究下为什么基于learning的打不过基于rule的(或者这个结论现在是否还成立),带着这个问题我们来看下相关的文献

本文经自动驾驶之心公众号授权转载,转载请联系出处。

目标

如题所属,这篇文章,想来探究下为什么基于learning的打不过基于rule的(或者这个结论现在是否还成立),带着这个问题我们来看下相关的文献

一个不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑战中,夺得第一的,是一个Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二个思考点
motion planning(我理解的现阶段的端到端)和轨迹预测的关系(原则上motion planing是轨迹预测的一个子集,是一种限制为自车+利用导航route限制可能性的特定traj)

learning打不过rule来源于下面这篇文章,我们来审视下这个观点现在还成立吗

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先这篇文章时间点为CVPR 23 AD Challenge NuPlan,意味着已经过去一年了,我们结合当时的情况和最新的一些进展来看。

abstract

首先文中提出系统规划包括两方面-1.短期精确的规划和2.长期规划,两部分完全不同,应该独立的来看

IDM是基于规则,PDM是基于学习,这是作者的两个初始base,该图展示了短期和长期,开环和闭环的评估区别,信息浓度挺高的

然后文中提出基于学习的方式在复杂的现实世界里面的不足和基于rule的价值

最后文中指出他们仅依靠简单的rule就获取了挑战赛最好的成绩。

具体细节先不看,看评估方法指标和conclusion,数据说话

评估

基于nuplan benchmark

开环评估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

闭环评估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

这里又包含两类1.非反射式CLS-NR(其他车辆不根据主车调整),2.反射式CLS-R(其他车辆根据主车行为调整,调整的方式用IDM规划器),这里我有个有趣的想法(如果理论上列举出了所有可能的合理规划器,那么这种模仿式的闭环仿真的效果评估,将会非常接近真实环境下的效果,而规划器就是对交互agent出轨迹,那么可以认为只要采样出尽可能多的agent的合理轨迹来做反射式评估,就可以训练出一个不亚于基于真实环境训练的planner,不知道前人有做过相关的工作没,先查找下这个方向相关的文献)

记住这张表,我们后面会基于这张表来看看最近的一些规划器的效果

上面作为对比基准,接下来我们看看目前效果比较好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(挂着学习的羊头,但卖的还是rule的狗肉^^,核心还是rule,其实是用IML学习到cost函数给TPP打分,效果完全取决于TPP(而TPP并不是学习出来的是根据rule产生的),不过意义确实完成了端到端的改造,理论上专家轨迹越多,效果越好。上限取决于后续跟进对TPP的学习化改造)
在这里可以看出改良派有两个进攻方向(个人觉得DTPP已经可以作为一个很好的对决策规划做端到端改造的框架和范式了)
a.怎么采样出更好的待选轨迹(首先基于规则采样轨迹保证整个框架基本work,其次在前述基础上换成可学习的基于model的轨迹采样)
b.怎么提升IML学习效果,能够根据专家轨迹(人类驾驶轨迹),更有效的更可迁移的学习到应对不同场景的cost function(reward model)

先上指标对比

PDM就是上文rulebased,看起来比较接近了,稍低,文中也做了对比,看原文是不是会做一些辩解

文章主要工作(缝合了之前的想法+做了自己的优化)

a tree-structured policy planner-TPP(灵感因该来源于nvidia,解决规划问题内在的多模性,不确定性,但是非TPP不可吗,有没有更优雅的办法?) a differentiable joint training framework(可微可学习的框架用于)for both ego-conditioned prediction and cost models

细节

使用了a query-centric Transformer model来进行ego condition prediction

疑问项:

  1. cost model怎么学习,又用来干什么?之前的cost是手工设计,缺陷在哪里?为什么要切换成学习?
    Deep IRL学习,逆强化学习的精髓就是通过专家sample,学习到什么是好的即一个评估函数,也可以叫rewarding function(强化学习术语,而在Deep IRL里面表现就是一个cost model),这个本质弄清楚了,也就好解释手工设计的缺陷了,就是不够丰富全面,评估不够准确。
  2. a tree-structured怎么得到?
    参考Tree-structured policy planning with learned behavior models(nvidia)

一个示例

  1. 文中提到直接把TPP特征编码到了网络中,这种编码方式怎么做的?不同深度和宽度的TPP特征怎么对齐,让我们来看看?

维度信息,Na和Nm都是确定数量的agent和map元素,比较粗暴

M是最大的branch数

3还有文中提到了这个框架可以有效的提取学习到的cost组件和手工设计的cost组件,这两种cost怎么整合也是一个值得注意的点?

上面提到的学习的cost和手工设计的cost,汇总在一起是fl图片

方法

迭代的方式,有点像人做决策,根据当前环境做推演,也有点像MCTS,结合MDP(马尔科夫决策过程)就可以得到最优轨迹。而这个决策树其实就是动作空间。看起来是标准的逆强化学习范式。

文中提到TPP就是对有限的状态采样来解决轨迹连续空间的规划问题。

  • 上图中个人觉得最重要的一步是Conditional Motion Prediction,也就是对应的(Tree Structure planning),其实这一步是结合了专家信息,也是这一步,区别于力大砖飞的llm,带了归纳偏置,让学习变得更简单。我们来仔细看下

作者在这里说的不全面,他认为该工作最重要的是提出了query-centeric,而个人觉得trajectory tree才是关键,这个限制了学习的采样空间,从而减小了学习难度。当然负面作用可能就是极端case看起来还是不够智能。但目前是原型验证,后面可以继续优化。

可以看出虽然挂着学习的羊头,但卖的还是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新热乎的论文,2024年0605,指标超过了rulebased),需要接入chatgpt-4v

还是先上指标

总结起来就是用bev输出等作为上下文信息,用gpt-4v做resoning engine,结合Cot引导模型做出合理的轨迹选择。

framework

Cot(思维链)

推理引擎示例

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2023-02-01 07:25:12

2009-04-10 22:31:26

2011-12-15 01:12:59

ibmdw

2010-06-19 14:44:08

2010-06-19 14:58:23

2010-06-21 14:33:34

风险评估安全审计

2018-11-19 15:26:28

sketch网络测量网络

2023-01-03 14:10:32

沉淀数据大数据

2022-06-01 17:16:42

端到端KQI业务

2024-09-26 09:55:33

2013-12-18 09:41:01

思科SDBSoftware De

2022-07-06 13:02:00

高延时电商直播主播互动

2014-01-07 09:38:34

OpenFlowSDN测试

2019-02-21 10:29:53

RFID室内定位

2021-04-29 08:55:54

GitLabDevOps项目

2023-10-30 09:47:00

自动驾驶技术

2023-08-05 13:08:54

2023-12-18 10:15:30

自动驾驶自然语言

2014-02-28 10:14:19

云计算IEEE数据中心

2016-03-31 12:49:54

戴尔
点赞
收藏

51CTO技术栈公众号