端到端方法，目前基于learning的打不过基于rule的方法吗？-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

目标

如题所属，这篇文章，想来探究下为什么基于learning的打不过基于rule的(或者这个结论现在是否还成立)，带着这个问题我们来看下相关的文献

一个不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑战中，夺得第一的，是一个Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二个思考点
motion planning(我理解的现阶段的端到端)和轨迹预测的关系(原则上motion planing是轨迹预测的一个子集，是一种限制为自车+利用导航route限制可能性的特定traj)

learning打不过rule来源于下面这篇文章，我们来审视下这个观点现在还成立吗

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先这篇文章时间点为CVPR 23 AD Challenge NuPlan，意味着已经过去一年了，我们结合当时的情况和最新的一些进展来看。

abstract

首先文中提出系统规划包括两方面-1.短期精确的规划和2.长期规划，两部分完全不同，应该独立的来看

IDM是基于规则，PDM是基于学习，这是作者的两个初始base,该图展示了短期和长期，开环和闭环的评估区别，信息浓度挺高的

然后文中提出基于学习的方式在复杂的现实世界里面的不足和基于rule的价值

最后文中指出他们仅依靠简单的rule就获取了挑战赛最好的成绩。

具体细节先不看，看评估方法指标和conclusion,数据说话

评估

基于nuplan benchmark

开环评估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

闭环评估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

这里又包含两类1.非反射式CLS-NR(其他车辆不根据主车调整)，2.反射式CLS-R(其他车辆根据主车行为调整，调整的方式用IDM规划器)，这里我有个有趣的想法(如果理论上列举出了所有可能的合理规划器，那么这种模仿式的闭环仿真的效果评估，将会非常接近真实环境下的效果，而规划器就是对交互agent出轨迹，那么可以认为只要采样出尽可能多的agent的合理轨迹来做反射式评估，就可以训练出一个不亚于基于真实环境训练的planner,不知道前人有做过相关的工作没，先查找下这个方向相关的文献)

记住这张表，我们后面会基于这张表来看看最近的一些规划器的效果

上面作为对比基准，接下来我们看看目前效果比较好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(挂着学习的羊头，但卖的还是rule的狗肉^^,核心还是rule,其实是用IML学习到cost函数给TPP打分，效果完全取决于TPP(而TPP并不是学习出来的是根据rule产生的)，不过意义确实完成了端到端的改造，理论上专家轨迹越多，效果越好。上限取决于后续跟进对TPP的学习化改造)
在这里可以看出改良派有两个进攻方向(个人觉得DTPP已经可以作为一个很好的对决策规划做端到端改造的框架和范式了)
a.怎么采样出更好的待选轨迹(首先基于规则采样轨迹保证整个框架基本work，其次在前述基础上换成可学习的基于model的轨迹采样)
b.怎么提升IML学习效果，能够根据专家轨迹(人类驾驶轨迹)，更有效的更可迁移的学习到应对不同场景的cost function(reward model)

先上指标对比

PDM就是上文rulebased，看起来比较接近了，稍低，文中也做了对比，看原文是不是会做一些辩解

文章主要工作(缝合了之前的想法+做了自己的优化)

a tree-structured policy planner-TPP(灵感因该来源于nvidia,解决规划问题内在的多模性，不确定性，但是非TPP不可吗，有没有更优雅的办法？) a differentiable joint training framework(可微可学习的框架用于)for both ego-conditioned prediction and cost models

细节

使用了a query-centric Transformer model来进行ego condition prediction

疑问项：

cost model怎么学习，又用来干什么？之前的cost是手工设计，缺陷在哪里？为什么要切换成学习？
Deep IRL学习，逆强化学习的精髓就是通过专家sample,学习到什么是好的即一个评估函数，也可以叫rewarding function(强化学习术语，而在Deep IRL里面表现就是一个cost model),这个本质弄清楚了，也就好解释手工设计的缺陷了，就是不够丰富全面，评估不够准确。
a tree-structured怎么得到？
参考Tree-structured policy planning with learned behavior models(nvidia)