深度解析以Decoder为核心的无BEV的大一统端到端架构 | 对话CCF-CV学术新锐奖贾萧松博士-51CTO.COM

论文的一些巧思

1. 人开车其实并没有最优解，请问如何确定学习时的参考数据呢?

开车其实也是多种多样的，然后你模仿学习本质上就是告诉他你只能这样做，你做了别的那个mass loss还会惩罚他。其实就是我们说的，我们其实就不能通过模仿来做。我们应该通过告诉他，你这个事情做的到底对不对，你要对了，我就不管你怎么做的，你都是对的对吧？所以说这个就是这样一个理念。

2. Drivetransformer为什么还要直接出感知？我觉得是这样的，就是说端到端自动驾驶，像刚才说的一个最原始的设定，就是希望神经网络自动通过K通过轨迹的好坏的关联，自动找到像素空间上哪些pixel对我这个决策是有作用。这就是本质上最原始的想法。就像ResNet它通过训练能自动找到。比如说我classify鸟的时候，我就看看那些翅膀之类的。但是自动驾驶作为一个高维的还是一个环视，就很难在环视相当于是超高维的场景。因为环视首先是6到11个相机，其次我的图并不是ImageNet那种224幼稚的图。我们是一分辨率是几百几千的图片，然后6张到11张，然后我们还是多帧的，可以看到我们这个空间是非常疯狂的，超高维的。这就是大家机器学习第一课。Curse of dimension问题会非常严重，就导致其实我觉得在现阶段，就大家还没有疯狂到能不借助任何辅助的一些东西来让它收敛。

3. 加detection的好处是什么？

我们可以通过看detection transformer初步学一些逻辑。就是说车这个东西我都告诉你很重要了，这样我们我们也能有效利用这个标注。

所以说我觉得在现阶段我们标注还是有一定作用的，尤其是可以从闭环、数据效率、scale up角度看这个问题。

4. 然后有人问我的方法是decoder only吗？

其实并不是的，就是也是有image backbone，只不过之前的方法scale up的都是encoder部分，我这个方法其实想更多的研究一下scale up decoder的收益因为GPT是在scale up decoder，包括其实VLM scale up的过程中 Scale up VIT的收益，其实不如scale up LLM来得快。就比如说可能LLM都从7B到70B能力有个飞跃。但VIT从400M变到6B或者说多大好像你要说能有多大的飞跃其实对就是还有待观察。

生成模型与世界模型

5. 生成模型出来的图像符合物理世界规律吗

我们在这篇工作中，就Bench2drive的后续工作中，我们的物理规律是通过框的推演进行的。

所以说我从一开始就跟组里同学讨论，我们不做video diffusion model。因为我们认为pixel to pixel的映射学到物理规律很难，这都是英伟达或者DeepMind的那个级别，可能能真的几十万卡10万卡能训出来，真的通过视频pixel到pixel学出物理规律，不然的话其实很容易就从pixel到pixel学出反物理规律的东西。

所以说我们做的是基于框的condition的生成模型。然后这一点其实跟做重建的同学也异曲同工。就是重建的是更相信自己手中的规则，我们还是希望做的更scalable一点。对，大概是从像素到框，其实这个有非常多的经典工作可以搜索，也有非常多的surry可以搜一搜。其实包括也可以看看我们的论文，我们也是基于很多前沿的工作，这点其实有非常多的经典模型。

6. 世界模型的定义

世界模型的定义我觉得世界模型其实是有两种定义第一个是用于决策的那种world model的世界模型然后那个就是model based rl 可以学习一下。

就是model based rl 尤其dreamer系列我觉得是非常非常聪明就值得每一个人都看的一个经典，毕竟DeepMind的经典工作；然后另一种呢就是当然就是video diffusion 就是这种呢是用于仿真的，就是各有各的浩。我只能说world model和端道端一样，现在都是框，就是什么都可以往里装，然后其实大家也不必纠结于词汇。，就是只要理清楚要做什么这个模型就可以。

强化学习相关

7. 强化学习训练端到端难点是没有仿真？

可以用Carla。我觉得从研究模型角度来看，研究Carla完全没有问题。我还是那个观点，就是凡是dissCarla的，你先给我搞定卡拉再说。反正目前我们或者说世界范围没有搞定的特别好的。你觉得你瞧不起太简单，那为什么这么厉害呢？我觉得其实Carla可以做。

8. 模仿学习和强化学习的结合有没有好的paper推荐

我觉得这个可以直接谷歌搜索。其实这些探索也非常多的。

9. 强化学习的reward设计？

是的，我觉得强化学习也是我们团队非常欣慰的。我们团队中的成员其实有很多都是强化学习出身，都是沉浸了七八年。有的从本科开始，本硕博一路做上来，所以说也很欣慰。昨天比如说拿了个图灵，当然也不是蹭热度了，就只能说很欣慰。不管是春节期间deep sick的爆火，还是最近的图灵奖，都说明世界开始认可了强化学习原来是真的是走向智能的最后后一步。所以说我理解。所以说我觉得我还是觉得大家强化学习方面可以更多研究，是更值得他研究的新时代方向。

10. RL学到的结果是否不像人开的，体验不好?

RL学到的结果是否不像人体验不好好问题。然后有人说强化学习的reward设计。是的，我觉得强化学习也是我们团队非常欣慰的。我们团队中的成员其实有很多都是强化学习出身，都是沉浸了七八年。有的从本科开始，本硕博一路做上来，所以说也很欣慰。昨天比如说拿了个图灵，当然也不是蹭热度了，就只能说很欣慰。不管是春节期间deep sick的爆火，还是最近的图灵奖，都说明世界开始认可了强化学习原来是真的是走向智能的最后后一步。所以说我理解。所以说我觉得我还是觉得大家强化学习方面可以更多研究，是更值得他研究的新时代方向。

所以说我们在我的ICCV23的oral的工作中研究了我们其实RL之后，就是相当于是很有趣，就是pre-training然后。RL学到的结果是否不像人体验不好好问题所以说我们在我的ICCV23的oral的工作中研究了我们其实 RL之后就是相当于是很有趣就是pre-training.所以也欢迎关注我ICCV23的DriverAdapter。

11. 强化学习中如何提高学习稀疏报酬对效率影响

对我觉得这个也是一直强化学习中的难题。就肯定是一方面希望 RLM可能可以做一些类似工作另一方面可能。目前当然是靠大家设置然后。

12. 如何看显式建模障碍物行为和隐式生成去建模

理解显示中障碍物行为的建模，需要分析障碍物在视觉环境中的表现方式及其互动。这包括研究它们的移动、碰撞检测以及对用户输入的响应。视觉效果的生成则侧重于创造沉浸式和逼真的体验。这一过程通常结合了光照、阴影和粒子效果等技术，以提升整体的视觉吸引力。通过将这两个方面结合起来，设计师可以打造出动态且引人入胜的显示效果，既能有效模拟现实世界的互动，又能保持美学品质。

13. 然后说RL加AD的挑战？

我觉得这就是我们为什么非常喜欢做这个RL加AD，觉得很exciting的原因。因为它其实是一个比甚至我觉得比在LLM做RL更exciting的。因为我们是在做物理空间的，它的不管是这个动态性还是这个观测的复杂度都要复杂的多。因为LLM本质上是完美观测，就你问啥问题，数学题告诉你，你要解解出来，我们这个观测都要靠自己来解决，所以说有很多exciting的topic值得做。其实AD我觉得到了今天反而是RL的值得最兴盛的时期。

端到端的一些思考以及未来研究方向

14. 端到端绝不是像素到Control

我深深尊重任何像素到像素模型，因为它们体现了通用人工智能（AGI）的理想。然而，我在生成建模中的目标是创造智能。因此，我更喜欢一条更快的路径，专注于在空间环境中明确地建模障碍物。

我深深尊重任何像素到像素模型，因为它们体现了通用人工智能（AGI）的理想。然而，我在生成建模中的目标是创造智能。因此，我更喜欢一条更快的路径，专注于在空间环境中明确地建模障碍物。仍然需要一些中间协助。当时，根据当前情况，或许可以通过沟通来处理。包括那些询问如何基于Vector做出决策的人。

15. 请问你认为现在做vector输入的决策觉得还有研究前景吗?

我认为现在是做出决策的最佳时代。前几年，大家普遍认为这是感知的时代，感知领域取得了许多卓越的成果，每天都有令人目不暇接的进展。然而，我认为低垂的果实已经被摘取，因为感知本质上相对容易实现。其实，大家几乎都已经明白了。我觉得应对这个艰巨的挑战相当有趣。

16. 为什么需要像人一样驾驶呀?如果能避开车辆，加减速平滑，驾驶车辆并不一定要像人一样啊

其实有人曾问我，你每天都在研究端到端模型，但缺乏可解释性。我的观点是，我观看了Martin Casado的一场演讲。有人问他关于可解释性的问题，他反问道：“从那个角度来看，你的目标检测器是可解释的吗？你知道它为什么检测到它所检测的东西吗？你会因此失眠吗？例如，你的检测器会解释它先看到马的头，然后是马的身体，最后才检测到马吗？你对此感到担忧吗？”我认为可解释性值得尊重，但这取决于它如何被使用。我认为我们应该更加务实。关于RL（强化学习）与AD（自动驾驶）结合的挑战，这正是我们觉得研究RL与AD如此令人兴奋的原因。

17. Bench2Drive是目前最好用的吗

开个玩笑，我认为Bench2Drive提供了一个非常易于上手的解决方案。跑过Carla v2的人都知道，Carla v2的难度非常高，跑半天可能只能得到个位数的分数，而我们这里可能得到几十分。大家发论文和改进都很方便。我们还提供了一个训练集，数据方面也不用担心。此外，我们在Carla上实现了UNIAD、VAD，模型也可以使用我们写好的code base。我们召集了许多编程能力很强的同学，花了很长时间才开发出来，因此可以为大家节省大量时间。

18. 端到端的范式需要中间过程比如感知的监督，那是不是同样存在传感器布局的问题？

我觉得是存在的。对我我觉得是存在的。然后因为当然其实我觉得也是一个鲁棒性问题。我也看过一些鲁棒性工作，试图训一个unify的detector来针对传感器。这个我就不是专业领域了，大家可以再查查相关工作，我觉得也是很很好的课题。

29. 然后如何看待显示的建模障碍物行为和隐式的生成?

隐式的pixel，我还是刚才那个观点，pixel到pixel的任何模型我都很尊重，因为他们有AGI理想。但是我做生成本质是要是想把智能做出来，所以说我会更走一个更快的路径，还是显示的建模空间中的障碍物质。对，然后还有一个人说端到端绝不是像素到control这一点我也非常认同。我觉得还是需要就从目前来看，还是需要一些中间的辅助的。谁知道？过了50年，数据量没准成了1万倍，到时候可能硬性也能搞定了。目前来看也许还是需要一些中间过程。

20. 做决策基于vector的决策还有研究前景吗？

我作为一个决策出身的干，我觉得现在是做决策最好的时代。前几年是相信大家都觉得是感知的时代，就感知大一统，涌现了非常多优秀的工作，每天都目不暇接。但我觉得low-high-in-foot已经都达到了。因为感知本质上是非常好做的。感知其实大家搞定的差不多了，我觉得啃这个硬骨头还是非常有意思的对。

21. 有人也提出为什么一定要像人一样驾驶？

要不说这个其实是一个非常唯心的观点。其实包括有人问我说，你端你每天搞端到端没有可解释性怎么办？然后我其实的观点就是我也看过凯明大神和恺明大神的一个talk，就有人问他可解释性，他的当时的反问是：我想请问一下你的目标检测的detector，如果只从那个角度看是可解释的吗？你知道你为什么会detect出来这个吗？你会每天担心的睡不着觉吗？就是说你的detector，你怎么没告诉我，我是先看到头了，然后看到马灯的身体，然后我才检测出来这个马，你会很担心这个事情。就可解释性我觉得是值得尊重，但是看怎么用。对我觉得还是要实用主义一点。