智驾“重感知，轻地图”技术趋势和可长期支持的业务场景的思考-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

前言

2023年智驾领域的热门话题是“重感知，轻地图”方案，也称“无图”方案（无图指不依赖离线高精地图），这种方案降低了对传统离线建图和在线高精定位技术的需求，让包括我自己在内的很多SLAM技术从业者担心自己要被“卷没了”，对智驾的技术发展是否仍然长期需要SLAM技术产生了疑惑。这篇文章是对这个问题的调研和思考。

一从智驾系统框架说起

智驾系统分为规划控制，地图定位和实时感知三个核心模块，其中感知提供实时车辆周围的动静态信息，为规划控制的行为决策和执行动作的推演提供局部环境的实时约束。如果只是让车辆在局部空间内自主移动，并假设在线感知能力足够强，是不需要地图定位模块的，但是在智驾系统目前经典的技术栈中，定位和建图却是非常重要的一环。理解清楚规划控制对地图定位的需求，是分析重感知轻地图下SLAM技术需求的“变”与“不变”的一把钥匙。

智驾系统框架[1]

二规控对地图和定位的需求

按照规划控制经典的子模块划分，本质上可以理解为一个仿生系统，它类比了人类开车的整个的行为过程。一个典型的驾驶行为如下：

早上你要开车去公司上班，上车之后的第一个动作是呼叫车载语音助手导航到xxx公司，语音助手唤起车载的高德地图，提供一条或者多条导航路线显示给你做选择。(全局路径规划)
当你沿着导航路线朝着公司方向行进时，语音助手提示你前方路口需要左转，你发现前方只有最左侧车道是可以左转的，并且左侧前方有车，同时前方路口时红灯，你决定提前变换到左侧车道，并控制油门和前车保持一定距离，在路口提前决定刹车以等待红绿灯，当左转绿灯亮起，你知道可以左转了。这里的变道，跟车，左转在规划控制中被定义为行为决策
在上述变道的切换中，你无意识地朝向左侧车道前方某个大概位置，根据自车和那个大概位置的距离和方位，不断地调整油门和左打方向盘的角度，完成变道的决策。画出一条丝滑的切换轨迹。在这个过程中，我们的大脑其实假象了一条从当前自车位置到左侧目标位置的一条局部轨迹，并不断的动态调整车辆位置让其沿着这条局部轨迹驶向目标点。在规控中，将一条局部轨迹的跟踪问题定义为局部规划或者运动规划模块。局部规划模块给出一系列动作期望的油门，转向等控制指令，运动控制器则负责实施期望的油门和转向等指令。

规控系统框架[1]

为了实现上述过程的自动驾驶，产生了规划控制模块对地图定位的需求。其中，全局路径规划仅需要规格稍低的SD地图(即高德地图等手机导航级别的地图)和米级精度的全局定位，以实现从起点(由全局定位模块提供)到终点(在SD地图里指定)的全局路径规划。对于行为决策和局部规划模块，需要局部环境更为丰富和精确的道路信息，比如道路的拓扑结构，停止线，道路曲率等。如果感知能力足够强，是可以直接在线提供这些信息，但是早期感知能力有限时，则通过额外高精度设备离线采集环境数据，离线计算并保存这些信息的方式提供，即离线高精地图(HDMap)。

规控对离线高精地图的使用，产生了对高精地图定位的需求,即矢量地图定位。高精地图构建了一个由各种道路元素组成的虚拟世界，规控其实是在这个虚拟的世界进行决策控制。而矢量地图定位是实现虚拟地图世界和真实世界的映射，以保证规控在地图上的行为动作结果和实际世界一一对应。具体来说，矢量地图定位通过感知提供的单帧语义矢量(真实世界)如车道线，路灯杆等，结合GNSS组合导航提供的定位初值，和离线高精地图中的对应语义矢量进行匹配。由此可见，离线高精地图和矢量定位是一对锁和钥匙，两者依赖对方的存在才有意义。

规控各个子模块对地图和定位的需求[1]

三重感知轻地图的技术趋势

高精地图的不足

以上分析可以发现，离线高精地图是对实时感知能力不足的一种弥补。离线高精地图的主要问题是鲜度变化导致的维护成本。当道路结构发生变化时，高精地图需要持续更新，目前智驾一般把场景分为高速，城区和低速三类。高速是智驾落地的第一个场景，它总里程相对有限(全国高速里程数30多万公里[5])，且道路维护较好，道路变更发生比例较小，通过一两家图商为所有业务方提供离线高精度地图的方式，更新和维护成本基本可控。

但是随着高速智驾落地，大家目光转向城区的智驾时，鲜度和采集成本问题变得突出，导致高速场景依赖离线高精地图实现高阶智驾的方案基本不可行。首先城区的道路里程相对于高速场景里程有数量级的增加（全国城区道路总里程1000多万公里[5]），且道路信息变更频繁。而随着传感器和感知能力的提升，通过实时感知方式生成道路信息的“重感知，轻地图”方案成为各家追求的避开高精地图实现高阶智驾的实现方式。

图商和部分车企通过运营车辆采集进行离线高精地图更新和扩场的方式，还存在一个明显的问题是它造成建图能力和单机能力的脱离，限制了汽车规模化制造可以平摊各项成本的优势。建图和定位统一为单机能力的一部分，是未来机器人能力研发的趋势，“重感知，轻地图”符合这个趋势。让建图能力成为单机能力的一部分，实现的路径是众包建图，或者一些特殊场景下适用的单机单用的车端建图。众包建图可以实现低成本的高精地图更新，也是充分发挥主机厂数据闭环优势的场景之一，在感知能力不能cover住全部城区场景(如复杂或异形道路拓扑结构等场景)，且传统运营采集成本高到无法负担的情况下，会发挥非常核心的作用。众包建图的核心支撑是数据闭环，数据闭环能力对于众包建图甚至是比建图算法本身更重要的基础能力，同时目前高阶智驾硬件在各家新车型的标配，也让众包建图不再是无米之炊的幻想。众包建图让每辆汽车都成为了数据源，从这个角度理解，车企尤其是新势力车企，是城区高阶智驾真正的主角。图商除了偶尔站出来喊两句世道变了，不再会有太大的作为。

蔚来NT2车型高阶智驾硬件

高精地图除了以上问题外，在出海销售时也存在很大问题，由于法律法规的限制，要么只能适配国外本土的高精地图；要么像一些非洲国家，短期内不太可能有高精地图，导致智驾功能无法使用。所以，特斯拉在很早之前就坚定的走不依赖离线高精地图的方案。马斯克牛逼。

实时Local Map的生成

重感知轻地图最核心的逻辑，简单来说就是在感知能力cover住的场景，把规控制需要高精道路元素，由加载离线高精地图的方式改变为通过在线感知能力生成，进而避免了鲜度和规模化的问题。实时感知提供高精地图元素的功能通过在线构建局部环境地图(LocalMap)的方式实现。而智驾的整体架构从规控角度并没有发生本质变化，行为决策和局部规划模块需要的道路要素的精度和规格没有太大变化，只是从离线加载演变为实时生成。

这里的LocalMap存在两种技术方案，一种是偏传统的在线将单帧感知结果进行局部语义矢量建图，并进行道路拓扑推理，技术栈上仍然依赖传统的SLAM建图方法。一种则是端到端直接生成局部地图，在这方面，清华大学的赵行老师做了一些很不错的开创性工作[8]。

而实时感知cover不住的复杂场景，则通过众包方式构建离线的高精地图，在地图规模上，相对于全量构建全国城区的高精地图，里程数降低了很多。而这些城区复杂场景的离线高精地图，除了在智驾系统中弥补感知能力的不足，也成为感知离线训练的真值标注数据，进一步反哺提升感知的模型能力，实现数据驱动的感知能力的闭环迭代。

以上，是笔者理解的“重感知，轻地图”方案。市场上目前也出现了一些“记忆行车”类产品功能，如大疆车载的“记忆行车”，理想汽车的“城市通勤NOA”，小鹏的“AI代驾”。以目前方案公开度较高的理想的“通勤NOA”为例，它使用深度学习特征先验替代传统的地图元素[10]，但本质上仍然是一种离线地图，这种地图既丢失了离线高精地图的规范性和可解释性，又没有根本上避免传统离线高精地图的缺陷。笔者认为只是一种在当前无图能力或算力不足情况下，配合商业宣传的短暂形态，不会长久存在。

理想汽车的NMP先验地图[10]

四 SLAM有长期需求的业务

根据以上分析，笔者分析存在以下3类业务，即使在重感知轻地图的技术趋势下，对经典SLAM技术仍然会有长久需求。

智驾中对经典SLAM方法存在长久需求的业务

需求场景1: 多传感器的离线和在线标定

多传感器内外参标定是机器人和智能硬件一直存在的需求，在智驾上也是，主要分为出厂的离线标定和出厂后的在线标定。多传感器的内外参标定，可以看成是建图定位的镜像问题，他们共用相似的观测方程，只是定义的状态量发生了镜像，建图和定位是假设内外参已知的情况下，估计各个时刻的位姿，而内外参标定则是在假设位姿已知的情况下，估计系统的内外参。

出厂的离线标定，借助高精度的辅助设备，可以获取精度较高的出厂参数。但是车辆出厂之后，由于碰撞等导致的结构形变，传感器的老化等，会造成车辆的内外参发生动态变化，使得出厂参数不再适用，因此需要在线标定系统对车辆的内外参进行实时或者半实时的估计。

离线标定[11]

在线标定和离线标定最大的区别是没有高精度的位姿真值估计系统作为参考，而是借助车端的定位和感知系统的中间结果，构建观测约束，实现参数的估计。

在很多经典的SLAM论文中，在线标定的实现方式是把内外参作为状态向量的子状态之一，和位姿等状态进行联合优化。但在现实工程系统中，其实并不是一个很好的方式。理由有以下几点：

首先，内外参的估计一般依赖较强的观测约束和运动激励，这往往意味着较大算力的需求，这和定位等实时状态估计系统要朝着低延迟的需求相违背。而且，由于车辆很多时候是二维平面的匀速运动，导致系统部分状态处于欠激励的不可观状态，使得内外参的在线估计无法收敛。
内外参是低时变的，保证一个天级或周级的更新就基本满足需求，让这样一个低时变的参数以几十毫秒级别随着定位系统进行状态估计和更新，是一种浪费算力的非必要行为。
内外参的估计是非实时的需求，完全可以在车辆停泊等空闲状态时再启动，实现算力的分时复用。一种是让在线标定需求每时每刻都占据定位系统0.3核的算力，一种是在车辆闲置时，让在线标定系统占据系统1个核的算力，显然后者更容易实现更高精度的结果。

以上，在线标定更合理的方式是做成一个独立的非实时或半实时模块，它不断的收集运动激励较好情况下的定位和感知系统的数据片段，在车辆空闲时，进行一次算力较重的联合优化，保证内外参估计的精度。

在线标定[11]

需求场景2: 低速无GNSS场景的定位建图

无GNSS的低速场景，主要是指地下停车场环境，它和高速以及城区环境相比，存在一些特殊性。回顾上述提到的无图方案，它并没有脱离对米级全局定位和SD地图进行全局路径规划的需求。但是在地下停车场，由于没有GNSS提供全局定位，就需要另外一种替代品，为全局路径规划提供全局定位能力，目前主流的替代方案则是通过SLAM方式构建定位地图，使用地图定位的方式提供全局定位。同时，很多非公共商场的地下停车场，数量庞大且图商无法提供SD地图，也需要以众包建图的方式构建SD地图。这些都是图商没有先发优势，而主机厂能做而且可以做的更好的地方。

下面的视频，是华为在阿维塔上线的AVP代客泊车功能，通过一次性的单车单用的车端建图，构建从地库入口到车主停车位的矢量地图。地图构建完成之后，则可以实现自动将车辆开到指定或者沿途停车位的功能。产品体验上，基本达到了让用户愿意买单的程度。这是一个令人兴奋的事情，它已经证明了在AVP场景，智驾大有可为，SLAM技术大有可为。

以下是我整理的低速无GNSS场景下的定位建图技术栈，它分为车端和云端两部分。是一个非常典型的传统SLAM技术栈发挥作用的场景。在具体的技术方案的实施上，会有2个主要分歧，一个是建图是采用单车单用的单次车端建图还是选择多车众包的云端聚合，另外就是定位方案是采用矢量地图定位还是基于传统几何特征的特征地图定位。在这里介绍下自己的一些思考。

低速无GNSS场景建图定位技术栈

首先关于地图形式，单次车端建图的形态，华为和一些记忆泊车类产品采用的是类似方式，这种方式优点是所见即所得，可以比较快速的获取一张停车场局部的地图，缺点是没有充分利用车辆间共享的地图信息，这种方法适合有长期固定车位的小区停车场。多车众包的云端聚合的地图形态，实现方式是车端单次几何和矢量建图结果，在云端进行多车的地图聚合，是一种众包形式的建图方法，优点是可以生成一张范围更完整的地图，地图质量更有保障。缺点是依赖数据闭环能力，链路较长，地图做不到所见即所得，适合没有固定车位但范围较大的公共停车场，比商场和办公场景的地下停车场。同时，建图方案也需要考虑数据复用的问题，以上两种方式都有可以实现的路径，前者可以在车端保存一份原始的建图数据，在建图算法更新时，重新“训练”更新一张新地图，后者则可以通过回传更加原始形态的数据来实现。

在定位方案上，矢量地图定位是目前主流的一种定位方案，优点是地图规模和算力消耗都较小，缺点是依赖感知，新旧停车场内部环境差异较大，感知存在泛化性问题，导致部分停车场定位退化。另外一种方式是选择SLAM中的几何特征地图，又细分为基于视觉几何特征和基于激光几何特征的地图，几何特征摆脱了对感知泛化性的依赖，但主流观点是基于几何特征的地图规模和算力占用会明显高于矢量定位。且两者都存在通用性的问题，视觉特征地图存在依赖镜头模型，导致相机镜头老化或型号变化导致镜头畸变产生较大差异时，特征匹配效果退化的问题。激光特征地图存在依赖车辆需要配置激光雷达，且地图形态在无激光雷达车型上较难复用的问题。具体采用何种方式，是见仁见智的选择。笔者认为如果能够很好地解决无激光雷达车型复用激光特征地图的问题，基于激光特征地图的定位方式在泛化性上和稳定性上可以做到比矢量定位更优，且算力和地图规模和矢量定位相似的水平。

地下停车场尤其是大型停车场和多层停车场，对SLAM的建图和定位都有比较大的挑战，地下停车场无GNSS信号，建图更加依赖相对里程计和回环匹配的效果，且因为没有GNSS的全局约束，建图轨迹存在局部的扭曲变形，导致局部环境的失真。在相对里程计精度有限存在Drift的情况下，对初值和视角偏差较大的回环能力有较大的依赖。同时在多层停车场，多层的高度一致性也是一个非常大的挑战。此外，由于地库视野遮挡比室外严重，在内部路不可能完全遍历一遍的情况下，导致地图的局部缺失。

地库地图的局部的缺失和质量退化问题，是定位在系统设计上需要消化的问题，这就给地库的定位提出了挑战。但地库定位的挑战远不止于此，由于地库内部没有GNSS信号，所以目前上线的产品中，多是需要先从室外启动，以借助GNSS组合导航获取定位初值；而地库内部的定位初始化，以及定位失败下的初始化，在车端算力有限的情况下要做出很好的效果，是一个非常有挑战性的事情。对于多层停车场，也存在多层的定位高度稳定性问题，是影响定位稳定性的关键因素，高度的drift会导致地图匹配效果的急剧退化和错楼层匹配。

此外，部分图商也在尝试提供地下停车场地图，但和高速高精地图不同的是，室内停车场地图，在定位图层上并未完全统一，各家的定位方式都不太相同，也依赖各家车厂的传感器方案，目前较难统一。且车厂有众包优势，停车场场景下的定位和建图的任务，笔者认为短期内还是个家自研为主。

百度手机地图提供的停车场车位地图

需求场景3: 4DGT 感知标注

4DGT是2021年Tesla AI Day首次提出的一种新的感知数据标注方法，与传统的直接在2D 图片上进行标注不同，它借助SLAM技术为核心的三位重建方法，构建出2D感知语义的精确3D模型，然后将3D模型投影到图片上，实现低成本高效率的标注。4DGT服务于位感知提供真值训练数据，是目前SLAM定位建图技术应用的非常好的一个业务场景。同时，针对于不同的感知任务，4DGT技术也有一些新的发展，具体信息可以参考前段时间地平线隋伟大哥的一个报告[14]，对这里涉及的技术栈和细节介绍的已经非常详细，这里不做赘述。

4D GT Pipeline[13,14]

The Last Choice：打不过就加入

虽然技术手段不断地更新迭代，但帮助机器人理解3D世界的目标没有发生变化，保持一颗迎接变化的心态会给自己带来更开阔的思路。除了继续深耕经典SLAM技术，目前行业也涌现出一些新的基于Learning 3D技术的方向，如Occupancy Network，3D Objects Detection，以及NeRF，这些方向非常依赖扎实的状态估计等传统SLAM技术基础，是SLAM从业者可以发挥优势的技术方向。

Learning 3D的技术方向[15,16,17,18]

智驾之外: 通用机器人

令人兴奋的是，2023年也是通用机器人行业新机会涌现的一年。在通用机器人潜在应用场景，智驾上的大部分技术栈，从底层芯片，传感器，到软件层面的感知，地图定位和规划控制，都可以迁移进来，这给相关智驾从业者更多的选择，未来大有可为。

Tesla Optimus 机器人，使用和Tesla电动汽车一样的Occupancy Network[19]

原文链接：https://mp.weixin.qq.com/s/gJEtzZ7wo73Kki43idnrUw

智驾“重感知，轻地图”技术趋势和可长期支持的业务场景的思考

前言

一 从智驾系统框架说起

二 规控对地图和定位的需求

三 重感知轻地图的技术趋势