地图、GPS不靠谱也无妨，UC伯克利机器人陌生环境导航超三公里-uc伯克利和伯克利

大多数机器人导航方式与多数人类导航方式截然不同。当机器人对环境有全面的了解，并对周围的一切进行完整的几何重建以及准确了解自身位置和方向时，它们表现最好。激光雷达、预先存在的地图、强大的计算机，甚至是动作捕捉系统，可以说，自主机器人的「需求」永无止境。

但很显然，这些东西并不能很好地扩展，当然也可能是研究负担不起。

考虑到这些，在近期一篇论文《ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints》中，UC 伯克利分校的人工智能博士生 Dhruv Shah 及其导师 Sergey Levine 探索了一种不同的机器人导航方式。他们主张机器人导航中消除高端耗能的组件，只需要一个单目相机、一些神经网络、一个基础的 GPU 系统以及一些以人类可读的非常基础的俯视图形式的简单提示就足够了。

这样的提示听起来可能没有那么有影响力，但它们使一个非常简单的机器人能够高效、智能地穿越陌生环境，到达遥远的目的地。

论文地址：https://arxiv.org/pdf/2202.11271.pdf
项目主页：https://sites.google.com/view/viking-release

具体而言，该研究提出了一种基于学习的方法，即将学习和规划集成起来，并且可以利用诸如示意路线图、卫星地图和 GPS 坐标等辅助信息作为规划启发式。ViKiNG 结合了一个局部可遍历性模型，该模型可以查看机器人当前基于相机的观察结果和一个潜在子目标，以推断到达子目标难易程度。

此外，ViKiNG 还包括一个启发式模型，该模型查看俯视图并尝试估计各种子目标到目的地的距离。ViKiNG 不执行显式几何重建，只利用环境的拓扑表示。

尽管在 ViKiNG 训练数据集中从未见过超过 80 米的轨迹，但其可以利用基于图像的学习控制器和目标导向启发式（goal-directed heuristic），在以前没见过的环境中导航到最远 3 公里以外的目标，并表现出复杂的行为。ViKiNG 对不可靠的地图和 GPS 也有很强的鲁棒性，因为底层控制器最终基于自身图像观察做出决策，而地图仅作为规划的启发式。

ViKiNG 机器人的导航是这样的：

ViKiNG 简介

如果那个小机器人看起来很眼熟，那是因为我们几年前通过 Levine 的学生 Greg Khan 认识了它。当时，这个机器人被命名为 BADGR，它的特殊技能是学习根据简单的图像和生活经验在新的环境中导航 —— 或者任何与生活经验相当的机器人。

ViKiNG的前身BADGR。BADGR 现在已经演变成 ViKiNG，它代表带有地理提示的基于视觉的公里级导航。虽然 BADGR 可以自由的在小区域四处行走，但它的继任者 ViKiNG 旨在穿越长距离寻找目标，这是迈向实际应用的重要一步。

导航，非常广泛地，包括了解你在哪里，你想去哪里，以及你想如何到达那里。对于机器人来说，这相当于一个长期目标。一些遥远的 GPS 坐标可以通过实现一系列短期目标来达到，例如在接下来的几米内停留在特定路径上。达到足够的短期目标，你就达到了你的长期目标。但其中也有一种中期目标，这尤其棘手，因为它涉及对最佳路径可能是什么做出更复杂和抽象的决定。或者，换句话说，哪种短期目标组合最适合实现长期目标的使命。

方法概述。

这就是 ViKiNG 的提示所在。使用卫星地图或路线图，机器人可以就短期目标做出更明智的选择，从而大大增加实现目标的可能性。即使有了路线图，ViKiNG 也不局限于道路；它只是可能有利于道路，因为这就是它所拥有的信息。卫星图像，包括道路和其他地形，为机器人提供了更多信息。这些地图是提示，而不是说明，这意味着 ViKiNG 可以适应它没有预料到的障碍。当然，地图无法准确地告诉机器人在更小的范围内去哪里（这些短期目标是否可以穿越），但 ViKiNG 可以通过其单目相机自行处理。

ViKiNG 性能令人惊艳，正如你在图中看到的，蓝色的线为 ViKiNG 导航路径，综合来看这是通往目标的最佳路线。值得一提的是，研究者没有为 ViKiNG 提供周围环境地图，它通过基本的 GPS 完成这项任务，此外，你还需要提供一张照片、目标 GPS 坐标、单目相机和地图。上图显示了机器人正在穿越一条短路径，ViKiNG 可以自主导航。

论文通讯作者、UC 伯克利分校助理教授、强化学习大牛 Sergey Levine 表示：这项研究令人兴奋，因为整个过程都非常简单。与自动驾驶系统使用大量软件栈和交互组件不同，该系统使用两个神经网络（一个处理第一人称图像，一个处理地图图像）和一个规划算法来决定机器人行走路径。

可以说这项研究意义重大，因为当今机器人导航系统非常复杂，不能进行大规模部署。如果简单的基于学习的系统能够匹配或超过复杂的手工设计方法，这可能会为未来机器导航应用指明道路。