最近,来自UCSD、IAIFI和MIT机构的研究人员,用一种全新的神经体积记忆架构(NVM),教会了一只机器狗感知三维世界。
利用这项技术,机器狗可以通过单一的神经网络实现爬楼梯、跨缝隙、翻障碍等等——完全自主,无需遥控。
不知道你有没有注意到狗背上那个的白盒子?
里面搭载的是苹果的M1芯片,负责运行机器狗的视觉处理任务。而且,还是团队从一台Mac上拆下来的。
不难看出,MIT的这只机器狗可以轻松地爬过了横在自己面前一段树枝,毫不费力(基本上)。
长了4条腿的MacBook?
众所周知,对于机器狗,以及其他有腿的机器人来说,想要翻越不平整的道路,可谓是困难重重。
路面状况越是复杂,就有越多的障碍无法被看到。
为了解决「部分可观测环境」问题,目前SOTA的视觉-运动技术通过帧堆叠(frame-stacking),将图像通道连接起来。
然而,这种简单的处理方法远远落后于现在的计算机视觉技术——后者可以明确地模拟光流和特定的3D几何形状。
受此启发,团队提出了一种神经体积记忆架构(NVM),可以充分考虑到三维世界的SE(3)等变性(Equivalence)。
项目地址:https://rchalyang.github.io/NVM/
与以往的方法不同,NVM是一种体积格式。它可以将来自多个相机视图的特征体积聚合到机器人的自我中心框架中,从而让机器人能更好地理解周围的环境。
测试的结果显示,使用神经体积记忆(NVM)对腿部运动进行训练后,机器人在复杂的地形上的表现要明显优于之前的技术。
此外,消融实验的结果显示,神经体积记忆中存储的内容捕获了足够的几何信息来重构3D场景。
现实世界中的实验
为了在模拟之外的不同现实世界场景中进行验证,团队在室内和室外场景中都进行了实验 。
当机器狗发现有障碍物突然出现在自己面前时,直接就会选择绕开。
在满是石头的地面上,走起来好像也没什么问题,虽然比在平地上还是要费力一些的。
相对于自身来说比较大的障碍,努努力也还是可以翻过去的。
采用此前的识别控制技术,小狗后腿对距离判断明显出现了误差,一脚踩沟里翻车了,失败。
采用MIT提出的NVM之后,小狗过沟,稳稳的幸福,成功!
采用此前的识别控制技术,小狗第一脚就踩空了,狗头抢地,失败。
采用MIT提出的NVM之后,小狗四平八稳地走过了矩阵。
腿部运动的体积记忆
使用以自我为中心的摄像机视角,本质上是一个处理「部分可观测环境」的问题(Partially-Observed)。
为了使控制问题具体化,机器人需要从先前的帧中收集信息,并正确推断被遮挡的地形。
在运动过程中,直接安装在机器人底盘上的摄像机发生剧烈和突然的位置变化。
这样,在表征一连串的画面的过程中,某单个帧能够被放到正确的位置,就变得非常重要了。
为此,团队提出的神经体积记忆(NVM)的概念,可以将输入的一连串视觉信息,转化为场景特征进行3D描绘,进而进行输出。
通过自监督学习NVM
虽然「行为克隆目标」足以产生一个好的策略,但针对平移和旋转的等变性,自动为神经体积记忆提供了一个独立的、自监督的学习目标。
自监督学习:研究团队训练了一个独立的解码器。让它通过一段视觉观察和两个帧之间的预估转换,来预测不同帧中的视觉观察。
如上图所示,可以假设在帧之间周围的3D场景保持不变。由于相机是朝前看的,我们可以将先前帧的特征体积规范化,并用它来预测后续的图像。
解码器的视觉重建
第一幅图显示机器人在环境中移动,第二幅图是输入的视觉观察结果,第三幅图是使用3D特征体积和预估画面合成的视觉观察效果。
对于输入的视觉观察,研究团队对图像应用了大量的数据增强来提高模型的鲁棒性。
作者介绍
Ruihan Yan
Ruihan Yan是加州大学圣地亚哥分校的二年级博士生。在此之前,他于2019年在南开大学获得软件工程学士学位
他的研究兴趣是强化学习、机器学习、机器人等。具体来说,他想建立智能体,利用来自不同来源的信息进行决策。
Ge Yang
Ge Yang本科毕业于耶鲁大学物理和数学专业,并在芝加哥大学获得物理学博士学位。目前是美国国家科学基金会人工智能与基础交互作用研究所(IAIFI)的博士后研究员。
Ge Yang的研究涉及两组相关问题。第一组是通过重新审视我们在神经网络中表征知识的方式,以及知识如何在分布中转移,来改善学习。第二组是通过理论工具的视角来看待强化学习,如神经正切核、非欧几里得几何和哈密顿动力学。
Xiaolong Wang
Xiaolong Wang是加州大学圣地亚哥分校ECE系的一名助理教授。他是TILOS国家科学基金会人工智能研究所的机器人团队的成员。
他在卡内基梅隆大学获得了机器人学的博士学位,并曾在加州大学伯克利分校做博士后研究。