新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

现在，让机械狗自己打滚一个小时，它就能学会走路了！

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

步态看着相当有模有样：

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

还能扛住大棍子的一通狂怼：

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

就算是摔了个四仰八叉，翻个身自己又站起来了：

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

如此看来，训机械狗和普通训狗真是要没什么两样了啊。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

这就是UC伯克利大学带来的最新成果，让机器人直接在实际环境中训练学习，不再依赖于模拟器。

应用这一方法，研究人员在短时间内训练出了4个机器人。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

比如开头看到的1小时学会走路的机械狗；

还有2个机械臂，在8-10小时实战抓取后，表现接近于人类水平；

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

以及一个拥有计算机视觉的小机器人，在自己摸索2小时后，能丝滑地滚动到指定位置。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

该研究由Pieter Abbeel等人提出，Pieter Abbeel是吴恩达的第一位博士生，前不久他刚刚获得2021 ACM 计算奖（ACM Prize in Computing）。

目前，该方法的所有软件基础架构已经开源。

一个叫做“空想家”的算法

本文方法的pipeline大致可分为4步：

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

第一步，是先把机器人放在真实环境里，收集数据。

第二步，把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”，高效利用收集到的样本。

第三步，World Model会对已有经验进行学习，然后“脑补”出策略。

第四步，再用演员评论家（Actor Critic）算法来提升策略梯度法的性能。

然后循环往复，将已经提炼出的办法再使用到机器人身上，最后达到一种“自己摸索学习”的感觉。

具体来看，这里的核心环节是World Model。

World Models是2018年由DAVID HA等人提出的一种快速无监督学习方式，获得了NIPS 2018的Oral Presentation。

它的核心理念是认为人类是基于已有经验，形成了一个心理世界模型，我们所做的决定和行动都是基于这个内部模型。

比如人类在打棒球时，做出反应的速度远比视觉信息传达到大脑中的快，那么在这种情况下还能正确回球的原因，就是因为大脑已经做出了本能的预测。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

此前，基于World Model这种“脑补”的学习方法，谷歌提出了Dreamer这种可扩展的强化学习方法。

这一次提出的方法是在此基础上，叫做DayDreamer。

（貌似可以叫做空想家？）

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

具体来看，World Model就是一个智能体模型。

它包括一个视觉感知组件，能将看到的图像压缩成一个低维的表征向量作为模型输入。

同时还有一个记忆组件，可以基于历史信息，对未来的表征向量做出预测。

最后，还包括一个决策组件，它能基于视觉感知组件、决策组件的表征向量，决定采取怎样的动作。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

现在，我们回到本次UC伯克利学者提出的方法。

不难发现，其中World Model Learning部分的逻辑就是一个经验积累的过程，Behavior Learning部分则是一个动作输出的过程。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

本篇论文方法的提出，主要解决了机器人训练中两方面的问题：

效率和准确率。

一般来说，训练机器人的常规方法是强化学习，通过反复实验来调整机器人的运作。

不过这种方法往往需要非常大量的测试，才能达到很好的效果。

不仅效率低下，而且训练需要付出的成本也不低。

后来，不少人提出在模拟器中对机器人进行训练，可以很好增效降本。

但是本文作者认为，模拟器训练方法在准确性方面的表现还是不够好，只有真实的环境才能让机器人达到最好的效果。

从结果来看，在训练机器狗的过程中，只花10分钟时间，机器狗就能适应自己的行为了。

和SAC方法对比来看，效果有明显提升。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

在机械臂训练过程中，这一新方法还克服了视觉定位和稀疏奖励的挑战，几小时内的训练成果明显优于其他方法。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

研究团队

值得一提的是，本次带来新成果的研究团队成员，也非常令人瞩目。

其中，Pieter Abbeel是吴恩达的开山大弟子。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

他现在是UC伯克利电气工程和计算机科学教授，伯克利机器人学习实验室主任，伯克利AI研究院共同主任，曾加入过OpenAI。

前不久，他还获得了2021 ACM 计算奖（ACM Prize in Computing），以表彰其在机器人学习方面的贡献。

与此同时，他还是AI机器人公司Covariant的联合创始人。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

另一位Ken Goldberg，也是AI领域的顶级专家。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

他现在是UC伯克利工程教授，研究方向为强化学习、人机交互等。

2005年，他被评选为IEEE院士。

与此同时，Goldberg还是一位艺术家，是UC伯克利艺术、科技文化研讨会的奠基人。

此外，Philipp Wu、Alejandro Escontrela、Danijar Hafner三人为共同一作。

其中Philipp Wu还只是UC伯克利一位大四的学生。

One More Thing

在观看机械狗训练的视频时，我们发现研究人员使用的是Unitree机械狗。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

这个品牌来自中国企业宇树科技，之前登上过春晚的机器小牛，也来自它家。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

而且，最近宇树机器狗集体进行Go1测试的视频曝光，还在国外火了一波。

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果

论文地址：

https://danijar.com/project/daydreamer/