MIT小哥联合谷歌训练7个多任务机器人，9600个任务成功率高达89%！-51CTO.COM

随着任务数量的增加，使用当前计算方法来构建通用的日常机器人的成本变得过高，人们正在快速寻求一种解决办法。我们都希望通用机器人可以执行一系列复杂的任务，例如清洁，维护和交付等等。

但是，即使使用脱机强化学习（RL ）来训练单个任务（例如清洁），也需要大量的工程设计、花费很长的时间，这看似是件不可能完成的事！

上图为脱机和非脱机强化学习的演示动图

但是经过科学家们的不断努力，机器人的发展遇到前所未有的机遇。

任职于google的几位优秀的计算机科学家，率先研发出了处理大规模任务的新型机器人。

德米特里·卡拉什尼科夫（Dmitry Kalashnikov）是这项研究的第一作者，年纪轻轻的他于2009年创立了AI Digit公司，2013年加入google，担任软件工程师一职长达7年多。

杰克·瓦利（Jake Varley）作为第二作者，本科毕业于麻省理工大学（MIT）计算机科学专业，2013年顺利成为哥伦比亚大学的博士生，一毕业就收到google抛来的橄榄枝，现在google任SWE一职已经3年了。

卡罗尔·豪斯曼（Karol Hausman）作为第三作者，是南加大计算机科学专业的博士生，也是2018年加入google，目前主要担任google机器人控制和google大脑实验室的科学家。

这项研究主要展示了机器人脱机强化学习（RL）的两个新进展，即MT-Opt（一种用于自动数据收集和多任务RL训练的系统）以及Actionable Models（可动模型），该模型利用获取的数据实现脱机学习的目标。

MT-Opt引入了可扩展的数据收集机制，该机制在真实的机器人上可以收集超过800,000个任务，相比以往很多多任务脱机学习的成功应用，其平均性能比基线提高了约3倍。

更神奇的是，它还可以使机器人在不到1天的时间内对新任务进行适应，接着快速掌握新任务。

即使在没有特定任务和奖励的情况下该机器人也可以进行学习，这不仅极大地增加了机器人可以执行的任务数量，并可以更有效地学习下游任务。

所以为了大规模地收集多样化的任务数据，他们创建了一个可扩展且直观的多任务检测器来指定任务，目的是为了要收集最终平衡结果的数据集。

具体步骤如下：

为了训练该系统，科学家们收集了9600个机器人数据（来自七个机器人连续57天的数据收集），并采用监督学习（supervised learning）的方式来训练多任务，甚至允许用户快速定义新任务及其奖励的设置。

首先当收集数据时，需要对各种现实因素进行监察和定期更新。（例如不同的光照条件，多变的背景环境以及机器人灵活的状态）。

其次，通过使用较为简单的任务解决方案，有效地引导机器人学习更复杂的任务，这样在针对不同任务时，可以同时使用多个机器人同时操作。

一旦形成针对性训练，每个任务的数据量和成功情节数便会随着时间增长。

为了进一步提高性能，科学家们还重点放在某些表现欠佳的任务上进行调试和训练，逐一突破！

尽管这种数据收集策略可以有效地收集大量数据，但任务之间的成功率和数据量是不平衡的。

所以为了解决这个问题，他们命令机器人对每个成功或失败的任务进行标记。这一步骤之后再将已经达到均衡的任务发送到多任务RL训练管道。

好消息是，对于具有多数据的通用任务，MT-Opt的成功率是89％（QT-Opt的成功率是88％），罕见任务MT-Opt的平均成功率是50％。

使用可操作模型（Actionable Model）可以使机器人系统地学习大量的指示技能，例如物体抓握，容器放置和物体重新布置。

除此以外，该模型还能训练数据中看不到的物体和视觉目标，新的机器人具有「学习世界」的能力！

MT-Opt模型和可操作模型的结果都表明，真实的机器人可以学习许多不同的任务，并且这些模型有效地分摊了学习技能的成本。

这是迈向通用机器人学习系统很重要的一步，该系统可以进一步扩展到现实生活中，执行许多对人类有帮助的服务。

如果感兴趣的读者，可以具体参考这两篇论文：“ MT-Opt：大规模的连续多任务机器人强化学习”和“可行的模型：机器人技术的无监督离线强化学习”，网站上提供了很多有关MT-Opt的更多信息、视频和可行的模型。