从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人

人工智能 新闻
最近,ACM 邀请到 Pieter Abbeel,聊一聊有关他的工作,以及那些他为更轻松「教」机器人学习而开发的技术。

人类的大脑具有学习新事物的能力,而且学习方式多种多样,从模仿他人到观看在线解说视频,不一而足。如果机器人也能这样做呢?2021 年 ACM 计算奖获得者 Pieter Abbeel 的职业生涯一直在研究这个问题。

Pieter Abbeel 是 Covariant 的创始人之一。Covariant 是一家人工智能机器人公司,致力于构建一个通用的人工智能,使机器人能够在现实世界中学习和操作,以协助人类完成繁重和劳累的任务,尤其是在仓储和物流行业中。

图片

Covariant 的创始人陈曦、Pieter Abbeel、段岩、张天浩(从左到右)

通过与仓储公司的合作,Covariant 的核心技术「Covariant Brain」能够接触到大量现实生活中物体,从数百万次的拾取任务中学习。Covariant Brain 能够使机器人看、思考并行动。在学习过程中不仅学习既有动作,还通过学会如何学习(元学习)来抓取任何不熟悉的物品,无论形状、大小或包装如何。

最近,ACM 邀请到 Pieter Abbeel,聊一聊有关他的工作,以及那些他为更轻松「教」机器人学习而开发的技术。以下为机器之心对本次访谈进行了不改变原意的编译与整理。

ACM:让我们从深度强化学习和你开发的名为 「信赖域策略优化 」的方法开始。这种方法是如何工作的,你又是如何开发出来的?

Pieter Abbeel:过去,要把机器人放在某个地方,比如汽车厂或电子厂。这时你需要把机器人周围的环境布置好,让一切以完全相同的方式重复一遍又一遍。然后,用某种固定的动作序列对机器人进行编程,这样就能完成任务了。这对于结构化的环境非常有效,但当在可预测性稍差的环境中,我们就无能为力了。

我一直认为,当机器人能够适应不同环境时,就会发生重大变革。而要做到这一点,就意味着机器人必须具备学习能力。

ACM:那么如何让机器人学习呢?

Pieter Abbeel:这是我取得博士学位之后一直在研究的问题。从根本上说,主要有两种方法,它们相辅相成:一种是模仿学习或学徒学习,另一种是强化学习。

在模仿学习中,你告诉机器人该做什么,机器人就会从你的例子中学会做这件事。这很好,因为当你想让机器人做某件事时,你通常较为准确地知道需要它做些什么。但挑战在于,你需要给机器人提供大量的示例,这样它才能在面对新场景时进行归纳总结,并完成任务。这可能会变得非常耗时,并且一旦环境发生变化,总会有一些内容超出你所给出例子的范围。

ACM:强化学习是什么?

Pieter Abbeel:强化学习是关于试错的。在这种方法中,不需要向机器人展示该做什么,机器人只是不断尝试,然后系统会告诉它是否成功。因此原则上,你需要先通过模仿学习向机器人展示该做什么,然后让机器人不断试错,从而学习。

ACM:2012 年,ACM 图灵奖获得者 Geoff Hinton 证明,只要有足够的视觉数据,深度神经网络在训练后就能表现出前所未有的模式识别能力。我想这启发了你,使你的强化学习框架中的模式识别功能更加强大。

Pieter Abbeel:在强化学习中,机器人会自己做一些事情,但它仍然需要识别好的运行模式与差的运行模式有何不同。我和我的学生 John Schulman 开始尝试使用深度神经网络,看看能否改进强化学习算法中的模式识别器。但事实证明,强化学习算法比标准的监督学习要脆弱得多。在监督学习中,有一个输入,输出是一个标签,你只需要识别模式。而在强化学习中,机器人需要在从未运行过的情况下学会运行。在这过程中,信号不多,噪音很大。

ACM:因此,你尝试既要提高模式识别,又要让算法更加稳定。

Pieter Abbeel:我们需要能够保证机器人在持续改进。如果机器人观察最近的经验,它将更新模式识别器。而模式识别器是一种神经网络策略,用于接收当前的传感器输入并生成电机指令。我们知道,如果能想出一种方法让机器人在每一步都能持续改进,那么就有了利用这些庞大神经网络进行强化学习的真正基础。

ACM:这就是信赖域策略优化的作用所在了。

Pieter Abbeel:在传统强化学习中,我们会进行一系列试验,然后计算梯度,找出进步最大的方向。信赖域策略优化定义了一个信赖区域:一个我们知道可以信赖梯度的区域。梯度是 landscape 的一阶线性近似值。我们知道 landscape 不是线性的,但在局部它能够以这种方式近似为线性。因此,我和 John Schulman 想出了一种方法,来量化可以信赖这种线性近似的区域。接下来,我们只需在该区域内迈出一步,就能保证改进效果。

ACM:重复这样做,你就为强化训练打下了值得信赖的基础。

Pieter Abbeel:没错!我们在 YouTube 上有一段视频 ,你可以在视频中看到整个过程。机器人只是不断尝试,不断摔倒,但随着时间的推移,它真的开始运行了。学习的妙处在于,一旦你有了学习算法,你就不需要重新编程,只需再次运行学习算法,它就能学会在新情况下需要什么。

视频来源:https://bit.ly/3nZrQhs

ACM:你创立的公司 Covariant 正试图通过制造一个通用的机器人大脑来商业化这个想法。

Pieter Abbeel:我们的目标是提出一种方法,使机器人能够在学习什么以及如何学习方面通用。当然,机器人不能通过学习过操作堆乐高积木然后学会飞行,堆积木并不是学习飞行的正确数据集,但是代码可以是相同的。就像人类学习如何骑自行车或驾驶汽车,在人脑中,思路都是一样的。

ACM:Covariant 也在为商业应用构建机器人,特别是仓储取放机器人。

Pieter Abbeel:我们可以赋予机器人超越预先编程的固定动作序列的新技能,即使它们不是完全通用的。从我们的学术研究中我们知道这是可能的,我们开始考虑创建 Covariant。我们想到,机器人现在应该具备有用性。另外,我们的产品开发是数据驱动的,如果想要收集大量的数据,则需要制造出真正能激发人们购买需要的机器人。

ACM:当你在 2017 年创建 Covariant 时,自动驾驶汽车获得了大量的资金。是什么吸引了投入仓储取放机器人?

Pieter Abbeel:我们希望找到一个领域,它不需要实时干预,而是在极少数情况下才需要人工支持。实时人工干预很昂贵,无法体现机器人做事的价值。使用机器人操作,你仍然需要非常高的精度,但一旦机器人没有像预期的那样运行,就会有人介入并进行快速修复。

我们研究了许多不同的公司、行业和应用,最后我们把目光集中在仓储上,因为它似乎是一个自然而然的起点,原因有二。首先,取放是机器人几乎所有操作的基础。第二,这是一个快速发展的行业,真正需要自动化来支持我们所有的在线传送。在拾取和放置过程中没有自动化,这种非常重复的工作是对人类来说是很伤脑筋的。

ACM:你还与人共同教授一门关于 AI 业务的课程。你从向非专业人士教授 AI 中发现了什么?

Pieter Abbeel:我决定教授这门课程的原因之一是,我认为对 AI 的基本了解对做出商业决策很重要。许多公司将以某种方式使用 AI 人工智能,无论是在内部开发还是购买某种服务。商业专业的学生必须能够理解今天可能发生的事情,以及在不久的将来可能发生的事情,以及如何评估不同的系统。

这很有趣,因为对于从未真正研究过 AI 的人来说,这有点像解释一个魔术。就其核心而言,AI 是很好解释的。如果你想把它推向下一个技术前沿,你需要大量的训练,但理解基本概念并不需要多年的学习。

责任编辑:张燕妮 来源: 机器之心
相关推荐

2022-07-24 19:24:32

机器学习预训练模型机器人

2023-07-20 15:18:42

2020-09-02 10:36:52

机器人人工智能系统

2023-12-03 22:08:41

深度学习人工智能

2024-09-05 08:23:58

2023-10-09 12:36:25

AI模型

2024-04-15 08:20:00

机器人技能

2023-09-21 10:29:01

AI模型

2023-04-25 11:44:36

垃圾分类AI

2023-11-01 19:17:05

特斯拉机器人Optimus

2018-11-14 10:28:38

AI数据科技

2022-03-25 10:35:20

机器学习深度学习强化学习

2021-09-17 15:54:41

深度学习机器学习人工智能

2021-10-11 09:51:38

谷歌人工智能强化学习

2021-02-05 10:18:07

深度学习机器人通用人工智能

2017-03-27 16:35:23

2021-01-12 14:50:55

机器学习人工智能计算机

2021-07-22 10:17:55

加密机器人加密货币机器人

2024-02-21 12:20:00

AI训练

2017-07-25 16:04:31

概念应用强化学习
点赞
收藏

51CTO技术栈公众号