Sergey Levine教授解读机器人AI的演进
“想象一下,有一天我们能够打造出一个在厨房里执行各种任务的家庭机器人。那么问题就不仅仅是感知了。你真的需要学会各种个人操纵技能,以便能够广泛地泛化。”
—— Sergey
Craig: 嗨,我是Craig Smith,欢迎收听《AI视界》。今天我和Sergey Levine进行了交谈,他是加州大学伯克利分校的副教授,在该校的机器人人工智能与学习实验室从事研究,并推动着AI控制机器人的边界。Sergey谈到了他最近在强化学习和从世界各地的机器人中聚合数据集方面的一些工作,以帮助训练一个能够在不同类型的机器人之间泛化的模型。这是关于具身AI的激动人心的研究,将这一变革性技术从计算机带到了现实世界。我希望你会像我一样觉得这次对话很有趣。那么,Sergey,你能先介绍一下自己吗?
Sergey: 我是加州大学伯克利分校的副教授,之前在斯坦福大学获得了博士学位,我还每周在谷歌的机器人部门工作一天,也在那里从事机器人学习方面的工作。我的研究涉及机器人领域,但也涉及到机器学习、强化学习等许多其他相关技术。最近,我的团队还在从事与语言模型、计算设计等相关的强化学习工作,以及决策制定的其他方面。
Craig: 大家都在谈论世界模型,他们正在将世界模型和语言模型结合起来。你有在研究世界模型吗?你对此持什么看法?
Sergey: 是的,我想我有一些话可以说。通常,如果我们想要控制机器人系统,机器学习有几种方法可以实现这一目标。一种非常简单的方法是模仿学习。模仿学习就是利用通常由控制系统的人提供的演示,然后模仿这些演示来尝试生成一个代理。机器人也可以为其他很多事情服务。可以说,语言模型只是巨大的模仿学习机器,因为它们在模仿人类生成文本。还有许多其他方法可以做到这一点。
Sergey: 所谓世界模型实质上就是一个动态模型,它表示环境将如何响应代理的行为,我们也可以从数据中学习到这一点。在强化学习中,通常将其称为基于模型的RL。基于模型的RL意味着训练一个模型来模拟环境行为,然后使用该模型来确定在世界中如何行动。实际上,这是一个非常古老的学科。事实上,在模型无关RL变得如此流行之前,最早的学习控制方法实际上是基于模型的RL方法。一些最早期的神经网络控制方法实际上使用了动态建模。而且,有很多不同的实例化方法。你可以通过采取图像观测并进行视频预测来实例化动态模型或世界模型。你也可以通过学习非重建性表示来实例化它们,或者是大致上捕捉系统状态而不一定将其重新映射回像素,然后进行预测。因此,有很多不同的方法来做到这一点。
Craig: 最近我和Wave谈到了他们的Gaia模型,并看过了相关视频。但他们将该模型内置到一个控制器中,连接到一个控制器,用于操作自动驾驶车辆。与您所从事的强化学习有什么不同之处,这种结构或架构有什么不同?
Sergey: 我觉得我没法说太多,因为我不知道他们的系统是如何工作的。我看过公开材料,和其他人一样,但我对细节并没有真正的了解。也许有一点我可以说的是,大多数基于学习的控制方法不一定需要预测机器人摄像头将来会观察到的原始像素。这是一种方法,可以通过这种方法做很多事情,但我认为更重要的区别实际上是我们能够多大程度上利用数据来产生更优化的决策,通过预测是一种方法,你可以预测像素,这就是视频预测模型所做的。你也可以预测结果或奖励,这是价值函数所做的。归根结底,它们实际上并没有那么不同,也许更大的区别是你能否得到一个在真实世界中真正有效的系统,是由训练数据决定的。例如,如果你想要实际在广阔的开放世界环境中工作的机器人操作系统,你需要在广阔的开放世界环境中对其进行训练。所以我在研究中实际上关心的很多内容是,我们如何开发可以使用大量数据的基于学习的控制技术,以及我们如何确定我们可以获取什么样的数据集来获得真正的泛化能力?在我的情况下,通常是机器人操纵技能,但也包括机器人导航技能等方面的技能,比如仓储系统的操纵。
Sergey: 很多时候,这些问题在很大程度上可以归结为感知问题。所以如果你以正确的方式构建你的环境,那么只要你能够检测到物体在哪里,你就可以使用手工设计的策略来解决这个问题。这种方式往往效果不太好。如果你想把机器人系统带到更开放的环境中,比如有一天你想象中建造一个家用机器人,可以在厨房里执行各种任务,那么问题就不仅仅是感知了。那时你真的需要学会各种个人操纵技能,并且需要能够广泛地泛化。
Sergey: 所以在这里我可能可以讨论一下一个我们最近实际上做的项目,这实际上是谷歌、伯克利和其他几所大学之间的合作项目,试图看看我们如何能够得到真正能够泛化到不同机器人形态的机器人控制器。这实际上非常重要,因为如果很多问题都涉及到数据,那么从一个单一机器人中获取到广度和多样性的数据,使得家用机器人能够实现你所期望的广泛泛化,是非常困难的。但如果你可以从许多不同的机器人中汇集数据,那么也许你就可以真正地获得这种覆盖范围。而且,如果你真的能做到这一点,并且你得到了一个可以在各种机器人之间泛化的系统,那么你就可以得到一些真正酷的东西,原则上,有人可以组装一些新的机器人系统,然后将这种机器人大脑插入其中,立即获得可以控制该机器人的东西。到目前为止,我们在这方面所做的工作并不是太关心构建更好的模型,而是仅仅是获取这种多样化的数据集,并应用我们之前已经开发的标准技术,而这实际上效果还不错。这个项目叫做RTX,其想法是我们从最后有34个不同的研究实验室那里获得了数据。
Sergey: 谷歌是其中之一,伯克利也是。实际上,在伯克利有两个实验室参与了这个项目,然后我们在这个数据上训练了一个模型,来执行基本上是以语言为条件的操纵任务。
Sergey: 我认为你给机器人一个指令,比如捡起番茄放进碗里,机器人应该执行这个任务。然后我们拿这个模型,交给了贡献数据的不同实验室,并让他们与他们研究的任何模型进行比较,基本上是在他们自己的系统上进行训练的,而多机器人模型实际上在成功率方面,平均提高了约50%,这实际上非常有趣,因为这与每个实验室的个体系统相竞争,并且可以假设有优秀的研究人员。他们建立了一个相当好的工作系统。现在,这实际上是一种模仿学习方法,是以语言为条件的模仿学习。我认为,无论是模仿还是预测还是世界建模,我认为这些技术中的许多技术都可以做到。我想要传达的更重要的信息是,通过实际获取这些数据集,你实际上可以得到一个可以插入所有这些不同机器人的系统,并且实际上从中获得良好结果。
Craig: 嗯,这很有趣。这个模型是通过各个参与实验室的数据集进行训练的。
Sergey: 是的,在这些实验中,我们并没有测试它是否可以泛化到一个新的机器人。这对于这个领域来说是一个非常激动人心的前沿,但那仍然是在未来。这只是试图回答这样一个问题:如果你包括其他实验室的数据,那么一个实验室的机器人是否会变得更好?当然,如果你处于少数派,如果你是那些提供相对较少数据的团队之一,你会预期看到相对更多来自其他人的好处。有趣的是,即使是大多数贡献者也看到了很多好处。
Sergey: 所以可能最大的数据集约有10万次试验,来自谷歌自己的机器人,也就是我们在很多机器人研究中使用的移动底座。通过这个系统,我们实际上能够在各种测试中对其进行测试。我们有一套困难查询的测试套件。实际上,这些查询需要从网络上合成预训练的知识以及良好的指令跟随能力,因此这些需要空间推理等技能,而在最困难的测试中,我们实际上看到了性能提高了三倍,仅使用谷歌数据集。现在在我看来,这实际上是非常深刻的,因为谷歌的数据集是非常精心策划的,是由专业人士收集机器人数据的,而事实上,将所有这些来自长列表的学术实验室的额外数据源包括在内,实际上导致了这么大的改进,这确实表明了当你将足够多的来自不同来源的数据组合在一起时,会发生一种神奇的事情。是的,所以对于这些实验,我们实际上是在传递模型。好的,数据集现在是公开的了。
Sergey: 所以任何人都可以拿到这个数据集并下载它,然后训练自己的模型。实际上,我们在加州大学伯克利分校有一个正在进行的项目,我的学生们都在参与。对于那个最初的实验,只是模型权重。嗯,这很有趣。只有模型权重。
Craig: 那么这个模型的架构在每个实验室都在复制。他们没有使用自己的模型。
Sergey: 是的,对的,所以这是完全相同的模型,完全相同的权重,必须驱动所有位置的所有机器人。是的,如果你仔细想想,这实际上是一件非常不容易的事情,对吧?因为模型只能看到机器人通过摄像头接收到的东西,必须解决这个问题。现在我正在驾驶一个U形机器人,一个UR-10工业机器人,与现在我正在驾驶一个成本低廉的WTOX机器人相比,或者现在我正在驾驶一个Franca或谷歌机器人,然后相应地调整控制。
Craig: 我在实验室时记得,你们的机器人是网络化的,所以从一个机器人学到的知识会更新到一个中央大脑,然后控制每个机器人。你是否进行过类似的更广泛的实验,就像这个一样?
Sergey: 是的,是的,我很高兴你问到了这个问题。实际上,在过去的五年里,这正是我们一直试图做的事情,从某种程度上说,这种多机器人训练的努力部分上是承认了这种臂农场方法的局限性。所以把很多机器人放在一个房间里是很好的,如果你想要原型化,比如说,强化学习算法,但是如果你真的想要广泛的泛化,它们不能都在同一个房间里。所以你真的需要更好地覆盖世界,通过汇集来自许多不同地点的机器人的数据,现在你可以得到更好的覆盖。现在这仍然是一个可能成为更大系统的原型,因为这些仍然是研究人员收集的数据集,本质上是在做科学实验。所以你可以想象,将来,汇集不会是跨不同的研究实验室,而是跨不同的部署机器人。
Sergey: 现在,当然,这是一个更复杂的任务,需要不仅仅是科学,还需要某种组织的努力,公司的共识等等。但我认为,这实际上是真正的问题,一旦这一点得以实现,你可以想象未来,来自各种不同地点的各种不同部署机器人的数据流将被聚合起来,然后用于训练一个集中式的机器人大脑,然后将其交给这些机器人以提高它们的性能。我们想要冒这个项目的风险的关键是,即使在任何规模下进行这样的操作,你知道,即使在学术实验室的规模下,你是否可以得到一个可以驱动所有不同机器人的策略?因为如果这是不可能的,那么聚合异构数据就行不通,我们需要想办法进行标准化。标准化是困难的,所以现在我们知道的是,我们不必太担心标准化。
Craig: 是的,这个模型,然后权重被传递,它们控制着不同形式的功能机器人,对吧,我是说?或者它们只是变种?
Sergey: 所以在这些实验中,机器人都是带有并行夹持器的手臂。我们现在正在试验单臂和双臂系统之间的泛化。将来某个时候,我们还将研究多指系统等等。到目前为止,真相是有点广告,它只是一个带有并行夹持器的手臂。它们只是不同品牌的手臂。现在它们确实有很大的不同。所以小规模的业余Widow X手臂可能长约50厘米,相对较小,夹持器较弱。而UR-10机器人是一种用于制造业的工业机器人,相当大,更强壮,有更强大的电机,更强的夹持器,等等。所以有很多的变化。但它们仍然是同一类型。
Craig: 是的,你在这些聚合数据上训练的模型是强化学习。你能描述一下这个模型吗?
Sergey: 我们实际上训练了两个模型。一个基于去年在谷歌开发的RT1模型。RT1模型基本上是一个Transformer,它读入语言指令、命令、图像,然后输出离散化的、分词化的行为。所以它几乎可以说是基于Transformer的策略的最明显的设计方式。第二个模型是RT2模型,这是一个更近期的发展,它实际上使用了一个来自预先训练的视觉语言模型的骨干。
Sergey: 所以视觉语言模型是经过训练的,可以查看图像并输出文本问题的回答。所以你给它一张图片,然后你说像这张图片里有一只狗吗?它会产生一些文本来回答。然后我们拿这个视觉语言预训练的骨干,然后进一步在机器人数据上进行微调,以输出机器人观察的机器人行为。所以你可以想象一下,VLM有很多任务可以做。它可以回答问题,它可以产生标题。现在还有一项任务,那就是给定一个机器人指令,输出机器人的动作。现在这是一个更强大的模型,因为它有来自视觉语言模型预训练的互联网知识,然后我们用于更复杂的查询,如空间关系等等。
Craig: 你大部分的工作都是在数据方面还是在模型方面。
Sergey: 嗯,实际上两者都是,某种程度上它们也是相辅相成的,因为取决于你的算法能处理什么,这将决定你需要获得的数据类型。例如,我实验室现在做的更多的算法工作关注的是离线强化学习技术。
Sergey: 离线强化学习基本上是一种利用数据产生更优策略的方法。因此,模仿学习方法。它们接收数据并产生重现数据中行为的策略。离线RL方法接收数据并尝试产生比数据中平均行为更好的行为。因此,直观地说,你可以将其视为使用数据来了解可用的选项,然后在这些选项中选择最佳的。实际上,像我们之前讨论过的使用世界模型的方法,可以看作是离线RL方法,因为它们的工作方式通常是在现有数据上训练世界模型,然后使用它来提取比数据集中典型的东西更好的控制策略。但也有其他建立离线RL技术的方式,不依赖于世界模型,而依赖于价值函数等等。
Craig: 你认为研究将朝着什么方向发展,因为一切都在如此迅速地发展?对于机器人控制来说,你认为研究将会确定一种架构,然后会有该架构的不同版本,但每个人都会同意这是最好的方式,然后只是一个训练的问题,泛化跨机器人和网络化数据?还是你认为将会有一系列模型用于各种功能?
Sergey: 是的,好问题,所以我会给你一个答案。这是一个稍微理想化的答案,也许这更像是我希望事情朝着的方向发展。我不知道这是否一定是事情将会发展的方式,但我认为对于机器人学来说,采用一种习惯性地拥有可重用模型的范式是非常重要的,在计算机视觉和自然语言处理中,如果一个研究人员提出了一个好的模型,其他机器人研究人员应该能够使用它。
现在,这可能看起来是一个非常明显的事情,但实际上这并不是机器人学今天的工作方式。大多数机器人学习研究,产生的工件实际上不是模型,而是代码、论文或见解。这些模型本身几乎从来不是可移植的,更不用说跨实验室甚至同一实验室不同位置,同一实验室不同时间等等。
Sergey: 我认为我们真的需要将这个过程转向一个方向,即我们有了在不同位置和系统、不同对象等等之间进行泛化的数据集训练的模型,然后我们可以将其提供给其他研究人员、其他从业者,他们也可以在他们的系统上运行,一旦我们找到了一个这样做的好方法,也许使用像RTX数据集这样的东西,它有多个机器人,也许使用其他数据,但是一些我们可以养成这种习惯的东西。
Sergey: 那么我们实际上可以作为一个社区朝着共享的、可泛化的系统的方向取得更多的进展。现在,在这之前,绝对不能质疑人们是否会使用相同的架构、相同的模型,如果他们甚至不能在之间共享任何东西,那是不可能的。但是一旦我们可以分享一些东西,也许关键是一个数据集,它能够实现这一点,那么社区就可以找到解决办法,也许到了那时,也许有一个单一的预训练的骨干,就像自然语言处理中的Lama模型,在机器人学中有一个类似的模型,然后人们可以在其上构建。或者也许会有几种这样的东西。也许会有一些大的、设备齐全的实验室生产的东西,其他人就可以在此基础上构建。但在我们达到任何这些目标之前,我们需要养成一个实际上可以运行的模型的习惯。
Craig: 机器人学的另一方面就是硬件,我前几天和一个人谈话,他谈到了机器人控制系统的未来,他非常乐观,说三到五年内将会有家用机器人,这听起来对我来说不太可能,因为仅仅硬件方面就不是至少我见过的硬件,它们还没有能力在充满随机性的非结构化环境中进行释放。你认为硬件与人工智能的发展步调一致吗?还是滞后?
Sergey: 这是个很好的问题。我认为这个问题非常重要的一部分就是我们需要什么样的硬件。我认为在很大程度上,学习方法实际上应该降低硬件的门槛。基本上你可以做的一种练习是拿一个类似垃圾拾取器的小设备,看看你可以在家里做什么样的任务。我是说,显然它非常有限,所以有些事情你可能做不到,但也有很多你可以做的事情。当然你可以打扫地板,把东西放在厨房的不同位置。一个相对原始的机器人系统实际上可以完成很多事情。
Sergey: 切尔西·芬(Chelsea Finn)教授团队的一项非常出色的工作,我也在其中稍微帮了点忙,由一位名叫Tony Zhao的学生开发了一个由Trostin Robotics的两个低成本机器人组成的双手臂机器人系统。所以这些甚至不是高级的工业机械臂。它们基本上是非常复杂的业余机器人。所以它们每个大约花费5000美元,他的研究中大部分的聪明之处在于设计了一个非常方便的远程操作系统,一个他可以用手持的方式控制这个相当便宜的双手臂系统的远程操作装置,他会展示各种非常复杂的行为。你可以看到像给脚穿鞋,用胶带把箱子固定住等等,然后你知道可以产生自主策略的学习方法设计得很好,但并不特别深刻。
Sergey: 它基本上使用了最先进的基于Transformer的技术,但并没有真正具有任何特别惊人的创新。关键在于构建一个真正好的远程操作系统,使他能够产生这些行为,然后有一个非常高质量的工程师将其转化为策略。所以这被称为阿罗哈系统,对于那些正在听的人,我鼓励你们去看一看,它可能会给你们一些想法,即使是非常原始的硬件,如果配备了正确的数据,正确类型的远程操作装置来提供数据和良好的基础现代机器学习技术。现在这仍然不能完成家务,但我怀疑对于观看这些阿罗哈视频的人们来说,这可能会稍微改变他们对于我们每天任务所需硬件的想法。所以可能仍然存在一些创新,但可能比你想象的要少。
Craig: 这很有趣。控制器方面,人工智能方面,模型方面,这是?我是说,如果那个硬件是足够的,那控制方面还需要多少进步?
Sergey: 这是一个复杂的问题,因为这可能在很大程度上取决于对稳健性和泛化程度的要求。在某种程度上,这有点类似于自动驾驶的故事,如果你想要构建一辆能够在90%的情况下成功的自动驾驶汽车,那么这可能是我们已经有了十多年的事情了。但是如果你想要一辆能够成功避免灾难性故障的自动驾驶汽车,具有足够的稳健性,可以在任何城市的任何道路上部署,只需处理所有那些边缘情况,那这仍然是一个悬而未决的问题,我认为对于家用机器人也将是一样的,如果你想削减大部分的事情和大部分的情况,也许那还没有完全到位,但我认为可以想象我们很快就能达到那个目标。但要完全解决那些边缘情况需要多长时间,这是一个更加复杂的问题。
Sergey: 我认为一个非常有趣的事情是,在过去的12个月中,视觉语言模型的发展程度,这对于机器人来说尤其重要,因为虽然视觉语言模型通常用于更多的感知、传统感知任务、问答等等,但是关于视觉观察的推理,关于对象的空间布局的推理,这些事情很可能会转化为更好的机器人能力,因为泛化是我提到的那些大挑战之一,边缘情况问题,我认为有很多理由对这些模型最终改善机器人控制器的稳健性感到乐观。
Sergey: 人们正在谈论将语言和视觉,或者我应该说语言和世界模型,结合到能够进行推理、规划和采取行动的代理中。这听起来对我来说非常像机器人控制。
Sergey: 我想问的是,研究和从事机器人控制的人们,研究走在不同的轨道上,答案有点复杂,但简单来说,也许是,是与许多机器人问题密切相关的。事实上,在机器人领域,有很多关于使用语言模型构建计划,然后将这些计划连接到某种可以实现它们的控制机制的工作。现在,这方面的工作可能大约是在两年前开始的。在这个领域,可能更为人熟知的一项工作是谷歌的Seikan论文,它使用语言模型为机器人规划了长期行为。最初在这个领域,人们关注的一个重大挑战是如何将语言模型与感知和行动连接起来,因为标准的语言模型必须在世界的符号表示上运行,所以你必须将这些符号表示与丰富的感知和复杂的执行联系起来。最初这样做的方法是沿着你描述的方式进行的,试图构建一种联合规划过程,该过程将找出一个概率序列的符号步骤,基本上是语言,以及将导致这一结果的相应行为。实际上,我的一位同事来自Skult,提出了一篇名为“基于地面的解码”的论文,提出了一种贝叶斯滤波方法来做到这一点。不过,我们在过去的大约六到九个月里看到的一件事是,随着视觉语言模型变得越来越强大,一种非常吸引人的替代方案是,实际上训练模型来解决整个问题。现在这些模型仍然可以进行规划。
Sergey: 如果你有一个视觉语言模型,可以输出文本,也可以输出行动,你可以进行类似于思维链提示的操作。你可以说,好的,这里有一个复杂的问题,然后产生解决该问题的步骤,一旦你产生了这些步骤,然后产生行动,这是可行的。所以你可以告诉一个机器人,好的,比如,准备早餐,而要准备早餐,我需要做这个和这个,然后,对于这个过程的第一步,它会尝试输出行动。所以这是使用视觉语言模型的一种可行方式,但这仍然是一个模型。你仍然会得到一个模型,这是非常可取的,因为如果你有一个模型,那么你就不需要解决这个问题,试图将视觉观察数据塞入符号表示,然后传递给语言模型。基本上,通过整体的联合训练,这个接口不是通过手工设计的,而是自然地出现。
Sergey: 这实际上是R2-2模型的原则,其中一个例子是我们询问它。我们有意构建了一个场景,其中正确的行为有点不明显。所以我们有一个场景,里面有一些常见的家庭用品和一些错误类型的工具,所以应该用一个石头钉子。没有锤子,但有一块石头,我们问,“好的,你需要用钉子钉入钉子,你应该怎么做?”然后它想出了你应该拿起石头。它实际上说了石头,然后转到相应的行动。所以现在这是非常原始的规划,对吧?所以它更像是语义推理而不是规划。但这些东西还处于萌芽阶段。我认为它们在未来几年里还会取得更大的进步。
Craig: 在过去的五年里,我认为自从我上次和你交谈以来的时间,你们领域的进步是否与生成式人工智能的进步相一致?
Sergey: 我认为机器人领域的进步总是会落后于其他领域,因为当我们找到有效的学习技术时,然后从概念上的方法到产品,再到小规模原型,再到大规模原型,总是需要更长的时间,因为对于生成模型,嗯,你可以从网络上获取大量数据,所以从开发方法到将其扩展到互联网规模的数据通常的延迟时间比较短。
Sergey: 但对于机器人来说,通常情况并非如此。所以虽然生成模型的现代进展确实对机器人产生了重大影响,而且这些技术的特别有趣的适应是与强化学习、规划等相结合,但我认为到目前为止,我们对这些事物的潜力有很多良好的迹象,但我们还没有像扩散模型那样为图像生成或语言模型那样的大规模原型。我认为关键是获得这些种类的可重用模型,这些模型具有大量且多样化的数据,这样我们就可以生产这些更大的原型。
Craig: 是的,那么你们实验室接下来会做什么?
Sergey: 我们希望做的一件事是向社区提供预训练模型,现在我们实际上有了一个可以轻松适应各种下游应用的数据集。所以不只是一个可以做任何事情的模型,也许这是一个太雄心勃勃的目标,但至少是一个可以适应做任何事情的模型。所以你可以想象,比如说,一个模型被预先训练,用于接收语言、接收目标观察、其他形式的命令,并为各种不同的机器人体制输出结果,这不一定是解决每个问题,但至少提供了一个很好的初始化。所以如果有人有一个特定的机器人系统,有一个特定的任务表述,一个特定的目标,他们可以拿来用这个,用更少的数据,来适应他们的问题。我认为现在我们实际上已经有了良好的多机器人数据集和相当成熟的技术,可以训练具有可变输入和输出的模型,我们实际上已经准备好了。所以我们的第一个原型应该很快就会推出。但这将是第一步。
Sergey: 接下来,我们需要探究这样一个系统的生命周期实际上是什么样的?哪些是有效调整机器人基础模型到特定领域、不同形态、不同命令等的正确技术?在那里可能实际上有很多有趣的问题需要解答。例如,机器人可以自主收集数据,因此你是否可以基于其中一个这些预训练模型来进行自主微调程序?你是否可以有一个尊重安全约束的微调程序等等?所以一旦我们有了基础模型,就有很多有趣的问题可以解答。
Craig:我一直在和人们讨论专有、开源辩论的问题。在生成式人工智能和机器人领域,是否存在类似的情况,即有着巨大资源的企业?我的意思是,机器人并不像你所说的模型那样计算密集型。是这样吗?因此,在产业和研究中发生的事情是否更加平等?
Sergey: 是的,这是复杂的。所以当然,计算约束是一个问题,尤其是当我们进入到视觉语言模型时。最有效的视觉语言模型实际上是最大的模型。例如,R2-2模型的最大版本有500亿个参数,非常接近目前最大的模型。当然,你可以在小得多的规模上做很多实验,这使得它在某种程度上更容易接近。
Sergey: 就数据而言,这有点有趣。肯定有一些公司部署了大量机器人。不过,这些公司的数据未必是最有趣的,因为如果它们部署在一个仓库里,主要是拿取物品,也许在某些方面,研究人员的开放数据实际上更有趣。如果是移动性问题,如自动驾驶,情况就有所不同,像是,确实有一些大型工业公司拥有自己的专有技术,但即使在那里,像是从汽车仪表板安装的摄像头构建的数据集现在也非常庞大。当然,它肯定不像特斯拉或Waymo
拥有的那样大,但是还是相当可观。所以我认为你说得对,一些专有优势可能并不那么大,但这有点。或许更悲观的看法是,因为没有人拥有数据,所以公司也没有数据。
Craig: 自主车辆的控制和机器人手臂或其他形式因素的控制,它们是不同的领域吗?我是说,当你们在研究这些模型时,你们也在考虑它们在自动驾驶中的应用吗?
Sergey: 传统上,这些是非常不同的问题,但我们越来越多地看到一种整合的趋势,因为非常相似的构建模块可以被重用。所以我认为实际上的自动驾驶可能是其中最棘手的问题之一,因为有所有的约束和法规等等。但对于小规模移动机器人,比如,无人机、人行道机器人等,我们已经有研究项目开发了基于视觉的导航策略。对于这些东西,它们使用的基本上是与我们用于机器人操纵问题的完全相同的架构,一个非常自然的下一步是实际上结合起来,不仅仅是有相同的架构,而是实际上是相同的模型。
Sergey: 原则上,在这一点上,实际上并没有任何技术障碍。现在,当然,开车,比如说,一辆自动驾驶汽车的控制远不仅仅是避开障碍物和到达目的地。你必须加入很多知识、约束等等,这可能是相当专业化的。但我的假设是,我们可能会看到很多在这些东西的核心感知行动系统上具有相同基本构建块的整合,也许它们的区别在于位于其上的规划层,然后在特定情况下指导它们实际要做什么。
Sergey: 你的工作呢?因为计算约束、资金、工资等等的原因,学术界对于产业的吸引力是否更大,或者你是否在学术界和产业之间工作?你是坚定的吗?
Sergey: 是的,我有20%的时间在谷歌DeepMind工作。我认为,就产业研究员或学术研究员在机器人领域的吸引力或进步程度而言,可能它更倾向于学术界,而不是像自然语言处理或视觉领域那样。也许部分原因是因为在事情真正产生收入之前,还有许多大问题需要解决,你可以构建一个提供实际商业案例的语言模型或视觉系统,而类似的机器人技术可能还需要几年的时间。不过,我确实认为进展迅速,我所带领的许多学生对于基于他们正在开发的技术创办公司等事情感到兴奋。所以我认为在不久的将来我们将会看到这方面的追赶。
Craig: 你认为今年AI进入公共领域,人们经常将机器人与AI混淆。这一天会到来吗?我是说,显然这一天会到来,但你认为什么时候会到来,当会有一些商业应用或开源应用被公众接受时,人们会突然谈论机器人而不是AI吗?
Sergey: 是的,这是一个复杂的问题,因为我认为如果我必须猜测,我会猜测除了核心技术之外,还需要相当大的前期投资来克服实用化的激活能量。在某种程度上,这并不是前所未有的,因为与语言模型几乎相同的事情发生在那里。下一个令牌预测的核心技术是相当古老的。真正需要的是将大量的精力投入到对它们进行工程化和策划,收集和组装正确的数据集,使它们真正有效,以至于基本上任何人都可以使用。这部分。
Sergey: 那里有一个科学问题,但很多问题实际上是组织经济学的问题,而这些问题很难预测,因为它们更多地与人们决定何时投入大量资源来使之成为现实相关,而不仅仅是预测技术的进化。技术可能会稳步发展,但转折点实际上是资源分配,所以我不能预测这将会发生的时间。如果我必须打赌,我会更接近于五年而不是十年,但我不确定。
Craig: 这个争论已经在社区中引起了很多争议。你对此有什么看法,还是你的领域足够独立,你不会参与其中?
Sergey: 是的,这是一个复杂的问题。我倾向于不太愿意参与这样的讨论,因为我不太确定事情会如何发展,我认为,也许作为一个机器人学家,我可能更倾向于对我们整体AI系统的现状有些悲观。很难想象一个无法控制机器人进行人类容易的基本事情的AI系统会有多么能力非凡,但这些东西很难预测。我认为在AI研究中唯一的常数可能是,人们经常被事情的易于想象以及事情的困难程度所惊讶。如果我们回到几十年前,想到艺术家和作家会被AI系统威胁到,那是在园丁和清洁工之前,这是非常令人震惊的,但这是我们今天生活的世界。也许这告诉我们要对我们的预测保持一些谦虚。
Craig: 是的,没错。全球各国政府非常关注对生成式AI
的监管。是否有关于机器人或AI和机器人的监管,或者政府是否正在关注?是否有政府支持?有很多关于为研究和小型公司提供计算资源,以便这些资源不会被这些大型科技公司控制的讨论。在机器人领域是否有这样的讨论,政府应该或可以提供更多资源来加速研究?
Sergey: 是的,肯定有很多关于这个问题的讨论。就我所见,通常情况下,这并不是将机器人或人工智能与其他事物区分开来的事情。当然有关于这个的讨论。但我还没有看到很多实际行动,但我想这是一个进展缓慢的事情。在这方面,我不认为我会和其他任何人工智能研究者说出不同的话。从我目前所见,我认为没有任何特别特殊的事情对待机器人。但是,这是一个重大问题,我们在美国肯定需要认真考虑我们如何保持技术优势以及如何分配必要的资源。
Craig: 这引出了另一个问题,因为我在中国度过了我生命中的很多时间。在这项研究中,中国处于什么位置?你认为他们领先还是落后?
Sergey: 我不太确定。有一件事我可以说,我认为来自中国大学的研究人员在人工智能的各个领域,包括机器人学,在所有领域都取得了很大的成功,而且肯定有很多非常有趣的研究成果来自中国。例如,当我们进行很多数据集收集工作时,我们实际上非常惊讶地发现,上海的一些研究人员发布了一个非常惊人的数据集,与我们收集的数据集在规模、范围和多样性上相当,这很棒。他们以开源的方式发布了它。我和他们通过电话交谈过。他们对他们想要用它做什么有很有趣的想法,所以我看到了很多质量和结果方面的提高。
Sergey: 另一个有趣的事情是,实际上有相当多的硬件进步是由中国的公司推动的。例如,四足步行研究中最广泛使用的平台之一是来自中国的一个名为Unitary的公司,我认为这个平台之所以如此吸引人的原因是因为它相对简单,价格实惠,并且设计得让研究人员容易进入其中的内部机制,我认为这实际上也是一件非常好的事情,因为虽然我们可能会担心竞争等问题,但最终这实际上是加速了美国的研究进程。这是我到目前为止所见到的,我不想对什么是好或坏做出价值判断。看起来有很多事情在发生。
Craig: 这一期就到这里了。我要感谢Sergey抽出时间来和我们交谈。与此同时,请记住,奇点也许不会很近,但人工智能正在改变你的世界,所以要注意。
本文转载自 MoPaaS魔泊云,作者: Sergey Levine