受大规模语言建模的启发,Deepmind应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点,能够执行600多个不同的任务。而这款人工智能,可以说是世界上迄今为止最令人印象深刻的一体式机器学习套件。
DeepMind在官方博客中解释道:
“Gato是作为一个多模式、多任务、多组件的通用人工智能。在相同的网络条件下可以玩雅达利游戏、给图像加标题、与人聊天,以及控制机械臂堆积木等等,它会根据当前情境决定是否输出文本、转动机械手臂、按下按钮或是进行其他标记。”
虽然Gato的表现究竟如何还有待观察,但它似乎比GPT-3所希望实现的一切还要多。
图片来源:DeepMind官网
Gato真的超越了GPT-3吗?
GPT-3是一个大型语言模型(LLM),由资金充足的人工通用智能(AGI)公司OpenAI制作。它不仅有来自微软的数十亿美元的支持,在美国政府的监管方面还基本上允许它做任何事。
它所专注于研究的通用人工智能(AGI)是一种具有人类智慧、可以执行人类能够做的任何智力任务的人工智能。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI拥有全方位的人类认知能力。
最初,OpenAI的使命是开发和控制一个AGI,但现实是,该公司设法创造的所有东西都是非常花哨的LLM,这与它的“初心”有些背道而驰了。
尽管GPT-3和DeepMind的Gato一样令人印象深刻,但大众对它们的评价标准需要一些细微的差别。
因为OpenAI在通往AGI的道路上走的是LLM路线,其中的原因很简单:没有人知道如何让AGI工作。就像从“火的发现”到“内燃机的发明”之间花了许多时间一样,弄清楚如何从深度学习到AGI也不会在一夜之间发生。不过,GPT-3还是可以做一些看起来像是人类做的事情,例如生成文本。
而标榜自己是“通用人工智能”的Gato所做的几乎是与GPT-3相同的事情。它只把一个工作原理很像LLM的东西整合成了一个能够变600多种戏法“魔术师”。其亮点是使用单一序列模型解决所有任务,但却需要增加训练数据的数量和多样性。
Gato执行多种任务的能力更像是一个可以存储600种不同游戏的游戏机,而不是像一个你可以用600种不同方式玩的游戏。它并不如介绍所说,是一个通用人工智能,而是由一堆预先训练好的、狭窄的模型整齐地捆绑在一起所组成。
图片来源:DeepMind官网
正如Knives and Paintbrushes研究小组的Mike Cook最近同TechCrunch的Kyle Wiggers所说的那样:
“像Gato这样的人工智能能够完成所有这些听起来非常不同的任务,这很令人兴奋,因为对我们来说,写文字和控制机器人听起来非常不同。
但实际上,这与GPT-3理解普通英文文本和Python代码并无太大区别。
并不是说这很容易实现,但对外部观察者来说,这或许听起来像是人工智能还能泡茶或轻松地学习另外十项或五十项任务,然而事实上,它不能做到这这些。”
总而言之,Gato和GPT-3都是强大的人工智能系统,但它们都不具备通用智能的能力。
AGI时代何时到来?
DeepMind已经在AGI方向上发展了十多年,OpenAI则是从2015年开始。但两者都没能解决解决AGI道路上的第一个问题:建立一个无需训练就能学习新事物的AI。
除非你赌AGI的出现是运气所产生的结果,否则,是时候该重新评估这些公司对AGI领域的推进进程了。
或许,Gato可能是世界上最先进的多模态人工智能系统。但DeepMind采用了和OpenAI一样的让AGI走向死胡同的概念,只是让它更有市场。
Gato或许能通过营销手段在消费者市场上赢得比Alexa、Siri或谷歌助手更多的青睐。但是,Gato和GPT-3并不是比上述虚拟助手更可行的AGI入门点。
如果这正是你正在寻找的一类人工智能,那么这并不是一件坏事。但是,在Gato的附带研究论文中,根本没有任何证据表明它在往AGI的正确方向上发展,更不用说是AGI的一块垫脚石了。