无限猴子定理认为,让一只猴子在打字机上随机地按键,当按键时间达到无穷时,几乎必然能够打出任何给定的文字,比如莎士比亚的全套著作。
在这个定理中,“几乎必然”是一个有特定含义的数学术语,“猴子”也不是指一只真正意义上的猴子,而是被用来比喻成一台可以产生无限随机字母序列的抽象设备。
这个理论说明,把一个很大但有限的数看成无限的推论是错误的,即使可观测宇宙中充满了一直不停打字的猴子,它们能够打出一部《哈姆雷特》的概率仍然少于 1/10^183800。
而且,即使给无数只猴子无限的时间,它们也不会懂得如何欣赏吟游诗人诗意的措辞。
“人工智能(AI)也是如此,” 牛津大学计算机科学教授 Michael Wooldridge 这样说道。
在 Wooldridge 看来,虽然 GPT-3 等 AI 模型借助数百亿或数千亿的参数展现出了令人惊讶的能力,但它们的问题不在于处理能力的大小,而在于缺乏来自现实世界的经验。
例如,一个语言模型可能会很好地学习“雨是湿的”,当被问及雨是湿的还是干的时,它很可能会回答雨是湿的,但与人类不同的是,这个语言模型从未真正体验过“潮湿”这种感觉,对它们来说,“湿”只不过是一个符号,只是经常与“雨”等词结合使用。
然而,Wooldridge 也强调,缺乏现实物理世界知识并不能说明 AI 模型无用,也不会阻止某一 AI 模型成为某一领域的经验专家,但在诸如理解等问题上,如果认为 AI 模型具备与人类相同能力的可能性,确实令人怀疑。
相关研究论文以“What Is Missing from Contemporary AI? The World”为题,已发表在《智能计算》(Intelligent Computing)杂志上。
在当前的 AI 创新浪潮中,数据和算力已经成为 AI 系统成功的基础:AI 模型的能力直接与其规模、用于训练它们的资源以及训练数据的规模成正比。
对于这一现象,DeepMind 研究科学家 Richard S. Sutton 此前就曾表示,AI 的“惨痛教训”是,它的进步主要是使用越来越大的数据集和越来越多的计算资源。
在谈及 AI 行业的整体发展时,Wooldridge 给出了肯定。“在过去 15 年里,AI 行业的发展速度,特别是机器学习(ML)领域的发展速度,一再让我感到意外:我们不得不不断调整我们的预期,以确定什么是可能的,以及什么时候可能实现。”
但是,Wooldridge 却也指出了当前 AI 行业存在的问题,“尽管他们的成就值得称赞,但我认为当前大多数大型 ML 模型受到一个关键因素的限制:AI 模型没有真正体验过现实世界。
在 Wooldridge 看来,大多数 ML 模型都是在电子游戏等虚拟世界中构建的,它们可以在海量数据集上进行训练,一旦涉及到物理世界的应用,它们就会丢失重要信息,它们只是脱离实体的 AI 系统。
以支持自动驾驶汽车的人工智能为例。让自动驾驶汽车在道路上自行学习是不太现实的,出于这个和其他原因,研究人员们往往选择在虚拟世界中构建他们的模型。
“但它们根本没有能力在所有最重要的环境(即我们的世界)中运行,”Wooldridge 说道。
另一方面,语言 AI 模型也会受到同样的限制。可以说,它们已经从荒唐可怕的预测文本演变为谷歌的 LAMDA。今年早些时候,一个前谷歌工程师声称人工智能程序 LAMDA 是有知觉的,一度成为了头条新闻。
“无论这个工程师的结论的有效性如何,很明显 LAMDA 的对话能力给他留下了深刻的印象——这是有充分理由的,” Wooldridge 说,但他并不认为 LAMDA 是有知觉的,AI 也没有接近这样的里程碑。
“这些基础模型展示了自然语言生成方面前所未有的能力,可以生成比较自然的文本片段,似乎也获得了一些常识性推理能力,这是过去 60 年中 AI 研究的重大事件之一。”
这些 AI 模型需要海量参数的输入,并通过训练来理解它们。例如,GPT-3 使用互联网上千亿级的英语文本进行训练。大量的训练数据与强大的计算能力相结合,使得这些 AI 模型表现得类似于人类的大脑,可以越过狭窄的任务,开始识别模式,并建立起与主要任务似乎无关的联系。
但是,Wooldridge 却表示,基础模型是一个赌注,“基于海量数据的训练使得它们在一系列领域具备有用的能力,也进而可以专门用于特定的应用。”
“符号人工智能(symbolic AI)是基于‘智能主要是知识问题’的假设,而基础模型是基于‘智能主要是数据问题’的假设,在大模型中输入足够的训练数据,就被认为有希望提高模型的能力。”
Wooldridge 认为,为了产生更智能的 AI,这种“可能即正确”(might is right)的方法将 AI 模型的规模不断扩大,但忽略了真正推进 AI 所需的现实物理世界知识。
“公平地说,有一些迹象表明这种情况正在改变,” Wooldridge说。今年 5 月,DeepMind 宣布了基于大型语言集和机器人数据的基础模型 Gato,该模型可以在简单的物理环境中运行。
“很高兴看到基础模型迈出了进入物理世界的第一步,但只是一小步:要让 AI 在我们的世界中工作,需要克服的挑战至少和让 AI 在模拟环境中工作所面临的挑战一样大,甚至可能更大。”
在论文的最后,Wooldridge 这样写道:“我们并不是在寻找 AI 道路的尽头,但我们可能已经走到了道路起点的尽头。”