Yann LeCun：大模型方向错了，智力无法接近人类-51CTO.COM

「语言只承载了所有人类知识的一小部分；大部分人类知识、所有动物知识都是非语言的；因此，大语言模型是无法接近人类水平智能的，」这是图灵奖得主 Yann LeCun 对于人工智能前景的最新思考。

昨天，他与纽约大学博士后 Jacob Browning 合著的新文章发表在《NOEMA》上，引发了人们的讨论。

在文章中，作者讨论了当前流行的大规模语言模型，认为其存在明显的极限。未来 AI 领域努力的方向或许应该是让机器优先理解真实世界其他层面意义上的知识。

让我们看看他们是怎么说的。

前段时间，前谷歌 AI 伦理研究员 Blake Lemoine 声称 AI 聊天机器人 LaMDA 像人一样具有意识，这在领域内掀起了轩然大波。

LaMDA 实际上是一种大型语言模型 (LLM)，旨在预测任何给定文本下一个可能的词。由于许多对话在某种程度上是可预测的，因此这些系统可以推断出如何使对话保持高效。LaMDA 在这类任务上做得非常出色，以至于 Blake Lemoine 开始怀疑 AI 是否存在「意识」。

领域内的研究者对于这件事持有不同的看法：一些人对机器有意识的想法嗤之以鼻；一些人认为 LaMDA 模型或许没有，但下一个模型可能有意识。还有一些人指出机器「欺骗」人类这件事并不难。

人们反应的多样性凸显了一个更深层次的问题：随着 LLM 变得越来越普遍和强大，我们对这些模型的观点似乎越来越难达成一致。多年来，这些系统已经超越了许多「常识」语言推理基准，但这些系统在测试时似乎很少有承诺的常识，甚至容易出现胡说八道、提出不合逻辑、危险的建议。这就引出了一个令人不安的问题：这些系统怎么会如此智能，能力却又如此有限？

实际上，最根本的问题并不在于人工智能，而是在于语言的有限性。一旦我们放弃了关于意识和语言之间联系的假设，这些系统就注定只能有关于世界的肤浅理解，永远无法接近人类的「全面思维」。简而言之，尽管这些模型已经是地球上最令人印象深刻的人工智能系统，但这些 AI 系统永远不会像我们人类一样智能。

在 19 世纪和 20 世纪的大部分时间里，哲学和科学领域的一个主要主题是：知识仅仅是语言。这意味着理解一件事只需理解一句话的内容，并将这句话与其他句子关联起来。按照这种逻辑，理想的语言形式将是由严格的推理规则连接的任意符号组成的逻辑数学的形式。

哲学家 Wittgenstein 说过：「真命题的总和是自然科学。」这一立场是在 20 世纪确立的，后来引起了很多争议。

一些受过高等教育的知识分子仍然持有观点：「我们所能知道的一切都可以包含在百科全书中，因此只要阅读百科全书的所有内容就能让我们对所有事物都有全面的了解。」这种观点还激发了 Symbolic AI 的许多早期工作，其中将符号处理作为默认范式。对于这些研究人员来说，人工智能知识由大量真实句子的数据库组成，这些真实的句子通过手工逻辑相互连接，人工智能系统的目标就是在正确的时间输出正确的句子，即以适当的方式处理符号。

这个概念是图灵测试的基础：如果一台机器「说」出了它应该说的一切，这意味着它知道它在说什么，因为知道正确的句子以及何时使用它们会用到上述人工智能知识。

但这种观点遭到了严厉的批评，反驳的观点认为：机器可以谈论事情，并不意味着它理解正在谈论的内容。这是因为语言只是一种高度具体且非常有限的知识表征。所有语言，无论是编程语言、符号逻辑语言还是日常口语——都开启了特定类型的表征模式；它擅长以极高的抽象水平表达离散的对象和属性以及它们之间的关系。

然而，所有的表征模式都涉及对事物信息的压缩，但压缩中留下和遗漏的内容各不相同。语言的表征模式可能会遗漏一些具体的信息作，例如描述不规则的形状、物体的运动、复杂机制的功能或绘画上细致入微的笔触等等。而一些非语言的表征方案可以以一种易于理解的方式表达这些信息，包括标志性知识、分布式知识等。

语言的限制

要了解语言表征模式的缺陷，首先要认识到语言传递的信息有多少。事实上，语言是一种传输信息的带宽非常低的方法，特别是在没有上下文的情况下，孤立的单词或句子传达的信息很少。此外，由于同音词和代词的数量众多，许多句子的含义都非常模棱两可。正如乔姆斯基等研究者所指出的：语言并不是清晰明确的交流工具。

但是人类不需要完美的交流工具，因为我们共享对非语言的理解体系。我们对句子的理解通常取决于对句子所在语境的深入理解，从而使我们能够推断出语言表达的含义。我们经常直接谈论眼前的事情，比如足球比赛。或者在某种情况下面向社会角色进行交流，比如从服务员那里点菜。

阅读文本段落也是如此——这种任务破坏了人工智能获得常识的渠道，却是一种向儿童教授无上下文阅读理解技能的流行方法。这种方法侧重于使用通用阅读理解策略来理解文本——但研究表明，儿童对主题的背景知识量实际上是理解的关键因素。理解一个句子或段落正确与否取决于对主题内容的基本掌握。

「很明显，这些系统深陷于肤浅的理解，永远不会接近人类所有的全面思维。」

单词和句子固有的上下文性质是 LLM 工作的核心。神经网络通常将知识表示为专有技术，即掌握对上下文高度敏感的模式，并总结规律（具体和抽象）的熟练能力，这些规律对于以精细方式处理输入是必要的，但只适合有限的任务。

在 LLM 中，这有关系统在现有文本的多个层次上识别模式，既看到单词在段落中的联系，也要看到句子是如何在构成它们的大段落中是如何连接在一起的。结果是模型对语言的掌握不可避免地是上下文相关的。每个单词的理解不是根据其字典含义，而是根据它在各种句子中的作用来理解。由于许多单词——比如「化油器」、「菜单」、「调试」或「电子」——几乎只用于特定领域，即使是带有其中一个词的孤立句子也会在预测上带出上下文。

简而言之，LLM 训练后可以了解每个句子的背景知识，查看周围的单词和句子来拼凑正在发生的事情。这使得他们可以无限可能地使用不同的句子或短语作为输入，并提出合理（尽管很难没有缺陷）的方式来继续对话或填写文章的其余部分。一个根据人类书写的段落训练，用作日常交流的系统，应该拥有能够高质量对话所必需的一般理解能力。

浅薄的理解

有些人不愿在这种情况下使用「理解」一词或称 LLM 为「智能」，目前还不能说语义理解说服了任何人。批评者指责这些系统在进行某种模仿——这是正确的。这是因为 LLM 对语言的理解虽然令人印象深刻，但却很肤浅。这种肤浅的认识似曾相识：教室里到处都是「说行话」的学生，他们不知道自己在说什么——实际上是在模仿他们的教授或他们正在阅读的课文。这只是生活的一部分。我们常常不清楚我们知道些什么，尤其是在从语言中获得的知识方面。

LLM 对所有事物都获得了这种肤浅的理解。像 GPT-3 这样的系统是通过屏蔽句子一部分，或预测段落中下一个单词来进行训练的，这样迫使机器猜测最有可能填补空白的单词，并纠正错误的猜测。该系统最终会熟练地猜测最可能的单词，从而使自己成为有效的预测系统。

这带来了一些真正的理解：对于任何问题或谜题，通常只有少数正确答案，但错误答案无限多。这迫使系统学习特定于语言的技能，例如解释笑话、解决单词问题或解决逻辑难题，以便定期预测这些类型问题的正确答案。

这些技能和相关知识让机器能够解释复杂事物的工作原理、简化困难的概念、改写和复述故事，并获得许多其他与语言相关的能力。正如 Symbolic AI 所假设的那样——机器不是由逻辑规则链接的庞大的句子数据库，而是将知识表示为上下文高亮内容，用于在给定前一行的情况下提出合理的后一个句子。

「放弃所有知识都是语言的观点，让我们意识到我们的知识中有多少是非语言的。」

但是用语言解释一个概念的能力不同于实际使用它的能力。系统可以解释如何执行长除法，同时也可以实际上自己不会做，或者解释哪些是与之抵触的，却又能愉快地持续进行解释。语境知识以一种形式嵌入——即口述语言知识的能力——但不嵌入另一种形式——作为如何做事的技巧，比如善解人意或敏感地处理困难问题。

后一种专业知识对语言使用者来说是必不可少的，但这并不能使他们掌握语言技能——语言成分并不是主要的。这适用于许多概念，甚至是从讲座和书籍中学到的概念：虽然科学课确实有讲授的成分，但学生的得分主要基于他们在实验室的工作。特别是在人文学科之外，能够谈论某事通常不如让事情正常工作所需的基本技能有用或重要。

一旦我们深入探究，就能轻易看出这些系统实际上是多么的浅薄：它们的注意力范围和记忆大约相当于一个段落。如果我们进行对话，很容易忽略这一点，因为我们倾向于只关注最后一两条评论，应付下一个回复。

但是，更复杂的对话的诀窍——积极倾听、回忆和重新审视之前的评论、坚持一个主题以提出一个特定的观点，同时避免干扰等等——都需要比机器拥有的更多的注意力和记忆力。

这进一步减少了它们可以理解的类型：很容易通过每隔几分钟就换话题、更改语言或阴阳怪气来欺骗他们。如果退太多步，系统将重新从头开始，把你的新观点与旧评论混为一谈，与你切换聊天语言或相信你所说的任何内容。发展一个连贯的世界观所必需的理解远远超出了机器的能力范围。

语言之外

放弃所有知识是语言的观点，这让我们意识到我们的知识中有相当部分是非语言的。虽然书籍包含许多我们可以解压和使用的信息，但许多其他物品也是如此：宜家的说明书甚至懒得在图示旁边写说明文字，AI 研究人员通常会先看论文中的图表，掌握网络架构，然后再浏览文本，旅行者可以按照地图上的红线或绿线导航到想去的地方。

这其中的知识超越了简单的图标、图表和地图。人类直接从探索世界中学到了很多东西，向我们展示了物质和人能与不能表现的东西。物质的结构和人类环境直观地传达了很多信息：门把手在手的高度，锤子的把手更软等等。动物和人类的非语言心理模拟对于规划场景很常见且有用，可用于制作或逆向工程人工制品。

同样，通过模仿社会习俗和仪式，我们可以将各种技能传授给下一代，从准备食物和药物到在紧张时期平静下来。我们的许多文化知识是标志性的，或者说是以从熟练的从业者传授给学徒精确动作的形式。这些微妙的信息模式很难用语言表达和传达，但其他人仍然可以理解。这也是神经网络擅长拾取和完善的上下文相关信息的精确类型。

「一个仅受过语言训练的系统永远不会接近人类的智能，即使从现在开始一直训练到宇宙的热寂。」

语言很重要，因为它可以以小格式传达大量信息，特别是在印刷术和互联网出现之后，它能做到内容的复制和广泛分发。但是用语言压缩信息并不是没有成本的：解码一个密集的段落需要付出很多努力。人文课可能需要大量课外阅读，大部分课堂时间需要花费在阅读困难的段落上。建立深入的理解既费时又费力，但提供了信息。

这就解释了为什么受过语言训练的机器可以知道这么多，却又什么也不懂——它是在通过一个微小的瓶颈获取一小部分人类知识。但人类知识的那一小部分可以是关于任何事物的，无论是爱情还是天体物理学。因此它有点像镜子：它给人一种深度的错觉，几乎可以反射任何东西，但它只有一厘米厚。如果我们试图探索它的深处，我们就会撞墙。

做正确的事

这并不会使机器变得更傻，但也表明它们的智能程度有内在的限制。一个仅接受语言训练的系统永远不会接近人类的智能，即使从现在开始一直训练到宇宙的热寂。这是一个错误的知识体系构建方式。但如果我们只停留在表面上，机器无疑似乎会接近人类。而且在许多情况下，表面就足够了。我们中很少有人真正将图灵测试应用到其他人身上，积极地质疑他们的理解深度，并强迫他们做多位数乘法问题。大多数谈话都是闲聊。

但是，我们不应将 LLM 所拥有的肤浅理解与人类通过观察世界的精彩、探索世界、在其中实践以及与文化和其他人互动所获得的深刻理解混为一谈。语言可能是扩展我们对世界理解的有用组成部分，但语言并不会穷尽智力，从许多物种行为上我们都能理解这样的观点，例如鸦科动物、章鱼和灵长类动物。

相反，深刻的非语言理解是语言有意义的必要条件。正是因为人类对世界有深刻的理解，所以我们可以很快理解别人在说什么。这种更广泛、对上下文敏感的学习和知识是一种更基础、更古老的知识，它是实体生物感知能力出现的基础，让生存和繁荣成为可能。

这也是人工智能研究者在寻找人工智能中的常识时关注的更重要的任务。LLM 没有稳定的身体或世界可以感知——所以它们的知识更多是以单词开始和结束，这种常识总是肤浅的。我们的目标是让 AI 系统专注于所谈论的世界，而不是单词本身——但 LLM 并没有掌握其中的区别。仅通过语言是无法近似这种深刻理解的，这是错误的方向。

人类处理各种大语言模型的丰富经验清楚地表明，仅从言语中可以获得的东西是如此之少。