Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾 精华

发布于 2024-12-18 12:08
浏览
0收藏

会议:NeurIPS 2024

时间:December 14, 2024

发言人:Ilya Sutskever

主题:Sequence to Sequence Learning with Neural Networks: What a Decade

Ilya Sutskever是论文《基于神经网络的序列到序列学习》(Sequence to Sequence Learning with Neural Networks)的第一作者。该论文荣获了NeurIPS 2024的“Test of Time”论文奖。该奖项旨在表彰在2014年NeurIPS会议上发表、对研究领域产生了重大影响并经得起时间考验的论文。自发布以来,该论文已被引用超过27000次,并在大型语言模型和基础模型的快速发展中起到了关键作用。论文提出的编码器-解码器架构为神经网络处理序列数据开辟了新路径,启发了基于注意力机制的后续改进,并促进了当今基础模型研究的蓬勃发展。这项工作不仅为人工智能领域带来了范式转变,也为相关应用的进步奠定了坚实基础。

核心观点

  1. 联结主义的核心思想:人工神经元和生物神经元有相似性,因此可以通过设计较小的神经网络来执行复杂任务。
  2. LLM的分布外泛化能力可能还不如人类。人类在处理完全陌生的问题时往往表现得更好。
  3. 人脑在自我重构等方面仍优于当前的神经网络,后者依赖大量数据和特定算法。
  4. 预训练时代终将结束,因为数据量有限,尽管计算能力提升。
  5. 一个能够推理的系统本质上是不可预测的。推理的能力越强,其不可预测性就越大。我们最终将不得不面对这些高度不可预测的AI系统。
  6. 未来发展趋势:智能体(Agents)、合成数据(Synthetic Data)、推理时计算(Inference-Time Compute)。

问题与回答

1. 十年前关于深度学习,有哪些观点是正确的?

  • 深度学习假设:拥有足够多层和足够大的神经网络,理论上可以瞬间完成人类能完成的任何任务。
  • 自回归模型:准确预测下一个词元的自回归模型,实际上已掌握了序列接下来可能出现的词元的概率分布。
  • 扩展假设:拥有足够大的数据集并训练足够大的神经网络,就能取得好结果。

2. 十年前关于深度学习,有哪些观点是不完全准确的?

  • LSTM:作为Transformer出现前的技术,LSTM结构相对复杂,效率不如Transformer。
  • 流水线并行化:流水线并行化方法在所有情况下并非最优。

3. 未来深度学习发展有哪些趋势?

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

  • 智能体(Agents):智能体将成为未来发展的重要方向。
  • 合成数据(Synthetic Data):如何生成和利用合成数据是充满挑战和机遇的领域。
  • 推理时计算(Inference-Time Compute):如何降低推理时计算量是重要研究方向。

4. 超级智能(Superintelligence)与现有AI系统有何不同?

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

  • 智能体特性:超级智能将真正具备智能体特性,而非像现有AI系统仅表现出微弱的智能体特性。
  • 推理能力:超级智能将具备强大的推理能力,使其行为更不可预测。
  • 理解能力:超级智能将能够从有限数据中理解事物,不受数据限制。
  • 自我意识:超级智能可能具备自我意识,使其与现有AI系统在本质上完全不同。

提问1:除了神经元之外,是否还有其他人类认知的生物结构值得探索?

目前还没有新的视角或发现可以根本性地改变我们对大脑运作方式的理解。虽然深度学习借鉴了神经元概念,但对大脑更深层次机制的模拟仍面临挑战。

提问2:未来具有推理能力的模型是否能够自我校正,从而减少幻觉?

是的。未来模型很可能能够识别输出错误并自我校正,但这比简单的拼写检查要复杂得多。

提问3:AI智能不断发展,是否会催生出新的智慧物种?如何设计激励机制确保AI发展符合人类价值观?

AI发展成为新智慧物种的可能性存在,但如何设计激励机制确保AI与人类和谐共存是一个复杂问题,目前尚无确切答案。

提问4:LLM能否在分布外数据上实现多跳推理?

这个问题取决于对“分布内”和“分布外”的定义。虽然LLM在某些方面展现了分布外泛化能力,但与人类相比,其处理陌生问题的能力仍有差距。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

非常感谢主办方将这篇论文评为获奖论文。能获得这样的认可,我感到非常荣幸。同时,我也要感谢我的优秀合作者和合作伙伴,Oriol Vinyals和Quoc Le,他们刚才已经跟大家见面了。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

这张幻灯片是我十年前,也就是2014年在蒙特利尔NIPS会议上做类似演讲时的截图。对比之下,当时的情形显得更加单纯。照片中的我们,就是那个时候的“我们”。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

而现在,我们有了更多的经验,也希望自己变得更加睿智。

接下来,我想跟大家分享一下这项工作的内容,并回顾一下过去的十年。因为这项工作中有很多观点是正确的,但也有一些地方并不完全准确。通过回顾,我们可以看看发生了哪些变化,以及这项工作是如何发展到今天的。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

让我们从我们所做的工作开始。我将展示十年前同一场演讲中的幻灯片。这项工作的核心可以总结为以下三点:

  1. 基于文本的自回归模型(Autoregressive model trained on text)。
  2. 大型神经网络(Large neural network)。
  3. 大型数据集(Large dataset)。

就是这么简单。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

我们更深入地探讨一下细节。这张十年前的幻灯片,虽然有些粗糙,但其中的核心思想仍具有启发性。

我们当时提出了“深度学习假设”。这个假设的核心是:如果我们有一个足够大且足够深的深度神经网络,那么它理论上可以瞬间完成人类所能完成的任何任务。为什么我们特别强调“瞬间”呢?

如果我们相信深度学习的核心理念——即人工神经元与生物神经元的工作原理相似——并且考虑到生物神经元的处理速度相对较慢,那么人类能够快速完成的任何任务,理论上一个深度神经网络也应该能够在极短的时间内完成。这是因为,我们只需将人类大脑中的连接模式映射到人工神经网络中即可。

因此,我们的直觉是:人类在瞬间完成的任务,一个具有十层的神经网络也应该能够完成。之所以是十层,是因为当时的技术限制,我们只能训练出十层的神经网络。如果能突破这个限制,我们相信就能实现更多。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

这张幻灯片展示了我们当时的另一个核心观点。你们可能会认出其中的自回归模型。那么,这张幻灯片到底想表达什么呢?

这张幻灯片想要强调的是:如果一个自回归模型能够非常准确地预测下一个Token,那么它实际上已经掌握了序列中接下来可能出现的Token的概率分布。这是一个非常重要的观点。虽然自回归模型并不是全新的概念,但我们相信,通过足够的数据和训练,我们可以构建一个能够很好地捕捉序列生成过程的自回归模型。

当时,我们的目标是机器翻译。虽然现在看来这个目标并不算太远大,但在当时,这是一个非常具有挑战性的任务。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

我们来回顾一下深度学习发展历程中的一段历史。这张幻灯片展示了LSTM(Long Short-Term Memory,长短期记忆网络),这是一种在Transformer出现之前广泛使用的技术。对于不熟悉LSTM的朋友,可以简单地把它描述为一个旋转了90度的ResNet。LSTM比Transformer更早出现,其结构相对复杂一些。它包含一个积分器(Integrator),也就是我们现在常说的残差流(Residual Stream),以及一些乘法运算。虽然结构看起来有些复杂,但其核心思想并不难理解。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

除了LSTM,我还想强调一下我们在那次演讲中提到的另一个重要概念——并行化(Parallelization)。我们当时提出了一种基于流水线的并行化方法,这张幻灯片展示了每个GPU处理一层网络的示意图。虽然我们现在知道,流水线并不是在所有情况下都是最优的,但当时我们认为这是一个很好的方法。通过使用八个GPU,我们实现了3.5倍的加速。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

最后,我想谈谈那次演讲中的结论幻灯片。这张幻灯片实际上提出了一个非常重要的概念,我们现在可以称之为“扩展假设”(Scaling Hypothesis)。这个假设的核心思想是:如果我们拥有足够大的数据集,并训练一个足够大的神经网络,那么就能取得很好的结果。虽然这个假设在某些情况下可能过于乐观,但从过去十年的发展来看,这个假设在很大程度上是正确的。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

接下来,我想谈谈一个经久不衰的核心思想——联结主义(Connectionism)。这个思想的核心在于,如果我们相信人工神经元和生物神经元之间存在某种相似性,那么我们就可以推断,一个非常大的神经网络并不一定需要像人脑一样庞大。通过适当的设计,相对较小的神经网络也能完成许多人类可以完成的任务。然而,我们也要承认,人脑在某些方面仍然具有优势,比如自主地重新配置自身。相比之下,我们目前的神经网络仍然依赖于大量数据和特定的学习算法。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

  • 2014年12月:Sutskever等人提出的《Sequence to Sequence Learning with Neural Networks》论文介绍了基于LSTM的序列到序列学习模型,包含编码器和解码器结构,采用束搜索进行解码。研究表明,LSTM在机器翻译任务中表现优异,首次超越了传统的统计机器翻译方法。此外,反转源语句中的单词顺序提高了LSTM性能。
  • 2019年2月:Radford等人提出的《Language Models are Unsupervised Multitask Learners (GPT-2)》论文介绍了基于Transformer的GPT-2模型。GPT-2通过语言建模和字节对编码(BPE)学习多任务,证明了大型语言模型的泛化能力和多任务学习潜力。
  • 2020年1月:Kaplan等人发表的《Scaling Laws for Neural Language Models》研究了神经语言模型的规模定律,发现模型性能与模型大小、数据集规模、计算量之间遵循幂律关系。研究还提出优化训练效率的策略,如使用临界批次大小,并表明大模型在较小数据集上训练效果更佳。
  • 2020年7月:Brown等人提出的《Language Models are Few-Shot Learners (GPT-3)》论文介绍了更大的GPT-3模型,强调少量样本学习。研究发现,通过增加模型规模,GPT-3在少量样本学习下的表现大幅提升,接近微调方法的性能。​

所有这些思考最终引领我们进入了预训练(Pre-Training)时代。这个时代可以说是从GPT-2、GPT-3和规模定律(Scaling Laws)开始的。我特别要感谢我的前同事Alec Radford、Jared Kaplan和Dario Amodei,他们的工作为预训练时代的到来奠定了基础。正是他们的努力,推动了我们今天所看到的超大规模神经网络的发展。这些模型在海量数据上进行训练,取得了令人瞩目的成果。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

但是,我们也要意识到,预训练时代终将结束。这是因为,尽管计算能力在不断提升,但可用的数据量却相对有限。互联网上的数据量虽然庞大,但毕竟是有限的。我们可以将数据比喻为人工智能的“化石燃料”,一旦消耗殆尽,我们就需要寻找新的能源。虽然目前的数据已经足够我们进行很多研究,但我们不能过度依赖它。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

接下来,我想大胆地预测一下未来发展趋势。

实际上,很多人已经在进行类似的预测了。你们可能听说过“智能体”(Agents)这个概念。我认为智能体将会成为未来发展的一个重要方向。

此外,合成数据(Synthetic Data)也是一个备受关注的领域。如何有效地生成和利用合成数据是一个巨大的挑战,但同时也是一个充满机遇的领域。

除了合成数据,推理时计算(Inference-Time Compute)也是一个值得关注的方向。例如,O1模型就是在这方面的一个尝试。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

我想提另一个来自生物学的例子,我认为它非常酷。

很多年前,也是在这个会议上,我看到有人做了一个演讲,展示了一张图表。该图表显示了哺乳动物身体大小与其大脑大小之间的关系,这里指的是质量。在那个演讲中,我清楚地记得,他们说:“看,在生物学中,一切都如此混乱,但这里有一个罕见的例子,动物的身体大小与其大脑大小之间存在着非常紧密的关系。”

我完全是出于好奇,开始研究这张图表。我找到的一篇早期研究论文中有这张图片。这张图片有趣的地方在于,你可以看到这些哺乳动物。所有不同的哺乳动物,然后是非人灵长类,基本上是一样的,然后是人族。据我所知,人族是人类在进化过程中的近亲,比如尼安德特人(Neanderthal)和其他智人。有趣的是,他们的大脑与身体的比例指数有一个不同的斜率。

这意味着有一个先例。有一个生物学发现不同比例的例子。显然,有些东西是不同的。顺便说一句,我想强调一下,这个x轴是按对数刻度,有100、1000、10000和100000。同样,以克为单位:1克、10克、100克、1000克。

事情有可能不同。到目前为止,我们一直在缩放的东西实际上是我们首先弄清楚如何缩放的东西。毫无疑问,在这个领域工作的每个人都会弄清楚下一步该怎么做。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

我想花几分钟来探讨长远的未来,以及我们正走向何方。

我们正在取得这些令人瞩目的进展。这些进步令人惊叹,真是难以置信。那些十年前就在这个领域的人一定还记得当时一切是多么地不成熟。即使承认深度学习当时还处于起步阶段,也很难相信我们现在所达到的程度。我无法完全向你们传达这种感受。如果你是在过去两年内加入这个领域的,你可能已经习惯了与计算机对话,它们会与你互动,甚至与你争论。这是计算机现在能做到的事情,但过去并非如此。

我想简要谈谈超级智能(Superintelligence),因为显然这是这个领域的终极方向。这显然是我们正在构建的东西。关于超级智能,有一点需要注意,那就是它将与我们现在拥有的系统在本质上完全不同。接下来的一分钟内,我的目标是为你提供一些具体的直观感受,帮助你理解它的不同之处。

目前,我们拥有令人难以置信的语言模型和出色的聊天机器人。它们能够完成许多任务,但也表现出某种奇怪的不可靠性。有时它们会感到困惑,即使在某些任务中表现出明显超越人类的能力。这种矛盾尚未被完全解决。然而,最终,无论多久,以下目标将会实现:这些系统将真正以有意义的方式具备智能体(Agentic)的特性。目前,这些系统在真正意义上还不是智能体。这可能是一个过于强烈的表述,但它们只是刚刚开始表现出非常微弱的智能体特性。最终,它们将能够进行“推理”(Reason)。

顺便提一下,我想谈谈“推理”(Reasoning)。一个能够推理的系统本质上是不可预测的。推理的能力越强,其不可预测性就越大。我们习惯的深度学习系统是非常可预测的。当我们致力于复现人类直觉时——本质上是人在一瞬间产生的那种直觉——它是高度可预测的。那么,我们的大脑进行的处理是什么呢?那是我们的直觉。

我们已经赋予系统某些直觉能力,但推理(Reasoning)是不同的。现在我们可以看到一些早期的迹象。推理是不可预测的。一个证据是,最好的AI国际象棋玩家对顶级人类玩家来说是不可预测的。因此,我们最终将不得不面对这些高度不可预测的AI系统。它们将能够从有限的数据中理解事物,不会被目前对我们来说是重大限制的问题所困扰。

我并不是在说这一切会如何发生,也不是在说它会在何时发生。我只是说它是现实的。当所有这些因素结合在一起,包括自我意识(Self-awareness),为什么不呢?自我意识是有用的,它是我们构建世界模型的一部分。当所有这些因素结合在一起时,我们将拥有与现有系统在性质和属性上完全不同的系统。当然,它们会具有令人难以置信的能力,但伴随这些系统的问题类型也将与我们现在所习惯的完全不同。我留给你们一个想象的练习,去思考这可能会是什么样子。尽管未来无法预测,但各种可能性都存在。

Ilya Sutskever:基于神经网络的序列到序列学习,十年回顾-AI.x社区

在这一令人振奋的基调中,我将结束演讲。非常感谢大家!

观众:现在是2024年,是否有其他属于人类认知的生物结构值得以类似方式进行探索,或者是您感兴趣的领域?

Ilya Sutskever:我认为,如果有人能提出一个全新的视角,认为“我们对大脑的运作方式存在根本性误解”,并能据此提出可行的研究方向,那将是非常有价值的。就我个人而言,目前还没有这样的洞见。

当然,这取决于我们讨论的抽象层次。从某种程度上来说,我们一直试图构建受生物启发的AI,而且已经取得了显著的成功。深度学习就是一个典型的例子。然而,这种生物启发往往是有限的。比如,我们采用了神经元这种生物学概念,但对大脑更深层次的运作机制的模拟却面临着巨大的挑战。尽管如此,我并不排除未来会有新的发现,能让我们更深入地理解大脑,并借此推动AI的发展。如果有人能在这方面取得突破,那将是非常令人兴奋的。

观众:您提到推理(Reasoning)是未来模型的核心特性之一,也是一个潜在的差异化优势。目前我们看到了一些模型存在幻觉(Hallucinations)的问题,比如通过统计分析发现模型输出与预期存在较大偏差。您认为未来具有推理能力的模型是否能够自我校正(Auto-correct)?也就是说,模型能否识别自己的输出是否偏离了正确的轨道,从而减少幻觉的产生?这个问题可能比较复杂,但模型是否能够理解并推理“进化”这样的概念呢?

Ilya Sutskever:这是一个非常有意义的问题,答案是肯定的。我完全同意你的观点,这种情景非常有可能实现。甚至,我不会排除目前的一些早期推理模型已经开始展现出这样的能力。从长远来看,我认为这种能力的实现是必然的。

观众:这有点像Microsoft Word的自动校正功能。

Ilya Sutskever:是的,但“自动校正”这个词似乎低估了我们正在讨论的复杂性。你描述的场景远比简单的拼写检查要复杂得多。不过,撇开术语不谈,你的核心观点是正确的。

观众:Ilya,您好。您的演讲结尾非常引人深思,您巧妙地避开了AI是否会取代人类、超越人类或是否应该拥有权利等问题。这让我思考:随着AI智能的不断发展,是否会催生出一种新的智慧物种?或许,这些AI也应该拥有某种形式的“权利”,就像强化学习领域的研究者们所探讨的那样。另外,我想问一个不太相关的问题:我们应该如何设计激励机制,以确保AI的发展能够符合人类的价值观,并与人类和谐共存?

Ilya Sutskever:我认为你提出的这些问题非常值得深入思考。关于如何设计激励机制,我坦率地说,我还没有确切的答案。这涉及到非常复杂的社会结构和治理问题。我个人并不擅长这类自上而下的设计。

观众:也许我们可以借鉴加密货币的思路,比如Bittensor之类的项目。

Ilya Sutskever:我对加密货币领域并不是特别了解,所以不太方便评论。不过,你提到的这种可能性确实存在。如果AI系统希望与人类和平共处,并争取自己的权益,这未尝不是一件好事。但未来会如何发展,我们真的很难预测。我鼓励大家积极思考、大胆猜测。

观众:谢谢您的精彩演讲。

Sheila Levitt:Ilya您好,感谢您的精彩演讲。我是Sheila Levitt,来自多伦多大学。非常感谢您所做的工作。我想问一下:您认为LLM能否在分布外(Out-of-distribution)数据上实现多跳推理(Multi-hop reasoning)?

Ilya Sutskever:这个问题的答案不是简单的“是”或“否”。因为“分布内”和“分布外”的概念本身就非常模糊。为了更好地回答这个问题,我们不妨回顾一下深度学习之前的机器学习。当时,人们主要使用字符串匹配和N-gram模型来进行机器翻译,并通过构建庞大的统计短语表来实现。你能想象吗?他们编写了数以万计的代码来完成这项任务,这在当时是非常复杂的。那个时候,我们所说的“泛化”仅仅指模型能否准确处理与训练数据中的单词表达完全相同的句子。

现在,我们可能会说,我的模型在数学竞赛中取得了很高的分数。但实际上,这些数学问题可能与某些在线论坛上的讨论非常相似,模型或许只是记住了这些问题的答案。从这个角度来看,你可以认为模型的这种能力是“分布内的”,或者说仅仅是记忆。然而,我认为我们对模型泛化能力的要求已经大大提高了。这种提高是难以想象的。

所以,我的回答是:在某些方面,大型语言模型的分布外泛化能力可能还不如人类。人类在处理完全陌生的问题时往往表现得更好。但与此同时,模型在一定程度上也具备了分布外泛化的能力。我认为这是一个既有价值又存在一定局限性的答案。

本文转载自 Andy730​,作者: 常华Andy

已于2024-12-18 14:15:59修改
收藏
回复
举报
回复
相关推荐