这就是GPT模型听起来像人类的原因-51CTO.COM

译者 | 刘涛

审校 | 重楼

没人知道为什么AI可以工作，对吧?

是和否。

从根本上说，我们对于人类大脑的秘密仍然知之甚少。

然而，Transformers（一种用于自然语言处理（NLP）和其他序列到序列（seq2seq）任务的人工神经网络模型）和人类在自然语言处理方面的响应非常相似，让人不寒而栗。

让我们来解释一下原因。

将信息表达（Information Representations）存储在Transformer中

我们使用从多个字或标记输入生成的向量来为Transformer创建嵌入。

因此，信息以向量的形式存储。

考虑到“表达”这一问题，实际上，比起"注意力机制"，“表达嵌入”更具基础性。首先，我们必须先得到一种“表达”，这种表达要么是“可解码”，要么是“可操作”！

您也许想知道，这与像GPT-4这样的Transformer在经过整个互联网的训练后所能做的一切有什么关系？

信息通过注意力点积和数学运算与原数据的上下文意义和表达相结合进行编码。

因此，我们将这些数据的表达形式存储在 Transformer 中。

关键因素

所有神经网络都是根据通用近似定理（Universal approximation theorem）解决问题的。

对于那些不知道什么是通用近似定理的人，我们可以将通用近似定理定义为将指定输入精确地转换为指定输出的任何过程 --它可以近似看作是从输入到输出的一个函数。这个函数存在一定的形式，但我们不需要知道。因为只要给定足够的数据，神经网络可以为我们近似得到任意函数。

什么是函数？这是我们试图解决的问题。

神经网络可以通过其处理算法近似得到任何函数---所以是通用的。

架构不同-算法不同-模型不同-但基本原理相同。

这就是为什么神经网络在有足够的数据、被赋予合适的任务，并以正确的方式进行调整时就会起作用，这是一个随着时间推移而不断变得更好的艺术。

在LLM（大型语言模型）中，“狗”这个概念的潜在表达是什么?

肯定有一种表示方法，实际上可能有很多种。

也许是单个狗的x向量，y上下文值和z位置参数，以及原始数据流架构的正确路径。

我们只是还没有深入研究它，因为这对我们的目的来说还不必要。

系统运行正常。

这对我们来说已经足够了。

因此，该系统是一个黑盒。

但是，大脑如何存储数据？

就像以前一样-我们不知道确切的细节。

当我们的大脑被创造出来时，它们会创造外部物体、概念和实体的内部表示。有点像一个成长中的孩子。

例如，狗的概念可能涉及x神经元、y突触和z架构，以及神经元之间动态不断发展的原始数据搬迁路径集。

我的意思是，人脑也是一个黑匣子。适用于GPT模型的相同原理也可以说适用于大脑——它们也是通用近似器。

近似定理显然适用于我们的大脑。

这是相同的原理。

我们大脑中的想法也可以通过嵌入式存储/表达出来！

只是这些嵌入是自然创建的。

具有超低电能的神经元、轴突和树突的家族。

不同的形式。不同的功能。但最终结果相同。

系统起作用了。

这对我们来说已经足够了。

我们还能说我们知道什么？

只有我们能凭经验观察到的。

又是一个黑盒。

那么，为什么它们在自然语言中如此相似呢？

我们试图通过一种非常复杂的处理过程，将所有从互联网上采集到的数据，尽可能地对 AGI进行建模—那可是全球的数据。

在序列-序列模型以及自然语言测试方面，我认为我们已经取得了成功。

我们已经对人脑如何理解和处理信息进行了建模，这需要付出巨大代价，而且系统性地努力。

我不开心且真的害怕。如果这是ChatGPT能做的~

那么，GPT-4将实现什么？

微软的软件工程师已经确定了GPT-4模型中的一些未来应用。

他们甚至发表了一篇关于该发现的论文-

https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/

研究报告：

我们在冒很大的风险。
当 Geoffrey Hinton 从他的研究岗位上退下来的时候，我意识到事情真的乱套了。
有钱能使鬼推磨。
再多的控制也无法阻止中国和美国以利润为中心的公司。
我们希望未来一切顺利。
人工智能决策者必须把道德放在利润之上。

但是企业家什么时候这样做过呢？

结论

Hinton说了些难以置信的话。

“我突然改变了AI是否会比我们更聪明的看法。我想它们现在已经非常接近了，将来它们肯定会比我们更聪明。那么我们人类应该如何生存？”

但就目前而言，没有什么事物可以阻止它。最后，让我们留给您一个有趣的问题，这个问题将由 ChatGPT给出答案。

问：您将如何实现AGI？

ChatGPT回答：

实现通用人工智能（AGI）是一个巨大的挑战，需要跨多个科学和工程学科取得重大进展。虽然AGI的确切路径仍然是一个充满争论和探索的话题，但我可以为您提供研究人员在一些关键领域的更详细解释：

1、认知架构：开发能够模仿人类智能的认知架构是AGI的一个基本方面。这包括理解人脑的结构和功能，并设计捕捉这些过程的计算模型。研究人员从神经科学、认知心理学和认知科学中汲取灵感，构建能够支持高级推理、感知、记忆、学习和决策的架构。

2、机器学习和深度神经网络：机器学习，尤其是深度学习，在近年来的人工智能进步中发挥了重要作用。深度神经网络在图像识别和自然语言处理等感知任务中取得了显著成功。为了向AGI迈进，研究人员正在探索通过提高深度学习的泛化、可解释性以及处理有限数据和复杂推理的能力来增强深度学习能力的方法。

3、强化学习和主动学习：强化学习是AGI关注的另一个关键领域。它包括训练AI与环境交互并从试错中学习。强化学习技术与主动学习相结合，包括主动选择信息丰富的训练样本，可以帮助AI更有效地从环境中探索和学习。开发能够从不同数据源中学习并将知识推广到新情况的算法对于实现AGI至关重要。

4、认知机器人（Cognitive Robotics）和具身智能（Embodied Intelligence）：真正的AGI需要的不仅仅是处理信息；它需要与现实世界进行交互。认知机器人旨在整合机器人的感知、认知和行动，使它们能够以类似于人类的方式学习和推理世界。具身智能研究探索AI如何利用感官运动技巧和自身体验，与周围环境进行互动，从而发展出智能。

5、符号推理和知识表达：AGI系统应该能够符号推理和操作复杂的知识表达。符号推理包括使用逻辑规则、推理机制和结构化知识表达等方法，来执行抽象推理和问题解决的任务。将符号推理与统计方法（如神经网络）相结合是一个活跃的研究领域，可以实现更强大和灵活的推理能力。

6、迁移学习（Transfer Learning）和元学习(Meta-Learning）：AGI系统应该具备将在一个领域学到的知识和技能转移到新的或陌生领域的能力。迁移学习技术旨在利用现有知识加速相关任务或领域的学习。元学习，侧重于开发能够学习如何有效学习的模型，快速适应有限数据的新情况和任务。

7、数据和计算资源： AGI开发需要海量高质量的数据用于训练模型。跨多个领域访问不同数据集对于捕捉人类知识的广度和深度至关重要。此外，AGI开发需要大量的计算资源来训练和运行复杂的模型。硬件领域的进步，如专用人工智能芯片和分布式计算系统，能够显著加速AGI研究。

8、伦理、安全和可解释性：随着AGI的发展，解决伦理问题、制定稳健的安全措施以及确保AGI系统的透明度和可解释性至关重要。研究人员正在探索使人工智能系统变得更加透明、可解释和可问责的方法，从而降低风险，并使人类用户能够理解和信任它们的行为。

9、合作和交叉学科研究：实现AGI需要来自不同领域的专家间的合作，包括AI、神经科学、心理学、哲学等。鼓励交叉学科研究和知识共享可以为开发AGI带来新的思路和方法。

需要注意的是，尽管在这些领域都取得了进展，但实现AGI仍然是一个没有明确时间表的开放式问题。这是一个复杂而长期的目标，需要持续地研究、探索和迭代。

译者介绍

刘涛，51CTO社区编辑，某大型央企系统上线检测管控负责人。

原文标题：This Is Why GPT Models Sound Like Humans，作者：Thomas Cherickal