ChatGPT胜过我们人类吗——从图灵测试的视角进行探讨-51CTO.COM

译者 | 朱先忠

审校 | 重楼

摘要：机器会思考吗？本文旨在深入研究这个问题，将对照图灵测试制定的严格标准来检验ChatGPT的性能。

引言

人工智能（AI）一直是众多技术进步背后的驱动力，推动我们走向曾经是科幻小说领域的未来。这些进步的核心引出这样一个深刻的问题：机器能思考吗？这一问题由英国数学家和计算机科学家艾伦·图灵（Alan Turing）提出，成为业界评估人工智能进步的基准。

人工智能领域的最新加入者之一是由OpenAI公司开发的高级语言模型ChatGPT，它可以说是突破了当今计算机所能做的事情的界限。ChatGPT作为一个数字对话者，能够根据收到的输入信息生成类似人类的文本。它可以起草电子邮件、编写代码、创作诗歌，甚至能够提供针对各种科目的辅导。

因此，ChatGPT的迷人功能自然引发了这样一个问题：ChatGPT通过图灵测试了吗？它能让人类对话者相信它实际上是人类吗？本文旨在深入研究这个问题，并将对照图灵测试制定的严格标准来检验ChatGPT的性能。

图灵测试：机器智能的一种度量

图灵测试以其提出者图灵的名字命名，已经成为机器智能程度的试金石，用于衡量机器所表现出的与人类无法区分的智能行为的能力。英国数学家和逻辑学家艾伦·图灵在1950年的开创性论文《计算机器与智能》（Computing Machinery and Intelligence）中首次引入了这一想法，他在论文中提出了“模仿游戏”——一种涉及人类评估者、人类应答者和试图模仿人类应答者的机器的游戏。

图灵建议，如果一台机器能够在这个游戏中让评估者相信它的人类身份，那么它就可以被认为是智能的。这一概念彻底改变了人工智能领域，将重点从在机器中复制人类思维过程转移到产生类似人类的输出。测试不关心机器是如何做出反应的，而是反应本身——它们与人类的反应无法区分吗？

尽管图灵测试很简单，但它探究了智能意味着什么的核心问题。这不仅仅是处理信息或执行命令，而是以反映人类认知的方式理解、适应和创造。因此，图灵测试仍然是人工智能的基准，挑战我们创造出能够以与人类思维无法区分的方式真正“思考”的机器。

ChatGPT：语言模型的革命

ChatGPT代表了语言模型发展的一个重大飞跃。它由OpenAI开发，由一种名为GPT（生成预训练转换器：Generative Pretrained Transformer）的基于转换器的机器学习模型（特别是它的第三代模型GPT-3）提供动力。经过各种互联网文本的训练，ChatGPT展示了令人印象深刻的理解和生成类人文本的能力。

这种非凡能力背后的过程根植于机器学习。在训练过程中，ChatGPT能够学习预测句子中的下一个单词。它在数百GB的文本上进行训练，使它能够学习大量的语言模式、结构和上下文线索。因此，当给出用户提示时，ChatGPT可以通过预测最有可能遵循的单词序列来生成相关且连贯的响应。

值得注意的是，ChatGPT的功能不仅仅局限于文本生成。它还可以理解上下文，保持对话，甚至显示出一定程度的创造力。它的应用范围涵盖从起草电子邮件和编写代码到创作诗歌和辅导各种知识科目。ChatGPT也被用于人工智能聊天机器人领域，旨在自动化和改善客户服务。

ChatGPT的历程，从对语言和上下文的基本理解到对语言的细致入微的推理和控制，证明了我们在人工智能方面取得的进步。总之，此模型展示了机器学习的力量，让我们得以一窥人工智能在未来的潜力。

ChatGPT通过图灵测试

当将图灵测试的原理应用于ChatGPT时，我们深入探讨了人工智能模仿人类智能的能力。目前的问题是，ChatGPT生成的文本是否足够令人信服，足以被认为是不可区分的人类。

毫无疑问，ChatGPT的深度学习能力令人印象深刻。它可以生成通常看起来非常像人类的文本。该模型能够理解上下文、提供相关回应并具备创造性地创作出令人满意的叙事的能力，这往往导致其输出被错误地归因于人类作者。

在某些情况下，ChatGPT已经证明其熟练程度可能会欺骗人类对话者，至少在短期内是这样。然而，值得注意的是，图灵测试的一个关键部分是持续的交互。机器的性能是随着时间的推移而评估的，而不仅仅是基于一次交换。

在这方面，ChatGPT的表现更加微妙。虽然它可以产生非常类似人类的反应，但它的输出并非完美无瑕。随着我们对其相互作用的深入研究，某些局限性已经逐渐暴露出来，这可以揭示其作为机器的性质。

首先，ChatGPT有时会产生毫无意义或与输入无关的输出，这表明其缺乏真正的理解。例如，用户可能会询问哲学或物理学中的一个细致入微的主题，而ChatGPT可能会提供一个答案，尽管语法正确且看似复杂，但无法准确解决问题或误解主题的基本原则。这反映出其缺乏人类在交流中自然拥有和使用的基本世界模型。

其次，该模型的反应缺乏一致性。在一个例子中，它可能声称自己喜欢巧克力冰淇淋；但是，在另一个例子里，它可能会说自己从未品尝过。所有这些不一致源于这样一个事实，即与人类不同，ChatGPT没有个人经历或信仰，而是根据提供的提示及其训练数据生成每一个反应，而不参考过去的互动。

第三，ChatGPT容易冗长，有时会过度使用某些短语。人类通常使用各种各样的表达方式，并在语言使用中表现出灵活性，这是由一生不同的语言经历形成的。另一方面，ChatGPT倾向于过度依赖它在训练中学习的某些短语和模式，这可能会暴露出它的人工性质。

最后，虽然ChatGPT可以以令人印象深刻的准确性回答事实问题，但它也可以自信地提供不正确或误导性的信息。与人类不同，人类可以怀疑、质疑和批判性地评估自己的知识，ChatGPT根据训练数据中的模式生成响应，而没有能力验证其输出的事实准确性。

虽然这些限制可以揭示ChatGPT的机器性质，但它们也突出了未来需要改进的领域。随着人工智能研究的进展，我们可能会看到这些局限性逐渐得到解决，使我们越来越接近图灵测试中的愿景。

结论：人工智能的未来与图灵测试

以ChatGPT为例，人工智能的历程令人敬畏。从简单的基于规则的系统到能够生成类人文本的高级机器学习模型，我们在机器中模拟类人智能方面取得了重大进展。然而，图灵测试提出的最终目标——创造一种能够始终如一、令人信服地模仿人类交流的机器——仍然是一个挑战。

图灵测试提醒我们人类智慧的复杂性和微妙性。虽然ChatGPT可以模仿类人文本生成，但它目前缺乏理解的深度、身份的连贯性，以及准确评估和表示人类认知特征的现实的能力。然而，这些限制并没有削弱ChatGPT的成就，而是突出了需要进一步探索和改进的领域。

人工智能研究是一个快速发展的领域，每一个新的发展都让我们更接近图灵所描绘的愿景。随着我们不断完善我们的模型，改进它们的训练，扩大它们的能力，我们很可能会看到人工智能能够更好地理解世界，并以一种与人类认知越来越难以区分的方式与世界互动。

总结来看，ChatGPT在图灵测试中的表现并不是终点，而是人工智能旅程中的一个重要里程碑。它为未来提供了一个诱人的前景，人工智能有可能通过图灵测试，更重要的是，以前所未有的方式增强人类能力。随着我们对人工智能研究的不断推进，图灵测试将继续成为一盏指路明灯，一种激励我们创造机器的基准——这些机器不仅能够模仿人类的智能，而且还能够真正理解和模仿人类的智慧。

译者介绍

朱先忠，51CTO社区编辑，51CTO专家博客、讲师，潍坊一所高校计算机教师，自由编程界老兵一枚。

原文标题：Is ChatGPT Outsmarting Us? An Exploration Through the Lens of the Turing Test，作者： Yifei Wang