GPT-4和GPT-4V能否像人类一样进行抽象推理

发布于 2024-11-25 16:24
浏览
0收藏

有关类似GPT-4这样的大型语言模型(LLM)是否真正模拟人类逻辑和推理的辩论正在进行中。一些研究人员认为,随着规模的扩大,LLM可能会发展出对抽象推理、模式识别和类比制作的新能力。

另一方面,一些人认为促使这些能力的内部机制尚未被解释清楚。一些实验证明,这些模型在其训练数据范围之外难以推广。

"在创建和推理抽象表示方面的能力对于强大的泛化至关重要,因此有必要了解LLM在这方面已经取得了多大的能力," 圣塔菲研究所的科学家在最近的一篇论文中写道。

在他们的研究中,研究人员深入探讨了抽象推理的含义,并提供了在LLM中评估其能力的框架。研究结果表明,尽管GPT-4及其多模态版本GPT-4V非常复杂,但它们都未达到人类水平的抽象推理能力。

什么是抽象推理

抽象推理是从有限数据中识别规律或模式,并将其推广到新场景的能力。这种特质是人类智能的基石,儿童展示了从最少的例子中学习抽象规则的熟练技能。

评估抽象推理能力是一项困难的任务。弗朗索瓦·绍莱(Francois Chollet)提出的抽象与推理语料库(ARC)是一个公正的衡量工具。ARC是一个评估人类和人工智能抽象推理能力的框架。该测试包含1,000个手工制作的类比谜题,每个谜题呈现一些网格转换的例子和一个最终不完整的网格,解题者必须正确填充。这些谜题旨在消除任何不公平的优势,如与训练数据的相似性或对外部知识的依赖。

GPT-4和GPT-4V能否像人类一样进行抽象推理-AI.x社区

为了解决这些谜题,必须从少数示例中推断出总体的抽象规律,并将其应用于测试网格。解决ARC谜题所需的基础知识被认为是人类天生具备的,包括物体识别、数量评估以及几何和拓扑的基本原理等概念。

研究人员在他们的论文中写道:“[ARC] 的目标是捕捉抽象推理的核心:从少量示例中归纳出一般规则或模式,并灵活地应用于新的、以前未见过的情境。”

人类在ARC上的表现大约在84%左右。相比之下,利用当前人工智能系统尝试解决ARC的努力表现不佳。在一场著名的Kaggle竞赛中,使用了程序合成技术的顶级参赛作品仅成功解决了这些谜题的21%,而且无法超越其狭窄的范围进行泛化。作为通用问题解决者的LLM表现甚至更差,在最近的实验中只解决了10-12%的ARC挑战。

对GPT-4进行推理任务的测试

GPT-4和GPT-4V能否像人类一样进行抽象推理-AI.x社区

圣塔菲研究所的科学家们进行了一系列新的实验,使用了ConceptARC,这是ARC的一种变体,旨在更易于人类参与,并促进对特定概念理解的评估。为了适应基于文本的GPT-4,视觉谜题被转化为字符序列。模型接收到一个包含说明、一个已解决的例子和一个新问题的提示。GPT-4的任务是生成表示解决方案的字符序列,允许最多三次尝试。

先前的测试显示,GPT-4在不同温度下在ConceptARC上的得分分别为19%和25%。但通过新的更全面的提示技术,结果有所改善。在进行了480个ConceptARC任务的全面测试中,将模型的温度设置调整为0和0.5时,GPT-4的平均表现约为33%。

尽管取得了一些进展,但GPT-4的能力明显落后于人类表现,人类在ConceptARC上的表现令人印象深刻,达到了91%。圣塔菲科学家指出:“尽管有更详细的提示,GPT-4的表现仍然远远低于人类的高水平,这支持了一个结论,即即使有更多的信息提示,该系统仍然缺乏由这个语料库测试的基本抽象推理能力。”

GPT-4和GPT-4V能否像人类一样进行抽象推理-AI.x社区

多模态是否可以提高GPT-4的性能

研究人员还在GPT-4V上测试了ConceptARC,这是GPT-4的多模态版本,除了文本外还能处理图像。普遍的假设是,由于其增强的能力,GPT-4V将超越其仅文本的对应版本。然而,由于全面测试的高昂成本,研究人员将对GPT-4V的评估限制在ConceptARC谜题的一个被称为“注意力检查”的特定组别上,人类通常在这里达到95%的成功率。

有趣的是,当这些注意力检查被转换为GPT-4的纯文本格式时,该模型获得了65-69%的分数,表明这些任务比完整集合的任务更容易。然而,GPT-4V在这些任务上的表现平均为23-25%,不及仅文本版本的成绩。

论文对GPT-4V的回应进行了有趣的观察:“GPT-4V经常在其解决方案中包含对抽象变换规则的描述...在某些情况下,尽管识别了错误的抽象规则,该模型准确地描述了输出网格,我们将其归类为成功。另一方面,我们将模型正确识别了抽象规则但未能准确描述输出网格的情况归类为失败。”

这个对LLM申请意味着什么

GPT-4V在完整的ConceptARC语料库上的表现可能会比注意力检查子集更差。这个结果表明,多模态能力并不一定会为LLM提供卓越的抽象推理能力。

圣塔菲研究所的研究结果强调了人类与当前最先进的人工智能系统之间在抽象推理方面存在的显著差异。

研究人员写道:“我们的结果支持这样的假设,即GPT-4,也许是目前最具“通用”性的LLM,仍然无法稳健地形成抽象概念并推理有关其训练数据中先前未见过的基本核心概念。其他提示或任务表示的方法可能会提高GPT-4和GPT-4V的性能;这是未来研究的一个课题。”

因此,在将这些模型整合到需要精确逻辑的决策过程中时,最好保持谨慎。在人工智能应用中,尤其是在敏感领域,人类监督仍然至关重要。

本文转载自 MoPaaS魔泊云​,作者: Ben Dickson

收藏
回复
举报
回复
相关推荐