大语言模型迈向通用人工智能(AGI)征程全面综述:四大核心要素必不可少! 精华
随着人工智能发展,大语言模型取得显著成果,但距离人类水平的通用智能仍有差距。理解并解决大语言模型在实现通用智能过程中的关键问题,如具身性、符号接地等,对推动人工智能迈向通用智能阶段至关重要,这不仅能拓展AI应用领域,还能深化对智能本质的理解,为构建更强大、更智能的系统奠定基础。
本文聚焦于大语言模型(LLMs)通向通用人工智能(AGI)的研究,探讨了实现AGI的基础原理,包括具身性、符号接地、因果关系和记忆等。文章分析了LLMs在这些方面的现状与挑战,介绍了实现各原理的方法,并构建了整合这些原理的AGI概念框架,讨论了研究面临的问题及未来方向,指出将这些原理融入LLMs有望实现人类水平的通用智能。
摘要&解读
基于大规模预训练基础模型(PFM)的生成式人工智能(AI)系统,如视觉语言模型、大语言模型(LLM)、扩散模型和视觉 - 语言 - 行动(VLA)模型,已展示出在广泛领域和情境中解决复杂且真正具有挑战性的人工智能问题的能力。特别是多模态大语言模型(MLLM),能够从海量多样的数据来源中学习,对世界进行丰富而细致的表征,从而具备广泛的能力,包括推理能力、进行有意义对话的能力、与人类和其他智能体协作共同解决复杂问题的能力,以及理解人类社会和情感方面的能力。尽管取得了这些令人瞩目的成就,但在大规模数据集上训练的最先进的大语言模型的认知能力仍然较为肤浅和脆弱。因此,通用大语言模型的通用能力受到严重限制。为了使大语言模型达到人类水平的通用智能,需要解决一系列基础问题,如具身性、符号接地、因果关系和记忆。这些概念与人类认知更为契合,能为大语言模型提供内在的类人认知属性,支持实现具有物理合理性、语义有意义、灵活且更具泛化性的知识和智能。在这项工作中,我们讨论上述基础问题,并综述在大语言模型中实现这些概念的前沿方法。具体而言,我们探讨如何以有机的方式利用具身性、符号接地、因果关系和记忆的原理来实现通用人工智能(AGI)。
- 研究背景:人工智能发展中,大语言模型虽取得进展,但在实现通用智能方面存在局限,如对世界理解肤浅、无法区分相关和因果关系。传统AI技术多为特定领域服务,难以具备人类智能的通用性和灵活性。为突破这些限制,需借鉴人类认知关键要素,如具身性、符号接地、因果关系和记忆,来提升大语言模型能力,实现通用人工智能。
- 研究贡献:系统梳理大语言模型实现通用人工智能的基础原理和方法,构建了整合具身性、符号接地、因果关系和记忆的AGI概念框架,为后续研究提供理论基础;分析了大语言模型在各原理方面的现有技术和挑战,为改进和创新指明方向;提出通过将这些原理有机融入大语言模型,有望实现人类水平通用智能的新思路。
- 实现设计:具身性通过设计目标意识、情境意识、自我意识和审慎行动机制,使智能体与环境交互,可利用机器人结合模拟环境训练;符号接地采用知识图谱、本体驱动提示、嵌入、主动探索和外部知识等方法连接抽象与现实;因果关系建模有传统深度学习、神经符号和物理知识世界模型等方法;记忆通过模型参数、注意力机制、显式记忆和外部记忆等技术实现不同类型记忆功能。
- 实验结果:文中指出多模态大语言模型在复杂任务上有出色表现,部分模型具备一定目标导向行为和自我意识等能力。但实验也表明,大语言模型在因果推理、长期目标意识等方面仍存在不足,在处理复杂任务和真实场景时,与人类智能相比仍有差距。
- 关键词:大语言模型;具身性;符号接地;因果推理;记忆机制;通用人工智能
1 引言
1.1 研究背景
智能指的是一个系统(无论是生物系统还是其他系统)在给定环境(或多种环境)中实现一个或多个期望目标时取得一定程度成功的能力。一个智能系统能够推断自身状态以及环境状态,并能将这些推断转化为适当的响应,以实现期望的目标。智能是高等生物的独特特征,在开发人工智能的过程中,研究人员经常从生物学中借鉴概念。生物智能的一个重要属性是其通用性,即它能够在广泛的环境中处理许多不同的问题。人类智能尤其复杂、丰富且灵活,能够轻松应对许多新任务。人类智能相较于其他高等动物的普遍优势,主要源于人类能够通过艺术、规范、仪式、信仰体系和习俗等社会和文化结构来构建和传递知识 。语言在所有这些过程中起着至关重要的作用。
虽然创造这种通用智能的想法很有吸引力,但要在机器中实现如此复杂和强大的泛化能力极具挑战性。直到最近,取得显著成果的人工智能技术都较为局限,只能解决一个领域或一组受限领域中的特定问题(例如,人脸识别、医学图像分割、文本翻译、股票市场预测、行人跟踪等)。最近,基于变分自编码器(VAE)和生成对抗网络(GAN)的生成式人工智能技术极大地推动了人工智能能力的变革,使单个模型能够同时处理多种复杂任务。更近一些时候,大规模预训练基础模型的出现,如大语言模型(LLM)、扩散模型(DM)、视觉 - 语言模型(VLM)和视觉 - 语言 - 行动(VLA)模型,为在人工智能中复制通用属性带来了真正的希望。由于这些模型能够处理广泛的具有挑战性的开放领域问题,大规模预训练基础模型,尤其是多模态大语言模型,重新激发了人们对开发通用人工智能的兴趣。这项工作的主要目的是介绍支持实现通用人工智能的认知基本原理,并回顾在大语言模型中实现这些概念的前沿技术。
1.2 语言作为生物系统中通用智能的基础
1.2.1 语言作为知识获取、表示和组织的媒介
已有研究表明,使用自然语言进行交流是学习关于现实世界通用知识的最有效方式之一。虽然人类的感官和运动能力通常并不优于其他高等动物,包括灵长类动物,但人类的认知能力却远比其他动物先进。与动物王国的其他成员,包括人类的近亲灵长类动物相比,人类认知能力的优越性在很大程度上归因于人类对语言的使用。
语言在人类表征、解释抽象概念以及进行推理的能力中起着核心作用。在人类社会中,语言最重要的功能之一是促进新知识的获取和共享。借助语言,无论是通过文学、言语还是艺术,人类不仅可以通过观察或自身与世界的互动来学习,还可以通过获取他人积累的知识,毫不费力地向他人学习并积累知识。此外,语言为表征和内化知识提供了概念框架。研究表明,一个群体使用的特定语言结构和词汇会影响其对世界的推理和解释。事实上,语言差异(例如词汇方面)已被证明会影响不同语言群体的个体成员对自身经历的记忆和描述方式。在这方面,语言可以构建或重构认知,从而塑造主体理解世界以及与世界互动的方式。
1.2.2 语言作为认知信息处理的工具
除了创建抽象概念来表征和组织感知信息与知识的表示外,语言在促进认知计算操作方面也起着基础性作用。Lupyan认为,像单词这样的基本语言元素为其他认知组件构建意义提供了线索。因此,语言不仅仅是一组指代现实世界中的对象、现象和经验的静态符号,它还是操纵这些符号的工具。Clark具体描述了语言促进人类认知信息处理和推理的六种不同方式。研究表明,语言不仅有助于晶体智力(即与表征相关的认知机制),如经验/刺激分类和记忆,还能促进流体智力的要素(即分析问题解决技能),如感知和推理。此外,接触多种语言框架已被证明可以拓宽个人的视野,有助于更细致地理解概念。由于语言在生物认知能力中的核心地位,它被不同地描述为“认知的接口”“智能放大器”,而人类认知本身也被描述为语言增强型认知。
1.3 通用人工智能的概念
虽然文献中对通用人工智能(AGI)有不同的解释,但该概念通常被理解为具有广泛智力能力的人工智能系统,能够执行高级认知任务,如感知(包括情境理解和一定程度的自我意识)、推理、规划,以及在新情境中应用所学知识。通用人工智能系统是功能强大的通用模型,能够在多个领域成功完成极其复杂和多样的认知任务,而无需额外的训练。“人类水平的智能”这一术语通常被宽泛地用于指代展示出通用智能的人工智能系统。通用人工智能不应被理解为具有超级全知和全能的机器,这种假设的能力水平被称为人工超级智能。实用的通用人工智能系统拥有关于世界的通用知识(尽管有限且在一定程度上不确定),但功能强大且灵活,足以解决需要感觉运动控制、感知、情境理解、常识和分析推理能力的广泛问题。对通用人工智能的这种理解,本质上不仅反映了一次性嵌入或学习所有相关知识和技能的实际困难,也反映了这种方法的性能局限性。此外,将通用人工智能概念化为范围有限但具有适应性、灵活性和可扩展性,与人类等高等生物的生物智能的本质和属性是一致的。尽管文献中有各种各样的定义,但对于通用人工智能的一些定义特征,人们几乎达成了一致。具体而言,一个典型的通用人工智能系统的最重要特征包括(例如,见):它能够学习并灵活应用有限且不确定的知识,在完全不同的情境中解决广泛的问题;它的学习和行动是自主且目标驱动的;它在记忆中保留并积累相关信息,并在未来的任务中重用这些知识;它能够理解情境并执行高级认知任务,如抽象和常识推理。我们在图1中总结了这些重要属性。
需要指出的是,通用人工智能与强人工智能有根本区别。通用人工智能侧重于开发具有广泛认知能力、能够解决真正具有挑战性问题的智能系统,而强人工智能旨在创造非常强大的智能,不仅在功能层面模仿人类的认知能力,还具有真正的人类认知属性,如内在心理状态和主观体验,包括意向性(欲望、希望、信念、内在动机等)、道德、情感和自我意识(在有意识和有感知的意义上)。对这一主题感兴趣的读者可以参考[54,55,56,57,58],以获取关于强人工智能概念的更详细讨论,包括人工智能系统的感知、意识和道德等方面。
1.4 研究范围与论文结构
在这项工作中,我们深入讨论了我们认为对实现通用智能至关重要的核心原则,并探讨了在人工智能和大语言模型系统中实现这些概念的各种方法。这里讨论的概念并非实现通用人工智能的算法解决方案,而是基于大语言模型的人工智能系统若要达到人类认知功能的通用性、稳健性和复杂性所必须具备的生物智能的一般原则和属性。事实上,这些核心概念本质上与算法无关,即它们的实现并不特定于任何特定的技术或方法集。然而,需要注意的是,特定的认知功能,如感知、推理、规划、行动等,可以通过这些一般概念和原则得到丰富。本文的其余部分组织如下:在第2节中,我们简要概述了大语言模型的关键要素,这些要素使其如此强大,并构成了它们解决需要人类水平通用智能的复杂问题的潜力基础;第3至6节涵盖了在大语言模型中实现通用智能的重要基础原则,包括具身性(第3节)、符号接地(第4节)、因果关系(第5节)和记忆(第6节);在第7节中,我们讨论了这些认知原则之间的相互关系和相互作用,并基于这些关系和作用合成了一个整体的认知模型;最后,我们在第8节中对这些概念进行了总结讨论,并在第9节中得出结论。
2 利用大语言模型迈向通用人工智能
2.1 大语言模型与通用人工智能
人类的许多知识和技能都是通过多种媒介获取和传播的,其中最重要的是通过语言和视觉媒介(阅读、倾听、直接观察等)。同样,多模态语言模型依赖多种数据模态,有望为系统提供关于世界的通用、多维知识。虽然像GPT - 3和BERT这样的单模态语言模型只能处理文本数据,但多模态大语言模型(例如,Palm - E、MiniGPT - 4、Flamingo、LLaVA)能够自然地无缝整合许多不同的数据模态,包括视觉、听觉、文本和空间信息,为认知任务生成更丰富、更全面的表征。这与生物智能依赖复杂的多感官数据流的方式类似。目前最先进的多模态大语言模型的通用能力已经得到了广泛的证明,它们解决各种复杂认知问题的能力是毋庸置疑的,这些问题传统上需要人类智能才能解决。大语言模型的显著成功重新定义了人工智能的可能性和范围。推动这一成功的主要因素是能够在多样化的多模态数据上构建和训练非常大的神经网络模型。这些模型通常在来自现实世界的通用数据(例如,在线出版物、书籍、新闻文章、社交媒体和其他网络信息来源)上进行训练,能够捕捉复杂的概念,并在很少(少样本学习)或没有(零样本学习)特定任务训练的情况下,更有效地泛化到新任务。因此,它们能够处理复杂的、认知密集型的开放领域任务,如常识和分析推理、数学问题解决、行程规划或一般任务规划,以及开放词汇问答。值得注意的是,目前最先进的大语言模型能够根据任何给定的标准(例如,作者风格、措辞、语气等)进行创造性和艺术性的工作,如撰写文章、短篇小说,甚至整部小说。
2.2 大语言模型支持实现人类水平智能的特征
在实现通用智能的背景下,除了在大规模和多样化的数据集上进行训练外,大语言模型还具有许多有趣的特征,使其知识和技能能够根据需要自然扩展。这种可扩展性,加上它们已经拥有的大量通用知识,使它们能够远远超越传统的深度学习模型。传统的深度学习模型通常是为狭窄的优化目标而设计的,并在来自特定环境的受限数据集上进行训练。
虽然支持大语言模型可扩展性的潜在过程和机制与支持生物智能的过程和机制有根本的不同,但最终的属性在许多方面反映了人类智能的多层次和多维度性质。例如,对大语言模型进行预训练使其具备了强大而灵活的通用知识,足以应对需要感知、情境理解以及常识和分析推理能力的广泛常见问题。当需要特定领域的知识时,可以通过在特定领域的数据集上进一步训练预训练的大语言模型,应用微调来用专业知识扩充通用知识。这种方法类似于人类专家(他们已经拥有通用或常识性知识)在特定领域(例如,工程、医学、法律或网页开发等专业领域)获取专业能力的方式。通常还会利用先验知识将内部表征与现实世界的概念联系起来。同样,这一特征类似于生物智能是基于编码为遗传信息的先验知识构建的方式。除了内化的知识和认知能力外,人类经常依赖外部知识(例如,通过咨询专家或书籍)和工具(例如,软件、机器等)来扩展他们的能力。同样,目前最先进的语言模型可以利用工具,并通过检索增强生成(RAG)利用外部知识来扩展它们的能力。我们在图2中总结了这些重要特征。
2.3 基于大语言模型的通用人工智能基础原则概述
尽管目前最先进的大语言模型非常强大,但它们仍然存在一些限制,制约了它们实现通用智能的能力。一般来说,这些模型对情境的理解往往较为肤浅,在许多情况下,它们的解决方案只是在表面上与人类知识相似。问题的根源在于,包括大语言模型在内的人工智能系统仍然只是数字构建物,试图通过从大量数据中学习世界的一般属性来模仿人类知识和认知能力。这种知识通常局限于观察到的模式,而没有捕捉到导致这些行为的潜在原则。
长期以来,人们一直认为,机器要实现通用人工智能,就必须模仿人类认知的一些关键方面,正是这些方面使人类智能在处理复杂问题时如此稳健、高效、灵活、通用且复杂。人类认知过程的关键方面包括具身感知(或简称为具身性)、符号接地、因果推理和记忆。具身感知,即拥有主观体验和感觉的能力,被认为是高等智能的一个基本方面。它是实现通用智能的一项基本能力,因为它提供了一种伪意识和自主性。具体而言,它使智能体能够自我意识,从而使其决策和行动与更普遍、内在的高级目标保持一致。具身感知还使智能体能够识别他人的经历,这使它们在决策和行为中能够符合道德规范。生物智能的另一个关键原则——符号接地,通过将抽象的认知表征与现实世界中有意义的实体和概念联系起来,与具身性起到互补作用。在大语言模型中,接地确保所学的抽象表征对应于特定的现实世界概念,并在其语义本质的背景下被利用或操纵。尽管人类认知中接地过程的内在机制仍未被充分理解,但在人工智能系统中实现接地的初步技术在使大语言模型的知识与现实世界保持一致方面显示出了很大的潜力。通用人工智能的另一组重要要素,直观物理学和直观心理学,与推断现实世界中事件和相互作用的因果关系的能力有关。众所周知,人类对直观物理学的自然理解是强大的感知和因果推理能力的基础。同时,直观心理学使人类能够在无需专门学习的情况下,形成对其他生物的意图和可能行动的信念。在大语言模型中,通常采用心理理论(ToM)技术来促进它们对直观心理学的理解。最后,记忆使所学的知识和过去的经验能够随着时间的推移被保存和积累。这以一种促进通用效用的方式扩展和丰富了知识。此外,借助记忆机制对过去的决策和行动进行内省和反思,为大语言模型提供了实现持续学习和适应的途径。我们在图3中总结了这些概念各自的作用。
3 具身性
3.1 具身性的基本概念
现代对生物认知的概念化表明,人类神经系统中的认知过程深深植根于心灵与身体以及外部环境的相互作用之中。根据这种智能观点,大脑、身体和环境被认为形成一个统一的系统,它们共同影响和塑造智能行为。神经可塑性这一增强智能适应行为的最重要认知现象之一,也假定了心灵 - 身体 - 环境的相互作用。在[119]中,这三个组成部分被视为生物体解决特定任务所需的基本认知资源。根据对心灵 - 身体 - 环境三位一体的这种理解,有人认为,人工智能系统要真正实现智能,就必须像生物系统一样,能够以物理方式与世界互动,并接收反馈,了解这些物理互动的结果。根据这一假设,只有当人工智能在一个能够对环境执行物理动作的物理身体中创建,并与之内在联系时,才能达到与人类水平认知能力相当的通用智能。具身人工智能系统与传统的纯数字本质的方法不同,它们具有有形的物理表现形式,通过这种形式,它们可以感知和处理感官信息,并与环境进行互动。
3.2 具身性作为通用智能的基础
具身性为内在的目标导向行为提供了基础。一个具身的人工智能系统必然具有能动性,即它会采取有意的行动 —— 它想要执行的行动(例如,基于特定的目标和需求),并且对这些行动拥有完全的控制权。这种目标导向行为是自主性的基本要求。此外,配备丰富的感觉运动资源、有无限机会探索和与环境互动的人工智能系统将获得广泛的智力能力。这样的智能系统必然对世界和自身状态有准确而强大的感知。它还必须能够有目的地对世界采取行动并产生影响,并且能够无缝地适应现实世界的复杂动态。因此,虽然传统的智能方法导致模型本质上是僵化和机械的,但具身智能更加灵活和细致,能够将客观经验与主观概念、价值观、文化规范和期望联系起来。通过提供一种更综合的与世界互动、学习和决策的方式,具身智能体更加稳健,能够处理复杂和多样的问题,从而支持它们的通用性。
3.3 具身智能的关键方面
通用人工智能最重要的方面是对完全自主性的要求,即即使在没有外部明确指令或控制信号的情况下,也能够独立做出决策并采取适当行动的能力。实现具身通用智能涉及四个主要考量因素。
- 目标意识:为了实现完全自主,与生物系统一样,人工智能系统必须有一个总体目标,所有其他目标,包括其他行为者给出的明确指令,都必须从属于这个总体目标。这个目标必须是内在的,并指导由其他智能体触发的外部目标(例如,用户给出的命令、其他智能体的行动等)的成功实现。
- 自我意识:由于身体是影响物理世界的行动执行者,智能过程必须与身体的结构和能力相联系。也就是说,智能行动的适当性不仅取决于智能系统试图实现的目标,还取决于这些行动相对于实现目标的可用手段的最优性。因此,具身智能体要取得成功,就必须意识到自身的能力和局限性。在以人类为中心的情境中,这种意识包括从更广泛的社会背景角度理解自身,以及将经验与价值观、文化规范和期望相联系的能力。这有助于实现社会智能。
- 情境意识:一个实体的智能是由其所处的特定背景或情境塑造的。这凸显了智能行为通常是对环境提出的特定需求或挑战的回应这一事实。因此,为了实现任何目标,了解世界的属性并预先预测目标行动相对于行动预期目标的结果非常重要。此外,由于外部世界对不同实体的行动会有不同的反应,每个智能系统的智能在某种程度上都必须是独特的。这意味着人工智能系统的智能行为必须考虑到由于其自身特殊特征而引起的其他物体或环境的预期反应。在人类中,行为通常受到社会和文化因素的影响。同样,具身人工智能智能体的行动必须反映其环境的社会、文化和人口现实。人工智能智能体必须能够在尊重实际约束(包括安全以及与伦理和文化价值观的一致性)的情况下实现目标。
- 审慎行动:行动在具身智能中至关重要,因为它们是影响世界和实现期望目标的主要手段。通过行动,智能体可以对世界进行主动探索,从而进一步提高其感知能力,并促进在动态环境中的学习和适应。具身智能智能体必须包含通过有目的的行动影响世界的机制。
在以下小节中,我们将讨论具身智能的这四个方面,以及使用基于预训练基础模型(特别是大语言模型)的现代人工智能系统实现它们的方法。图8对这些讨论进行了详细总结。
3.4 目标意识
3.4.1 目标意识的基础及其在通用智能中的作用
人类行为通常受到超越当前任务目标的目标的引导。这些高级目标是生物智能的一个重要方面。同样,在机器中,智能与实现既定目标的能力内在相关。因此,要在人工智能中实现真正的通用智能,就需要这种高级的目标导向行为。目标意识被认为是实现通用人工智能的关键能力,因为它决定了人工智能系统自主运行的能力。具体而言,高级目标提供了内在的指导,确保在没有外部影响或指令的情况下,行为具有意义和目的性。
以目标为导向的具身智能体可以将即时决策和行动与有用的长期结果保持一致。在这方面,目标导向行为促进了一种开放式的问题解决方法,使智能体能够利用多种可能的行动,而不受限于特定的行为选项。在行动方案不明确、无法通过分析计算得出,或者定义不明确且需要非线性、创造性推理才能得出解决方案的问题场景中,这种灵活性非常重要。特别是,它使自主人工智能智能体能够在社会中执行有益的行动,例如在交通事故等紧急情况下做出响应,同时仍能保持其核心功能。例如,在图4中,展示了两个智能体在交通事故中参与疏散和救助受害者的场景。这些智能体可能没有针对此类特定行为进行过训练,甚至可能没有预料到会发生这样的事件,但由于受到与更广泛的社会价值观相一致的高级目标的引导,它们能够独立做出决策,在这种情况下提供帮助。除了这种认知灵活性之外,具有目标意识能力的人工智能系统能够更好地泛化学习成果,选择或优先考虑相关知识,并采取旨在实现特定结果的行动。
目标导向行为在长期任务以及涉及延迟奖励的情况中尤为重要,在这些情况下,即时行动与智能体当前的感官状态没有直接关联。在这种情况下,智能体根据内在目标而非明确指令选择行动。动物执行的许多智能任务都涉及这种延迟奖励。生物认知中的目标可以有不同的形式和来源,包括由生物需求(例如生存、繁殖等)驱动的隐性目标、特定任务(使命)的持续性或临时性目标,以及其他人类给出的指令。
3.4.2 在大语言模型中实现目标意识的方法
通用大语言模型已被证明能够表现出目标导向的行为。尽管最近有这些能力,但大语言模型的原生目标意识仍然有限。例如,Li Yu等人和Li Chuang等人对大语言模型目标意识能力的实验评估表明,其目标意识较差。为了弥补这一不足,一些近期的工作试图使大语言模型的行为与明确指定的目标保持一致。在大语言模型中引入目标意识的最简单方法之一是以输入提示的形式将高级目标纳入模型,以指导底层模型。以更内在的方式实现目标导向行为的方法包括在大语言模型框架中具体制定目标。例如,Li等人采用了一个专门的目标规划智能体和一个工具增强的知识检索智能体,来处理长期任务中的目标意识。Liu等人将目标信息编码到知识图谱中,然后利用该图谱设计一个目标规划模块,以目标导向的方式指导大语言模型与人类的对话。同样,Ni等人利用知识图谱实体之间存在的常识关系作为对话式大语言模型智能体的目标。通过这种方法,通过遍历图谱生成目标导向的回复。另一种常见的方法是在特定的数据集上对大语言模型进行微调,这些数据集是根据预期目标精心策划的。不幸的是,通过这种方式训练的模型通常是短期目标导向的。另一种增强长期目标意识的方法是通过模仿学习对大语言模型进行微调,使用人类反馈强化学习,或利用子模块的反馈,或利用作为外部评估器的不同大语言模型的反馈。已经有人提出,先进的大语言模型可以利用内在的高级目标意识,使智能体能够在没有明确人类监督的情况下,独立制定低级目标并追求特定任务的目标。例如,在EmbodiedGPT和CoTDiffusion中,采用思维链方法为具身行动生成子目标。它们还可以根据不断变化的情况和目标改进决策并修改行动。
3.4.3 目标意识在智能体中的应用范围
目标意识可以促进人机协作。当基于大语言模型的智能虚拟智能体或机器人意识到自身以及与之合作的人类的目标时,它们能够使自己的行动更紧密地与人类意图保持一致,从而实现更无缝、更有效的协作。智能体可以更具前瞻性并采取主动行动,而不仅仅是响应用户请求。了解人类目标还有助于大语言模型智能体澄清模糊情况,并更好地解释对人类的观察。例如,拥有更广泛目标的知识,特别是基于推荐的对话式大语言模型智能体,可以提供更好、更个性化的回复。此外,高级目标可以为理解指令和其他人类输入提供背景。
3.4.4 全局目标和局部目标
虽然生物认知能够处理全局、高级目标,但迄今为止,大语言模型通常局限于可以由多个子任务描述或分解为多个子任务的任务,每个子任务由一系列步骤组成,并且存在某种固定的行动顺序。这种目标意识更准确地描述为任务意识。在复杂的现实世界场景中,智能体不仅需要理解即时目标或任务,还需要理解多个中间目标(通常看似相互矛盾)和子目标如何融入更广泛的背景,包括社会利益(例如,避免身体伤害、减少气候变化或促进包容性)。最终,理解和整合高级目标的能力使通用人工智能能够进行权衡推理,并确定最佳行动方案以实现整体成功。相比之下,任务意识涉及针对特定任务或相关任务集的目标导向行为。
3.5 情境意识
3.5.1 情境意识的主要方面
具身智能体的具身感知,即情境意识,主要涉及两个方面:对环境的意识和对其他战略智能体的意识。
- 对环境和一般背景的意识:具身人工智能研究的最重要任务是增强智能体的情境意识,即它们以一种能够与现实世界互动并采取行动以实现特定目标的方式理解现实世界的能力。在具身认知的背景下,感知不仅需要理解世界的当前状态以及其中发生的过程,还需要理解由于各种因素(最重要的是智能体和/或其他智能体的行动的影响),环境在近期和远期将如何变化。对人类而言,情境意识是通过学习和经验获得的知识、本能和通过基因传递的先天知识,以及其他人类和智能系统即时提供的信息的结果。基于大语言模型的智能体也具有类似的属性。例如,核心模型本身就是一个关于世界常识性通用知识的知识库。此外,可以通过各种方式获取关于世界的特定信息。
- 对用户和其他智能体的意识:大多数现实世界环境是复杂的多智能体环境,其中智能体的行为不仅受到静态且无智能的无生命物体和变量的影响,还受到其他智能体的智能且有目的的行动的影响,这些行动在特定时刻可能是合作性的,也可能是竞争性的。在这样的环境中,行为结果取决于其他智能体的目标、智能和整体能力。然而,通常无法直接观察到其他智能体的属性,即获取它们的目标和策略。这些属性是从智能体在交互过程中的行动和反应中推断出来的。关于它们行为的先验知识也可以整合到大语言模型中。专门的数据集和微调方法也可以赋予大语言模型关于其他智能体行为的知识。一些工作纳入了专门的认知模块,以推断其他智能体的各种属性,包括它们的信念、意图、知识水平和一般心理状态。Hypothetical Minds (HM)通过观察其他智能体的行动历史,并利用这些信息预测它们的策略,并以自然语言输出高级描述,然后可以利用这些描述来改进模型自身的行为。
3.5.2 在具身大语言模型中实现情境意识的方法
- 现实世界环境中的物理智能体:在大语言模型中实现具身性的最直接方法是将具身智能体设计并实现为具有适当传感模态的机器人,然后将先进的语言理解能力与机器人的物理和传感机制相结合。具身通用智能体必须同时执行多项任务:感知、规划、导航、物体操纵、自然语言通信、与人类和其他人工智能智能体的物理交互,以及低级控制任务。原则上,通用具身智能体可以在专门策划的具身数据集(如EgoExoLearn、Holoassist、EgoTracks和EgoChoir)上进行端到端的训练。像EmbodiedGPT、PaLM - E和AlanaVLM这样的专门具身多模态模型就是在这些类型的多感官具身数据集上进行训练的。这些数据通常由以自我为中心的数据集组成,其中包含人类在不同环境中执行各种行动的视频。这些行动通常与上下文相关的语言描述相匹配,有时还包含音频和其他感官信息。为了确保具身数据集尽可能真实且信息丰富,一些工作利用可穿戴传感器,如加速度计、惯性测量单元(IMU)、全球导航卫星系统(GNSS)、头戴式显示器(HMD)和陀螺仪,来捕获关于环境、物体、人类和活动的额外信息(例如位置、方向、姿势等)。因此,训练多模态模型的任务是为这些多种感官信息类型学习一个共同的表征。虽然这种方法在机器人和具身自主智能体方面展示出了令人印象深刻的能力,但收集此类数据集的成本极高且耗时。
由于为通用多感官具身机器人系统从头开发和训练语言模型通常既困难又昂贵,大多数工作通常使用特定任务的数据集对预训练的多模态大语言模型进行微调。也就是说,实现具身人工智能的物理系统涉及使模型适应处理与目标具身人工智能系统的物理能力和感官输入相关的特定任务和交互,例如导航、操纵、人机对话。例如,PaLM - E是专门为厨房环境设计的。因此,它执行的最常见任务是在厨房环境中导航、识别家用物品、拿起和放置烹饪用具及其他物品,以及协助与烹饪、清洁和上菜相关的一般家务。因此,这些方法通常是特定领域的,只能解决有限的情况。由于难以策划足够大且多样化的真实具身任务数据,许多工作使用合成数据集或用合成生成的以自我为中心的数据扩充真实数据集来训练大型多模态语言模型。已经提出了用于生成(例如,LEAP、EgoGen)或注释(例如,PARSE - Ego4D)合成以自我为中心数据的专用框架。通常,预先确定具身人工智能需要处理的目标任务和特定交互(例如导航、操纵、人机对话),并选择或生成合适的数据集。虽然这种解决方法有效地缓解了特定具身任务的数据策划挑战,但将这些模型扩展到通用、开放式、长期任务仍然很困难。这主要是因为当前的合成数据集与真实数据集一样,捕获的是包含关于潜在物理环境和任务的部分和局部信息的短而独立的视频片段。在复杂环境中处理多智能体系统尤其具有挑战性,因为在这种环境中,多个因素会在长期内相互作用。为了解决这一限制,一些近期的方法建议结合多个专门的具身模块来执行特定任务。然而,就实现通用人工智能而言,这种方法仍然极其有限。首先,数据集通常是静态的,学习丰富表征和复杂技能的机会较少。由于这些数据集不具有交互性,智能体只能进行被动观察,并将这些观察作为感官信号进行处理,以对世界采取行动。其次,智能体无法在这些环境中“生活”并从第一人称视角获得经验。此外,使用这种静态数据集进行训练与在现实世界中学习有根本区别,在现实世界中,智能体的观察是其自身(大多是有意的)行动的结果,即智能体通过与环境的交互控制其接收的数据。一个有前途的解决方法是在虚拟世界(一个更完整的模拟环境)中训练智能体模型,然后将其转移到现实世界中。
- 用于具身人工智能系统的模拟智能体和虚拟环境:创建并在模拟的3D数字环境中训练虚拟智能体,是简化在现实世界中开发和训练具身智能体难度的一种有前途的方法。这提供了一种低风险、快速且廉价的了解世界的方式。在模拟环境中,智能体还可以通过人机交互(HCI)界面向人类学习,也可以通过观察或与其他智能体交互来学习。这与人类在现实世界中的学习方式一致。这种共享的观察和知识极大地增强了智能体的能力。
在虚拟环境中训练的模型随后可以转移并针对现实世界中的智能体进行微调。使用这种方法,可以有效地为复杂、动态和未知环境训练复杂的具身智能体,而无需精心策划的数据集或关于智能体本身的结构、传感模态和功能的先验知识。需要注意的是,自主智能体,如聊天机器人、化身、虚拟医疗助手和对话式推荐智能体,可以完全作为虚拟智能体运行,而无需部署在信息物理系统中。在虚拟模式下运行的此类智能体在其上下文(即虚拟意义上)中仍可被视为具身的,因为它们可以被赋予具身智能的大多数属性,包括虚拟身体、行为的内部模型、允许它们与物理环境交互并接收关于交互反馈的传感和驱动能力。
为了促进通用智能,虚拟环境必须满足以下重要要求:大规模且可扩展、计算高效、丰富且信息量大、足够多样化和可变、真实且符合物理规律。
训练具身智能体的常见模拟世界类型
用于训练具身人工智能的模拟智能体和虚拟环境可以通过不同方式创建。一些常见的方法包括:
- 使用3D游戏引擎和3D图形工具,例如;
- 逼真的物理模拟器,例如;
- 扩展现实(XR)技术,例如;
- 生成式人工智能技术,如大语言模型和视觉语言模型,例如。我们在以下段落中简要描述每种方法。
- 游戏引擎和3D图形:在虚拟环境中开发模拟具身智能体最流行的方法之一是使用游戏引擎和3D图形工具。这些工具可以模拟具有动态条件(例如雨天、晴天、黑夜和雾天)的逼真环境。这些环境支持虚拟传感器和交互式对象,使智能体能够学习有用的技能、可供性和相关约束,这些技能、可供性和约束模仿了它们在现实世界中的对应物。
由于多种原因,使用此类3D游戏引擎等工具具有很大的吸引力。首先,使用这些工具可以轻松创建大规模、逼真的环境。其次,广泛存在可用于训练大语言模型智能体的现成通用环境。像AirSim、AI2 - THOR和Carla这样的流行3D环境就是使用虚幻引擎创建的。反过来,可以从这些3D模拟模型中派生出用于训练大语言模型智能体的工具。例如,基于大语言模型的多智能体环境模拟框架,如EAISIM和AeroVerse,就是基于AirSim开发的。MultiPLY通过与将感官耦合的3D虚拟对象(这些对象又源自Objaverse和ObjectFolder数据集)集成到围绕Habitat - Matterport 3D构建的大规模虚拟世界中进行学习。此外,为计算机游戏创建的非玩家角色(NPC)本身具有智能并与目标智能体交互,可以作为游戏资产导入现有环境。它们支持复杂的行为、长期交互,并能参与复杂的故事情节。
这种方法的主要限制之一是开发全球规模的环境需要巨大的计算资源。通常需要在现实性和游戏性能之间进行权衡,从而限制了可以实现的现实程度。另一个主要挑战是游戏引擎无法有效地模拟复杂的、符合物理规律的机械交互,因为这些工具通常是为视觉效果优化的,而视觉效果是游戏中的一个重要特征。
- 逼真的物理模拟:为了克服游戏引擎在为训练具身智能体创建逼真模拟环境方面的上述一些缺点,近期的工作采用物理引擎(例如PhysicsX、Bullet、Symbody和ODE)来创建逼真的、符合物理规律的模拟器,如PyBullet、Isaac Gym、DIFFTACTILE ,用于生成虚拟智能体和环境。例如,基于大语言模型的具身智能体的前沿模型,如ROS - LLM、LANCAR和MHRC,都是基于PyBullet开发的。与3D游戏引擎相比,这种方法提供了更可控、基于物理原理的环境,智能体可以在其中以符合现实世界行为的方式与物体和现象进行交互。这些工具特别适合基于强化学习范式的智能体学习方法,因为具身的大语言模型智能体可以根据其在环境中的行动获得真实的奖励或惩罚。基于物理的模拟器所提供的真实感有助于智能体开发更实用、可迁移的技能,这些技能最终可以应用于现实世界场景。借助如此精确的物理模型,诸如物体操纵、具身路径规划以及与动态环境的交互等复杂任务能够更有效地被学习。
虽然物理模拟支持更真实的行为,但这种方法本身成本高昂。此外,通常无法模拟潜在机制未知的非常复杂的行为或现象。这些问题限制了能够有效建模的场景范围以及在任何给定任务中可以达到的复杂程度。
- 扩展现实(XR)中的模拟虚拟世界:沉浸式体验为人工智能智能体获取有用技能提供了更自然的环境,因为虚拟智能体可以与人类和现实世界无缝交互。在这种环境中训练的智能体能够理解复杂的多模态输入,包括手势和情感,并生成符合上下文的适当回应。扩展现实(XR)工具,特别是虚拟现实(VR)和混合现实(MR)技术,可以创建沉浸式、高度交互式的3D环境,准确模拟现实世界的行为。在XR环境中,具身的大语言模型智能体可以利用模拟的感觉运动反馈来学习在世界中感知和行动。在混合现实模式下,虚拟智能体“生活”在现实世界中,可以与现实世界以及其他虚拟对象无缝交互。这样的混合现实智能体可以通过传感器和物联网(IoT)设备直接感知现实世界。VR世界还可以提供具有人类外观的虚拟智能体(以化身形式)的逼真环境,这些虚拟智能体可以与人类交互并向人类学习。社交XR平台创建了允许不同人类与虚拟对象进行以人为中心的实际活动(例如交易、购物等)的环境。它们可以模拟人机和机机交互,使其成为训练智能体进行社交或协作任务的理想环境。
虽然沉浸式虚拟环境已经使用计算机图形工具和游戏引擎创建,但最近,生成式人工智能技术已被用于构建整个XR世界模型,或为现有的XR世界创建特定内容。大语言模型的能力也被用于使计算机图形生成的世界(例如在SituationAdapt和GUI - WORLD中)适应潜在的社会环境和物理环境属性。
- 由人工智能(例如大语言模型和视觉语言模型)生成的虚拟环境:由于模拟虚拟环境的复杂性以及创建过程中相关的高人力成本,最近大量的方法(例如[223, 224, 251, 252, 253])提出通过利用预训练的基础模型作为世界模拟器来规避这个问题,以准确推断世界的属性,从而生成具身行动计划,并预测不同的行动将如何改变世界。通过这种方法,大语言模型框架经过专门构建,以利用其丰富的知识生成具身训练环境,作为其他具身大语言模型和视觉语言模型智能体的训练媒介。这一系列工作在机器人领域的复杂任务中,如具身规划、导航和操纵任务,取得了特别的成功。
一种常见的方法([251, 255, 256, 257, 258])是从作为自然语言指令指定的高级目标生成中间代码,然后用于生成可信的3D世界模型,具身智能体与之进行交互。这些方法通常利用大语言模型中编码的丰富先验世界知识来指导代码生成。生成的代码可以进一步操纵世界模型,根据人工智能体的期望目标和经验生成不同的场景和环境条件。Hu等人提出了一种代码生成方法,通过生成Blender代码来合成3D场景。为此,他们构建了一个场景图,对原始3D对象的几何关系和约束进行编码。一个基于GPT4 - V的名为SceneCraft的专门视觉语言模型模块,然后能够利用场景图生成Python脚本,在Blender中创建并填充具有相关对象的3D场景。SceneMotifCoder利用大语言模型代码生成,以几何感知的方式进行开放词汇3D对象生成和布置。Tang等人将具身问题构建为基于模型的强化学习任务,利用大语言模型形式的先验知识,通过与环境的少量交互来学习具身规划和行动。在这些情况下,世界模型是借助自然语言指令由Python代码构建的。虽然这种方法看起来很有前景,但以这种方式对大型、复杂和动态的环境进行建模的实际困难,将该方法限制在相对简单的环境中。例如,为了实际实现,Tang等人将虚拟场景构建为确定性环境,其中交互是 episodic的。由于在大语言模型生成的世界中实现逼真的、基于物理的交互存在困难,通常会采用进一步的改进措施来确保行为符合物理规律。例如,Volum等人提出了一种代码生成方法,通过大语言模型提示为虚拟世界合成交互式对象和角色。他们的方法“Craft an Iron Sword”,还利用大语言模型推断交互结果并生成可信的响应(即场景操纵形式)。
3.6 自我意识
自我意识是指人工智能系统理解自身本质的能力,包括其属性、能力、局限性、上下文,以及在与外部实体交互中的角色。身体的物理结构会影响生物系统或生物体处理信息的方式。其形状、大小和能力限制并赋予了某些能力和行动类型,这反过来又影响了实现这些目标所需的认知策略。生物体的神经系统自然地学会以特定于身体的方式控制肌肉和四肢等身体机制。这就解释了为什么人类需要大量训练才能轻松使用假肢。一个具有自我意识的具身智能体还能够理解其行动对其他智能体(人类和人工智能体)以及整个环境的影响。一个同时具有自我意识和情境意识的人工智能智能体被称为情境化智能体。图6描绘了一个典型的场景,在该场景中,情境化对于人工智能系统做出正确决策至关重要。
3.6.1 通用大语言模型中的自我意识
许多研究人员(例如[265, 266, 267])研究了大语言模型中的自我意识,包括了解自身知识局限性的能力,以及内省反思决策和行动并调整行为的能力。基于初步证据,多模态大语言模型通常被认为具有自我意识这一涌现能力,即由于训练数据量巨大而自发产生的能力。例如,Yin等人通过广泛的实证研究表明,当前最先进的大语言模型自然具有一定程度的对自身知识局限性的自我意识,即知道自己不知道什么。其他几项研究也证实了这种能力。
3.6.2 在大语言模型中实现自我意识的方法
虽然目前最先进的大语言模型,如GPT - 4,在开箱即用的情况下,在人类认知意义上仍然缺乏真正的自我意识,但有许多技术可以帮助激发自我意识。例如,已经证明上下文学习、带有人在回路的强化学习和微调可以在大语言模型中实现一定程度的自我意识。一种常见的实现自我意识的方法是通过将生成的响应与已知事实或先前对话进行比较,评估模型输出中的不一致性或错误。通过这种方式,可以明确地提示模型认识到其局限性。最近的一种方法不是依赖人类来探究和提示大语言模型关于其知识或能力,而是将自我意识任务构建为一个直观的搜索问题,具身智能体根据给定情况查询其基础大语言模型关于现有世界知识。根据这一研究方向,多个大语言模型智能体可以协作,通过探究或提问来相互协助,揭示各自的能力和内在弱点。最近的一些工作(例如[283, 284, 285])提出从大语言模型内部状态的隐藏表示中推断其属性。SEAKR通过比较多个响应的一致性分数,从大语言模型前馈网络的内部状态的潜在表示中计算所谓的自我意识不确定性。Self - Controller包含一个专门的子模块,即状态反射器,用于存储状态信息以供评估。潜在地,这些方法可以扩展,以解决对具身大语言模型智能体更相关属性的意识问题,使它们能够意识到自身的物理构造、行动和响应机制,以及行动的相关结果和自身的物理局限性。一个具有自我意识的大语言模型能够识别其内部知识何时不足以解决问题,并转向额外的资源,例如检索增强生成。这种方法类似于人类寻求额外资源来解决自己无法处理的问题的方式。图8更好地说明了具身人工智能系统中自我意识和环境意识的有用属性。
3.7 审慎行动
尽管大语言模型主要是语言实体,但当它们具备具身性时,例如作为物理机器人、虚拟智能体或其他交互式系统,它们可以在现实世界中或通过虚拟或模拟交互采取审慎行动。这种能力源于它们理解面向任务或目标的对话的能力,能够制定逐步计划以完成任务或实现目标,并根据预定义的计划执行适合任务的行动。具身智能体可以通过与环境的审慎交互发现新的可供性以及物体以前未知的属性。这使其能够做出更有益、更具同理心且符合道德的决策或行动。大多数具身大语言模型系统(例如[253, 294, 295])包含专门的规划和行动子模块,以处理行动执行以及与外部实体的交互。这些专门的模块通常采用与智能体的设计和能力相关的行动原语表示。然后,行动原语以策略(即允许行为的规则)或行动模板的形式进行编码,描述如何应对各种场景。通过使用外部工具的能力,大语言模型可以扩展其执行各种行动的潜力。视觉 - 语言 - 行动模型(VLAs)是一类新的多模态基础模型,专门设计用于执行行动。它们通过端到端训练联合学习视觉、语言和行动模态。因此,它们能够感知环境、解释指令、进行高级规划并合成低级行动,以完成各种任务。视觉 - 语言 - 行动模型常用于机器人应用中。它们在诸如开放世界导航、物体操纵、抓取以及解释和响应复杂的感觉运动信号(包括言语和非言语线索)等任务中表现尤为出色。目前最先进的Bi - VLA、RT - 2、Unified - IO 2、QUAR - VLA和3D - VLA等视觉 - 语言 - 行动模型能够在开放领域环境中执行广泛的复杂活动。
4 符号接地
4.1 符号接地的基本思想
符号接地,或简称为接地,是指人工智能系统将计算模型中概念的抽象内部表示与其现实世界中的对应物联系起来的能力。在其基本形式中,接地问题本质上涉及指定一组原始符号,定义它们的语义内涵,并假设操纵它们的规则。支配符号操纵的规则本质上是句法的,并且与符号的指定含义(即现实世界的物理解释)无关。符号本身是抽象的原始实体,被视为原子标记,可以组合成复合标记以编码更高级的概念。符号系统应该在所有表示层次上都是语义可解释的。因此,符号系统是提供对外部世界访问的信息模式。Newell和Simon假设,物理符号系统不仅是智能所必需的,而且对于智能来说也是充分的。
人工智能和大语言模型中的接地方法受到人类大脑处理感觉运动信息并将其与外部世界相关联的方式的启发。心理学家长期以来一直认为,人类思维本身在心理过程中依赖于一个符号系统来表示和操纵信息。根据这种观点,影响人类感知和行为的认知现象,包括视觉、语言、情感、思想、观点和信念,都由符号处理所支配。值得注意的是,很大一类符号与世界的物理属性无关,而是与抽象概念相关。例如,“快乐”“创新”“聪明”和“魅力”等符号仅仅是描述高级现象的概念。然而,人类仍然能够毫不费力地将这些符号与其适当的语义上下文联系起来。例如,当看到人甚至动物的图像时,人类可以根据它们的情绪状态正确地对其进行分类。
4.2 接地作为数字世界与现实之间的桥梁
语言使用符号(数字、单词、词汇概念等)来表示人类对世界上各种对象和概念的理解,包括它们的本质、属性、关系,以及智能体可以对它们执行的可能行动。其目标是通过在人工智能模型内部捕获的抽象符号与它们试图表示的物理世界之间建立正确的关系,为现实世界提供更有意义和丰富的上下文,以促进对外部环境的更好理解并实现与之的交互。从本质上讲,接地旨在弥合人工智能与现实世界之间固有的语义鸿沟。这使得人工智能系统能够“理解”来自环境的输入,从而增强它们的情境意识和适合任务的行为。
4.3 人工智能中符号接地的一般方法
符号接地的经典技术利用显式表示,使用固定的规则和本体来描述所涉及的抽象概念和物理实体的关系和属性。例如,基于变量绑定技术和逻辑规则的数学运算通常用于符号操纵。这类方法的主要优点是所得模型的透明度和可解释性更高。然而,这种方法具有很大的局限性,因为它要求预先预测所有情况并进行适当处理。此外,从固定的、结构化的符号表示转向开放世界中的高级认知任务,如感知和推理,是具有挑战性的。另一个困难在于,在涉及人类社会关系和互动的模糊概念的明确且可靠的接地方面,由于这些概念在文化背景中往往具有很强的依赖性,并且缺乏一致的解释。在这些情况下,符号操纵技术通常无法充分处理认知信息,因为高级规则往往无法捕捉上下文的细微差别,并且符号本身往往有不同的解释,导致不可预测或不一致的推断。由于基于固定符号和逻辑规则的分析技术存在严重局限性,概率图模型和知识图谱由于其灵活性、更好的表示能力和可扩展性,已成为更可行的替代方案。这些最新的方法,即所谓的神经符号技术,采用原始实体作为表示先验,但利用人工神经网络来学习符号的关系和属性。这种方法已被证明是有效的,但也存在可扩展性差的问题。另一种最近的方法,神经符号接地,试图通过借助神经网络学习抽象符号与现实世界的语义联系,隐式地对原始符号进行接地。也有人提出了从数据中以端到端的方式隐式学习符号表示而不依赖显式原语的方法。
4.4 大语言模型中的接地方法
我们在以下小节中讨论大语言模型中符号接地的主要方法。表1详细总结了这些方法。
4.4.1 利用知识图谱对大语言模型进行接地
在大语言模型中,捕获各种实体之间(在这种情况下,是抽象符号与现实世界实体之间)表达性关系的一种常见方法是使用知识图谱。知识图谱将单词表示为图或语义网络这种可视化树状结构中的节点。这些单词代表单个对象、对象类别、事件和概念。各种单词之间存在的关系由连接节点的边来描述。通过这种机制,知识图谱可以存储大量基于现实世界的显式知识。因此,它们被提议用于缓解诸如幻觉等常见问题,并为大语言模型提供一种内化基于物理的知识的方法。这减少了对非常大的训练数据的需求,从而节省了时间并降低了训练成本。此外,与纯神经架构相比,知识图谱中的结构化知识编码了显式关系,因此在推理和规划等新兴任务中更具语义意义且更适用。
虽然用知识图谱增强的大语言模型可以增强大语言模型的推理能力,但手动构建知识图谱是一项艰巨的任务。因此,鉴于大语言模型拥有广泛的世界知识,人们也提议利用大语言模型来构建或丰富知识图谱。因此,这两类方法,即大语言模型和知识图谱,可以以一种相互增强的方式进行集成。这种能力为符号接地带来了有希望的前景,因为知识图谱被整合到大语言模型框架中以提高其性能,同时,由此产生的大语言模型有助于用额外的知识扩展和完善知识图谱,甚至产生更好的输出。这反过来又可以为图谱生成更好的内容,依此类推。一些近期的工作已经在探索这种方法。
4.4.2 通过本体驱动提示对大语言模型进行接地
提示技术已被用于引导大语言模型生成更细致、符合上下文的适当回复。该技术在推理阶段利用用户提供的指令或特定示例(即输入 - 输出对)。这个过程不会影响学习到的模型参数,也避免了昂贵的重新训练或微调过程。这种被称为上下文学习的适应形式,可以根据用户需求有效地将模型推理与现实世界上下文进行接地和对齐。最近,大量工作(例如[359, 360, 365, 366, 367])不再直接将人类可读的指令作为提示输入,而是试图利用本体作为符号接地的知识库,以自动化的方式提供与上下文相关的提示,指导模型如何有效地处理特定情况。本体引擎是通过对事实、规则以及实体、类别、属性和它们之间的关系进行正式规范创建的。作为手动构建符号系统(即本体)的替代方法,一些工作(例如[368, 369])提议利用大语言模型来创建或增强本体。通过不同类型的操作,可以在特定上下文中从既定事实和规则生成新知识。
4.4.3 通过嵌入实现端到端接地
在大语言模型中,符号接地问题可以通过在高维向量空间中隐式建模所学概念的含义及其关联来解决。在向量空间中,诸如单词和视觉概念等符号是基于它们频繁出现的上下文以及它们与其他符号的关系进行编码的。研究人员已经设计出了利用这种表示将所学嵌入与现实世界中的实际对象、感知体验、行动或概念相关联的技术。这些嵌入还可以建立与其他概念的语义关系。例如,短语“丰田陆地巡洋舰”可以与“汽车”“交通工具”等建立联系。此外,符号操纵程序也可以利用底层神经网络的表达能力以端到端的方式进行学习。
与这里介绍的其他接地方法相比,这类技术具有更高的可扩展性且相对易于实现。然而,需要注意的是,这些方法在某些情况下可能无法产生精确的映射,而且通常也难以确定哪些符号没有正确接地。因此,利用向量嵌入的接地方法通常存在可信度和可解释性方面的问题。
4.4.4 通过与环境的主动探索和交互进行接地
符号接地的一个重要方法是主动探索世界,以寻找相关实体的意义。在第3节中,我们已经详细讨论了通过具身性来促进大语言模型智能体通用能力的方法。从这些讨论中可以清楚地看出,具身性作为知识获取工具的作用,源于其支持智能体对世界进行审慎行动、探索和交互的能力。通过这些交互,智能体不仅能够学习到认知技能,具身机制还能帮助大语言模型智能体通过与世界中的物体和现象的直接经验,学习抽象符号的含义。当前的方法(例如[107, 363, 380, 381, 382])通常采用强化学习技术,将语言结构、物理对象、抽象概念和行动直接联系起来。为了实现这一点,智能体首先学习将低级符号与实际经验相联系进行接地,然后在此基础上构建并将高级概念接地于这些低级符号。人在回路的强化学习方法也被用于为高级概念提供语义更丰富的接地。由于使用强化学习训练智能体需要进行大量的试验,虚拟世界通常被用来模拟现实世界的行为 。图11展示了这种方法的通用架构。
4.4.5 利用外部知识对大语言模型进行接地
除了上述明确的符号接地方法外,大语言模型还可以利用来自不同来源的外部知识来提供“弱”接地。例如,所谓的百科知识图谱可以表示从各种来源挖掘的大量结构化知识,包括像维基百科这样的百科全书以及关系数据库。尽管这些方法可能并不严格涉及由句法或逻辑规则连接的抽象原始实体,但它们仍然在基于大规模通用数据集训练的经典大语言模型中的纯隐性知识之间架起了一座桥梁。检索增强生成(RAG)是另一种常用的将大语言模型基于外部知识进行接地的技术。其基本思想是利用来自外部来源的额外信息来扩充接地过程中可用的知识。当需要在非常狭窄的上下文中用特定领域的知识扩充存储的通用知识时,RAG特别有用。另一种流行的RAG形式,即领域工具增强,使大语言模型能够通过专门设计的应用程序编程接口(API)访问和使用外部工具和插件。
5 因果关系
5.1 人工智能和人类智能中的因果关系
因果关系描述了现实世界中各种因素、现象或事件如何相互影响。最简单形式的因果学习旨在确定两个变量之间的动态关系,其中一个变量(原因)直接影响另一个变量(结果)。虽然接地主要涉及将原始符号(如单词)与其在物理世界中有意义的表示(即变量、现象、概念等)相联系,但因果关系关注的是解释导致这些参数变化的潜在机制和原因,以及它们如何影响世界中的各种结果。在机器学习和人工智能中,已知的因果关系可以由人类开发者明确编码。
因果推理,即利用对因果关系的理解来解释事件的过程,使人工智能系统能够对复杂的现实世界现象进行推理(做出准确预测),如结构对恶劣天气的抵抗力、气候变化、疾病传播、事故、人口增长、经济表现等。这种理解对于日常活动,如烹饪、洗涤和驾驶至关重要(见图13)。因果推理的另一个重要作用是在基础条件、内部机制或环境发生变化时,提高对干扰的鲁棒性并保持正确的推断。因此,因果建模使人工智能系统能够更好地泛化并将学到的知识转移到新的环境中。此外,具有因果意识的模型能够考虑到观察或数据的固有局限性和缺陷。例如,它们可以消除或减轻对抗样本和偏差的影响。
5.1.1 因果关系的基本原则
因果理解可以根据其允许的因果推理能力的程度进行分类。这些程度从基本的关联到对假设情景的推理不等。最流行的分类框架之一是由Pearl在[402]中提出的。它描述了一个用于对从观察(更具体地说,从数据)中得出的因果关系进行分类的三级层次结构。这些层次被指定为关联(第1级)、干预(第2级)和反事实(第3级)。图12总结了每个因果层次所解决的典型问题。根据这个框架,只有在获得该层次或更高级别的信息时,才有可能解决该层次的推理问题。因果推理的最低层次,即关联,涉及从观察数据中的统计关系直接获得问题答案的情况。干预,作为因果推理的第二层次,涉及估计改变一个变量(例如治疗方案)对目标变量(即特定结果,在这种情况下为康复)的影响程度。这个层次的因果信息可以正确预测特定行动的效果。例如,10牛顿的力作用在一辆重型卡车上不会引起任何可测量的运动。第三层次也是最高层次,即反事实,允许回答假设性问题或对未观察到的结果进行推断。这涉及回答“如果……会怎样”这类问题,即如果某些事件没有发生或以不同的方式发生会怎样。反事实推理使我们能够确定要操纵哪个变量以及操纵的程度,以将目标变量改变为期望的状态(获得期望的治疗结果)。解决这个层次的智能问题需要同时使用关联和干预信息。
5.2 在大语言模型中对因果关系进行建模的方法
学习因果关系(或因果建模)通常旨在解决两个问题:(1)因果发现,即识别潜在的机制、它们相关的物理参数以及控制系统运行的相互关系;(2)因果推断,即根据关于因果关系的预先定义假设,估计因果变量之间相互影响的任务。因果建模可以是隐式学习因果关系的形式,也可以是使用关于某些特定领域因果机制和关系的先验知识进行显式表示的形式。隐式因果学习方法依赖于端到端的深度学习方法,直接从数据中识别因果关系,或将这些知识应用于推断。我们将在接下来的小节中讨论对因果关系进行建模的重要方法。表2对这些方法进行了比较总结。
5.2.1 传统深度学习方法
在大规模通用数据上训练的多模态大语言模型已经显示出对因果关系进行建模的强大能力。这主要是通过从大量训练数据中学习隐藏模式来实现的。例如,一个大语言模型可能能够推断出影响经济增长或通货膨胀的重要变量,以及通过纯粹学到的模式识别这些变量之间的特定因果联系,即使这些信息在训练数据中没有明确指定。以这种方式获得的知识受到限制,因为并非所有观察到的联系都具有因果关系。事实上,大量的现实世界现象表现出相关关系,即目标变量的变化由于巧合或不相关的影响而相互跟随,但实际上并没有任何因果联系。在推理任务中,这些错误的相关性可能导致不准确或错误的结论。
此外,由于大语言模型能够通过发现训练数据中的隐藏模式来学习因果关系,它们也会在描述因果关系的大量文本上进行训练,包括数学关系、科学原理和定律等。在训练过程中,模型可以从诸如“缺乏体育锻炼导致肥胖”这样的明确陈述中获取关于因果关系的知识,从而能够处理高级因果推理任务,包括干预和反事实推理。尽管大语言模型似乎具有强大的因果建模能力,但研究表明,当前最先进的大语言模型无法获得真正的因果推理能力,即使经过旨在增强因果关系的额外训练,包括上下文学习和微调。具体来说,仅基于数据进行训练而没有内部因果建模机制的大语言模型,本质上并不了解物理定律或支配现实世界行为的潜在机制和原理,它们的预测通常仅仅基于学到的相关性。这可能导致严重且危险的错误。为了解决这一限制,研究人员通常不得不依赖在专门策划的因果数据集上对模型进行微调以发现因果关系。然而,这种方法既费力又困难,在复杂的现实世界环境中往往难以扩展。此外,该方法通常需要许多简化假设,有时可能导致错误的关系。
5.2.2 神经符号方法
与主要学习统计依赖关系以构建预测模型的深度学习方法不同,神经符号方法将关于因果机制的先验知识明确纳入大语言模型中。实现这一目标的一种方法是利用知识图谱和其他基于结构化知识的因果表示与推断技术。由于这些模型自然地编码了概念之间的关系,许多工作利用它们为大语言模型提供结构化知识作为因果机制,然后大语言模型将其纳入信息生成过程。扩展大语言模型因果推理能力的最有效神经符号方法之一是整合因果图模型,这是一类特殊的结构化知识技术,其本质上具有因果性。基本方法是使用特殊的图表或图形来正式表示因果假设。在这种表示中,图的节点代表因果变量,边表示变量之间存在的因果关系。通过评估多个变量的影响,可以确定关于因果关系的先验假设是否有效。在这些假设成立的情况下,可以推导出描述这些关系的数学表达式。反之,这些方法也允许研究人员证伪因果假设。其思路很简单:要确定因果关系,需要隔离并诱导一个可能因素的变化。如果存在因果关系,这将表现为目标变量的相应变化。然后,将学到的潜在结构关系整合到大语言模型神经网络的学习过程中。大量采用因果图模型的工作已经证明了这种方法的潜力。例如,Wang等人提出了一个名为因果关系增强(CRE)的子模块,利用结构因果模型(SCM)对因果机制进行建模,以便随后整合到大语言模型框架中。另一方面,Samarajeewa等人利用外部因果知识来增强大语言模型,以提高其因果推理能力。作者认为,尽管大语言模型已显示出强大的推理能力,但仍然需要来自结构化来源的额外因果知识来充分推断因果关系。为此,他们采用RAG技术检索因果图作为外部知识来源,以扩展大语言模型的因果推理能力。
由于使用上述图形方法对因果机制进行建模的任务既繁琐又耗时,因此人们设计了一些新方法来利用大语言模型本身构建因果图模型,进而利用这些模型来增强大语言模型。由于大语言模型本身已经拥有关于现实世界背景和行为模式(包括不同变量之间的因果关系)的广泛知识,最近大量的工作提议利用这些知识来构建因果图。在这一系列工作中,大语言模型通常作为关于因果关系的先验知识来源,用于建立初始变量和依赖关系,或者作为通过建议额外的因果变量来扩充已知因果关系的手段。通常,大语言模型通过以变量(即节点)及其因果关系(即边)的形式描述图的一般结构来提供帮助。通过这种方法,还可以与大语言模型进行交互,并利用其推理能力通过提示来完善初步的图形。
5.2.3 基于物理知识的世界模型
有人假设,人类推断和推理因果事件的能力依赖于他们的世界模型。这个世界模型,或称为元模型,以一种保持确定但模糊的结构和行为规则的方式,对世界中的概念、现象和对象的因果抽象进行编码。基于这些抽象,人类以直观物理学的形式拥有关于世界的粗略、隐性知识,即各种实体的基本属性以及这些属性如何影响行为。这使得人类能够对环境中的物理交互做出无意识但快速的判断,例如,他们能够相当精确地判断物体如何移动、下落或碰撞(图14)。
在这一思路的指导下,最近许多工作利用基于直观物理引擎的虚拟世界,将大语言模型的知识与现实世界的因果属性和行为相联系。这些模型采用基于先验知识设计的形式化数学模型来表示关于世界的物理定律。因此,它们能够模拟现实世界现象的因果关系和影响,如空气动力学、重力、力、光照和加热。在训练过程中与这样的世界进行交互的基于大语言模型的人工智能智能体,能够学习到可泛化的因果定律和行为(例如飞行、下落、燃烧、变形、漂浮在水面上和破碎等)。利用心理学和人类学等领域的知识,还可以对人类行为以及社会交互进行建模。这使得能够对观察和交互进行“常识性”推理。内在关系使智能体能够轻松处理关于反事实的问题。智能体本身可以被设计为能够与模拟的因果世界无缝交互的具身虚拟模型。这样的智能体模型通常包含外部框架或子模块,这些模块利用精确的数学关系来模拟描述智能体自身属性和行为的物理定律。通过这种方式,诸如机器人之类的具身智能体能够预测自身行动以及各种物理影响对自身的影响。利用虚拟模型的因果建模方法具有许多优势。它们有助于简化获取大量真实数据进行训练的复杂过程。重要的是,关于物理交互的基础数学关系总是基于严谨的牛顿物理学、热力学,或者根据所需的现实程度,基于粒子物理学和量子力学。因此,这类模型中编码的因果知识是精确的,并且通常没有任何歧义,能够定义交互的确切结果。由于这种表示能力和精确性,基于物理引擎的因果模型能够以远超人类直观理解的一致性和准确性处理复杂现象。尽管有这些优势,虚拟模型对能够学习的技能范围和复杂性施加了一些限制。
这一研究方向的主要困难之一是,高度详细的大规模模拟通常需要大量的处理能力。对如此详细、高精度的物理关系进行建模也极具挑战性。然而,由此产生的人工智能系统的性能受到所用模型质量和完整性的限制。模拟可能无法准确考虑模糊概念或人类开发者未知的因素。例如,关于人类交互的模拟可能无法准确考虑文化、社会和情感因素。为了克服这些挑战,人们提出了结合深度学习知识的方法。这些方法包括使用特殊的深度学习技术从数据中学习直观物理学,或者使用人类反馈强化学习来学习交互策略。另一个常见的限制是,这些技术所模拟的交互是僵化的,严格按照编码的物理参数和规则运行。为了缓解这一缺点,一些工作提出利用数据驱动的优化技术,在基于物理的模型中引入一定程度的可变性和随机性。
6 记忆
6.1 生物和人工智能系统中记忆的基本概念
记忆机制与第2至4节中讨论的其他认知过程(具身性、接地和因果关系)有根本的不同,因为它主要作为一种手段,来保存、巩固并随后提供通过这些其他过程获得的重要知识。记忆机制本身并不会产生关于世界的全新知识,而主要是对已经获得的知识进行重组。因此,记忆机制在通用人工智能中的主要作用是为高级认知任务重构和组织已经获取的知识,并存储这些知识以供将来重用。当在这个过程中出现新知识时,往往是这种重组的结果。记忆有助于持续学习或终身学习,这是生物智能的一个重要特征。记忆还可以作为将先验知识纳入人工智能系统的一种手段。同一物种的生物体通常共同占据给定的生态位,并不断相互作用,大多是以合作的方式。因此,它们智能的一个重要方面取决于学习和保持关于支配它们相互作用的共同行为特征的知识的能力。人类尤其通常依赖以规范、规则、信仰体系和习俗等形式存在的共享结构化知识,这些知识使他们能够在社会环境中无缝交互。除了记忆的信息外,人类和其他高等生物还具有内置的先验知识或先天知识,这些知识编码在基因中并从父母传递给后代。为了实现类似的功能,人工智能方法通常以知识图谱或本体的形式纳入与特定任务相关的结构化知识,以扩充存储在记忆中的学习知识。它们不仅包括关于世界上特定概念或对象的事实和属性,还包括关于世界的关系和一般规则。这些与学习到的知识一起,能够对新遇到的情况进行有效且有意义的推断。
除了存储和检索信息外,记忆机制还可以通过重用已经计算的认知变量和解决方案来避免昂贵的计算。例如,当人类最初学习一项新任务,如驾驶时,需要持续的注意力和有意识的努力才能执行。然而,通过不断练习将所需技能牢记于心后,这些学习到的任务可以毫不费力地执行,而无需太多关注。这一现象在心理学中得到了充分的证实和支持。这节省了稀缺的认知资源,用于学习新技能并节省能量。在需要分析推理的数学和复杂游戏等领域中,需要精神投入的认知任务技能尤其受益于这一现象 。记忆在元认知任务中也起着关键作用,在这些任务中,关于某个领域的现有知识有助于学习新技能。此外,想象和心理意象等现象也说明了对先前计算的重用,以提高效率。
6.2 在大语言模型中实现记忆的一般方法
在大语言模型中实现记忆的主要技术包括:
- 深度神经网络中的参数
- 注意力机制
- 显式记忆
- 足够的多样性和可变性
- 外部记忆(例如,通过检索增强生成)
6.2.1 作为模型参数的记忆
经典的深度学习方法将与任务相关的知识存储为模型参数。诸如微调与上下文学习等技术试图通过修改这些学习到的参数来纳入新知识,而不需要将信息存储在独立的、显式的记忆中。这通常会改变模型参数,并不可避免地导致重要信息的丢失,这种现象通常被称为灾难性遗忘。一种常见的解决方法是在微调过程中冻结某些模型参数,以确保只有需要修改的知识受到影响。最近的技术包括弹性权重巩固、无监督重放和对抗性神经剪枝。使用知识编辑技术,也可以直接修改学习到的知识,而不是通过微调方法重新训练模型。
6.2.2 注意力机制
在大语言模型或一般的神经网络实现中获取记忆的另一种方法是利用注意力机制,暂时保存和处理来自过去输入序列的信息。虽然大多数现代大语言模型基于Transformer架构,但早期的语言模型采用了各种循环架构的变体,包括循环神经网络 、长短期记忆网络和门控循环单元,这些模型通过注意力机制利用隐藏状态显式捕获并保留先前输入的片段。从本质上讲,在这种情况下,注意力机制从本质上讲,在这种情况下,注意力机制提供了短期记忆,使模型能够 “记住” 近期的序列,或者从技术角度来说,能够在给定的序列中保持上下文信息。然而,这种情况下的记忆容量非常有限。一些研究(例如[494])将大语言模型的上下文窗口用作记忆,其中提示中包含的信息被用作状态、任务或目标描述。这些信息被视为工作记忆。上下文窗口中的信息也可以是自然语言形式的高级概念,可能是对象或环境属性、任务目标、智能体自身所需的技能或属性。由于大语言模型上下文窗口的记忆容量有限,这种记忆机制能够处理的信息量非常小。此外,最近的研究(例如[495, 496, 497])表明,模型通常对上下文窗口开头和结尾的信息存在偏好,会优先处理这些部分,而忽略中间部分。因此,非常长的上下文可能会导致大部分信息(除了两端的信息)无法被记住,从而引发所谓的 “中间信息丢失” 问题。由于这些限制,显式记忆被提出作为一种可行的解决方案,它为通用智能体提供了几乎无限的记忆容量,用于大规模知识存储。
6.2.3 显式记忆
为了解决上述记忆技术的缺点,人们设计了一些方法,允许在计算机内存中有选择地存储持久的、与任务相关的信息,以供后续重用。特别是,特定领域的知识可以作为先验知识显式存储在记忆中,以扩充大语言模型学到的广泛通用知识。以智能体经验(即过去的决策、行动或尝试的行动以及来自环境的反馈)形式的学习知识也可以显式存储在记忆中。这种记忆系统的本质是在与环境交互的过程中,随着时间的推移对有用的经验进行采样和积累。关系数据库是传统信息密集型任务最常用的存储类型之一。存储的信息可以使用结构化查询语言(SQL)查询轻松检索。这种方法还允许将信息方便地保存在外部数据库服务器上,并在需要时进行检索。由于传统关系数据库的数据格式通常不是为大语言模型直接使用而设计的,一种常见的解决方法是使用结构化数据库进行知识存储。向量数据库在这方面特别有用。这种类型的记忆系统可以以知识图谱的形式存储特定事实、概念定义和实体关系,大语言模型可以查询这些信息以辅助推理。基于向量数据库的记忆机制不仅允许快速检索,还允许在特征级别(即特征向量空间)进行复杂和精细的操作。此外,这种表示方法使得在训练阶段学到的操作易于使用,而无需依赖预定义的分析例程来操作存储的信息。
6.2.4 通过检索增强生成的外部记忆
在通用能力方面,人类相对于其他动物的一个关键优势是能够使用外部知识资源和工具来扩充或扩展自身的能力(例如,通过阅读手册、书籍或在互联网上搜索特定任务所需的信息)。这减轻了在内部存储所有所需知识的需求。受此启发,最近的研究试图使大语言模型能够访问和利用外部资源,从而扩展它们能够执行的任务范围。这也有助于克服与内存不足和处理能力有限相关的固有局限性。例如,使用检索增强生成方法,模型在本地找不到所需知识时,也可以查询外部知识库以检索额外信息。这些来自外部来源的信息可以直接进行处理和利用,或者存储在本地记忆中供以后使用。由于可以存储的信息量不依赖于智能体的记忆容量,因此可以长时间存储大量知识。并且还能够利用已经可用的丰富多样的知识资源(例如,门户网站、维基百科等)。除了缩短开发时间和简化开发过程外,利用现成的外部知识的能力还提供了一种经济实惠的方式来实现先进的功能。这种方法的主要缺点是,由于未知错误,外部信息可能无法保证正常工作,这些错误包括存在未知错误、不一致或信息不完整。还可能由于各种原因完全无法访问外部信息,包括访问权限的更改、存储资源的丢失或信息本身的丢失。外部信息也可能更容易被其他用户和恶意行为者访问,从而危及安全性。
6.3 记忆类型及其在大语言模型中的特征、作用和实现方式
通常可以识别出三种类型的记忆系统:感觉记忆(SM)、工作记忆(WM,也称为短期记忆STM)和长期记忆(LTM)。我们将讨论这些不同记忆类型在大语言模型中的一般特征、主要功能、作用以及实现方法。图15展示了一个典型认知系统的通用记忆结构。表3总结了每种记忆形式的主要功能和实现方法。
6.3.1 感觉记忆
感觉记忆机制是信息处理流程中的初始阶段,主要与感觉登记相关。感觉记忆的作用是记录智能体各种传感器和输入系统(例如文本、操纵杆和其他控制输入)的感知输入。此外,通过关注更显著的信息,同时忽略噪声信号,感觉记忆对来自环境的大量连续感官信息起到过滤作用。就存储持续时间而言,这种类型的记忆保存信息的时间最短。它仅短暂保留信息,以供感觉系统访问。也就是说,作为一个缓冲区,它使感觉信号持续足够长的时间,以克服感觉处理系统固有的惯性。在生物认知系统中,感觉记忆是自动的,不受意识控制。同样,人工智能系统中的感觉记忆系统可以实现为一种锁存系统,对输入信号进行缓冲。这种功能,即在有限时间内保存感觉输入,使认知系统能够产生对环境的连续感知。这种 “感知连续性” 创造了对现实的持续体验,对于以连贯的方式理解和与世界互动非常有用。记忆缓冲区可以通过利用微处理器系统中通常用于实时信号处理的锁存器和缓冲数据机制来原生实现。此类微处理器系统的外围接口可能采用一种读缓冲区机制,以避免因访问延迟而导致的读缺失。这种缓冲的外围设备通常使用一个专用寄存器或一组寄存器,用于保存从外部外围设备接收的最后数据。通常只有在新数据写入缓冲区或软件请求显式删除时,这些数据才会被删除。在目的地也可以使用回写缓冲区,以便处理元件有时间访问感觉数据。这样的缓冲区机制有助于确保在处理过程中感觉信息的连续访问和可用性。
也有人提出了模仿生物神经系统感觉记忆机制的受生物启发的技术 。这些方法通常基于先进的材料技术,这些技术产生的人工系统具有生物感觉系统的有用属性。
尽管目前最先进的大语言模型通常没有显式地纳入感觉记忆,但上述工作原理自然地在使用传感器进行感知的信息物理系统中得以实现。因此,从这种对感觉记忆机制的宽泛定义来看,可以断言几乎所有读取感觉信号的具身大语言模型系统都在某种程度上实现了感觉记忆机制。
6.3.2 工作记忆
工作记忆,也称为短期记忆,在处理当前认知任务(包括感知、决策、推理、指令遵循和执行功能,即感觉运动控制)的过程中,在相对较短的时间内以活跃、易于访问的状态保留相对少量的信息。短期记忆的生物学概念最早由NC Waugh和DA Norman在[527]中描述。后来,Baddeley引入了工作记忆的概念,该模型将短期记忆概念化为一个内存块,执行当前任务所需的信息在其中循环。因此,短期记忆的内容会一直保留,直到目标任务完成,之后这些信息要么被遗忘,要么被保存到长期记忆中。
关于交互的高级上下文信息也保存在工作记忆中,以促进更复杂的任务,如抽象推理。例如,在基于强化学习的智能体中,与智能体试验和反馈相关的实时信息通常保存在工作记忆中,以辅助推理。通过暂时保存最近的输入以供即时处理,大语言模型中的上下文窗口可以被视为起到与工作记忆类似的功能。大语言模型通常在上下文窗口中保留最近的标记,仅记住当前位置前几个句子的内容。其内容与工作记忆类似,很容易衰减或被新的输入覆盖。因此,它充当模型在丢弃或替换新输入之前可以检索和处理最近输入标记的 “记忆”。上下文窗口的大小决定了这种记忆的容量。事实上,许多研究正是将大语言模型的上下文窗口用作短期记忆机制 。在这方面,上下文窗口中的信息被用作中间任务、状态或目标描述。长期记忆的内容也可以通过提示来利用或检索,以扩展或丰富上下文窗口中表示的信息。反之,上下文窗口中的信息也可以为丰富长期记忆提供额外的知识 。
6.3.3 长期记忆
长期记忆可以长时间保存信息。长期记忆的内容是从工作记忆中选择的被认为对长期存储有用的信息。这确保了最相关和重要的知识可供重用。在生物认知系统中,长期记忆可以在生物体的整个生命周期内保存信息,尽管随着时间的推移,这些信息可能会衰减、扭曲或丢失。在合成记忆系统中,可以通过纳入永久性保存信息的显式方案来避免信息丢失的问题。长期记忆具有几乎无限的容量,是知识、积累的经验和技能的最终储存库,在需要时可以被回忆和利用。在大语言模型中,通常实现的长期记忆主要有两种类型:陈述性记忆和程序性记忆 。
- 陈述性记忆:在生物认知中,陈述性记忆也被称为外显记忆,因为其内容可以被有意识地查询和回忆。在人工智能的背景下,陈述性记忆涉及可以被明确表示和检索的关于特定事实的知识。陈述性记忆进一步细分为语义记忆和情景记忆 。
a.语义记忆:语义记忆保存不依赖于特定上下文或智能体 “个人” 或独特经验的一般知识。语义记忆中编码的知识包括事实、公式、一般规则和定律、定义,以及单词和符号及其含义。语义记忆侧重于关于世界的高级概念性知识,以及这些知识如何通过符号(例如单词)、图形和语音(音频)来表达。除了关于世界的事实外,语义记忆还允许保留一般规则和抽象原则以供以后使用。这些规则在认知信息处理中用于操纵新信息。在这方面,它们作为解释世界以及获取和评估新知识的推理框架。
在大语言模型中,语义知识在训练过程中自然被捕获。在训练过程中,多模态语言模型根据训练数据中的统计模式,学习将单词、短语、图像、符号和概念相关联。这个过程使大语言模型能够构建丰富的通用知识内部表示,并将其保存在长期记忆中,以便在未来支持认知任务。凭借这些知识,通用大语言模型在推理任务以及回答需要事实信息的问题方面表现出色。例如,像 “加利福尼亚最大的城市是哪个?” 或 “一公里等于多少英尺?” 这样的问题,这些模型可以轻松处理。它们还擅长从数据中挖掘一般规则,并将其应用于新任务 。大语言模型的这一特性是其强大的常识和分析推理能力的基础 。语义记忆也可以以结构化形式编码的先验知识的形式实现,如知识图谱和因果图模型,可以作为大语言模型中的长期记忆。大语言模型中的这些结构化知识子模块可以持久地存储事实、规则、概念和关系,从而使大语言模型能够根据需要检索有用的信息。像AriGraph、HippoRAG和KG - Agen等工作专门采用结构化知识形式作为长期记忆。这些专门的表示框架可以特别模拟语义记忆中旨在捕获的各种实体的复杂结构和相互关系。在这种表示中,高级概念、它们的属性和关系被明确连接。
b.情景记忆:情景记忆保存关于重要事件、经历和相关上下文信息,即关于事件的时间、地点、周围背景或情境上下文,以及事件的性质(例如伴随事件的视觉图像、特定特征,包括味道、触觉、声音和其他感官信号)。这些信息被表示为按时间顺序排列的经验序列。这种信息不是累加的,即记录的不同事件是分开的,经验不会被泛化或积累。大语言模型中的情景记忆机制可以通过多种方式实现,包括利用底层Transformer架构的注意力机制来捕获情景知识;将相关的情景信息从大语言模型的上下文窗口转移到长期存储中;通过在明确包含情景知识的特定数据集上对通用的、预训练的大语言模型框架进行微调,这些知识可以保存到长期记忆中,并在未来被回忆起来。
- 程序性记忆:程序性记忆涉及获取、存储和回忆执行复杂活动所需的逻辑步骤的知识。这通常涉及运动技能,如自动驾驶、烹饪和机器人操纵。在大语言模型领域,程序性记忆有助于诸如活动规划、指令遵循、推理和物理行动执行等认知功能。这一组高级认知能力是大语言模型涌现能力的核心部分。
在生物认知系统中,程序性记忆的一个主要方面涉及潜意识过程,如启动和经典条件反射等发生在智能体意识之外的过程。其任务是学习并存储刺激与相应反应之间的自然关联,从而在适当的情况下自动触发相应的反应。这避免了推理所需的复杂认知计算,从而加快了反应时间。潜意识现象及其与诸如事实等显式表示的相互作用仍然知之甚少。因此,人工智能领域缺乏此类技术的实现。大语言模型中的程序性知识通常是隐式学习并存储在长期记忆中的。这是通过大语言模型学习训练数据中行动、结构和关系序列的能力实现的。在预训练阶段之后,可以在特定任务的感觉运动数据集上对大语言模型进一步进行微调,这些数据集通常包含关于如何完成目标任务的详细逐步指令。微调过程旨在内化(即从头学习)或优化(即微调与已有任务略有不同的任务)模型生成和遵循解决给定问题所需的显式执行计划的能力。尽管目前最先进的模型在程序性任务上表现出色,但使用神经符号技术显式编码特定技能通常更为有效。这些符号方法有时用于提供结构化推理框架,隐式学习的程序性知识可以利用这些框架来解决特定的问题集。
7 基于具身性、符号接地、因果关系和记忆原则的通用人工智能(AGI)框架
在本节中,我们开发了一个通用人工智能的概念框架,该框架整合了本文中讨论的概念。这样一个框架实现了支持基于本文第2 - 5节所讨论原则实现复杂、稳健和通用智能的基本计算机制。本文中所调研的这些看似孤立的概念——具身性、符号接地、因果关系和记忆,在促进通用人工智能方面,其功能本质上是相互关联且互补的。具身性为与世界交互提供了通用结构和必要机制。这使得人工智能系统能够(通过传感系统)感知世界,并通过根据感官输入和目标执行期望的行动来影响世界的状态。这些具身经验作为有用的信号,用于对符号进行接地。也就是说,具身性使智能体能够通过与世界的实际感知和交互,获得有意义的感觉运动经验,而不仅仅依赖于训练数据中输入单词的抽象语言关联,从而将抽象表示与智能体的实际感知和交互相联系进行接地。这种基于接地的具身经验,反过来又使智能体能够通过与物理世界的交互和反馈,直接从物理世界中观察和学习因果关系。此外,记忆机制为编码、存储和访问在训练人工智能智能体过程中学习到的接地符号、具身经验和因果关系提供了一种手段(见图16)。而且,记忆作为一种手段,可以将已经知道的因果关系和接地符号作为先验知识纳入其中。如图16所示,从智能体的观察以及与环境的具身交互中学习到的因果知识和符号关联,然后可以与以结构化知识形式编码在记忆中的先验已知因果关系和接地符号相结合,为稳健的感知、推理和其他认知任务提供更全面的知识。这些机制协同工作,形成一个强大的框架,使大语言模型智能体能够更好地泛化知识。
基于本文所涵盖原则的通用AGI系统的功能框图。该概念模型包括:(1)一个核心框架,即具身性,它为与世界交互提供了物理基础和必要机制;(2)记忆,由不同的记忆子系统组成——感觉记忆、工作记忆和长期记忆,其作用包括允许学习到的知识和先验知识随着时间的推移被保存和积累;(3)符号接地子系统,它提供了一种将底层大语言模型中的抽象表示与世界中的实际实体相连接的方式;(4)因果学习机制,用于学习与现实世界实体相关的属性和物理定律。需要注意的是,符号接地和因果学习机制结合了编码在记忆中的先验知识和认知信息处理产生的学习知识,以获得正确的结果。
图16展示了基于本文所涵盖原则的通用AGI系统的功能框图。该概念模型由以下部分组成:(1)具身性这一核心框架,为与世界进行交互提供了物理本质和必要机制;(2)记忆,由感觉记忆、工作记忆和长期记忆等不同的记忆子系统构成,其作用之一是让学习到的知识和先验知识能够随时间得以保存和积累;(3)符号接地子系统,为将底层大语言模型中的抽象表征与现实世界中的实际实体建立联系提供了途径;(4)因果学习机制,用于学习现实世界中实体的属性和物理定律。需要注意的是,符号接地和因果学习机制会结合记忆中编码的先验知识以及认知信息处理所产生的学习知识,以达成正确的结果。
8 讨论
大语言模型在许多任务上已经超越了传统的深度学习方法。它们在诸多具有挑战性的人工智能问题上取得了令人瞩目的成果,包括推理、规划、多媒体(即文本、图像、视频、语音等)生成、开放世界导航、编码、自然语言理解和开放领域问答等。鉴于这些能力,包括鉴于这些能力,包括谷歌、OpenAI、Meta、英伟达、亚马逊、苹果和微软等科技巨头在内的商业公司,已经投入了大量的资金和人力,用于开发通用以及特定领域的通用人工智能系统。目前最先进的通用人工智能系统也越来越多地被整合到商业产品中,如搜索引擎、聊天机器人、通用软件、便携式导航设备、智能手机、自动驾驶汽车和扩展现实系统。最近多模态语言模型的成功,极大地提高了人们对机器在可预见的未来实现通用智能可能性的期望。事实上,一些研究人员认为,利用目前最先进的大语言模型,通用人工智能已经触手可及。尽管多模态大语言模型展现出了巨大的潜力,但目前这些说法还为时过早且言过其实。实现通用人工智能的一种可能途径是继续扩大大规模通用机器学习算法,并使用越来越多的数据对其进行训练,以处理广泛领域中的复杂问题。鉴于目前最先进的神经网络框架,尤其是多模态大语言模型已经取得的令人瞩目的成果,至少从理论上讲,这种方法似乎是可行的。模型规模庞大以及训练数据的数量和多样性,使这些模型能够捕捉到通用而复杂的概念,以及跨越多个问题领域和应用场景的语义丰富的模式和关联。然而,经验表明,这种方法存在严重的局限性:许多专业领域的数据有限,神经网络往往只能学习到数据之间的相关性,而无法区分表面关联和因果关系。此外,正如目前最先进的大语言模型所表明的那样(例如[91, 92, 569, 570]),这样的智能系统在知识的复杂性以及在未见情境中以灵活、依赖上下文的方式应用所学知识的能力方面,仍然非常肤浅。因此,仅仅扩大大语言模型的规模并在更大的数据集上进行训练,可能不足以实现人类水平的智能。
大语言模型仍然无法与生物认知系统的稳健性、灵活性、效率和整体通用能力相媲美。与大语言模型和人工智能系统相比,人类智能极其丰富且多面。人类能够在无需直接测量的情况下,对物体的属性和行为做出准确判断。为了弥补这一不足,许多研究旨在通过设计使生物智能如此强大、稳健、数据高效、多功能和自适应的特殊属性来实现通用智能。特别是本文讨论的概念——具身性、符号接地、因果关系和记忆,对于实现重大突破将非常有用。尽管这些原则很有前景,但用于实现每个概念的方法仍有很大的改进空间。同样重要的是要强调,每个概念只能解决与实现通用的、人类水平的智能相关的特定认知问题。然而,为了促进通用智能,将所有这些原则和方法以更集成的方式纳入单个认知框架将更为有益。
因此,虽然具身性、符号接地、因果关系和记忆的概念长期以来一直被认为是通用人工智能的基础,并且已被广泛用于推动大语言模型的发展,但要在通用人工智能研究上取得持续进展,就需要全新的大语言模型设计范式,以统一的方式实现所有这些原则。这样的设计理念将涉及将深度学习模型与神经符号技术相结合,利用先验信息对现实世界的约束和物理属性进行编码。这种方法要求将这些核心概念视为一组相互关联且互补的原语,共同对智能体及其环境进行建模。然后,认知过程就简化为连接各个子组件,并在它们之间处理和交换信息。经过处理的认知信息随后被用于理解感兴趣的特定事件、与世界进行交互、解释观察结果并解释反事实情况。在这种背景下,处理训练数据集中不存在或很少出现的情况将变得极其重要。
通用人工智能研究的另一个主要挑战是,尽管实现人类水平的通用智能这一目标似乎定义明确,但评估和确定何时实现这一目标却是一个难题。特别是,虽然人工智能系统和人类智能的比较通常基于在特定任务集上的表现,但人类和机器智能在设计和功能上存在根本差异。这些差异反映在它们各自的优势和劣势上。例如,生物智能是在动态且充满敌意的环境中,出于智能体自身(或其后代)生存的需要而通过进化发展而来的。人类智能在本质上是模糊且广泛的,具有适应性,并且包括情感、社会和创造性推理能力等主观方面。相比之下,机器智能通常是为直接解决特定的问题集而设计和优化的,无论这些问题有多么通用。由于这些与它们的本质、设计目标和特定能力相关的重要差异,比较可能会产生误导性的结果。因此,即使一个人工智能智能体在复杂任务上达到了与人类相当的一般性能水平,仍然很难将其定义为具有人类水平的智能。此外,智能作为一个抽象概念,是一个包含多个维度的连续度量,以客观的方式对其进行测量是不可行的。因此,甚至评估目前最先进的大语言模型离实现通用人工智能还有多远都是不切实际的。
然而,随着智能体能力的不断提高,当在各种复杂的(虚拟或现实世界)环境中,人们无法再区分人工智能智能体和人类的决策与行动时,我们可以有把握地得出结论,我们已经实现了人类水平的通用智能,即使是在有限的意义上。目前,最先进的大语言模型智能体越来越多地在以人类为中心的复杂环境中执行复杂任务,并且能够在特定的开放世界环境中担任领导角色并提供专家指导。在这些环境中,由于智能体与人类的交互,它们之间可能会建立起信任以及专业、社会和情感关系。这些智能体越来越多地展现出人类的基本特征和能力,包括理解人类情感状态的能力、同理心、对意外随机事件的响应能力、提供帮助和请求帮助的能力、与人类和其他智能体协作共同解决问题的能力,以及与人类进行有意义对话的能力。在这个阶段,我们距离某种可以被描述为通用智能的状态已经不远了。
9 结论
在这项工作中,我们提出了我们认为基于大语言模型的人工智能模型可以利用的、实现通用人工智能的关键要素——具身性、符号接地、因果关系和记忆。虽然这些概念绝不是实现通用智能所需的唯一原则,但它们是任何人工智能系统在处理现实世界问题时实现通用智能的基本构建模块。以内在的方式将这些技术整合到大语言模型中,将带来一组全新的重要特征,这些特征将原生支持通用人工智能。实现这些原则的核心构建模块和技术至少已经以初步形式存在。随着我们对这些原则及其实现技术的理解不断提高,在可预见的未来实现人类水平的通用人工智能的前景是可以实现的。
本文转载自旺知识,作者: 旺知识