2024驾驭人工智能前沿:AI智能体的演进和影响白皮书
报告引言
人工智能智能体正变得日益先进,这对决策、问责和监督产生了重大影响。
随着人工智能不断发展并融入经济和社会的各个领域,对于企业领导者、政策制定者和其他参与塑造人工智能发展、实施和治理未来的利益相关者来说,理解人工智能智能体的作用、能力和可能产生的影响至关重要。
自任务自动化开始以来,智能体的概念 —— 即通过传感器感知环境并通过效应器对其采取行动的实体 —— 一直在不断演变。随着大型语言模型(处理自然语言的人工智能模型)和大型多模态模型(处理自然语言、图像、视频和 / 或音频的人工智能模型)的最新进展,人工智能智能体的概念正进入一个快速发展和试验的新阶段。在这一阶段,从编码助手到工作流自动化、个人助手等一系列新的应用案例不断涌现。
随着人工智能智能体的持续发展,社会正逐渐迈向开发具有更高自主性的创新系统,这些系统能够在最少的人类参与或指导下完成任务。这预示着一个由人工智能驱动的创新和效率新时代的到来,其有可能影响全球经济的各个领域。鉴于这一深远前景,考虑安全和治理措施以指导先进人工智能智能体的负责任开发和实施至关重要。
本文首先定义了人工智能智能体的概念,然后概述了不同类型的智能体及其随时间的演变。最后一部分展望未来,总结了部署人工智能智能体所带来的新兴技术和社会经济影响的示例,以及降低风险的可能措施。
人工智能智能体的定义
人工智能智能体能够自主响应输入和对环境的感知,做出复杂决策并改变环境。
根据国际标准化组织的定义,人工智能智能体可广义地定义为使用传感器感知(声音、文本、图像、压力等)并(使用效应器)对环境做出响应的实体。人工智能智能体通常具有自主性(定义为在无需持续人工干预的情况下独立运行和决策的能力)和权限(定义为在规定范围内执行特定行动的授予权限和访问权利),以采取行动实现一组特定目标,从而改变其环境。
图 1 展示了人工智能智能体的核心组件:
- 用户输入:人工智能智能体接收的外部(如人类、其他智能体)输入。这可能是通过基于聊天的界面输入的指令、语音命令或预先录制的数据。
- 环境:人工智能智能体运行的边界。它是智能体应用其传感器和效应器根据接收到的输入和控制中心决定的行动来感知和改变周围环境的区域。环境可以是物理基础设施,如自动驾驶汽车的映射区域,也可以是数字基础设施,如编码智能体的企业内部网。
- 传感器:智能体感知环境的机制。传感器可以是物理设备(如相机或麦克风),也可以是数字设备(如对数据库或网络服务的查询)。
- 控制中心:通常与模型(如大型语言模型)一起构成人工智能智能体的核心。控制中心帮助处理信息、做出决策和规划行动。根据人工智能智能体的能力,控制中心涉及复杂的算法和模型,使智能体能够评估不同选项并选择最佳行动方案。
- 感知:人工智能智能体接收到的关于其环境的数据输入,可能来自各种传感器或其他数据源。它们代表智能体对其环境的感知或理解。
- 效应器:智能体用于对环境采取行动的工具。在物理环境中,效应器可能包括机械臂或轮子,而在数字环境中,它们可能是发送给其他软件系统的命令,如生成数据可视化或执行工作流。
- 行动:代表效应器所做的改变。在物理环境中,行动可能是推动一个物体,而在数字环境中,它们可能与更新数据库相关。
人工智能智能体的演进
开发人员已经将人工智能从基于规则的系统转变为能够在执行任务时学习和适应的主动智能体。
人工智能智能体的发展始于 20 世纪 50 年代,从那时起,它们已经从简单的基于规则的系统演变为能够进行复杂决策的复杂自主实体。早期的人工智能具有确定性的行为特征,依赖固定规则和逻辑,这使得这些系统可预测,但无法从新经验中学习或适应。
人工智能研究的进展引入了能够处理更大数据集和管理不确定性的系统,从而产生了概率性结果和非确定性行为。这一转变使得决策更加灵活和动态,超越了僵化的框架。
20 世纪 90 年代是一个重要的转折点,机器学习应用变得更加广泛。人工智能系统开始从数据中学习,随时间适应并提高性能。在此期间神经网络的引入为深度学习奠定了基础,深度学习自此成为现代人工智能的核心。
自 2017 年以来,大型语言模型的兴起改变了人工智能在自然语言理解和生成方面的能力。这些模型使用大量数据生成类似人类的文本并参与复杂的基于语言的任务。
如今的人工智能智能体使用各种学习技术,包括强化学习或迁移学习,使其能够不断提升能力、适应新环境并做出更明智的决策。
关键技术趋势
在过去 25 年中,计算能力的提升、互联网上大量数据的可用性以及新的算法突破推动了人工智能智能体能力基础技术的显著发展。以下是对这些技术的简要描述:
- 大型模型:大型语言模型和大型多模态模型彻底改变了人工智能智能体的能力,特别是在自然语言处理以及文本、图像、音频和视频的生成方面。大型模型的出现得益于多项技术进步和 Transformer 架构,该架构为更深入地理解上下文和单词关系铺平了道路,极大地提高了自然语言处理任务的效率和性能。总之,先进的人工智能模型实现了对自然语言更好的理解、生成和交互。
- 机器学习和深度学习技术:一系列技术通过提高效率和增强专业性极大地改进了人工智能模型。一些机器学习和深度学习技术的示例包括:
a.监督学习:有助于从标记数据集中学习,使模型能够准确预测或分类新的、以前未见过的数据。
b.强化学习:使智能体能够通过在动态环境中试错来学习最优行为。智能体可以不断更新其知识库,而无需定期重新训练。
c.基于人类反馈的强化学习:使智能体能够通过人类反馈进行适应和改进,特别关注使人工智能行为与人类价值观和偏好保持一致。
d.迁移学习:涉及采用预先训练的模型(通常在大型数据集上进行训练,如识别汽车)并将其适应于新的但相关的问题(如识别卡车)。
e.微调:涉及采用预先训练的模型并在较小的、特定任务的数据集上进一步训练。这个过程使模型能够保留其基础知识,同时提高其在特定任务上的性能。
这些以及其他学习范式经常结合使用,极大地扩展了人工智能智能体在各个应用领域的问题解决能力。人工智能智能体能力的演变如图 2 所示,智能体类型将在下一节进一步展开。
人工智能智能体的类型
本节概述了不同类型的人工智能智能体,并追溯了它们的演变,强调了支持其发展的关键技术进步。根据其定义特征,人工智能智能体可分为确定性或非确定性,如下所述:
确定性人工智能智能体 | 非确定性人工智能智能体 |
基于规则:按照固定规则和逻辑运行,意味着相同的输入将始终产生相同的输出。 | 数据驱动和概率性:基于数据中的统计模式进行决策,结果不是固定的,而是概率性的。 |
可预测行为:决策过程透明且一致,使得结果可预测。 | 灵活且自适应:能够从数据中学习,适应新情况并处理不确定性,通常对于类似输入会产生不同结果。 |
有限适应性:这些系统无法从新数据中学习或适应变化;它们仅遵循预定义路径。 | 复杂决策:使用考虑概率、随机性或其他非确定性元素的算法,允许更细微和复杂的行为。 |
类型 | 定义 | 示例 |
简单反射智能体 | 简单反射智能体基于对环境的感知运行,不考虑过去的经验。相反,它们遵循预定义规则将特定输入映射到特定行动。条件 - 行动规则的实施允许对环境刺激快速响应。这些早期智能体是简单的基于规则的机器或算法,旨在提供静态信息,无法适应或改变行动方向。 | 使用关键字匹配的基本垃圾邮件过滤器、具有预定义响应的简单聊天机器人、在特定触发条件下发送预写回复的自动电子邮件回复器 |
基于模型的反射智能体 | 基于模型的反射智能体旨在跟踪其环境中当前不可见的部分。它们通过使用先前观察的存储信息来实现这一点,从而能够基于当前输入和过去经验做出决策。由于它们的行动基于当前感知和内部模型,这些智能体比简单反射智能体更具适应性,尽管它们也受条件 - 行动规则的约束。 | 通过调整当前和历史温度数据以及用户偏好来优化能源使用的智能恒温器、使用传感器和地图高效导航并避免障碍物和优化清洁路径的智能机器人吸尘器、使用传感器收集土壤、湿度、温度和降水等环境因素实时数据以优化水分配的现代灌溉系统 |
基于目标的智能体 | 基于目标的智能体能够考虑未来场景。这种类型的智能体考虑行动结果的可取性并计划实现特定目标。目标导向规划算法的集成使智能体能够基于未来结果做出决策,使其适用于复杂决策任务。 | 具有赢得比赛目标的高级国际象棋人工智能引擎,规划能最大程度提高获胜概率的走法并考虑长期策略、为物流设置高效交付目标并通过设定明确优先级规划最优路线的路线优化系统、设定解决客户问题目标并规划对话流程以高效实现目标的客户服务聊天机器人 |
基于效用的智能体 | 基于效用的智能体采用搜索和规划算法来处理没有直接结果的复杂任务,从而超越了简单的目标实现。它们使用效用函数为每个潜在状态分配加权分数,以便在目标冲突或不确定的情况下促进最优决策。基于决策理论,这种方法允许在复杂环境中进行更高级的决策。这些智能体可以根据其相对重要性平衡多个可能相互冲突的目标。 | 在评估速度、燃油效率和乘客舒适度等权衡的同时优化安全、效率和舒适度的自动驾驶系统、根据权衡风险、回报和客户偏好的效用函数做出财务决策的机器人顾问等投资组合管理系统、分析患者病历、标记患者数据(如肿瘤检测)并与医生合作优化治疗策略建议的医疗诊断助手 |
高级人工智能智能体
许多当前的人工智能智能体架构通常基于或与大型语言模型相关联,其配置方式复杂。图 3 展示了导致当前人工智能智能体突破及其不断扩展的能力的关键组件的简化概述。
人工智能智能体从用户输入开始,用户输入被导向智能体的控制中心。用户输入可以是执行指令的提示。控制中心将用户输入导向模型,模型构成了人工智能智能体的核心算法基础。根据应用需求,该模型可以是大型语言模型或大型多模态模型。然后,模型处理来自用户指令的输入数据以生成期望的结果。
架构的核心是控制中心,它是管理整个系统信息和命令流的关键组件。它充当编排层,将输入导向模型,并将输出路由到适当的工具或效应器。简单来说,该层协调以下之间的信息流动:1)用户输入,2)决策和规划,3)内存管理,4)工具访问和 5)系统的效应器,以在数字或物理环境中采取行动。
人工智能智能体的决策和规划组件使用模型的输出来辅助多步骤过程的决策和规划。在这部分中,实现了诸如思维链(CoT)推理等高级功能,这使人工智能智能体能够进行多步骤推理和规划。思维链是一种技术,人工智能智能体通过系统地处理和阐述中间步骤来得出结论,这增强了智能体以透明方式解决复杂问题的能力,因为模型底层推理的每个步骤都以自然语言再现。
内存管理对于操作的连续性和相关性至关重要。该组件确保人工智能智能体记住先前的互动并保持上下文。这对于需要历史数据来做出决策或在聊天机器人中保持对话上下文的任务至关重要。
工具使人工智能智能体能够访问和与多种功能或模态进行交互。例如,在在线环境中,人工智能智能体可以访问外部工具,如网络搜索以收集实时信息和日程安排工具以管理约会和发送提醒,以及项目管理软件以跟踪任务和截止日期。在模态方面,人工智能智能体可以使用自然语言处理工具以及图像识别能力来执行需要理解文本和视觉数据源的任务。
一旦做出决策或制定计划,人工智能智能体的效应器组件就会执行所需的行动。这可能涉及与物理世界交互(在机器人技术中)、执行软件功能或向人类用户提供建议和决策。
学习组件是模型的内在组成部分,使人工智能智能体能够随着模型收集更多输入,使用第 2.1 节中提到的机器学习和深度学习技术,随着时间的推移提高其性能。
应用层围绕控制中心、模型和其他组件,充当人工智能智能体与其环境之间的接口。它解释控制中心的输出并使其适应特定任务或领域。例如,在医疗人工智能智能体中,应用层将通过适当的用户界面将模型输出转换为诊断、治疗建议或医疗警报。
总之,当先进人工智能智能体的各个组件协同工作时,它们代表了智能体对环境进行建模、维护带有信念和偏好的内存或知识存储以及学习、规划、决策、感知(感知)、行动(交互)和与周围环境通信的能力。
示例:汽车信息娱乐系统中的人工智能智能体
汽车信息娱乐系统中的人工智能智能体充当智能助手,通过语音命令激活,用于管理导航、娱乐、气候控制和其他车辆设置。它处理实时交通、天气和驾驶员偏好以优化路线,在遇到延误或危险时建议替代路线。该智能体根据用户习惯个性化娱乐,推荐附近的停靠点,如餐厅或加油站,并主动提供更新,如低燃油警报或电动汽车的最佳充电点 —— 所有这些都确保驾驶员始终专注于道路。
人工智能智能体系统
人工智能智能体系统是一种将多个异构(如基于规则和基于目标的智能体)或同构(如仅基于目标的智能体)人工智能智能体集成的组织结构。每个智能体通常是专门化的,拥有自己的能力、知识和决策过程,同时共享数据以协同实现系统目标。
有几种可能的设计,例如:
- 智能体混合:其中每个智能体按顺序被调用,智能体处理来自前一个智能体的输出。
- 中央编排:协调智能体的调用并相应地管理输入和输出。
人工智能智能体系统旨在确保每个智能体都为总体目标做出贡献,无论是涉及管理复杂的实时过程,如自动驾驶、优化工业过程还是协调活动;例如,在智慧城市基础设施中。通过在专门的智能体之间分配工作量,系统可以处理动态环境并适应变化的条件,确保最佳性能。
示例:自动驾驶汽车人工智能智能体系统
一个人进入自动驾驶汽车(AV)。该自动驾驶汽车由一个人工智能智能体系统组成,包括用于感知、路径规划、定位(确定其在道路上的特定位置)和控制(转向和刹车)的智能体。
感知和定位智能体致力于通过传感器、全球定位系统(GPS)和摄像头持续绘制环境地图。规划智能体根据实时交通、天气和道路状况计算最优轨迹。控制智能体处理车辆的核心机械操作,如刹车、加速和转向。人工智能信息娱乐系统作为与乘客的接口,根据用户偏好处理语音命令、调整路线、气候、娱乐或其他车内设置。
所有智能体以协调和集中的方式协同工作,确保车辆安全、高效地到达目的地,同时优先考虑乘客的舒适和安全。
人工智能智能体的未来:迈向多智能体系统
多智能体系统(MAS)由多个独立的人工智能智能体以及人工智能智能体系统组成,它们通过协作、竞争或协商来实现共同的任务和目标。这些智能体可以是自主实体,如软件程序或机器人,每个通常都具有特定的能力、知识和决策过程。这使得智能体能够并行执行任务、相互通信并适应复杂环境的变化。
多智能体系统的架构由每个参与智能体或系统的期望结果和目标决定。有几种架构类型,例如:
- 网络架构:在这种设置中,所有智能体或系统可以相互通信以达成符合多智能体系统目标的共识。例如,当自动驾驶汽车在狭窄空间停车时,它们会进行通信以避免碰撞。在这种情况下,多智能体系统防止事故的目标与每个自动驾驶汽车的安全导航目标一致,使它们能够有效协调并达成共识。
- 监督架构:在这种模型中,一个 “监督者” 智能体协调其他智能体之间的交互。当智能体的目标存在分歧且无法达成共识时,这种架构很有用。监督者可以在考虑每个智能体的独特目标的同时,调解和确定多智能体系统目标的优先级,从而找到折衷方案。例如,当买家和卖家智能体无法就交易达成一致时,可由人工智能智能体监督者进行调解。
虽然目前的努力主要集中在封闭环境或特定软件生态系统中开发人工智能智能体,但未来可能会看到多个智能体在不同领域和应用中进行协作。在多智能体系统中,不同类型的智能体可以共同处理日益复杂的任务,这些任务需要多步骤流程,并整合来自各个领域的专业知识以实现更复杂的结果。
这些智能体可以在更广泛的自适应系统中进行通信和交互,使它们能够比单个智能体甚至人工智能智能体系统更有效地处理特定任务和复杂情况。
在某些情况下,多智能体系统解决了单智能体系统的局限性,如可扩展性问题、在出现故障或错误时缺乏弹性以及技能集有限。通过在多个智能体之间分配任务,多智能体系统可以提高效率和能力。
从理论上讲,多智能体系统具有高度的适应性,因为智能体可以动态地添加或删除,使系统能够响应不断变化的环境和要求。这种可扩展性对于需要随时间增长或演变而无需大量重新设计的应用至关重要。
在许多方面,多智能体系统可以被视为一种未来的系统类型,它可以通过人类可理解的语言或有待确定的人工智能智能体协议在多个用户或组织之间协调智能体行动。
示例:使用车对万物(V2X)通信的智慧城市交通管理
在智慧城市中,一个多智能体系统(MAS)使用车对万物(V2X)通信实时管理交通流量,使车辆能够与其他车辆、行人和道路基础设施进行交互。每个交通信号灯由一个人工智能智能体系统控制,该系统与附近的信号灯、公共交通系统、紧急服务和停车服务进行通信以检查可用性。配备自己的人工智能智能体系统的车辆共享速度、位置和道路状况等数据,以便进行协调行动,提高道路安全、交通效率和能源使用效率。例如,如果发生事故,人工智能智能体可以重新规划交通路线、调整信号灯时间、通知紧急服务,并与车辆和行人进行通信以避开事故区域,所有这些都只需最少的人工干预。这个系统通过动态适应实时情况优化交通流量、提高道路安全并降低能源消耗。例如,如果一个停车场已满,系统可以引导车辆前往更远的可用停车场,即使这与司机和车载人工智能智能体对近距离的偏好相冲突。
多智能体系统的互操作性
多智能体系统中的一个技术挑战是实现不同人工智能智能体和人工智能智能体系统之间的有效通信。在某些情况下,交互受到本地应用环境边界的限制,将人工智能智能体的潜力限制在更窄和更专业化的子领域,在这些子领域中更容易保持控制。
人工智能智能体的互操作性依赖于通用通信协议,这些协议是管理人工智能智能体如何交换信息的规则和标准。这些协议通常可分为两类:
- 预定义协议:基于已建立的智能体通信语言和本体。由于它们是预定义的,通信模式是可预测和一致的;然而,它们可能无法很好地适应出现新通信需求的动态环境。
- 涌现协议:允许智能体根据自己的经验学习如何有效通信,通常使用强化学习技术。这使智能体能够根据变化的环境和任务调整其通信策略。然而,解码和理解涌现通信仍然是一个持续的研究挑战。
很好地理解人工智能智能体之间交换的消息至关重要,否则可能会影响多智能体系统的整体可靠性。这种不一致可能会导致智能体协作时出现误解或行动不一致,特别是在需要精确协调的复杂环境中。为了提高多智能体交互的透明度,交换的信息需要易于人类访问和解释。
本文转载自欧米伽未来研究所,作者: 欧米伽未来研究所