
AI Agents-1 | 深度揭秘AI智能体:开篇导论 原创 精华
这个系列文章旨在为AI代理(AI Agent)提供全面的概述,深入研究其特征,组成部分和类型,同时探索其进化,挑战和潜在的未来方向。
在科技飞速发展的今天,人工智能(AI)已经从一个遥远的概念逐渐走进我们的生活。而随着大语言模型(LLM)的出现,AI的发展更是迎来了巨大的飞跃。这些强大的系统彻底改变了自然语言处理的方式,但它们的真正潜力,却是在与“自主性”相结合时才被完全释放。今天,就让我们一起深入探索AI智能体的世界,看看它们是如何从LLM演变而来,又将如何改变我们的未来。
一、从LLM到AI智能体的演变
(一)传统聊天机器人与LLM驱动的聊天机器人
聊天机器人其实并不是什么新鲜事物。在生成式AI(Gen AI)出现之前,我们就已经在各种网站上和它们打过交道了。不过,那时候的聊天机器人和现在基于AI的对话代理有着本质的区别。
传统聊天机器人是基于规则逻辑运行的,它们依赖于“如果-那么”这样的简单指令,只能在预设的规则范围内工作,根本无法应对复杂或模糊的查询。它们的回应是固定的、预先设定好的,只要检测到特定的关键词或短语就会触发相应的回答,完全缺乏灵活性和深度。而且,这些机器人总是会有一个“联系人工客服”的按钮,因为一旦遇到无法解决的问题,就需要人类出马来处理。
2022年11月30日,OpenAI推出了ChatGPT,这是第一个主流的LLM应用。它保留了我们熟悉的聊天机器人界面,但背后却有着强大的LLM技术支持。这种基于Transformer架构的模型,能够通过自注意力机制深入理解上下文,生成类似人类、与上下文相关且新颖的文本。它可以用于代码生成、内容创作、提升客户服务等多种场景。
然而,LLM也不是完美的。它在长时间对话中很难保持一致的个性化互动,还可能会产生“幻觉”,即生成看似合理但实际上错误的回答。这是因为LLM是基于概率而非经过验证的知识来生成输出的。为了克服这些限制,人们开始探索像检索增强生成(RAG)这样的技术,将外部数据检索与LLM的能力结合起来,以产生准确且有上下文依据的回答。
(二)从LLM驱动的聊天机器人到RAG聊天机器人和AI智能体
RAG聊天机器人是一种结合了外部数据检索和LLM能力的新型聊天机器人。它有两种知识来源:非参数化知识,即从互联网或专有数据库等外部来源实时检索的数据;参数化知识,即LLM在训练过程中嵌入的知识。这种结合方式可以减少幻觉现象,提供最新的信息,并确保回答的可验证性。
此外,通过提示工程技巧,如上下文学习(单次、少量)、思维链(CoT)和ReAct等,可以引导LLM的推理和输出生成,从而提高回答的质量。
AI智能体则是从增强了工具、多步规划和推理能力的LLM演变而来的。它们可以调用通过结构化模式(例如JSON)定义的程序化函数或API,通过分析任务并分配参数来执行操作。AI智能体在迭代执行环境中运行,能够根据反馈进行动态决策和持续适应。
二、什么是AI智能体?
AI智能体是一种可以感知其环境、处理信息并通过执行器对环境采取行动以实现特定目标的系统。你可以把它想象成一个数字实体,它能够像人类与周围环境互动一样观察、思考和行动,只不过它是以一种被编程和有目的的方式进行的。
AI智能体的核心理念是理性行为:智能体应该采取能够最大化实现其指定目标成功的行动。这种理性正是AI智能体与简单响应程序的区别所在。
(一)AI智能体的特征
AI智能体具有以下关键特征:
- 自主性:无需人类干预即可独立做出决策。
- 反应性和主动性:能够对环境变化做出反应,并采取主动措施以实现目标。
- 适应性:通过处理新信息和经历来学习和进化。
- 目标导向:致力于实现预定义的目标或优化结果。
- 交互性:能够与其他智能体或人类进行通信和协作。
- 持久性:能够持续运行,监测并响应动态环境。
(二)AI智能体的核心组件
AI智能体由以下几个核心组件构成:
- 感知(传感器):这些组件使智能体能够感知其环境。它们可以是物理传感器(如摄像头、麦克风)或数字输入(如数据流、用户互动)。
- 推理(处理器):这是智能体的“大脑”,它处理来自传感器的信息,并决定采取适当的行动。这一部分实现了智能体的决策算法,并维护任何必要的内部状态。AI智能体使用各种决策机制,如基于规则的系统、专家系统和神经网络,以做出明智的选择并有效执行任务。
- 行动(执行器):这是智能体影响环境或采取行动的手段。它们可以是物理的(如机械臂、扬声器)或数字的(如数据库更新、显示输出)。
- 知识库:这是智能体用来做决策的信息存储库,包括预编程的知识和学习到的信息。
- 学习:使智能体能够通过从数据和经历中学习来随着时间的推移提高其性能。它使用诸如强化学习、监督学习和无监督学习等技术来提高AI智能体的性能。
- 通信接口:允许智能体与其他智能体、系统或人类进行交互。
三、AI智能体如何与环境互动?
AI智能体与环境的互动通常被称为“感知-规划-行动”循环或“感知-行动”循环。我们可以用自动驾驶汽车来举例说明每个阶段:
(一)感知阶段
这是智能体的“感知”阶段:
传感器 → 处理 → 状态更新
智能体通过其传感器接收输入,处理并解释信息,然后根据新信息更新当前状态。
(二)决策阶段
这是智能体的“思考”阶段:
当前状态 + 目标 → 评估选项 → 选择最佳行动
智能体评估可能的行动,考虑目标和约束条件,然后根据可用信息选择最佳行动。
(三)行动阶段
这是智能体的“执行”阶段:
执行行动 → 观察变化 → 开始新循环
选定的行动通过执行器执行,环境随之发生变化,智能体通过传感器观察结果,然后开始一个新的循环。
这个循环会不断重复,通常每秒多次。这个循环强大的地方在于:
- 适应性:如果发生了意外情况,智能体可以在下一个感知阶段检测到,并相应地调整其行动。
- 学习机会:智能体可以将预测结果与实际结果进行比较,以改进未来的决策。
- 目标导向行为:每个循环都会使智能体更接近其目标,同时尊重约束条件。
为了更直观地理解这个循环,我们可以用一个智能恒温器来类比:
1)简单程序
这种程序只是简单地遵循固定规则,不考虑后果,也没有学习或适应能力。
2)响应式程序
这种程序的规则更复杂,有一定的上下文感知能力,但仍然没有真正的智能。
3)AI智能体
这种智能体考虑了多个因素,预测结果,从经验中学习,优化长期目标,并平衡竞争目标。
机遇一旦错过就再也回不来了青春励志自我实现激励文学
四、AI智能体的工作原理
假设你的智能冰箱不仅仅能在你用完牛奶时自动重新订购,还会根据你的浏览习惯建议你改用杏仁奶。听起来是不是既贴心又有点让人毛骨悚然?这就是AI智能体的精髓所在。
AI智能体能够理解人类语言(多亏了LLM),通过推理信息、规划行动并执行任务,而无需持续的人类输入。它们能够解决复杂的问题,比简单的自动化工具先进得多。与基本脚本不同,AI智能体被集成到软件系统中,能够与环境进行复杂的互动。
那么,AI智能体与简单自动化有什么不同呢?主要有两个关键能力:
- 工具使用:就像人类在解决数学问题时可以使用计算器一样,AI智能体也可以通过工具与外部世界互动。这些工具可以是计算器、API、网络搜索、外部数据库等。
- 规划能力:以数学计算为例,只有当你知道乘法运算或者知道如何将参数传递给计算器时,你才能解决问题。这就是规划和推理的作用。
当向AI智能体发出查询时,会发生以下流程:
(一)编排层(控制中心)
假设我想创建一个AI智能体会议调度器,我向调度器发出查询:“我想为我的学生们举办一个网络研讨会。”
这将被视为AI智能体的触发信号。查询可以是文本、音频、视频或图像等形式(你已经知道,无论数据类型如何,都会被转换为机器能够理解的数值)。
编排层,也就是AI智能体的控制中心,会处理这个查询。编排层有四项主要工作:
- 记忆:维护整个交互过程的记忆。
- 状态:存储整个过程的当前状态。
- 推理:引导智能体的推理过程。
- 规划:确定步骤以及下一步该做什么。
编排层会与模型(LLM)进行交互。
(二)模型(大脑)
模型是整个智能体的集中决策者,通常是一个AI模型,比如大语言模型。为了理解查询、制定计划并确定下一步行动,模型会使用诸如ReAct(推理+行动)、思维链(通过中间步骤进行推理)和思维树(探索多条路径以找到最佳解决方案)等推理和逻辑框架。
模型确定要采取什么行动后,就会通过特定的工具来执行这些行动。
(三)工具(双手)
工具使智能体能够与外部世界互动。通过工具,智能体可以执行超出模型能力范围的操作,获取实时信息或完成现实世界中的任务。
五、何时使用智能体?何时避免使用?
智能体在需要LLM来确定应用程序的工作流程时非常有用,但很多时候它们可能被过度使用。关键问题是:我真的需要在工作流程中增加灵活性,以高效地解决问题吗?如果预先设定的工作流程经常无法满足需求,那就意味着你需要更多的灵活性。
举个例子,假设你正在开发一个处理冲浪旅行网站客户请求的应用程序。你可以提前知道请求将属于两个类别(基于用户选择),并且为这两种情况分别设定了预定义的工作流程。
如果用户只是想了解旅行的相关信息,你可以让他们通过搜索栏搜索知识库;如果他们想与销售团队沟通,你可以让他们填写联系表单。
如果这种确定性的工作流程能够满足所有查询,那么直接编写代码即可。这将给你一个100%可靠且不会因不可预测的LLM介入而引入错误的系统。为了简单和稳健,建议尽量避免使用任何智能体行为。
但如果工作流程无法提前很好地确定呢?例如,用户提出这样的请求:“我可以在周一来,但我忘了带护照,可能会推迟到周三。那么,是否可以在周二早上带我和我的行李去冲浪,并提供取消保险呢?”这个问题涉及许多因素,而上述预定义的标准可能都无法满足这个请求。
如果预先设定的工作流程经常无法满足需求,那就意味着你需要更多的灵活性。这就是智能体设置发挥作用的地方。
在上述例子中,你可以创建一个多步智能体,它能够访问天气API以获取天气预报、谷歌地图API以计算旅行距离、员工可用性仪表板以及知识库上的RAG系统。
直到最近,计算机程序还被限制在预先设定的工作流程中,通过堆叠if/else语句来处理复杂性。它们专注于极其狭窄的任务,比如“计算这些数字的总和”或“在这个图中找到最短路径”。然而,实际上,大多数现实生活中的任务,比如我们刚刚提到的旅行例子,并不适合预先设定的工作流程。智能体系统为程序打开了处理现实世界任务的广阔天地。
六、AI智能体的应用领域
AI智能体是一种多功能的工具,能够在广泛的领域中提高生产力、效率和智能水平。它们正越来越多地被应用于日常应用和具有重大影响的高级领域。
七、总结
AI智能体正在改变我们与技术互动的方式,提供了前所未有的自主性、智能和适应性。从简单的反射智能体到复杂的智能系统,它们正在被应用于各个行业,以解决复杂的问题并增强人类的能力。然而,构建有效的AI智能体也面临着挑战,包括伦理问题、数据依赖和可扩展性问题。
随着AI技术的不断发展,AI智能体的未来充满了巨大的潜力。通过关注通用人工智能、人机协作和伦理考量,我们可以创造出不仅能够高效执行任务,还能与人类价值观一致并为社会做出积极贡献的智能体。
AI智能体是能够感知、决策并采取行动以实现目标的自主系统。其核心组成部分包括传感器、执行器、决策引擎和学习模块。AI智能体被应用于虚拟助手、自动驾驶汽车和医疗保健等领域。通过了解其基本原理并关注最新进展,我们可以利用AI智能体的力量推动创新,创造更美好的未来。
本文转载自公众号Halo咯咯 作者:基咯咯
