
一文读懂AI智能体:概念、特性、类型与应用全解析 原创 精华
一、AI智能体究竟是什么?
AI智能体是一组复杂功能的集合,软件代码通过与大语言模型(LLMs)交互来执行这些功能。这些功能涵盖范围极广,从简单的聊天、搜索,到复杂的针对某一主题进行深度研究并撰写一篇经过SEO优化的博客文章等操作。AI智能体代表了人工智能领域的重大进步,让大语言模型有了更具活力与多样性的应用方式。
深入探究AI智能体的核心,会接触到AI领域中的 “函数调用” 这一关键概念。ChatGPT的开发者OpenAI在2023年推出了函数调用功能,因其通用性与强大功能,迅速成为开发者的心头好。要充分理解AI智能体的重要性,首先得搞清楚函数调用以及智能体函数。智能体函数对于将信息映射到特定行动至关重要,展现了智能体的智能与推理能力。
二、理解函数调用(Function Calling)
函数调用是一段基础代码块,它接收输入,将其传递给像GPT - 4或Google Gemini这样的大语言模型,并返回由大语言模型生成的输出。这一过程构成了AI智能体与语言模型交互运作的核心。函数调用包含三个关键组件:系统消息、用户消息和助手消息。
1)系统消息
这是大语言模型执行指定任务所依据的核心指令,常被用于为大语言模型设定角色,比如GPT - 4。这能让大语言模型对即将采取的行动进行情境化理解,确保其回复与期望的角色或专业知识相符。
2)用户消息
这是用户提供给函数的输入内容,可以是一个问题、提示或任何形式的指令,引导大语言模型做出响应。
3)助手消息
这是大语言模型基于系统消息和用户消息生成的输出,代表了AI对给定任务的回应或完成情况。
以请求大语言模型撰写一条关于纽约市的推文为例,来看看函数调用是如何运作的:
- 系统消息:你是一名擅长撰写引人入胜推文的智能AI助手。
- 用户消息:写一条关于为什么纽约市是世界上最棒城市的推文。
- 助手消息(输出):纽约市可不只是一个地方,它是一种氛围。从永不停歇的忙碌到无限的机遇,每个角落都诉说着一个故事。这里是梦想诞生之地,多元文化蓬勃发展,活力无可比拟。纽约市不只是世界上最棒的城市,它是世界的中心。
这个例子展示了ChatGPT背后典型的交互过程。当你向ChatGPT提出一个查询时,它会处理你的输入(用户消息)以及预定义的系统消息(用户无法访问),并生成输出(助手消息)。
简单函数调用最常见的应用包括聊天界面和文本摘要。这些应用展示了大语言模型在结合函数调用时的基本能力。然而,尽管函数调用看似简单直接,但在尝试执行更复杂任务时,其简单性可能会成为限制因素。
三、函数调用存在的问题
像Langchain这样的平台就是基于函数调用的概念构建的。然而,当任务复杂程度超过简单的摘要时,挑战就会浮现。
以之前生成推文的例子来说,如果你想对生成的推文进行审核,向大语言模型提供反馈,并让它结合反馈重新生成推文,这个过程就会变得复杂得多。完成此任务的唯一方法是构建一系列函数并将它们链接在一起,这一概念被称为函数链或提示链。
基于模型的反射智能体提供了一种更复杂的替代方案,它通过维护环境的内部模型,在复杂场景中提升决策能力。
在某些情况下,比如实现先进的数据处理功能时,一个函数可能根本不需要与大语言模型交互。相反,它可能需要一个通过调用机器学习算法或执行硬编码的 “if - else” 逻辑来执行任务的程序。例如,如果你想确保推文中没有 “有毒” 或 “令人反感” 的词汇,就需要将大语言模型的输出发送到一个经过训练以检测有毒内容的机器学习模型。其结果将用于决定下一步行动,这可能会导致对内容的进一步处理或重新生成。
随着任务复杂性不断增加,函数数量增多,链条变长,这不仅引入了更多复杂性和潜在的故障点,还会让故障排查变成一场噩梦。
在这个过程中,我们意识到其中一些函数可以被模板化,并在不同应用中重复使用。这一认识促成了AI智能体的诞生,其旨在解决函数链的局限性和复杂性问题。
四、AI智能体如何解决函数链问题?
了解函数调用后,就更容易理解AI智能体的概念了。AI智能体的核心仍然是函数调用,用于执行指定任务,但它配备了一系列预构建的函数(我们称之为特性,也有人称之为模块或智能体函数),可根据不同任务启用和使用。此外,基于模型的智能体利用内部模型评估潜在结果并做出明智决策,这使它们有别于更简单的反射智能体。
(一)AI智能体的关键特性
- 学习智能体:这类系统通过从先前经验中持续学习来提升自身性能。它们依据反馈和感官输入调整行为,常用于不可预测的环境中,并利用深度学习技术在电子商务和流媒体平台等应用中提供个性化服务。
- 短期记忆:此特性在执行任务期间的会话中存储记忆。其最常见的用例是在处理客户服务请求的聊天机器人中,使AI能够在单个对话中保持上下文连贯性。
- 长期记忆:该特性总结每个会话的短期记忆,并将其存储为持久记忆。每次智能体与大语言模型交互时,这都会为其提供上下文。要知道,大语言模型本身是无状态的,不会天生记住你之前的交互。虽然ChatGPT似乎能记住之前的交互,但这是因为它是一个在应用层内置了记忆功能的应用程序。开发者用于构建智能体的API默认不具备此功能。如果你不想在智能体中构建此特性,也可以直接调用第三方服务,比如GetZep,这是一个专门的记忆处理服务。
- 检索增强生成(RAG):RAG即检索增强生成,该特性允许你提供关于你、你的产品或某个概念的 “专属知识”,这些知识可能并不在大语言模型的数据集中。RAG最常见的用例是搜索。想象一个类似Perplexity风格的搜索引擎,但只处理你提供的数据。RAG就是你提供数据的方式,它让智能体能够搜索你所询问的内容并检索相关信息。例如 “SuperPhil” 应用,这是一个由RAG驱动的搜索智能体,它可以通过查阅Phil Fersht(领先研究公司HFS Research的创始人)的博客文章,回答企业首席信息官可能提出的任何问题。你可以使用Lyzr的知识搜索演示应用,用自己的数据来尝试这个功能。
- 聊天:由于大语言模型无状态,构建聊天应用需要添加一个临时记忆单元,用于存储聊天记录,并在每次交互时将其发送给大语言模型以提供上下文。自动化这个模块,只需启用此特性(从用户界面角度看,就像点击一个 “开启” 按钮),就能将任何智能体转换为聊天智能体。在构建用于客户服务或潜在客户生成用例的智能体时,此特性尤为重要。你可以使用Lyzr的聊天机器人演示应用,用自己的数据来尝试这个智能体特性。
- 工具调用:工具调用赋予智能体强大能力,因为它允许智能体连接任何API或调用自定义函数。例如,如果之前生成的推文需要发布到Twitter(现称为X),你只需调用Twitter API即可自动发布推文。
- 人工介入:这个重要特性让人类能够对这些智能体保持控制。在推文的例子中,如果你想在发布前审核推文,启用人工介入特性就能让你验证智能体的输出,并据此采取进一步行动。
- 智能体从人类反馈中学习(ALHF):这是机器学习中常用的 “从人类反馈中强化学习(RLHF)” 概念的修改版本。ALHF接受对生成输出的人类反馈,处理反馈,规划改进,并重新生成符合反馈的输出。例如在推文中,如果你要求智能体重写推文以提及 “多元文化”,智能体将在新输出中融入这一要求。
- 智能体从AI反馈中学习(ALAIF):与ALHF类似,ALAIF特性使智能体能够从自身性能指标中学习。例如,如果智能体的任务是撰写关于你品牌的引人入胜的推文,ALAIF允许智能体跟踪表现最佳的推文,并按照先进先出(FIFO)模型将它们添加到 “示例集” 中。FIFO方法帮助智能体不断根据用户偏好调整输出质量。ALAIF在智能体的 “自我学习” 能力中起着重要作用。此外,通过版本控制,它允许你恢复到你喜欢的智能体的任何先前版本。
- 输入防护栏:在执行任务时,你肯定不希望智能体将关键和敏感信息传递给大语言模型,这就是输入防护栏发挥作用的地方。通过此特性,你可以启用个人身份信息(PII)编辑功能,或定义你希望智能体遵循的特定防护规则。
- 输出防护栏:与输入防护栏类似,输出防护栏确保智能体生成符合期望的输出。Lyzr智能体具备 “毒性控制器” 这样的特性,这是我们在HuggingFace上开源发布的一个机器学习模型。该模型会检查输出中是否存在有毒和令人反感的语言。如果检测到,它会创建一个防护栏,添加到防护栏列表中,并促使智能体重新生成输出。
- 提示增强器:超过90% 的大语言模型无法满足客户期望的情况是由于提示不佳造成的。虽然大语言模型的核心系统提示在不断改进,对不良提示也越来越宽容,但一个好的提示会进一步提升智能体的输出质量。虽然有一些优秀的提示生成器,比如Anthropic的提示生成器,但如果智能体将此作为内置特性,那将非常有益。Lyzr的智能体配备了自动提示增强器,我们将其作为一个名为MagicPrompts的免费工具推出,目前已有超过1500名活跃用户在使用。
- 自我反思:此特性对于帮助智能体持续生成高质量输出至关重要。自我反思就如同人类的内省一样。通过反思,智能体将根据所有输入条件审查其输出,并验证输出是否按照指令和防护栏生成。你可以定义智能体反思其输出的次数。虽然反思次数越多,大语言模型的使用量(以及成本)就会增加,但这也会提高质量、一致性和相关性。自我反思的一种变体是交叉反思,即使用不同的大语言模型进行审查。
- 人性化处理:如果你希望修改智能体的输出,使其听起来更像人类,那么人性化处理特性就能实现这一点。此特性使用频率通常较低,主要出现在电子邮件生成智能体中,因为在这种场景下更需要自然、对话式的语气。
- 大语言模型选择器:一篇名为RouteLLM的最新论文强调了根据任务选择合适大语言模型的好处,这种方法可以显著降低使用大语言模型的成本。智能体默认可以启用此特性,为开发者节省编写另一个路由函数的时间。
- 事实核查器:对于通过分析各种新闻来源生成新闻文章的智能体来说,事实核查至关重要。事实核查器是一个新兴特性,它允许智能体在发布输出前验证事实,确保准确性和可靠性。
- 输出评估:如果你有特定的测试用例,可以将它们传递给智能体,让智能体根据这些测试用例评估输出结果。如果结果不一致,智能体将重新生成输出以满足测试用例要求,确保质量并符合指定标准。
虽然这些特性看似繁杂,但正是它们将简单的 “函数调用” 转变成了功能强大、可靠的AI智能体。任何具有重复适用性的函数都可以作为一个特性添加进来,这不仅节省了大量开发时间,还让智能体具备各种有趣的能力组合,有可能产生创新且强大的应用。
五、AI智能体的类型
在过去几个月里,出现了三种不同类型的AI智能体,每种都有其独特的优势和应用场景。
1)基础构建智能体
这些多功能智能体是创建复杂智能体自动化工作流程的基础。像Lyzr(企业智能体框架)、Langchain(流行的开源框架)和CrewAI(基于Langchain的智能体框架)等流行框架都提供基础构建智能体。它们的灵活性使其能够自动化从简单聊天机器人到复杂工作流程的广泛任务,对开发者和企业来说都是极具价值的工具。
2)角色智能体
这一类别迅速受到欢迎,其智能体被设计为体现特定角色或人物形象。例如销售开发代表(SDR)智能体、营销智能体和法律智能体。知名的法律智能体Harvey以及流行的AI SDR Jazon就是这类智能体的典型代表。角色智能体的吸引力在于其专业能力,并且在许多情况下,它们以软件即服务(SaaS)解决方案的形式提供,这使得企业能够轻松获取并立即投入使用。
然而,值得注意的是,大多数这类智能体(像Lyzr在客户云端运行的角色智能体等少数除外)都像 “黑匣子” 一样运作。这意味着客户无法访问或修改系统提示和后端逻辑,这可能会限制定制化和透明度。
在这一领域,Ema提出了一种有趣的方法,它正在开发一种通用智能体概念,能够为组织处理各种任务,有可能在角色智能体范式内提供更大的灵活性。
3)任务自动化智能体
这一类别目前在AI智能体市场中占据最大份额。这些智能体旨在高效执行特定的、通常是单一的任务。例如用于客户交互的聊天机器人、基于检索增强生成(RAG)的搜索引擎、文本摘要器、文本转SQL转换器以及其他单任务自动化工具。它们受欢迎的原因在于其专注的功能以及易于集成到现有工作流程中。
六、多智能体系统中各类智能体框架一览
在过去的一段时间里,涌现出了几个备受瞩目的智能体框架。下面来看看一些最受欢迎且发展活跃的平台:
1)Langchain
最初是一个大语言模型应用开发平台,在2024年1月推出了LangGraph,这是一个专门的智能体库。它以与母公司Langchain框架的集成能力以及强大的路由功能而闻名。关键指标:开发者对Langchain开源框架的贡献超过10万次。知名客户包括CommandBar、Adyen、New Computer。
2)Lyzr
2023年9月为企业客户推出了商业框架,将自己定位为Langchain在企业领域的主要替代方案。其优势在于拥有丰富的智能体特性集,能够快速开发复杂的智能体。提供一键部署,并通过Lyzr专业服务提供扩展部署支持。最近推出了智能体API,彻底改变了开发者基于Lyzr进行构建的方式。独特之处在于提供预构建的智能体,如Jazon(AI SDR)和Skott(AI营销人员)。关键指标:截至目前,为客户节省了82.5万人工时。知名客户有HFS Research、SurePeople、Evalueserve、Kastle。
3)LlamaIndex
起源于一个RAG框架,在该领域仍然是有力的竞争者,最近扩展到了智能体框架领域。
4)Flowise
作为Langchain和LlamaIndex的可视化替代方案,允许用户使用直观的拖放界面构建Langchain或LlamaIndex工作流程,非常适合那些更喜欢可视化编程而非传统编码的用户。
5)AutoGen
被认为是最早的真正智能体框架之一,展示了智能体方法的潜力,并通过开源贡献迅速获得发展动力。然而,关于其企业适用性仍存在疑问,这可能会影响其在企业环境中的采用。
6)CrewAI
在2024年初迅速走红,以其简单性和愉悦的开发体验而闻名。通过输入角色详细信息(包括背景故事和描述),可以轻松创建智能体,并便于将多个智能体组合成工作流程。
7)Gumloop
这是一家由Y Combinator支持的公司,为工作流程自动化提供了一种有趣的方法。虽然严格来说它不是一个 “智能体框架”,但其自动化自定义工作流程的方法本质上具有智能体特性。可以将其视为生成式AI领域中与Zapier类似的工具,架起了传统自动化与AI驱动流程之间的桥梁。
8)Ema
与Lyzr一样专注于企业市场,通过其通用智能体概念为智能体构建提供了独特的方法。它充当多个后端智能体的前端,允许组织运行多个Ema来自动化各种工作流程。关键指标:从知名风险投资公司筹集了超过6000万美元的资金。
9)Wordware
这是一个专门为使用基于英语的编程开发智能体而构建的集成开发环境(IDE),代表了智能体开发中最具创新性的方法之一。虽然功能强大,但由于开发者需要适应其独特的编程范式,因此存在一定的学习曲线。
七、AI智能体的应用场景
随着AI智能体的不断发展与完善,它们在各个行业的应用也日益广泛。以下是一些常见且热门的应用场景,这些场景都是基于上述智能体框架构建的:
1)自动化销售拓展
AI销售开发代表(SDR)变得极为流行,成为生成式AI在销售和营销领域的一个成功应用案例。它们能够处理最初的客户互动,对潜在客户进行资格评估,并安排预约。通过自动化这些重复性任务,AI SDR不仅节省了人力成本,还能以更高的效率和更广泛的覆盖范围触达潜在客户,为销售团队筛选出更有价值的线索,显著提升销售流程的整体效能。
2)博客生成
智能体可以针对博客文章进行数据调研,撰写高质量、符合SEO优化的博客内容,并自动将其发布到各个平台。这一场景极大地加快了内容创作流程,内容创作者只需设定主题和大致方向,智能体就能利用其学习能力和数据检索功能,快速生成有深度、有吸引力且能适应搜索引擎算法的文章,让内容发布更具时效性和连贯性,有助于企业或个人在网络内容竞争中占据优势。
3)客户服务自动化
智能体能够处理传入的客户咨询,依据公司知识库给出恰当回复。在必要时,它们可以关闭工单或将问题升级给人工客服。这种自动化不仅提升了响应速度,增强了客户满意度,同时也减轻了人工客服的工作负担,使他们能够将精力集中在更为复杂和个性化的客户问题上,优化了客户服务资源的分配,提升整体服务质量。
4)文档审查
智能体依据特定指令对提供的文档进行审查,标记出其中存在的问题、不一致之处或需要关注的区域。在法律、合规以及合同管理等场景中,这一应用尤为重要。例如在法律合同审查中,智能体可以快速比对条款、查找潜在风险,为法律专业人士节省大量时间和精力,同时提高审查的准确性和全面性,降低潜在法律风险。
5)产品推荐
传统的推荐系统大多基于文本数据,而借助生成式AI驱动的智能体,企业能够构建多模态推荐引擎。这些引擎可以综合考虑文本、图像、用户行为等多种数据维度,从而做出更为精准和个性化的产品推荐。比如在电商平台上,智能体可以根据用户浏览历史、购买偏好以及商品图片展示等多方面信息,为用户推荐更符合其需求和喜好的商品,提升用户购物体验,增加销售转化率。
6)数据分析
智能体能够处理用户的自然语言查询,将其转换为SQL或其他数据库查询语言,对结构化数据执行查询操作,并以非技术用户易于理解的格式返回可操作的洞察结果。这一场景有效弥合了复杂数据结构与需要快速获取洞察的业务用户之间的差距,使得企业中的普通员工无需具备深厚的技术知识,也能轻松从海量数据中提取有价值的信息,为决策提供有力支持,提升企业整体的数据驱动决策能力。
这些应用场景仅仅展现了AI智能体潜在应用的冰山一角。随着技术的持续进步以及更多企业对这些工具的采用,我们有望在各个行业和领域看到更为广泛的创新应用。AI智能体框架的快速发展及其多样化的应用,凸显了这项技术的变革潜力。从简化商业流程到提升客户体验,AI智能体在塑造我们日常生活和工作中与人工智能交互及应用方式的未来方面,正准备发挥关键作用。
本文转载自公众号Halo咯咯 作者:基咯咯
原文链接:https://mp.weixin.qq.com/s/n_Ce3kj40TlzYFcGznX__w
