为什么智能体是GenAI的下一个前沿-51CTO.COM

通过从信息向行动的转变，比如虚拟同事能够完成复杂的工作流程，这项技术承诺带来一波新的生产力和创新浪潮。

在过去的几年里，全球对GenAI所展现的能力和可能性感到惊叹。基础模型，如大型语言模型(LLMs)，能够在多个媒介中执行令人印象深刻的工作，从文本、音频到图像和视频，然而，GenAI的下一个阶段可能会带来更具变革性的影响。

我们正处于从基于知识的GenAI工具——比如回答问题和生成内容的聊天机器人——到启用GenAI的“智能体”演变的开端。GenAI“智能体”利用基础模型在数字世界中执行复杂的多步骤工作流程。简而言之，这项技术正在从思考向行动转变。

广义上讲，“智能体”系统是指能够在动态世界中独立互动的数字系统。虽然这种软件系统的版本已经存在多年，但GenAI的自然语言能力揭示了新的可能性，使系统能够规划其行动，使用在线工具完成任务，与其他智能体和人类合作，并通过学习来改进其性能。GenAI智能体最终可以作为技能娴熟的虚拟同事，与人类无缝且自然地合作。例如，一个虚拟助理可以计划并预订个性化的复杂旅行行程，处理多个旅行平台上的物流。工程师可以使用日常语言向程序员智能体描述新的软件功能，后者会编码、测试、迭代并部署它帮助创建的工具。

传统上，实现智能体系统一直很困难，需要费力的基于规则的编程或高度特定的机器学习模型训练，GenAI改变了这一点，当智能体系统基于基础模型构建(这些模型已在极大且多样化的非结构化数据集上进行训练)而不是预定义的规则时，它们就有能力适应不同的场景，就像大型语言模型能够对未明确训练过的提示做出智能回应一样。此外，使用自然语言而不是编程代码，人类用户可以指挥启用GenAI的智能体系统完成复杂的工作流程。一个多智能体系统随后可以解释和组织这个工作流程，将其分解为可操作的任务，分配工作给专门的智能体，使用数字生态系统中的工具执行这些精炼的任务，并与其他智能体和人类合作，不断改进其行动的质量。

在本文中，我们探讨了GenAI智能体所带来的机会。尽管这项技术仍处于初期阶段，且在准备投入商业部署之前还需要进一步的技术开发，但它正迅速吸引关注。在过去的一年里，Google、Microsoft、OpenAI等公司已经投资了支持智能体功能的软件库和框架。由LLM驱动的应用程序，如Microsoft Copilot、Amazon Q和Google即将推出的Project Astra，正在从基于知识的功能向更注重行动的功能转变。Adept、crewAI和Imbue等公司和研究实验室也在开发基于智能体的模型和多智能体系统。鉴于GenAI的发展速度，智能体可能会像今天的聊天机器人一样普遍。

智能体能为企业带来什么价值?

智能体所能释放的价值来自其在自动化复杂用例方面的潜力，这些用例通常具有高度可变的输入和输出——这些用例在历史上由于成本或时间效率的问题而难以解决。比如，商务旅行看似简单，却可能涉及多种可能的行程，包括不同的航空公司和航班，更不用说酒店奖励计划、餐厅预订和非工作时间的活动了，而所有这些都必须在不同的在线平台上处理。尽管有努力去自动化部分流程，但由于潜在输入和输出的广泛变化，使得这一过程过于复杂、成本高昂或耗时，因此大部分工作仍需手动完成。

GenAI驱动的智能体可以通过以下三种重要方式简化复杂和开放式用例的自动化：

1. 智能体能够管理多样性。许多业务用例和流程都具有线性工作流程，具有明确的起点和一系列步骤，最终导致特定的解决方案或结果，这种相对简单性使它们易于在基于规则的系统中进行编码和自动化，但基于规则的系统往往表现出“脆弱性”，即在面对设计者未考虑到的情况时会崩溃。例如，许多工作流程远不如想象中那样可预测，往往充满了意外的转折和多种可能的结果，这些工作流程需要特殊处理和细微的判断，这使得基于规则的自动化变得具有挑战性，然而，GenAI智能体系统因为基于基础模型，具有处理给定用例中各种不太可能发生情况的潜力，能够实时适应以执行完成过程所需的特殊任务。

2. 智能体系统可以通过自然语言进行指挥。目前，要自动化一个用例，必须首先将其分解为一系列可以编码的规则和步骤，这些步骤通常被转换为计算机代码并集成到软件系统中，这一过程通常需要大量成本和劳动，并且需要显著的技术专长。由于智能体系统使用自然语言作为指令形式，即使是复杂的工作流程也可以更快速和轻松地编码。更重要的是，这一过程可能由非技术员工完成，而非软件工程师，这使得更容易整合主题专家的知识，扩大GenAI和AI工具的访问范围，并简化技术和非技术团队之间的协作。

3. 智能体可以与现有的软件工具和平台协同工作。除了分析和生成知识之外，智能体系统还可以使用工具并在更广泛的数字生态系统中进行沟通。例如，智能体可以被指示与软件应用程序(如绘图和制图工具)协同工作，搜索网络以获取信息，收集和整理人类反馈，甚至利用其他基础模型。使用数字工具是智能体的一个定义特征(这是它们在世界上行动的一种方式)，也是它们的GenAI能力得以发挥的独特途径。基础模型可以学习如何通过自然语言或其他接口与工具进行交互。如果没有基础模型，这些功能将需要大量手工努力来集成系统(例如，使用提取、转换和加载工具)或繁琐的手工努力来整理不同软件系统的输出。

GenAI驱动的智能体如何工作

智能体可以支持跨行业和业务职能的高复杂性用例，特别是涉及耗时任务或需要各种专业定性和定量分析的工作流程。智能体通过递归分解复杂的工作流程并执行跨越专门指令和数据源的子任务来实现预期目标，这个过程通常包括以下四个步骤：

1. 用户提供指令：用户通过自然语言提示与AI系统互动，就像指示一个值得信赖的员工一样。系统识别出预期的用例，并在需要时向用户询问进一步的澄清。

2. 智能体系统规划、分配并执行任务：智能体系统将提示处理为工作流程，将其分解为任务和子任务，然后由管理子智能体分配给其他专门的子智能体，这些子智能体配备了必要的领域知识和工具，利用先前的“经验”和编纂的领域专业知识，相互协调，并使用组织的数据和系统执行这些任务。

3. 智能体系统迭代改进输出：在整个过程中，智能体可能会请求用户提供额外输入，以确保准确性和相关性。最终，智能体将向用户提供最终输出，并根据用户的反馈进行迭代改进。

4. 智能体执行动作：智能体在现实世界中执行任何必要的操作，以完全完成用户请求的任务。

可能的应用场景：三个潜在的用例

这些类型的系统对企业意味着什么?以下三个假设的用例提供了一个未来不远可能实现的功能的概览。

用例1：贷款审批

金融机构准备信用风险备忘录，以评估向借款人提供信贷或贷款的风险，这个过程涉及编制、分析和审核与借款人、贷款类型和其他因素相关的各种信息。鉴于信用风险场景和分析的多样性，这往往是一个耗时且高度协作的工作，通常需要客户经理与借款人、利益相关者和信用分析师合作进行专业分析，然后提交给信用经理进行审查并提供额外的专业意见。

潜在的基于智能体的解决方案：一个智能体系统——由多个智能体组成，每个智能体承担专门的任务角色——可以被设计用于处理广泛的信用风险场景。人类用户可以使用自然语言启动流程，提供包含特定规则、标准和条件的任务的高级工作计划，然后，这个智能体团队将工作分解为可执行的子任务。

例如，一个智能体可以作为客户经理，处理借款人与金融机构之间的沟通。一个执行智能体可以编制必要的文件，并将其转发给财务分析智能体，后者会例如从现金流量表中审查债务并计算相关的财务比率，然后由批评智能体审核以识别差异和错误并提供反馈，这个分解、分析、改进和审查的过程将重复进行，直到最终的信用备忘录完成。

与更简单的GenAI架构不同，智能体可以生成高质量的内容，从而减少20%到60%的审核周期时间。智能体还能够跨越多个系统，理解从多个来源提取的数据。最后，智能体可以展示他们的工作成果：信用分析师可以快速深入任何生成的文本或数字，访问完整的任务链并使用数据源生成的洞察，这有助于快速验证输出结果。

用例2：代码文档化和现代化

大型企业的遗留软件应用程序和系统通常存在安全风险，并可能减缓业务创新的速度，但使这些系统现代化可能是复杂、昂贵且耗时的，需要工程师审查和理解数百万行旧代码库，并手动记录业务逻辑，然后将这些逻辑翻译成更新的代码库并与其他系统集成。

潜在的基于智能体的解决方案：AI智能体有潜力显著简化这一过程。可以部署一个专门的智能体作为遗留软件专家，分析旧代码并记录和翻译各种代码段。同时，质量保证智能体可以对这些文档进行审核并生成测试用例，帮助AI系统迭代优化其输出，并确保其准确性和符合组织标准。由于这一过程的可重复性，还可以产生“飞轮效应”，即智能体框架的组件可以被重复用于组织内的其他软件迁移，显著提高生产力并降低整体软件开发成本。

用例3：在线营销活动创建

设计、启动和运行在线营销活动通常涉及一系列不同的软件工具、应用程序和平台，而且，在线营销活动的工作流程非常复杂。商业目标和市场趋势必须转化为创意活动理念。书面和视觉材料必须根据不同的细分市场和地区进行定制。活动必须在各种平台上与用户群体进行测试。为了完成这些任务，营销团队通常使用不同形式的软件，并且必须将输出从一个工具移至另一个工具，这往往既繁琐又耗时。

潜在的基于智能体的解决方案：智能体可以帮助连接这个数字营销生态系统。例如，营销人员可以用自然语言描述目标用户、初步想法、预期渠道和其他参数。然后，智能体系统在营销专业人士的协助下，将帮助开发、测试和迭代不同的活动理念。一个数字营销策略智能体可以利用在线调查、客户关系管理解决方案中的分析数据以及其他市场研究平台收集的洞察，使用多模态基础模型来制定策略。内容营销、文案写作和设计的智能体可以根据策略创建定制内容，然后由人工评估者审查品牌一致性，这些智能体将协同工作，迭代和优化输出，确保活动在最大化影响力的同时，最小化品牌风险。

商业领导者应如何为智能体时代做准备?

尽管智能体技术仍处于初期阶段，但对这些工具的不断增加的投资可能会使智能体系统在未来几年内取得显著的里程碑，并实现规模化部署。因此，商业领导者现在就可以开始了解智能体技术，并考虑是否可以利用智能体系统和功能加速某些核心流程或业务需求，这种理解可以为未来的路线图规划或情景提供信息，并帮助领导者保持在创新准备的前沿。一旦确定了潜在的用例，组织就可以开始探索日益增长的智能体生态系统，利用API、工具包和库(例如，Microsoft Autogen、Hugging Face和LangChain)来开始理解哪些内容与他们相关。

为了为智能体系统的到来做好准备，企业应考虑以下三个关键因素，这将是实现这些系统潜力的关键：

相关知识的编纂：实施复杂的用例可能需要组织将业务流程定义并编纂为标准化的工作流程，然后用这些流程来训练智能体，同样，企业还可以考虑如何捕捉专业知识，并用自然语言来指导智能体，从而简化复杂的流程。

战略技术规划：企业需要整理其数据和IT系统，以确保智能体系统能够有效地与现有基础设施对接，这包括捕捉用户互动以获取持续反馈，并创造灵活性以整合未来技术，而不干扰现有运营。

人机协作的控制机制：随着GenAI智能体开始与现实世界互动，控制机制对于平衡自主性和风险至关重要。人类必须验证输出的准确性、合规性和公平性，与专业知识专家合作以维护和扩展智能体系统，并创建一个持续改进的学习反馈机制。企业应开始考虑在何种条件下以及如何部署这种人机协作机制。

麦肯锡最新的“AI现状”调查发现，超过72%的受访公司正在部署AI解决方案，并对GenAI的兴趣日益浓厚。在这种背景下，看到公司开始将前沿技术如智能体系统纳入其规划过程和未来AI路线图也就不足为奇了。智能体驱动的自动化仍然是一种令人兴奋的前景，具有彻底改变整个行业的潜力，为工作带来前所未有的行动速度。

尽管如此，该技术仍处于早期阶段，在实现其全部能力之前还有很多发展工作要做，这些系统的复杂性和自主性增加带来了许多挑战和风险，而如果将AI智能体的部署比作为团队添加新成员，那么就像他们的人类团队成员一样，智能体在能够独立操作之前，需要经过大量的测试、培训和指导，但即便在这些最初的日子里，人们也不难想象这一代虚拟同事可能释放的广阔机会。