AI大模型时代，Agent智能体开发的三重境界原创

发布于 2024-5-22 10:20

浏览

0收藏

一、第一重境界：当作能理解语义的API使用

Agent 智能体第一重境界，可以把大型语言模型看成一个特别的 API，它能读懂人类语言。就像我们平时调用其他 API 那样，我们向智能体提问，它就能给出经过自己思考的答案。

这个阶段的智能体，通常是把这种读心术般的语言理解力融入到标准的软件流程中，给软件添加智慧升级。它的作用主要围绕着理解并处理文字，比如：生成文本、做内容概括等，这些都离不开它强大的语言理解能力。工作起来，就跟程序员在开发软件时调用各种工具的 API 差不多。下面是个常见的应用实例：

1、每日新闻精粹

一个鲜明的应用案例体现在自动化新闻摘要上。Agent 能够消化海量的新闻资讯，并借助其卓越的自然语言解析技术，提取核心要点，编制成一份紧凑的每日新闻概要。

此发展阶段，Agent 开发的核心议题聚焦于提升自然语言的解析与处理能力。对于 AI 领域的开发者而言，掌握自然语言处理的基础理论已颇为关键。而在实际的 AI 工程项目实施中，很大程度上侧重于调整和优化指令提示，以充分利用现有的高级 AI 模型来达成这一需求。

二、第二重境界：当作自然语言编程工具使用

进入第二重境界后，Agent 实现了从单纯的语言理解接口到自然语言编程利器的跨越。这标志着开发者能够运用自然语言指令，引导 Agent 执行更为复杂多维的任务序列。

在此进化阶段的智能体，其应用场景远远超越了文本解析的范畴。借助精心设计的提示策略、Function Calling 函数调用机制，大型语言模型得以遵照具体的指示，输出结构化的信息，从而在很多层面上介入并优化了传统的软件作业流程，实现了通过LLM 技术进行自然语言编程的实践。以下为该模式的几个典例应用场景：

1、代码解释器

比如：用 Python 画个爱心。

代码解释器 Agent 借助大语言模型进行 Planning 推理生成对应的 Python 代码。

AI大模型时代，Agent智能体开发的三重境界 -AI.x社区

然后借助 iPython 解释器工具和运行资源和运行环境等3个工具完成 Action 执行结果。

AI大模型时代，Agent智能体开发的三重境界 -AI.x社区

三、第三重境界：当作真正的智能使用

当 Agent 开发迈入第三重境界时，它摇身一变，成为了名副其实的智能伙伴，远不止是简单的 API 或工具那样被动。这时的 Agent，具备了自我决策与解决问题的能力，成为了主动参与工作的智囊团成员。

在这个层次的智能体构建，近乎于大家构想中的 AI 原生应用程序开发，它彻底颠覆了传统软件开发的逻辑框架。大语言模型（LLM）在此真正作为智慧体被激活并融入应用。

开发这样的应用，你得像设计一个人类团队的任务分配那样去构思：

角色定位（用提示词Role来界定每个Agent的职责）
技能配置（为这些角色绑定必要的工具与技能集）
交互机制（设定状态 state 来管理各 Agent 间的信息交流）
流程规划（安排 workflow 确保各项任务在 Agent 间顺畅传递）

此刻，LLM 不再是孤立的 API 调用，而是与具体角色、技能绑定，并且需要多个 Agent 协同作战，模拟了人类团队的运作模式。以下是一些体现这一理念的典型应用场景实例：

1、Planning-Action-Observation（Plan-and-Execute）

Planning-Action-Observation 是一种任务解决方法论，核心围绕着规划、执行、观测三大关键环节展开，要求 Agent 基于既定目标，自主启动策划流程并后续执行这些策略。这意味着 Agent 必须掌握解析目标、策略构思及任务实施的综合技能。

AI大模型时代，Agent智能体开发的三重境界 -AI.x社区

拿“规划一次从北京至上海的旅程”为例，这一过程在大语言模型的引导下，会细分为几个精心规划的步骤：分析并决定出发日期，评估并挑选最合适的交通工具，预览并预订住宿及活动项目——此为“规划”阶段。随后的“执行”阶段，则是对上述计划的实体化，具体到制定详尽的日程安排，以及无缝完成所有必要的预约操作，确保旅程的每一环都妥善安排。

AI大模型时代，Agent智能体开发的三重境界 -AI.x社区