AI大模型时代,Agent智能体开发的三重境界 原创
一、第一重境界:当作能理解语义的API使用
Agent 智能体第一重境界,可以把大型语言模型看成一个特别的 API,它能读懂人类语言。就像我们平时调用其他 API 那样,我们向智能体提问,它就能给出经过自己思考的答案。
这个阶段的智能体,通常是把这种读心术般的语言理解力融入到标准的软件流程中,给软件添加智慧升级。它的作用主要围绕着理解并处理文字,比如:生成文本、做内容概括等,这些都离不开它强大的语言理解能力。工作起来,就跟程序员在开发软件时调用各种工具的 API 差不多。下面是个常见的应用实例:
1、每日新闻精粹
一个鲜明的应用案例体现在自动化新闻摘要上。Agent 能够消化海量的新闻资讯,并借助其卓越的自然语言解析技术,提取核心要点,编制成一份紧凑的每日新闻概要。
此发展阶段,Agent 开发的核心议题聚焦于提升自然语言的解析与处理能力。对于 AI 领域的开发者而言,掌握自然语言处理的基础理论已颇为关键。而在实际的 AI 工程项目实施中,很大程度上侧重于调整和优化指令提示,以充分利用现有的高级 AI 模型来达成这一需求。
二、第二重境界:当作自然语言编程工具使用
进入第二重境界后,Agent 实现了从单纯的语言理解接口到自然语言编程利器的跨越。这标志着开发者能够运用自然语言指令,引导 Agent 执行更为复杂多维的任务序列。
在此进化阶段的智能体,其应用场景远远超越了文本解析的范畴。借助精心设计的提示策略、Function Calling 函数调用机制,大型语言模型得以遵照具体的指示,输出结构化的信息,从而在很多层面上介入并优化了传统的软件作业流程,实现了通过LLM 技术进行自然语言编程的实践。以下为该模式的几个典例应用场景:
1、代码解释器
比如:用 Python 画个爱心。
代码解释器 Agent 借助大语言模型进行 Planning 推理生成对应的 Python 代码。
然后借助 iPython 解释器工具和运行资源和运行环境等3个工具完成 Action 执行结果。
三、第三重境界:当作真正的智能使用
当 Agent 开发迈入第三重境界时,它摇身一变,成为了名副其实的智能伙伴,远不止是简单的 API 或工具那样被动。这时的 Agent,具备了自我决策与解决问题的能力,成为了主动参与工作的智囊团成员。
在这个层次的智能体构建,近乎于大家构想中的 AI 原生应用程序开发,它彻底颠覆了传统软件开发的逻辑框架。大语言模型(LLM)在此真正作为智慧体被激活并融入应用。
开发这样的应用,你得像设计一个人类团队的任务分配那样去构思:
- 角色定位(用提示词Role来界定每个Agent的职责)
- 技能配置(为这些角色绑定必要的工具与技能集)
- 交互机制(设定状态 state 来管理各 Agent 间的信息交流)
- 流程规划(安排 workflow 确保各项任务在 Agent 间顺畅传递)
此刻,LLM 不再是孤立的 API 调用,而是与具体角色、技能绑定,并且需要多个 Agent 协同作战,模拟了人类团队的运作模式。以下是一些体现这一理念的典型应用场景实例:
1、Planning-Action-Observation(Plan-and-Execute)
Planning-Action-Observation 是一种任务解决方法论,核心围绕着规划、执行、观测三大关键环节展开,要求 Agent 基于既定目标,自主启动策划流程并后续执行这些策略。这意味着 Agent 必须掌握解析目标、策略构思及任务实施的综合技能。
拿“规划一次从北京至上海的旅程”为例,这一过程在大语言模型的引导下,会细分为几个精心规划的步骤:分析并决定出发日期,评估并挑选最合适的交通工具,预览并预订住宿及活动项目——此为“规划”阶段。随后的“执行”阶段,则是对上述计划的实体化,具体到制定详尽的日程安排,以及无缝完成所有必要的预约操作,确保旅程的每一环都妥善安排。
总之,Agent 开发的三重境界标志着其技术从基本应用迈向深度整合的逐步演变。技术的持续飞跃激励我们预见,Agent 在即将来临的软件开发领域必将占据举足轻重的位置。因此,对程序员来说,深入理解和熟练驾驭 Agent 开发的这一系列演化步骤,将成为他们紧跟未来科技浪潮,提升自身竞争力的关键所在。
本文转载自公众号玄姐聊AGI 作者:玄姐
原文链接:https://mp.weixin.qq.com/s/WZdMLgxpHyNj08KOIjkLEA