“Android、iOS 和 Windows 都是平台,AI Agent 将成为下一个平台”,比尔·盖茨在他的博客文章中这样说到。
那让比尔·盖茨都为之倾倒的 AI Agent,究竟是什么呢?
随着 AI 技术的日益普及,未来五年内我们将不再使用不同的应用程序来完成不同的任务,相反只需用日常用语告诉你的手机或电脑想要做什么,它们就能够处理你的请求。在不远的将来,任何上网的人都将能够拥有一个由人工智能驱动的个人助理,也就是所谓的“AI Agent”。
1、AI Agent 的概念
AI Agent 是一种应用了大模型(LLM)能力的 Agent,也被称为智能体。它由 LLM、 Planning(规划)、 Memory(记忆)和 Tools(工具)等几部分组成。其中,LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。
与大型语言模型(LLM)在像 ChatGPT 这样的工具中“通常”的使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,而无需人类驱动每一部分的交互。
AI Agent 具有自主决策和行动能力,可以理解并适应复杂环境,根据目标,自主思考、制定计划并执行相应任务。相较于 Copilot 的工具型辅助能力,Agent 更注重对环境的实时感知和判断,更像人类一样形成独立的决策和行动方案。
图片
IDC 调研显示,Agent 被普遍认为是 AI 应用发展的趋势性方向,50%的企业已经在某项工作中进行了 AI Agent 的试点,另有 34%的企业正在制定 AI Agent 的应用计划,主要应用于智能终端、智能座舱、汽车自动驾驶、工业机器人和人形机器人等领域。
2、AI Agent 的潜力与优势
比尔·盖茨认为 AI Agent 将成为下一个平台,未来五年内人们将通过日常用语与 AI Agent 交流,完成各种任务。Meta 创始人扎克伯格也曾表示,看到了“以有用、且有意义的方式,向数十亿人介绍 AI Agents 的机会”。
AI Agent 是一种人工智能技术,它具有巨大的潜力和优势,可以帮助人们解决各种问题和任务。以下是 AI Agent 的一些主要优势和潜在应用:
- 自动化
AI Agent 可以自动执行各种任务,从而节省时间和提高效率。它可以处理重复性的任务,如数据输入、客户服务和订单处理等,从而释放人力资源,使人们能够专注于更有价值的工作。
- 智能决策
AI Agent 可以使用数据和算法来做出更明智的决策。它可以分析市场趋势、客户行为和竞争对手,从而帮助企业制定更有效的战略和决策。
- 个性化服务
AI Agent 可以根据客户的偏好和行为来提供个性化的服务。它可以通过分析客户数据来了解客户的需求和喜好,从而提供更符合客户需求的产品和服务。
- 高用户满意度
AI Agent 可以提供 24/7 的客户服务,从而提高客户满意度。它可以快速响应客户的问题和请求,并提供准确的信息和解决方案。
- 创新
AI Agent 可以帮助企业探索新的业务模式和创新解决方案。它可以分析市场趋势和技术发展,从而帮助企业发现新的机会和创新点。
3、AI Agent 的基本框架
OpenAI 将 AI Agent 定义为:以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。
AI Agent 基本框架如下图:
它包括以下几个核心模块:
- 记忆(Memory)
记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。
例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。
它分为短期记忆和长期记忆:
a. 短期记忆,所有的上下文学习都是利用短期记忆来学习;
b. 长期记忆,这为智能体提供了长时间保留和回忆。
- 规划(Planning)
规划模块具有事前规划和事后反思两个阶段。
a. 在事前规划阶段,这里涉及对未来行动的预测和决策制定,如执行复杂任务时,智能体将大目标分解为更小的、可管理的子目标,从而能够高效地规划一系列步骤或行动,以达到预期结果。
b. 在事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力,反思错误不足并吸取经验教训进行完善,形成和加入长期记忆,帮助智能体之后规避错误、更新其对世界的认知。
- 使用工具(Tool use)
工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等,以此来补足 LLM 自身弱项。
例如 LLM 的训练数据不是实时更新的,这时可以使用工具访问互联网来获取最新信息,或者使用特定软件来分析大量数据。
现在市场上已经存在大量数字化、智能化的工具,智能体使用工具比人类更为顺手和高效,通过调用不同的 API 或工具,完成复杂任务和输出高质量结果,这种使用工具的方式也代表了智能体的一个重要特点和优势。
- 行动(Action)
行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。
除了以上四个核心模块之外,一个 AI Agent 的良好运行离不开LLM、提示词(Prompt)以及知识库(Knowledge)。
- LLM
AI Agent 的核心计算引擎是一个大语言模型。LLM 在海量数据集上进行训练,以理解文本数据并从中推理。
- 提示词(Prompt)
提示词是向大语言模型(LLM)提供关于 Agent 的目标、行为与计划的信息阐述。建议从角色、技能、插件、知识库等层面,分层次进行描述,这样能让提示词(Prompt)更完善。
它分为通用提示词和特定提示词:
a. 通用提示词(General prompt):对 Agent 的角色与行为予以说明。
b. 特定提示词(Specific prompt):将特定任务的目标传达给 Agent。
- 知识库(Knowledge)
没有该领域的知识,代理就无法解决甚至理解任务。因此,要么必须对 LLM 进行微调以获得知识,要么我们可以创建一个工具来从数据库中提取知识。
总的来说,以上各个模块相互配合使 Agent 能够在更广泛的情境中采取行动和作出决策,以更智能、更高效的方式执行复杂任务。
4、应用示例
示例 Agent 使用 Langchain 框架创建,“wikipedia”工具用于从互联网中提取知识,“llm-math”用于数值计算。
# Large language model
llm = AzureChatOpenAI()
# Tool integration
tools = load_tools(['wikipedia', 'llm-math'], llm=llm)
# Initialization of the agent
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
verbose=True, handle_parsing_errors=True)
# Run the agent with a prompt
result = agent.run('What is the average age of a dog? Multiply the age by 3')
执行及结果:
图片
5、一些常见的 AI Agent 构建平台
AI Agent 是一种能够自主执行任务并与环境进行交互的智能体。以下是一些常见的 AI Agent 构建平台:
- Coze
是一个新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot。它集成了丰富的插件工具,可以极大地拓展 Bot 的能力边界。
- Microsoft 的 Copilot Studio
这个平台的主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。
- 文心智能体
是百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。
- 钉钉 AI 超级助理
依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能。这使得它在处理高频工作场景如销售、客服、行程安排等方面表现更加出色。
- 以及阿里通义、智谱清言、豆包等等
Finally,最后
总的来说,AI Agent 是一种非常有前途的技术,它可以帮助企业提高效率、降低成本、提高客户满意度和实现创新。
然而,要真正扩展 AI Agent 的开发和管理,灵活、直观的无代码到低代码解决方案将是变革性的。