
从 Manus 到 DeepSearcher,2025年最值得关注的十大 Agent 智能体架构设计 原创 精华
2025年无疑是 Agent 智能体的元年。
这一判断从 Deep Research 带来搜索新范式,到 Manus 一夜爆火,再到 MCP 成为新的接口标准,已经被多次证实。
与普通 AI 工具相比,Agent 具有以下优势:
- 更强的推理能力:基于多种推理模型,Agent 不仅执行指令,还会深入思考问题。
- 丰富的工具运用能力:Agent 能够帮助用户连接 API 或控制硬件设备。
- 更强的信息检索能力:通过与 LLM、向量数据库以及 Embedding 模型等工具集成,Agent 能够轻松处理海量数据集。
- 更完整的环境感知能力:Agent 能够更充分地理解对话语境或物理世界中的情境。
Agent 的成熟,标志着 AI 从简单给出答案到交付完整任务结果的进化。那么,2025 年有哪些值得关注的 Agent 呢?
在这篇文章中,我们将详细介绍2025年值得关注的10个 Agent 智能体。
1、Deep Research 与 DeepSearcher:专业级报告生成
不久前,OpenAI 推出了深度内容生成工具“DeepResearch”,用户只需提出类似“特斯拉的合理市值是多少”这样的问题,DeepResearch 就能生成一份涵盖企业财务、业务增长分析以及市值推演的专业报告。这无疑为搜索 AGI 的发展方向指明了道路。
在这样的背景下,如何基于“DeepResearch”理念进行定制化改造,成为了一个热门话题。而 Zilliz 在这一领域也取得了显著进展,推出了 DeepSearcher 开源项目,仅一个月时间,该项目在 GitHub 上的 Star 数量就接近 5000。
DeepSearcher 基于 DeepResearch 的大模型、超级搜索和研究助理的三合一架构,通过 Milvus 向量数据库引入本地数据,并支持用户自由更换底层模型(如 DeepSeek-R1),为用户带来了更符合企业级场景的全新 RAG 范式。
从架构上看,DeepSearcher 主要分为两大模块:
- 数据接入模块:通过 Milvus 向量数据库接入各种第三方私有知识。这是 DeepSearcher 相比 OpenAI 原版 DeepResearch 的一大重大升级,使其更适合拥有独家数据的企业级场景。
- 在线推理查询模块:包括各种 Agent 策略和 RAG 的实现部分,负责为用户提供准确且有深度的回答。该模块引入了动态循环迭代机制:每次完成向量数据库中的数据查询后,系统会启动一个反馈(Reflection)流程。在每轮迭代结束时,Agent 会对查询到的知识进行评估,判断其是否足以解答初始问题。如果存在知识缺口,则触发下一轮迭代查询;如果知识足够,则生成最终报告。
2、Manus:一夜爆火的全能 Agent
Manus 是由创业公司 Monica 推出的一款 AI Agent,它被定位为全球首款通用 AI Agent。今年3月初一经发布,便立刻引发了全网的热议。根据官方展示的案例,Manus 能够自主完成包括简历筛选、房产研究、股票分析等多种类型的复杂任务。它具备自主思考、规划和执行复杂任务的能力,并且能够直接交付完整的成果。
官方披露的数据表明,Manus 在 GAIA 基准测试中取得了 SOTA(State-of-the-Art)的成绩,超越了 OpenAI 等同层次的大模型。
Manus 的架构设计可以表示为:Manus = LLM + Tools + Memory + Computer Use +Artifacts + 虚拟机
Manus 最核心的是 Computer User 技术,这个技术的架构设计如下所示:
3、Google Astra:重新定义日常生活中的 AI 助手
Google Astra 是由 DeepMind 开发的一款 AI Agent,旨在通过多模态功能无缝融入日常生活。该 Agent 由 Gemini 2.0 驱动,能够处理并响应多种输入信息,包括文本、图像、视频和音频。
Astra 的主要特点包括:
- 实时记忆功能,能够理解上下文;
- 先进的工具使用能力,例如谷歌搜索、谷歌地图和谷歌智能镜头;
- 协助完成诸如识别物体或提供推荐等任务。
例如,用户可以将手机对准书架,让 Astra 识别评分最高的书籍,从而将数字世界和物理世界相连接。未来,谷歌计划将其部分功能集成到旗下其他产品中,Astra 有望在 2025 年重新定义个人 AI 助手。
4、微软的 Copilot:简化工作流程并提高生产力
微软的 Copilot 是一款集成在诸多微软办公平台(例如 Office 365 和 Dynamics 365)中的 AI Agent,其目标是简化日常任务与工作流程。以 Word 为例,Copilot 能够协助用户撰写报告或优化已有文本;在 Excel 中,它可根据自然语言指令生成公式并创建可视化图表;在 Teams 里,Copilot 可以总结会议要点、突出关键信息并提出后续行动建议,从而提升协作效率。
对于开发者来说,Copilot 的功能远不止于终端用户的任务。它还提供与 Azure 的集成,助力实现工作流程自动化和业务流程管理。通过将 AI 融入人们日常使用的工具,微软的 Copilot 让重复性工作变得简单,使团队能够将精力集中在更具挑战性和创造性的任务上。
Copilot 的架构设计如下图所示:
5、ChatGPT Plugins 与 Operator:将 GPT 的能力拓展到现实世界任务中
ChatGPT 插件为 OpenAI 的 GPT 模型赋予了强大的交互能力,使其能够与外部系统进行沟通,从而执行一系列现实世界中的任务,而不仅仅局限于文本生成。通过与 Expedia、Wolfram Alpha 和 Zapier 等第三方服务的集成,这些插件让 ChatGPT 能够获取实时数据并实现工作流程的自动化,使其更接近于成为个人和企业的动态 AI 助手。例如,用户可以利用 ChatGPT 来预订航班或计算复杂的方程式。
尽管 ChatGPT 插件并非完全自主的 Agent,但它们通过动态响应提示并利用外部工具来完成任务,实现了类似 Agent 的行为。对于开发者而言,这意味着可以以更低的成本构建自己的工作流程。
除了 ChatGPT 插件,OpenAI 还发布了首款 AI 智能体工具 Operator(意为操作员)。Operator 能够代理用户执行基于网页的操作,简单来说,它能够像人类一样使用网页浏览器。
6、AutoGPT:自主任务执行领域的先驱
AutoGPT 是一个实验性的开源项目,它将 GPT 模型转化为能够在极少人工干预的情况下执行复杂、多步骤任务的自主 Agent。借助 GPT-4 的强大能力,AutoGPT 能够将复杂目标拆解为更小的、可执行的任务,依次执行这些任务,并根据结果进行迭代,以达成预期目标。这使得 AutoGPT 成为最早被开发者广泛采用的自主 AI Agent 示例之一。
尽管仍处于早期阶段,AutoGPT 通过展示自主 Agent 的潜力,激发了 AI 社区的想象力。开发者们可以借鉴它的思路,构建复杂的应用程序,例如研究助手、自动化工作流程管理器等。AutoGPT 突显了 AI Agent 不断增长的趋势:它们不仅提供答案,还能采取行动,为未来更复杂的自主系统铺平了道路。
AutoGPT 的架构设计主要围绕以下几个核心功能展开:
https://hub.baai.ac.cn/view/27039
- 任务分解
AutoGPT 能够将复杂的目标分解为更小的、可执行的任务,依次执行这些任务,并根据结果进行迭代,以达成预期目标。
- 自主决策
AutoGPT 利用 GPT-4 的强大能力,能够自主决策并执行任务,无需过多人工干预。
- 多步骤任务执行
AutoGPT 支持多步骤任务的执行,能够根据任务的复杂性动态调整执行路径。
- 迭代优化
AutoGPT 根据任务执行的结果进行迭代优化,逐步改进任务执行的效率和准确性。
7、BabyAGI:用于可扩展解决方案的轻量级任务自动化工具
BabyAGI 是一款轻量级的开源自主 Agent,专注于以迭代和智能的方式执行任务,由 GPT-4 驱动。它在任务管理和执行方面表现出色,是面向任务的 AI 解决方案中的佼佼者。其模块化设计允许开发者根据需求自定义工作流程,与各种数据库集成,并构建特定的解决方案。
与仅响应孤立查询的普通大语言模型不同,BabyAGI 能够根据总体目标创建任务队列,对任务进行优先级排序,并逐步完成它们。例如,面对“研究一个主题并总结研究结果”这样的复杂指令时,BabyAGI 会自主地将其分解为子任务,如收集资源、分析内容和起草连贯的总结。
BabyAGI 的独特之处在于其轻量级和可扩展的设计。它在不需要大量资源的情况下,就能提供核心 AI 功能,为预算有限的企业提供了一个易于使用的工具。此外,其自适应学习系统会随着用户需求的变化而发展,确保随着时间的推移提供越来越个性化和高效的帮助。最近的更新还引入了增强的协作功能,使 BabyAGI 成为小型团队处理共享项目的优秀工具。
8、甲骨文 Miracle Agent:面向企业数据驱动决策 AI 工具
Oracle 的 Miracle Agent 是一套由 50 多个专门的 AI Agent 组成的工具集,专为企业环境设计,专注于数据库管理。通过深度集成到 Oracle 的云生态系统中,Miracle Agent 实现了数据处理和可视化的自动化,使公司能够在极少人工干预的情况下获得洞察。
例如,Shift Scheduling 助手可以帮助创建和管理员工的轮班时间表,同时考虑个人偏好和合规规定。Employee Hiring Advisor 可以协助寻找候选人并简化招聘流程,缩短招聘时间。在供应链管理方面,Customer Sales Representative Guide 可以提供个性化的洞察,以增强客户互动。
9、MultiOn Agent API:为开发者简化网页自动化
MultiOn Agent API 是为开发者构建的专业级集成平台,支持将 AI Agent 无缝部署至多样化应用场景与终端设备。该平台通过先进的网页自动化能力,显著提升任务执行效率并优化终端用户体验。自2024年4月公测发布以来,开发者已可利用其构建具备复杂网页操作能力的AI代理,包括但不限于:
- 动态网站导航与交互
- 多源数据智能提取
- 全流程在线交易自动化
平台提供 Python/JavaScript 双语言 SDK ,并与主流大语言模型框架(如LangChain、LlamaIndex)实现深度兼容。这种开箱即用的集成特性使开发者能够快速构建高阶应用,包括:
- 自适应网页浏览器
- 智能数据采集系统
- 网页内容管理自动化解决方案
图片
10、亚马逊 Bedrock Agents:企业工作流程智能自动化工具
AWS Bedrock Agents 是亚马逊云科技推出的创新AI代理服务,旨在将AWS强大的基础模型与企业工具及数据无缝集成,为开发者提供构建智能应用的完整解决方案。
第一、灵活多变的 AI Agent 能力
Bedrock Agents 以其卓越的灵活性著称,适用于多种 AI 驱动场景:
智能客服:打造自然交互的客户支持聊天机器人
流程自动化:优化后端业务流程,提升运营效率
个性化推荐:构建精准的推荐系统,增强用户体验
此外,Bedrock Agents 内置丰富的 AP I支持,可轻松与企业现有技术栈集成。基于 Serverless 架构,该服务天然具备弹性扩展能力,无需额外管理基础设施。
第二、向量数据库:AI Agent 的智能记忆核心
现代 AI Agent(如AutoGPT、Google Astra等)不仅能够处理数据,更能像人类一样进行推理与决策。而实现这一能力的关键在于长期记忆系统——这正是向量数据库的核心价值所在。
第三、为什么向量数据库至关重要?
采用高维向量存储技术,精准捕捉文本、图像、音频等非结构化数据的语义信息
支持高效的相似性搜索与上下文检索,使 Agent 能够快速调用历史知识
行业领先解决方案(如Milvus、Zilliz Cloud)为AI Agent提供高速、可扩展的记忆管理
第四、实际应用示例
当 Agent 遇到新问题时,可实时查询向量数据库,检索过往相似案例或相关知识,从而做出更精准的决策。缺乏这种记忆能力的 Agent,将难以实现持续学习和复杂推理,极大限制其智能化水平。
Bedrock Agents 结合向量数据库技术,为企业提供了构建下一代 AI 应用的强大基石。
本文中介绍的这些 AI Agent 仅仅是 2025 年代表性产品中的一小部分,其他有前景的 Agent,如 Anthropic Claude Agents、Hugging Face Transformers Agents 以及 Llamaindex 的 Llama Agents,同样值得关注。
如果这些 Agent 都不能满足您的需求,我们可以利用向量数据库、大语言模型轻松构建自己的 AI Agent。
本文转载自公众号玄姐聊AGI 作者:玄姐
