OpenAI的Deep Research一经发布便引发了全网的热议。
作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。
在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。
然而,目前Deep Research仅向Pro用户开放,每月200美元的订阅费用让人望而却步。
CEO奥特曼表示,Deep Research已展现出完成具有实际经济价值任务的能力,这标志着AI发展的一个重要里程碑
为推动这项技术的普及,来自香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research,并一举在General AI Assistant benchmark GAIA评测中夺得第三,是开源方案中的最优解。
值得注意的是,Auto-Deep-Research仅基于Claude-3.5-Sonnet构建,在成本效益上具有显著优势。
此外,系统还支持DeepSeek、Hugging Face等主流模型,为用户提供了更多选择。
技术驱动全自动框架AutoAgent:https://github.com/HKUDS/AutoAgent
Auto-Deep-Research:https://github.com/HKUDS/Auto-Deep-Research
论文地址:https://arxiv.org/abs/2502.05957
目前,团队还在开发更多前沿功能,包括Claude的Model Context Protocol(MCP)和GUI Agent等。
实际案例演示
让我们通过一个具体案例,深入了解Auto-Deep-Research的实际应用能力。
以下是AutoAgent团队展示的一个金融分析案例,展现了系统如何处理复杂的多步骤分析任务。
Task:Please analyze the Apple and Microsoft 10-K forms that I uploaded, search online for current news about these two companies, and then help me conduct a quantitative analysis based on the information you find, create visualizations, and generate a detailed report.
这个任务展示了Auto-Deep-Research处理复杂分析场景的强大能力。
系统需要深入解析两份总计超过200页的PDF文档,同时进行网络信息搜索、数据分析与可视化,最终生成全面的分析报告。
演示视频通过三个并行窗口直观展示了整个工作流程:左侧是Auto-Deep-Research的终端交互界面,右上显示Agent 的文件工作目录,右下则是Agent 操控的浏览器窗口。
在用户上传文件并明确需求后,系统便全自动运行,依次完成文件解析、网络搜索、代码编写与调试等任务。
整个过程无需人工干预,仅用约10分钟就生成了一份专业的分析报告和配套的数据可视化成果,充分体现了系统的自动化处理能力。
Agent生成的和图像如下所示:(报告见文末)
最强开源Deep Research
Auto-Deep-Research采用模块化的多Agent架构设计,由三个专业子Agent和一个核心调度器(Orchestrator Agent)组成:
- Web Agent专注于互联网信息的无障碍访问和深度搜索
- Coding Agent负责编程实现和调试,具备严密的逻辑分析能力
- Local File Agent致力于多格式文件的解析和内容理解
网络搜索神器Web Agent
网络搜索组件Web Agent是Auto-Deep-Research的核心模块之一,它整合了一套完整的网络工具集,能够高效执行从基础搜索到文件下载的各类网络任务。
Web Agent将日常网页浏览行为抽象为10个高级工具,包括点击(click)、网页搜索(web_search)、访问网址(visit_url)等核心功能。这些工具覆盖了网页搜索、页面导航、内容浏览和文件下载等常见操作场景。
在技术架构上,Web Agent基于BrowserGym框架开发,通过将底层浏览器操作封装为高级工具集,不仅提升了操作灵活性,也为功能扩展提供了良好基础。这种模块化设计确保了Web Agent能够从容应对各类网络任务需求。
编程专家助手Coding Agent
编程专家组件Coding Agent是一个全能型编程助手,它能够熟练处理数据分析、机器学习到系统管理等各类编程任务,无论是复杂计算还是自动化操作,都能高效完成。
为实现智能编程,Coding Agent配备了11个专业工具,涵盖代码脚本创建、Python代码执行、特定命令实现以及目录管理等核心功能。这套完整的工具体系使其能够从容应对各类编程需求。
在系统架构上,Coding Agent采用Docker沙箱环境确保代码执行安全,并支持与E2B等第三方沙箱系统无缝集成。同时,其交互式终端环境设计让代码执行过程和结果一目了然,大大提升了操作体验。
文件分析大师Local File Agent
文件处理专家Local File Agent是一个全能型文件管理专家,它能够统一处理和分析各类本地文件,让复杂的文件处理工作变得简单高效。
Local File Agent最突出的优势在于其强大的文件兼容性。它可以处理几乎所有常见格式,包括文档类(doc、pdf、txt、ppt)、多媒体类(mp4、mov、wav、mp3)以及数据类(csv、xlsx)等多模态文件。通过将不同格式统一转换为Markdown,实现了高效的文件分析和处理。
在用户体验方面,Local File Agent采用交互式Markdown浏览器环境,即使面对超长文本或复杂文件,也能通过分页显示实现清晰呈现,使文件处理过程更加流畅直观。
高效调配,性能领先
Auto-Deep-Research采用精简而高效的架构设计,仅需一个核心调度器——Orchestrator Agent便可驱动整个系统高效运转。
其工作流程清晰明确:Orchestrator Agent接收任务后,将其分解为多个子任务并分派给专业Agent。各Agent完成子任务后,结果返回给调度器进行评估,随后动态调整并分配新的子任务,循环往复直至完成整体目标。
这种优雅而强大的设计在GAIA benchmark评测中取得了骄人成绩:总排名第三,开源方案中位列第一,仅次于OpenAI等闭源系统。
值得一提的是,这是前三名中唯一采用Claude-3.5-Donnet的方案,无需依赖更昂贵的o1系列深度思考模型,从而也使其成为了前三方案中最具性价比的选择。
更令人欣喜的是,这个框架具备强大的扩展性,不仅支持接入Deepseek-R1模型,还可部署本地开源模型。
这意味着,人人都可以搭建属于自己的Deep Research系统,让智能研究助手不再是可望而不可即的梦想。
AutoAgent框架
值得一提的是,团队还发布了一个的不需要coding的智能体开发框架——AutoAgent。
下图展示了AutoAgent的全自动、语言驱动的通用智能体系统。其核心组件包括智能体系统实用程序、由LLM驱动的可操作引擎、自管理文件系统和自博弈智能体定制模块。
这是一个轻量级存靠语言驱动的Agent构建平台,让用户只需通过自然语言描述就能轻松创建专属AI助手,完全无需编程基础。
前文介绍的Auto-Deep-Research正是基于AutoAgent开发的一个典型应用。
作为一个全方位的Agent开发生态系统,AutoAgent不仅提供了Auto-Deep-Research这样的即用解决方案,还包含更多强大组件:
系统的智慧核心:智能决策引擎LLM Engine
LLM Engine作为系统的中枢大脑,承担着理解用户需求、制定执行策略和协调多Agent协作的重要职责。这个强大的决策引擎让人类用户与AI助手之间的互动达到前所未有的流畅度。
在架构设计上,团队选用LiteLLM作为标准化接口,实现了与超过100种主流语言模型的无缝对接。这种设计就像一个通用翻译器,确保系统能够与各类AI模型顺畅交互。同时,LLM Engine采用连续记忆机制,将历史行动和观察结果作为决策依据,不断优化判断能力。
在技术实现层面,团队创新性地设计了双模式工具调用机制:
1. 面向原生支持工具调用的商业模型的「直接调用模式」;
2. 通过将工具调用转换为结构化XML代码生成任务的「转换调用模式」,让更多开源模型也能融入系统生态。
这种灵活的设计既保障了系统效能,又为用户提供了更广泛的模型选择空间。
知识检索的智慧管家:智能文件管理系统Vector DB
Vector DB是一个先进的向量数据库系统,为AI助手提供强大的文件理解和检索能力。它就像一位智能管家,能够自动化处理和组织用户提供的各类文件资源,实现知识的高效管理。
在技术架构上,系统配备了完整的智能工具链。当用户上传PDF、Word、文本文件,甚至是压缩包或文件夹时,系统会自动进行格式统一化处理,并通过save_raw_docs_to_vector_db工具将内容存储到指定的数据库集合中,确保数据的规范化管理。
在实际应用场景中,AI助手可以利用query_db和answer_query等专业工具,实现对存储内容的精准检索和智能问答。这种设计让AI助手拥有了自主管理专属知识库的能力,大大提升了信息获取和处理效率。相当于为AI配备了一个智能知识助理,随时待命调用所需信息。
打造专属AI助手的平台:智能定制系统Self-Play Agent
智能定制系统是一个创新型自编程框架,让用户能够轻松构建场景化的AI助手和多Agent系统。它就像一位经验丰富的系统架构师,能够将用户的构想精准转化为实际应用,而整个过程简单直观。
系统提供两种灵活的定制模式:简洁高效的「直接创建模式」和深度定制的「工作流创建模式」。
在直接创建模式中,即使是技术小白也能轻松打造专业级多Agent系统。例如,当用户需要一个投资组合管理助手时,只需提供基本需求描述,系统就能自动完成创建。这个过程分为三个核心步骤:需求分析与资源评估、Agent架构规划、XML规范文件生成。
为增强系统能力,团队开发了智能工具编辑器,实现与LangChain、RapidAPI和Hugging Face等主流平台的无缝集成。目前已支持8大类共145个API接口和9类模型库。编辑器不仅能自动生成工具代码,还会进行严格的测试验证,确保工具可靠运行。
在多Agent协作场景中,系统会自动部署智能调度员(Orchestrator Agent)统筹各专业Agent的工作,如同一位富有经验的项目经理,确保团队协作的流畅性。
工作流创建模式则为专业用户提供了更深度的定制能力。通过创新的事件驱动机制,实现了Agent间更灵活的协作模式。整个工作流由工作流表单Agent(负责需求分析和逻辑设计)和工作流编辑Agent(负责实现和执行)协同完成,既保证了强大功能,又兼具极高灵活性。
One More Thing
前文提到的报告如下: