Deep Research深度研究AI代理:谁是最强研究助手? 原创 精华

发布于 2025-3-18 09:56
浏览
0收藏

01、概述

在当今这个信息爆炸的时代,研究和分析工作变得越来越复杂,也越来越耗时。不过,最近几个月,一种名为“深度研究”(Deep Research)的AI代理技术悄然兴起,它们能够自动完成从信息收集到报告生成的全过程,极大地节省了人类的时间和精力。今天,就让我们一起走进这些智能代理的世界,看看它们是如何改变我们的研究方式的。

02、什么是深度研究AI代理?

简单来说,深度研究AI代理是一种能够自主完成复杂研究任务的人工智能工具。它们不仅仅是简单的问答机器人,而是能够进行多步骤推理:生成搜索查询、浏览网页内容、分析数据,并将研究成果整合成结构化的报告,甚至还能引用来源。这些代理的目标是帮助用户在短时间内完成原本需要数小时甚至数天的研究工作。

目前市面上已经出现了多种深度研究AI代理,比如OpenAI的Deep Research、谷歌的Gemini Deep Research、LangChain的Open Deep Research,以及Ollama Deep Researcher等。这些工具各有特点,但它们的共同目标是让研究变得更加高效、便捷。

03、全自动代理 vs. 人机协作代理

在深度研究AI代理的世界里,主要有两种架构设计:全自动代理和人机协作(Human-in-the-Loop, HITL)代理。

全自动代理:一键启动,全程无忧

全自动代理是最“省心”的选择。用户只需要提供一个主题或提示,这些代理就会从头到尾独立完成任务。例如,OpenAI的Deep Research功能(2025年2月推出)可以让ChatGPT像一个“研究分析师”一样工作。用户只需输入主题,回答几个附加问题,剩下的事情就交给代理去完成。它会在几分钟内从网络上收集信息,并生成一份带有引用的详细报告。这种全自动化的方式非常方便,但它需要一个非常强大的代理来独立决定研究方向并验证信息的真实性。

人机协作代理:人类把控,质量更高

与全自动代理不同,人机协作代理会在研究流程的不同阶段征求人类的反馈或批准。这些代理不会一路“狂奔”,而是在制定研究计划或大纲后暂停,让用户进行审核和调整。这种“计划审核”阶段相当于一种质量控制,确保代理的理解与用户的意图一致。例如,LangChain的Open Deep Research就是一个典型的人机协作代理。它会在生成报告计划后暂停,让用户可以修改或调整计划,然后再继续执行。这种设计虽然增加了人类的参与,但能有效提高研究的质量和准确性。

Deep Research深度研究AI代理:谁是最强研究助手?-AI.x社区

04、深度研究代理的架构设计

尽管不同的深度研究代理在实现上各有不同,但它们通常都遵循一些共同的架构模式。一个常见的设计是将代理拆分为多个专门的子代理或组件,通常被称为管理代理(Manager Agents)和工具调用代理(Tool-Calling Agents)。

Deep Research深度研究AI代理:谁是最强研究助手?-AI.x社区

Deep Research深度研究AI代理:谁是最强研究助手?-AI.x社区

管理代理:任务规划与协调

管理代理通常是主要的语言模型实例,负责理解用户的需求,将研究任务分解为子任务(例如报告的各个部分或需要回答的具体问题),并协调整个研究过程。在以代码为中心的代理框架中(比如Hugging Face的smolagents),管理代理通常以代码代理(Code Agent)的形式出现,即它可以生成和执行代码来完成任务。管理代理负责逻辑规划、结果整合,它会决定要搜索什么内容、使用哪些工具,以及如何汇总信息。这就好比一个研究人员在规划回答复杂问题的大纲和策略。

工具调用代理:执行与数据获取

工具调用代理则专注于与外部资源的交互和执行具体操作,比如网页搜索、网页导航或数据提取。这些代理可能会调用搜索引擎API、点击搜索结果、抓取网页内容,或者调用其他工具。它们的主要任务是从外部获取原始信息(也就是系统的“互联网助手”部分)。例如,一个工具代理可能会使用DuckDuckGo或谷歌搜索API来获取相关链接,而另一个代理则会解析网页文本以提取关键信息。在许多系统中,这些工具使用行为也可以由主代理完成,只要它能够输出代码或结构化动作。

05、网页搜索与内容提取:代理的“眼睛”和“手”

深度研究代理高度依赖网页浏览能力。它们通常集成了搜索工具和内容检查器/阅读器。

网页搜索:精准定位信息

代理会根据用户的提示或当前信息需求生成搜索查询。它们使用API或浏览器自动化工具来获取搜索结果,比如通过谷歌API(通过SerpAPI)、DuckDuckGo搜索工具,或者像Tavily这样的专门为LLM设计的搜索服务。例如,开源的OpenDeepResearcher代理使用SerpAPI进行谷歌搜索查询,而其他代理则使用Tavily的实时搜索API。这些工具会返回一系列相关的网页或文档。

内容导航与提取:深入挖掘细节

获取网页链接后,代理需要访问这些页面并提取内容。它们通常使用简化版的文本浏览器或HTTP客户端来获取网页HTML并提取文本。一些代理还会集成检查工具,用于读取和解析常见格式(如HTML、PDF等),并在文本中搜索关键词或标题,以判断页面是否有用并提取相关内容片段。

迭代探索:不断深入研究

深度研究代理通常不会只进行一轮搜索。管理代理(LLM)会阅读获取的信息,并可能提示工具代理进行后续搜索或点击超链接深入挖掘。这个循环会一直持续,直到代理认为已经收集到足够的信息,或者达到预设的限制。在这个过程中,代理会保持对已学知识、已覆盖的子主题以及剩余空白的记忆。现代代理通常会采用反思策略——代理会检查自己的当前知识,并问自己“我是否需要更多关于X的信息?”如果需要,它就会触发新的查询以深入挖掘。

从研究到报告:整合与输出

无论采用哪种工作流程,一旦研究完成,最后一步就是整合所有发现,生成一份连贯的报告。管理代理通常会将搜索阶段收集的笔记或片段整合成一份结构良好的文档。这不仅包括合并事实,还包括生成解释、比较,并插入引用以便追溯。

06、性能评估:如何衡量代理的“智能”?

要衡量深度研究代理的有效性,研究人员会使用复杂的推理和知识整合基准测试。一个著名的基准是GAIA(General AI Assistant),它评估AI代理处理需要多步骤推理、工具使用(如网页浏览)以及整合多个来源信息的现实世界问题解决任务的能力。GAIA的问题难度分为1到3级,3级问题通常涉及多跳推理和使用外部工具或参考,模拟人类分析师可能面临的挑战。

另一个评估是“人类最后的考试”(Humanity’s Last Exam, HLE),这是一项涵盖100多个专家级主题的测试,旨在检验AI是否能通过人类为其设置的最后考试(涵盖法律、医学、工程等领域)。

深度研究代理在这些基准测试中取得了快速进步。例如,OpenAI报告称,其Deep Research代理(使用o3模型)在HLE测试中达到了26.6%的准确率,这比之前的模型(如GPT-4o和谷歌的Grok-2)的约3%有了巨大的飞跃。尽管26.6%听起来可能不高,但这个考试难度极高,即使是这样的成绩也远远超过了早期AI的表现,表明AI的专家推理能力达到了新的水平。

在GAIA测试中,OpenAI的Deep Research也取得了新的最佳成绩。早期报告显示,该代理平均正确回答了约72%到73%的GAIA问题,而之前的顶级代理正确率在63%到67%之间。在最难的3级问题上,Deep Research代理达到了约58%的准确率(之前的系统在3级问题上的准确率在40%到50%之间)。这种表现表明代理在复杂、多步骤任务上的强大能力。简而言之,这些系统开始接近人类水平的推理能力,而这些任务在过去是AI完全无法触及的。

07、开源替代方案:追赶的步伐

开源的深度研究代理也在迅速缩小与商业代理的差距。例如,Hugging Face在24小时内复现了OpenAI的深度研究代理(使用其smolagents框架),在GAIA验证集上达到了55.15%的准确率。虽然这低于OpenAI的专有代理,但远高于旧的基线(微软的Magentic-One代理在GAIA上的准确率约为46%)。这种改进主要得益于采用代码代理方法(让LLM输出用于行动的代码),减少了推理步骤和错误。这表明架构选择(如使用代码而非JSON进行工具调用)对性能有重要影响。

08、深度研究代理的对比分析

为了更好地理解深度研究代理的现状,让我们对比一下OpenAI的Deep Research、谷歌的Gemini Deep Research以及领先的开源实现,在架构、工作流程、搜索策略和性能等方面进行分析。

架构与模型

OpenAI的Deep Research代理基于其专有的LLM(o3模型系列)构建。该模型针对长篇推理进行了优化,并与内部代理框架集成,能够进行网页浏览和数据分析。尽管OpenAI没有完全披露代理框架的技术细节,但它涉及模型协调工具使用(类似于基于代码的内部代理)。谷歌的Gemini Deep Research则以Gemini 1.5 Pro和2.0模型为骨干。

相比之下,开源项目通常使用较小的模型或多个组件。例如,OpenDeepResearcher可以使用Anthropic的Claude-3.5(通过OpenRouter API)来处理查询生成和内容分析,而Hugging Face的open-deep-research演示则使用DeepSeek进行推理和基于Python的网络爬虫工具。LangChain的实现则可以插入不同阶段的不同模型(默认情况下,使用OpenAI的o3-mini进行规划,Anthropic的Claude进行写作,或者使用其他开源模型)——本质上是一种模块化架构,每个阶段都可以使用最适合的模型。

商业代理(如OpenAI和谷歌)的优势在于其极其强大的模型(o3和Gemini都是最先进的,可能是多模态的,并针对工具使用进行了训练),而开源代理可能使用经过优化的Llama衍生模型或蒸馏模型来近似这种能力。这意味着商业代理可能更好地处理非常复杂的推理或大型输入,但开源代理正在迅速改进,并且可以在自定义硬件上运行。

工作流程设计

OpenAI的Deep Research主要采用全自动工作流程。用户在ChatGPT界面中提供提示,代理则在内部生成计划、执行搜索,并最终返回一份带有引用的详细报告。用户可以观察整个过程(ChatGPT会显示一个侧边栏,记录其正在执行的步骤,类似于实时日志,但用户无法中途干预)。

谷歌的Deep Research模式则明确在UI中包含了一个计划审批步骤。在用户初始查询后,它会呈现一个草稿大纲(用户可以编辑或细化),只有在确认后才会继续收集信息并撰写报告。这表明谷歌选择了一种半自动工作流程,利用人机协作来提高相关性。这可以防止浪费工作(例如,如果代理要研究错误的子主题,用户可以及时发现)。

在开源实现中,我们看到了这两种模式:OpenDeepResearcher和Ollama Deep Researcher以一次性自主循环运行,直到完成(运行过程中不与用户交互)。相比之下,LangChain的open_deep_research采用计划-执行方法,在规划阶段暂停,允许用户反馈(用户可以选择修改建议的部分列表),然后再继续。

搜索方法

所有深度研究代理都依赖外部搜索,但来源和方法有所不同。

OpenAI Deep Research可能使用类似于早期ChatGPT浏览alpha或OpenAI提到的“Operator”系统的网页浏览堆栈。它可能查询通用搜索引擎(可能是必应或自定义API)以获取结果,然后使用内部浏览器导航页面。该代理优先考虑可信来源;报告显示它倾向于引用高质量的参考文献(学术论文、权威报告),而不仅仅是流行的网页。这表明OpenAI的代理可能有一些排名策略或对权威来源的偏好。它还可以通过调用工具处理非文本数据(OpenAI提到使用Python进行数据分析,这意味着它可以获取CSV文件或表格并处理它们)。

谷歌Gemini Deep Research肯定不会使用其他搜索引擎,它与谷歌自己的搜索引擎紧密集成。这意味着它可以访问谷歌庞大的索引和排名算法,这对于覆盖范围的广度是一个优势。然而,它可能更强调谷歌上流行或排名较高的内容。用户观察到,谷歌的代理从许多来源聚合信息,但有时只是表面化的(广泛但浅显)。

开源选项通常使用公共搜索API或开放搜索引擎。例如,OpenDeepResearcher使用SerpAPI(谷歌)获取网络结果,并使用Jina(一个AI驱动的内容检索API)获取页面文本。其他代理则使用DuckDuckGo或必应Web API。LangChain的open_deep_research默认使用Tavily(一个为LLM设计的搜索API),也可以切换到Perplexity(一个AI元搜索服务)。

开源代理通常通过简单地提取文本来模拟浏览器,而不执行JavaScript或渲染——这涵盖了大多数需求(文本内容),但可能会错过动态加载的内容。开源代理的搜索方法通常可以配置;开发人员可以插入不同的搜索工具。总体而言,这些代理确保它们有办法查询实时网络并获取内容。结果的质量将取决于使用的搜索API——例如,使用谷歌API通常可以获得良好的信息,但需要成本,而免费API可能包含更多噪声。在实践中,开源代理实现了类似的迭代深化搜索:它们从初始结果出发,让LLM阅读并总结或提取要点,然后生成新的查询以跟进未回答的问题。

报告生成

所有比较的实现都力求生成一份带有引用的最终报告。OpenAI的Deep Research以其生成的非常长、详细的报告而闻名(对于复杂查询,通常有几十页和许多引用)。其写作风格结构化——使用标题、项目符号和分析性叙述。谷歌的Deep Research倾向于生成稍短的输出;用户将其描述为更像一份扩展的摘要或简报。LangChain的Open Deep Research工具以Markdown格式输出,包含部分和引用。开源输出中的引用通常要么是内联括号中的URL,要么是映射到参考列表的数字引用——与商业版本类似。开源框架的一个好处是你可以自定义报告格式(例如,确保它总是包含引言,或者添加一个特定部分)。

性能与基准

在具有挑战性的基准测试(如GAIA和HLE)中,OpenAI的Deep Research目前领先,这得益于o3-mini模型的强大能力和优化的代理逻辑。

如前所述,HuggingFace的open DeepResearch在一天的工作内达到了OpenAI GAIA分数的约72%到82%。因此,开源和商业解决方案之间的差距并非不可逾越,特别是如果愿意使用付费API的话。商业解决方案在易用性和集成方面仍然占据优势:它们是即插即用的(无需设置,界面友好),并且具有一些功能,如图表生成、直接导出到谷歌文档等,而开源版本可能尚未具备这些功能。

成本与可访问性

OpenAI的Deep Research最初仅对每月200美元的ChatGPT企业/专业订阅用户开放,这对于普通用户来说成本较高。谷歌的Deep Research在成本方面要亲民得多,包含在每月约20美元的谷歌One高级计划中(提供一个月的免费试用)。

开源代理的设计是可以免费运行的(如果你有计算资源),或者成本极低。许多开源实现使用OpenAI/Anthropic模型和搜索的API密钥,因此你按API调用付费——这可能根据报告的长度,每次报告只需几分钱或几美元。有一篇指南展示了如何以“不到1美元”的API成本构建一个深度研究代理(见《构建深度研究代理:1美元的OpenAI工具替代品》)。

如果你完全使用开源模型(比如本地运行一个Llama 70B)和免费搜索(例如,使用开放搜索索引),成本可以几乎为零,除了硬件和时间。不过,这种选择的权衡是增加了复杂性:你需要设置环境,而且性能可能会更慢或质量略低。此外,开源解决方案允许隐私保护——你可以离线运行代理(Ollama的版本在本地机器上运行所有内容,包括通过本地索引或缓存结果进行搜索),确保数据不会离开你的环境。商业解决方案会将你的查询和检索到的内容发送到它们的服务器,这可能对敏感研究主题是一个需要考虑的因素。

Deep Research深度研究AI代理:谁是最强研究助手?-AI.x社区

09、结语:深度研究代理的未来

深度研究AI代理的出现,无疑是人工智能领域的一个重大突破。它们不仅极大地提高了研究效率,还为专业人士和普通用户提供了强大的工具,帮助他们快速获取和整合信息。无论是全自动的便捷性,还是人机协作的精准性,这些代理都在以自己的方式改变着我们的研究方式。

随着技术的不断发展,我们可以预见,未来的深度研究代理将更加智能、更加高效。开源社区的迅速发展也让我们看到了这种技术的无限潜力。无论你是需要快速生成报告的职场人士,还是希望深入了解某个领域的研究人员,深度研究AI代理都将成为你不可或缺的助手。


本文转载自公众号Halo咯咯    作者:基咯咯

原文链接:​​https://mp.weixin.qq.com/s/nsf3cTJMANvfUy-MvaFYww​​​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报


回复
相关推荐