Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断

发布于 2025-3-31 01:55
浏览
0收藏

当前,AI搜索人工智能领域主要由Perplexity、OpenAI DeepResearch等部分闭源搜索AI方案主导,闭源特性限制了透明度与创新。本文推出的ODS作为开源方案,填补了开源搜索AI的性能空白,促进该领域的社区发展、创新与创业,且在基准测试中展现出超越部分闭源方案的性能,具有重要实用价值。

文章推出开放深度搜索(ODS),旨在缩小专有搜索AI解决方案与开源同类产品的差距。ODS由开放搜索工具和开放推理智能体组成,可与用户选定的基础大语言模型协同工作。文中详细介绍了这两个组件的工作原理,通过在SimpleQA和FRAMES基准测试上的实验,表明ODS与DeepSeek-R1结合使用时,性能接近甚至超越现有先进基线模型,实现了搜索AI领域的先进性能 。

摘要&摘要

我们推出开放深度搜索(Open Deep Search, ODS),旨在缩小诸如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview等专有搜索人工智能解决方案与开源同类产品之间日益扩大的差距。ODS的主要创新之处在于,通过推理智能体增强最新开源大语言模型(LLMs)的推理能力,这些智能体能够明智地使用网络搜索工具来回答查询。具体而言,ODS由两个组件构成,它们可与用户选择的基础大语言模型协同工作:开放搜索工具(Open Search Tool)和开放推理智能体(Open Reasoning Agent)。开放推理智能体负责解释给定任务,并通过编排一系列行动来完成任务,这些行动包括调用工具,其中之一便是开放搜索工具。开放搜索工具是一种新型网络搜索工具,其性能优于专有同类产品。与强大的开源推理大语言模型(如DeepSeek-R1)相结合,ODS在两个基准测试(SimpleQA和FRAMES)上的表现接近甚至有时超越了现有的最先进基线模型。例如,在FRAMES评估基准上,ODS的准确率比最近发布的GPT-4o Search Preview这一现有最佳基线模型提高了9.7%。ODS是一个通用框架,可无缝增强任何大语言模型(如在SimpleQA上达到82.4%准确率、在FRAMES上达到30.1%准确率的DeepSeek-R1)的搜索和推理能力,以实现最先进的性能:在SimpleQA上达到88.3%的准确率,在FRAMES上达到75.3%的准确率。

研究背景:搜索人工智能将大语言模型的检索增强生成能力与实时信息检索结合,但该领域进展主要由专有解决方案主导,开源替代方案存在性能差距,且限制了领域的透明度、创新和创业发展。

技术创新:推出开放深度搜索(ODS)这一开源AI搜索解决方案,包含开放搜索工具和开放推理智能体。开放搜索工具改进了搜索流程,开放推理智能体提升了推理能力,使ODS在多个基准测试中达到或超越先进闭源方案的性能,促进搜索AI领域开源生态发展。

实现设计:

开放搜索工具:通过查询改写生成新查询,从搜索引擎结果页面API检索相关上下文并格式化处理,还通过抓取网页、嵌入段落块等操作增强大语言模型的上下文。

开放推理智能体:ODS-v1基于思维链和ReAct智能体,结合思维链自洽性、少样本学习等技术;ODS-v2基于代码链和CodeAct智能体,通过生成可执行Python代码调用工具。

实验结果:在SimpleQA和FRAMES基准测试中,ODS与DeepSeek-R1结合,ODS-v1在SimpleQA上准确率达87.7%、FRAMES上达56.7%;ODS-v2在SimpleQA上准确率达88.3%、FRAMES上达75.3%,超过Perplexity等部分闭源搜索AI,在FRAMES上超越GPT-4o Search Preview。

1. 引言

搜索人工智能,即搜索引擎增强的大语言模型(LLMs),它将大语言模型的检索增强生成(RAG)能力(例如参考文献[9])与从搜索引擎进行的实时信息检索相结合。这种整合解决了大语言模型静态知识库的问题,使其能够提供最新且与上下文相关的回复 。最近的研究(如参考文献[27])表明,将搜索引擎结果页面(SERP)应用程序编程接口(API)作为上下文输入到大语言模型中,其效果优于诸如自询问(self-ask)等先前方法。

搜索人工智能领域的进展主要由专有解决方案主导,如谷歌搜索、必应搜索、ChatGPT搜索和Grok。特别是Perplexity AI(参考文献[21])在这个市场上表现出色,甚至对成熟的行业领导者构成了威胁。然而,这种闭源解决方案限制了透明度、创新和创业。为了培育搜索人工智能开发者社区、利用集体智慧、促进创新并鼓励创业,我们推出了开放深度搜索(ODS),这是一种开源人工智能搜索解决方案,在基准评估中实现了最先进的性能,与最佳闭源替代方案相匹配甚至超越它们。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

表1:所提出的开源搜索框架ODS,与开源推理大语言模型DeepSeek-R1(参考文献[4])一起使用时,在FRAMES(参考文献[8])和SimpleQA(参考文献[30])这两个流行的事实性评估基准上,其性能超过了Perplexity(参考文献[21])、Perplexity Sonar Reasoning Pro(参考文献[22])等闭源的最先进搜索人工智能解决方案。与GPT4o Search Preview相比,ODS-v2在FRAMES准确率上有显著提升,但在SimpleQA准确率上略逊一筹。ODS-v1使用基于ReAct的智能体(2.2.1节),ODS-v2使用基于CodeAct的智能体(2.2.2节)。

Perplexity AI有两款提供API访问的搜索人工智能产品:默认的Perplexity(参考文献[21])和专为复杂推理任务定制的Perplexity Sonar Reasoning Pro(参考文献[22])。表1展示了它们在两个流行的评估基准SimpleQA(参考文献[30])和FRAMES(参考文献[8])上的性能。值得注意的是,所提出的两个版本的开放深度搜索(与开源的DeepSeek-R1模型一起使用时)均优于Perplexity AI的旗舰搜索人工智能产品。另一个重要的基线模型是OpenAI于2025年3月11日发布的专为搜索人工智能定制的GPT-4o Search Preview(参考文献[17])。开放深度搜索的第二个版本,即ODS-v2+DeepSeek-R1,在FRAMES基准上超越了GPT-4o Search Preview,在SimpleQA基准上几乎与之持平。为了实现这种最先进的性能,我们在开放深度搜索中进行了两项创新:开放搜索工具和开放推理智能体。

开放搜索工具:Perplexity和OpenAI的搜索解决方案都是闭源产品。Perplexity的开源替代方案,如OpenPerplex(参考文献[19])和Perplexica(参考文献[20]),是开源搜索工具,它们将输出进行总结并输入到大语言模型中,以回答感兴趣的查询。然而,这些开源搜索工具存在一些弱点,仍有很大的改进空间。首先,OpenPerplex和Perplexica主要将原始的搜索引擎结果页面(SERP)结果作为上下文传递给大语言模型。此外,它们根据与用户查询的相关性对片段进行分块和重新排序。相比之下,我们的方法采用了更复杂的搜索过程,我们称之为开放搜索工具(将在2.1节详细解释)。具体来说,我们在必要时重新表述查询,从排名前N的片段中提取上下文,并应用分块和重新排序来过滤掉相关性低于阈值的内容。这确保了包含所有相关的搜索结果上下文。此外,我们针对维基百科、arXiv和PubMed等主要API实施了自定义网站处理。

开放推理智能体:如表1所示,我们提供两种版本的开放推理智能体:一种基于ReAct智能体(参考文献[33]),另一种基于CodeAct智能体(参考文献[14])。开放推理智能体的目标是解释查询、评估检索到的上下文,并使用适当的工具(包括我们提供的用于网络搜索的开放搜索工具)来回答查询。详细内容请参考2.2节。

2. 开放深度搜索(ODS)

开放深度搜索(ODS)是一个即插即用的框架,用户可以无缝插入他们选择的任何基础大语言模型,既可以是开源大语言模型,也可以通过API访问闭源大语言模型。在我们的实验中,我们将ODS与Llama3.1-70B模型或DeepSeek-R1模型结合使用。ODS由两部分组成:开放搜索工具和开放推理智能体,这两部分都使用基础大语言模型。开放搜索工具是我们用于搜索和处理来自互联网信息的开源工具,将在2.1节中解释;开放推理智能体是我们的开源智能体,它可以通过访问工具来回答查询,将在2.2节中解释。

我们为开放推理智能体提供两种解决方案:一种使用ReAct智能体(我们将其称为版本一ODS-v1),另一种使用CodeAct智能体(我们将其称为版本二ODS-v2)。包含这两个版本ODS的开源代码库可在https://github.com/sentient-agi/OpenDeepSearch上找到。我们使用术语“ODS-v?+基础模型”来指代ODS的特定实例。例如,ODS-v1+Llama3.1-70B指的是ODS的第一个版本,它使用ReAct智能体并以Llama3.1-70B作为基础模型;ODS-v2+DeepSeekR1指的是ODS的第二个版本,它使用CodeAct智能体并以DeepSeek-R1作为基础模型。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图1:用户可以选择插入他们选择的任何基础大语言模型,并利用开放深度搜索(ODS)开源框架的优势。ODS由两个组件组成:开放搜索工具和开放推理智能体。查询首先输入到开放推理智能体中,开放推理智能体编排可用的工具集来解释和回答查询。我们设计的开放搜索工具是最重要的工具之一,它从网络上检索的多个来源提供高质量的上下文。在我们的实验中,我们使用Llama3.1-70B和DeepSeek-R1作为基础模型。

2.1 开放搜索工具

我们提供的开放搜索工具在保持对可扩展开源系统承诺的同时,改进了搜索引擎增强大语言模型领域的最新进展(参考文献[27])。特别是,我们的方法重新审视了传统方法在查询、检索和增强流程中的不同组件。开放搜索工具以查询为输入,并生成一个上下文,该上下文由网络搜索的相关段落组成,用于输入到基础大语言模型中。开放搜索工具的质量对于ODS的成功至关重要,我们将在第3节和附录A中通过示例展示这一点。

2.1.1 查询改写

我们搜索流程的第一步是接收原始用户查询,并生成k个保持原始上下文的新改写查询。这一步的必要性源于原始查询的语义结构与为提供满意答案所需的潜在上下文之间的差距。例如,用户可能想知道“如何让我的网络更快”,然而,谷歌搜索可能无法给出令人满意的结果,因为该查询本身过于宽泛,且隐含的上下文可能未被涵盖。查询改写器弥补了宽泛查询与隐含上下文之间的差距,并会生成其他查询,如“如何增强Wi-Fi信号”、“如何增加带宽”和“如何降低延迟”。我们发现这一步对于提高检索上下文的覆盖范围和多样性,进而提高我们系统的整体性能至关重要。

2.1.2 检索

搜索流程的第二步是从搜索引擎结果页面API(SERP)检索相关上下文。从API调用检索到的结果随后被格式化、处理,并插入到大语言模型的上下文中。我们的格式化过程受到FreshPrompt(参考文献[27])提示格式的启发,我们在每个片段中包含每个搜索结果返回的元数据,如标题、URL、描述和发布日期(如果可用)。此外,当搜索上下文中包含冲突信息时,我们提示大语言模型优先考虑可靠来源,如政府机构、教育机构和知名研究机构。

2.1.3 增强

作为我们流程中的一个额外步骤,我们选择通过从SERP API检索到的排名前m的链接中添加相关段落来增强大语言模型的上下文。具体来说,我们抓取相关网页,嵌入段落块,并根据与用户查询相关的重新排名分数从每个网页中检索排名前n的相关段落。这使得上下文能够为需要“深度”推理的查询提供深入的答案。

2.2 开放推理智能体

开放推理智能体以用户的查询为输入,并使用基础大语言模型和各种工具生成答案。上一节中的开放搜索工具是开放推理智能体使用的关键工具之一。我们为用户提供两种解决方案:一种基于思维链(Chain-of-thought)和ReAct智能体(其最终的端到端系统称为ODS-v1),另一种基于代码链(Chain-of-code)和CodeAct智能体(其最终的端到端系统称为ODS-v2)。

2.2.1 基于ReAct智能体的ODS-v1

我们的第一个开放推理智能体基于思维链(CoT)推理(参考文献[6, 31])和ReAct(参考文献[33])智能体。

思维链(CoT)提示:思维链提示通过鼓励模型在回答前停下来思考,激发了大语言模型智能体令人印象深刻的推理能力(参考文献[28, 3])。零样本思维链(Zero-shot CoT)只需在输入到模型的提示末尾附加“让我们一步一步地思考。”这句话(参考文献[6])。通过将思维链与少样本提示相结合,结果会进一步改善,我们采用了这种方法。少样本思维链(Few-shot CoT)是指在提示中附加几个思维链示例,作为一种上下文学习形式(参考文献[31])。

思维链自洽性(CoT-SC):思维链自洽性进一步改进了简单思维链中使用的贪心解码技术。它不是简单地采用单一的贪心推理路径,而是对多个不同的推理路径进行采样,并对它们进行比较,然后从所有路径中选择最一致的答案。这在包括算术和问答任务在内的多个推理任务中,相较于简单的思维链有了显著的改进(参考文献[29])。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

ReAct中的少样本学习:ReAct中的少样本学习利用一小部分示范示例来指导模型的推理和行动模式。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图2:ODS-v1中使用的ReAct提示结构示意图

动态少样本学习:ReAct通过基于示例的提示实现少样本学习,其中一小部分示范示例指导模型的推理和行动模式。为了优化提示效率,动态少样本选择系统利用向量相似性匹配为每个任务检索最相关的示例,在保持性能的同时降低提示复杂度。我们开展了一项社区活动,以设计用于我们少样本模板的200个ReAct提示。参与者被要求根据自己的推理直觉进行提示设计,从而产生了广泛的方法。我们为他们提供了描述ReAct提示结构(思想/行动/行动输入/观察)的模板以及测试集中的一些示例查询。我们确保他们无法访问基准测试本身。由于ReAct提示中代表了多样化的思维过程,这项活动显著提高了我们ReAct智能体的性能。附录B中提供了最终少样本提示的示例。

工具集成:该框架与外部工具集成,实现了更复杂的问题解决能力。我们在ODS-v1中使用了三种工具:

网络搜索:2.1节中的开放搜索工具。

数学处理:与Wolfram Alpha API集成,用于处理算术和复杂的数学计算。

继续思考:使用基础大语言模型继续推理,以分解复杂查询。

ODS-v1:我们在ODS-v1的开放推理智能体中集成了思维链一致性采样、ReAct智能体框架和少样本提示。对于任何查询,我们首先运行开放搜索工具,其产生的上下文以及原始查询被输入到ReAct智能体中。ReAct智能体使用由结构化步骤组成的提示:<思考>、<行动>、<行动输入>和<观察>,以<问题>开始,以<最终答案>结束。这些步骤会迭代,直到返回响应,但如果信息不足,智能体可能不会返回答案。ReAct智能体有三个行动选项。“继续思考”(<行动>=继续思考)用于扩展复杂问题分解的推理过程。“搜索”(<行动>=搜索互联网)利用OpenPerplex查找事实信息,如日期、名称和学术内容。“计算”(<行动>=计算)连接到Wolfram Alpha API,用于处理基础模型通常难以处理的数值计算。

当ReAct智能体无法提供答案时(由Llama - 3 - 8B判断模型确定),系统会默认使用思维链自洽性方法。这个备用过程会对大语言模型进行r次调用,对相似的响应进行聚类,并从最大的聚类中随机返回一个响应,最终得出最终答案。

在以下取自FRAMES基准测试的示例中,我们可以观察到ODS - v1相较于诸如Perplexity的Sonar Reasoning Pro等最先进的封闭模型在推理方面的优势。ODS和Sonar Reasoning Pro模型都对潜在答案感到困惑。然而,ODS正确识别出112英寸为正确答案,并使用Wolfram - Alpha工具进行了额外检查,按要求将答案转换为2,845毫米。相反,Sonar Reasoning Pro只是给出了2,858毫米的错误答案。

FRAMES中的一个问题:1975年勒诺·马歇尔诗歌奖(Lenore Marshall Poetry Prize)的获得者,如果在鲁皮·考尔(Rupi Kaur)出版《牛奶与蜂蜜》(Milk and Honey)一书时还活着,他/她会是多少岁?正确答案:90岁

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图3:FRAMES中的一个示例问题和答案,ODS - v1使用Wolfram计算器工具准确计算年龄差,得出正确答案90岁。相反,Perplexity采用了错误的推理路径,报告年龄为79岁。

2.2.2 基于CodeAct智能体的ODS - v2

代码链(CoC):虽然思维链(CoT)在语义推理中已被证明是有效的,但在处理需要精确数值或符号计算的任务时,它常常遇到挑战。为了解决这些限制,代码链(参考文献[11])(CoC)利用大语言模型的代码编写能力来生成和执行代码或伪代码,以解决算法和语义问题。这种方法不仅拓宽了大语言模型能够处理的推理问题的范围,还提高了它们在解决复杂任务时的准确性。在各种基准测试中,代码链的表现优于传统的思维链方法,这突出了将代码生成和执行集成到大语言模型中以实现更强大推理能力的潜力。

CodeAct:最近的进展(参考文献[14])表明,与传统的基于JSON的方法相比,生成可执行的Python代码来调用工具在性能上有显著提升。特别是,大语言模型天生擅长使用代码压缩任务的行动空间。此外,代码作为一种表示模式,比基于JSON的方法更自然地适合采取行动,因为它可以更容易地进行组合、模块化和泛化。在ODS - v2中,我们调整了搜索工具,使其能够与SmolAgents(参考文献[25])的框架协同工作,因为该框架允许定制且易于分发。我们最基本的由搜索驱动的推理智能体使用(参考文献[25])CodeAgent(CodeAct的一个变体),并可访问我们的搜索工具,如图4所示。ODS - v2的更高级迭代涉及多个工具和智能体协同工作,以解决可能涉及或不涉及搜索的更复杂任务。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图4:ODS - v2中的CodeAct智能体回答一个多跳问题

3. 实验

基线模型:我们将ODS与Perplexity(参考文献[21])中流行的闭源搜索人工智能(其默认搜索人工智能,我们称为Perplexity,以及一种先进的推理搜索人工智能,称为Perplexity Sonar Reasoning Pro(参考文献[22]))以及OpenAI的最先进搜索人工智能GPT - 4o Search Preview(参考文献[17])进行比较。这些是可访问搜索引擎的最先进人工智能解决方案。作为单独的基线模型,我们还将其与大语言模型进行比较:GPT - 4o、Llama - 3.1 - 70B和DeepSeekR1。尽管这些模型无法访问互联网,但我们在表1中展示了具有推理能力的大语言模型在我们的FRAMES(参考文献[8])和SimpleQA(参考文献[30])评估基准测试中表现出人意料地好。

3.1 两个评估基准的数值分析:FRAMES和SimpleQA

我们使用两个评估基准:FRAMES(参考文献[8])和SimpleQA(参考文献[30])。最初,SimpleQA旨在在不进行网络浏览的情况下测试前沿模型的事实性,而FRAMES旨在测试模型在单跳和多跳查询中的事实性和检索能力,在FRAMES中会给出真实的维基百科文章。在我们的场景中,我们使用这两个基准来评估可访问互联网的搜索人工智能的准确性。

3.1.1 FRAMES的数值分析

FRAMES(事实性、检索和推理测量集)数据集(参考文献[8])包含824个具有挑战性的多跳问题,需要整合来自维基百科的多个来源的信息。参考文献[8]中报道的最佳单查询搜索方法,在使用来自维基百科数据转储中单个查询检索到的4个具有最高BM25分数(参考文献[24])的文档时,Gemini - Pro1.5 - 0514(2024年5月14日发布)的得分为47.4%。在表2中,ODS - v1 + DeepSeek - R1在每个查询使用一次网络搜索的相同条件下达到了56.7%的准确率。这比最先进的推理大语言模型(如DeepSeek - R1和GPT - 4o)以及搜索人工智能(如Perplexity和Perplexity Sonar Reasoning Pro)有了显著提高,如表1所示。基于CodeAct的ODS - v2 + DeepSeek - R1智能体选择进行更多搜索,因此在FRAMES上平均每个查询使用3.39次搜索,达到了75.3%的准确率。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

有了我们的推理智能体,ODS - v1 + DeepSeek - R1可以选择进行更多搜索,但它没有这样做。另一方面,当ODS - v1使用Llama3.1 - 70B作为基础模型时,它会进行更多的网络搜索以提高准确率,如表中所示,图6中的示例也对此进行了说明。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

表2:在两个基准测试中,ODS平均每个查询进行网络搜索的次数。ODS会根据第一次搜索结果的质量和模型输出进行调整,仅在必要时谨慎地进行额外搜索。

参考文献[8]中报道,通过多次网络搜索可以提高FRAMES上的准确率。例如,Gemini - Pro - 1.5 - 0514通过使用重新表述的提示运行搜索引擎15次,可以达到与ODS - v1 + DeepSeek - R1相似的性能。然而,这种多步多搜索方法效率低下,因为它不管示例的难度或模型输出的正确性如何,都固定进行15次搜索。这是我们智能体框架的动机之一,在我们的智能体框架中,我们的推理智能体会根据初始搜索质量和模型输出自适应地选择是否再次搜索。这在表2中有所体现,当ODS - v1与较弱的Llama3.1基础模型配对时,它会进行更多的网络搜索。图6中的示例展示了ODS - v1在初始搜索不足时如何谨慎地使用搜索功能。同样,对于ODS - v2,它在SimpleQA上选择进行较少的网络搜索,因为SimpleQA是一个相对简单的任务,只需要一个正确的信息来源,而FRAMES是一个更复杂的任务,需要多个信息来源。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图6:FRAMES中的一个示例问题和答案,ODS - v1 + Llama3.1 - 70B意识到需要进行第二次搜索,再次搜索以找到国王克里姆森主唱的出生年份,并正确回答“1946年”。另一方面,Perplexity(参考文献[21])无法确定国王克里姆森乐队的主唱。

3.1.2 SimpleQA的数值分析

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图7:SimpleQA中的一个示例问题和答案,ODS-v1利用开放搜索工具检索到的高质量上下文,通过交叉核对多个来源,确定了正确答案。而Perplexity Sonar Reasoning Pro在搜索中未能检索到相关信息。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

图8:SimpleQA中的一个示例问题和答案,开放推理智能体正确识别出112英寸为正确答案,并使用WolframAlpha API进行了额外检查,将答案转换为2845毫米。相反,Perplexity Sonar Reasoning Pro在112.5英寸和112英寸这两个潜在答案之间产生了混淆。我们在此处简化了回复,完整回复请参考附录A。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

在表3中,我们调查了其他来源报道的SimpleQA准确率结果,以及ODS - v1 + Llama3.1 - 70B、ODS - v1 + DeepSeek - R1和ODS - v2 + DeepSeek - R1的结果。借助DeepSeek - R1的推理能力,ODS - v1 + DeepSeek - R1比ODS - v1 + Llama3.1 - 70B有了改进。还有一些更新的闭源解决方案,如GPT - 4o Search Preview(参考文献[17])、Exa(参考文献[1])、Linkup(参考文献[15])和Perplexity Deep Research(参考文献[23]),声称在SimpleQA上取得了更高的分数。ODS提供了一个开源解决方案,可以显著缩小开源搜索人工智能解决方案与闭源解决方案之间的差距。

3.2 ODS的消融研究

在表4中,我们对基于ReAct的ODS - v1开放推理智能体的各个部分进行了消融研究。Llama3.1-70B模型单独在SimpleQA中随机选择的500个示例子集上(为了提高效率,仅在本节中使用了子采样评估数据集)的准确率为21.2%,在FRAMES上的准确率为34.3% 。使用我们的开放搜索工具(在表中简称为Search)后,SimpleQA的准确率大幅提高到82.4%,但FRAMES的性能却下降到27.6%。我们的开放推理智能体有两个部分:带有自洽性解码的思维链ReAct(CoT-ReAct)和少样本提示(FewShot)。逐个添加这些组件后,在子采样的SimpleQA和FRAMES上都逐渐取得了性能提升。这表明ODS-v1的每个组件都对最终实现的性能有贡献。最后,通过将基础模型从Llama3.1-70B替换为推理能力更强的DeepSeek-R1,我们展示了ODS-v1能够利用大语言模型的推理能力来实现更好的性能。

Open Deep Search:开源推理智能体实现深度搜索,打破闭源垄断-AI.x社区

4. 结论

为了弥合诸如Perplexity Sonar Reasoning Pro(参考文献[22])和GPT-4o Search Preview(参考文献[17])等最先进的专有搜索人工智能解决方案与它们的开源替代方案(参考文献[27, 19, 20])之间日益扩大的差距,我们推出了开放深度搜索(ODS)。这种开源搜索人工智能可以以即插即用的方式与用户选择的任何大语言模型无缝结合。这使得ODS能够利用推理大语言模型的最新进展,实现越来越高的准确率。

当使用DeepSeek-R1时,ODS在FRAMES基准测试上可以达到75.3%的准确率,比2025年3月11日发布的GPT-4o Search Preview高出10%(表1)。在另一个基准测试SimpleQA上,ODS显著缩小了开源和闭源解决方案之间的差距。这一重要的里程碑是通过ODS的两个组件:开放搜索工具和开放推理智能体之间的协同作用实现的。

• 我们推出开放搜索工具,从互联网提供高质量的检索结果,供ODS中的推理智能体框架作为工具使用。

• 开放推理智能体解释给定的任务,并通过调用可用的工具来完成任务,这些工具包括搜索工具(我们提出的开放搜索工具)、计算器(由Wolfram Alpha API提供)、思考(使用提供的基础大语言模型)和代码解释器(我们使用Python解释器)。

与最新的强大推理大语言模型一起,构成ODS的这两个开源组件确保了我们在搜索方面实现最先进的性能。开放搜索工具相对于专有同类产品的优势在例如图7和附录A中的其他示例中得到了展示。开放推理智能体的优势在例如图6和图8以及附录A中的其他示例中得到了展示。

我们提供了两种版本的开放推理智能体:一种基于ReAct,另一种基于CodeAct。我们公开发布所有开源实现,并邀请开源社区在我们的工作基础上进行构建和进一步创新,从我们的最先进搜索人工智能解决方案开始。

参考资料

• 标题:Open Deep Search: Democratizing Search with Open-Source Reasoning Agents

• 作者:Salaheddin Alzubi†、Creston Brooks†、Purva Chiniya†、Edoardo Contente†、Chiara von Gerlach†、Lucas Irwin†、Yihan Jiang†、Arda Kaz†⋆、Windsor Nguyen†‡、Sewoong Oh†∗、Himanshu Tyagi†、Pramod Viswanath‡†

• 标签:AI搜索、开源技术、大语言模型、推理智能体

• 概述: 本文提出开放深度搜索(ODS)这一开源AI搜索解决方案,介绍其组成部分、工作机制,并通过实验展示其在搜索人工智能领域超越部分闭源方案的性能优势。

• 链接:https://arxiv.org/pdf/2503.20201

本文转载自​​旺知识​​,作者:旺知识

收藏
回复
举报


回复
相关推荐