Search-R1:强化学习增强大语言模型推理+搜索能力

发布于 2025-3-19 00:17
浏览
0收藏

研究背景是大语言模型虽然厉害,但在做复杂推理和获取最新信息时不太给力。现有的和搜索引擎结合的方法,像检索增强生成和把搜索引擎当工具用,都有各自的问题。重要意义在于提出的SEARCH - R1框架能让大语言模型在推理的时候更好地利用搜索引擎,提高解决复杂问题的能力,而且还对相关训练策略有新的发现,对大语言模型的发展有很大帮助。

文章针对大语言模型(LLMs)在复杂推理和获取外部最新信息方面的不足,提出SEARCH - R1强化学习框架。该框架将搜索引擎融入大语言模型的推理过程,通过多轮搜索交互优化模型输出,采用检索令牌掩码稳定训练,并设计简单有效的结果奖励函数。在七个问答数据集上的实验显示,与基线模型相比,SEARCH - R1使用不同大语言模型时性能均有显著提升。同时,文章还对强化学习方法、模型选择和响应长度等方面进行了分析,为搜索增强推理的强化学习训练策略提供了见解 。

摘要&解读

高效获取外部知识和最新信息对于大语言模型(LLMs)进行有效的推理和文本生成至关重要。将搜索引擎视为工具的检索增强和工具使用训练方法,缺乏复杂的多轮检索灵活性,或者需要大规模的监督数据。在推理过程中,促使具有推理能力的先进大语言模型使用搜索引擎也并非最优选择,因为大语言模型并未学会如何以最优方式与搜索引擎进行交互。本文介绍了SEARCH - R1,这是DeepSeek - R1模型的扩展,其中大语言模型仅通过强化学习(RL),在逐步推理过程中自主生成(多个)搜索查询,并进行实时检索。SEARCH - R1通过多轮搜索交互优化大语言模型的滚动输出,利用检索到的令牌掩码来稳定强化学习训练,并使用基于简单结果的奖励函数。在七个问答数据集上的实验表明,与最先进的基线模型相比,SEARCH - R1使性能提高了26%(Qwen2.5 - 7B)、21%(Qwen2.5 - 3B)和10%(LLaMA3.2 - 3B)。本文进一步对强化学习优化方法、大语言模型的选择以及检索增强推理中的响应长度动态提供了实证见解。代码和模型检查点可在https://github.com/PeterGriffinJin/Search - R1获取。

研究背景:大语言模型在自然语言处理领域取得显著成果,但在复杂推理和获取外部最新信息方面存在不足。现有整合搜索引擎的方法,如检索增强生成和将搜索引擎视为工具,存在检索不准确、缺乏多轮检索灵活性或依赖大规模监督数据等问题。强化学习虽已用于提升大语言模型推理能力,但在搜索与推理场景的应用面临框架和稳定性、多轮交错推理和搜索、奖励设计等挑战。

创新贡献:提出SEARCH - R1强化学习框架,将搜索引擎建模为环境一部分,支持大语言模型滚动输出和强化学习优化;引入检索令牌掩码稳定训练,实现多轮交错推理和搜索以处理复杂任务;设计简单有效的基于结果的奖励函数。实验证明SEARCH - R1能显著提升大语言模型在复杂推理任务中的性能,且在不同基础大语言模型上具有通用性,并对强化学习训练策略提供见解。

实现设计:

结合搜索引擎的强化学习:基于近端策略优化(PPO)和组相对策略优化(GRPO),通过引入检索交错推理和检索令牌掩码,优化大语言模型在搜索与推理任务中的决策。

交错多轮调用搜索引擎的文本生成:大语言模型在文本生成和搜索引擎查询间交替,用特定令牌标识搜索查询、检索结果和推理步骤,实现结构化迭代决策。

训练模板:设计简单模板引导大语言模型按推理、搜索、回答的结构输出,避免内容偏差,保证模型学习动态的可观察性和无偏差性。

奖励建模:采用基于规则的结果奖励系统,以精确字符串匹配等方式评估模型响应正确性,避免复杂格式奖励和神经奖励模型带来的问题。

实验结果:在七个问答数据集上对SEARCH - R1进行评估,与多种基线方法对比。结果显示,SEARCH - R1在使用Qwen2.5 - 7B、Qwen2.5 - 3B和LLaMA3.2 - 3B模型时,平均相对提升分别为26%、21%和10%,在域内和域外评估中均表现出色。不同强化学习方法中,GRPO收敛快但在部分模型上不稳定,PPO更稳定,二者最终奖励相当且GRPO整体性能更优。指令调整模型收敛更快,基础模型和指令调整模型最终性能相似。对响应长度和检索令牌损失掩码的研究也得到相应结论,案例研究展示了SEARCH - R1在推理和自我验证方面的优势。

1.引言

近年来,大语言模型(LLMs)在自然语言理解和生成方面展现出了卓越的能力(Hendrycks等人,2020;Clark等人,2018)。尽管取得了这些成就,但大语言模型在处理复杂推理(Wei等人,2022)以及从外部来源检索最新信息(Jin等人,2024)时,常常会遇到挑战。为了解决这些限制,有必要整合先进的推理能力(Huang和Chang,2022)以及与搜索引擎有效交互的能力(Schick等人,2023)。

现有的将大语言模型与搜索引擎整合的方法通常分为两类:(1)检索增强生成(RAG)(Gao等人,2023;Lewis等人,2020)和(2)将搜索引擎视为工具(Yao等人,2023;Schick等人,2023)。检索增强生成(RAG)根据输入查询检索相关段落,并将其整合到大语言模型的上下文以进行生成(Lewis等人,2020)。这使得大语言模型在回答问题时能够利用外部知识。然而,检索增强生成(RAG)受到检索不准确的限制(Jin等人,2024),并且缺乏多轮、多查询检索的灵活性,而这对于复杂推理任务至关重要(Yang等人,2018)。另外,大语言模型可以在推理过程中被促使或训练去使用包括搜索引擎在内的工具(Qu等人,2025;Trivedi等人,2022a)。然而,基于提示的方法通常在泛化方面存在困难,因为某些任务可能在大语言模型预训练期间未遇到过。另一方面,基于训练的方法具有更强的适应性,但依赖于大规模、高质量的搜索与推理交互的带注释轨迹,这使得它们难以有效扩展(Schick等人,2023)。

强化学习(RL)(Sutton等人,1999;Kaelbling等人,1996)已成为增强大语言模型推理能力的有力范式(Guo等人,2025;Hou等人,2025;Xie等人,2025;Kumar等人,2024)。值得注意的是,像OpenAI - o1(Jaech等人,2024)和DeepSeek - R1(Guo等人,2025)这样的模型已经利用强化学习技术(例如近端策略优化(PPO)(Schulman等人,2017)和组相对策略优化(GRPO)(Shao等人,2024)),通过从经验和反馈中学习来提高逻辑推理和问题解决能力。经过强化学习后,即使仅在结果奖励上进行训练,模型也能学习到复杂的推理能力,包括自我验证(Weng等人,2022)和自我修正(Kumar等人,2024)。

然而,将强化学习应用于搜索与推理场景存在三个关键挑战:(1)强化学习框架和稳定性——目前尚不清楚如何在确保稳定优化的同时,有效地将搜索引擎整合到大语言模型强化学习框架中,特别是在整合检索到的上下文时。(2)多轮交错推理和搜索——理想情况下,大语言模型应该能够进行迭代推理和调用搜索引擎,根据问题的复杂性动态调整其检索策略。(3)奖励设计——为搜索与推理任务设计一个有效的奖励函数并非易事,因为传统的奖励公式可能无法很好地适用于这一新范式。

为了解决这些挑战,我们引入了SEARCH - R1,这是一种新颖的强化学习框架,使大语言模型能够在自身推理过程中与搜索引擎进行交错交互。具体而言,SEARCH - R1引入了以下关键创新:(1)我们将搜索引擎建模为环境的一部分,实现了将大语言模型令牌生成与搜索引擎检索交错进行的滚动输出序列。SEARCH - R1与各种强化学习算法兼容,包括近端策略优化(PPO)和组相对策略优化(GRPO),并且我们应用检索到的令牌掩码来确保稳定的优化。(2)SEARCH - R1支持多轮检索和推理,其中搜索调用由​​<search>​​​和​​</search>​​​令牌明确触发。检索到的内容包含在​​<information>​​​和​​</information>​​​令牌内,而大语言模型的推理步骤则包含在​​<think>​​​和​​</think>​​​令牌内。最终答案使用​​<answer>​​​和​​</answer>​​令牌进行格式化,从而实现结构化的迭代决策。(3)我们采用简单的基于结果的奖励函数,避免了基于过程的奖励的复杂性。我们的结果表明,这种极简的奖励设计在搜索与推理场景中是有效的。SEARCH - R1可以看作是DeepSeek - R1(Guo等人,2025)的扩展,后者主要侧重于参数推理,而SEARCH - R1通过引入搜索增强的强化学习训练,来增强检索驱动的决策能力。总之,我们的主要贡献有三点:

  • • 我们明确了将强化学习应用于大语言模型调用搜索引擎进行推理时所面临的挑战。
  • • 我们提出了SEARCH - R1,这是一种新颖的强化学习框架,支持大语言模型的滚动输出和与搜索引擎的强化学习优化,包括使用检索到的令牌掩码来稳定强化学习训练、多轮交错推理和搜索以支持复杂任务的解决,以及一个简单而有效的结果奖励函数。
  • • 我们进行了系统的实验,证明了SEARCH - R1的有效性,在使用三种大语言模型时,相较于最先进的基线模型,平均相对提升分别为26%、21%和10%。此外,我们对用于推理和搜索设置的强化学习提供了见解,包括强化学习方法的选择、不同大语言模型的选择以及响应长度的研究。

2.相关工作

2.1 大语言模型与检索

尽管大语言模型(LLMs)(Zhao等人,2023;团队,2024;Achiam等人,2023)已展示出卓越的推理(Guo等人,2025)和编码(Guo等人,2024)能力,但它们仍然缺乏特定领域的知识(Peng等人,2023;Li等人,2023),并且容易产生幻觉(Zhang等人,2023)。为了解决这些限制,搜索引擎(Zhao等人,2024)被广泛用于提供外部信息。将搜索引擎与大语言模型整合主要有两种方式:(1)检索增强生成(RAG)(Gao等人,2023)和(2)将搜索引擎视为工具(Schick等人,2023)。检索增强生成(RAG)(Lewis等人,2020;Yue等人,2024;Xiong等人,2025)通常遵循一轮检索和顺序生成的流程,搜索引擎根据输入查询获取相关信息,然后将其与查询连接并输入到大语言模型中。然而,这种流程存在诸如检索到不相关信息(Jin等人,2024)以及无法提供足够有用的上下文(Jiang等人,2023)等问题。另一种方法是将搜索作为工具,即促使或微调大语言模型与搜索引擎进行交互。IRCoT(Trivedi等人,2022a)和ReAct(Yao等人,2023)使用提示来指导迭代推理和搜索引擎调用,而Toolformer(Schick等人,2023)则利用监督微调来增强搜索能力。然而,这些方法依赖于高质量的带标签轨迹,难以扩展。最近的研究(Guo等人,2025)表明,强化学习可以使大语言模型仅使用结果奖励就开发出先进的推理技能,但其在调用搜索引擎场景中的潜力仍有待探索。

2.2 大语言模型与强化学习

强化学习(RL)(Kaelbling等人,1996)是一种学习范式,智能体通过与环境交互并以奖励的形式接收反馈来学习进行顺序决策,旨在最大化随时间累积的奖励(Sutton等人,1999)。Ouyang等人(2022)通过人类反馈强化学习(RLHF)(Kaufmann等人,2023)将强化学习引入大语言模型的微调。这种方法首先使用人类偏好数据训练一个奖励模型(Lambert等人,2024),然后通常通过近端策略优化(PPO)算法指导基于强化学习的策略大语言模型的微调。然而,近端策略优化(PPO)涉及多轮大语言模型优化,实施起来具有挑战性。为了简化基于强化学习的微调,已经提出了直接优化方法,如直接偏好优化(DPO)(Rafailov等人,2023)和SimPO(Meng等人,2024)。虽然这些方法提供了计算效率,但它们存在离策略问题(Pang等人,2024),并且性能并不总是能与纯强化学习方法相媲美。其他替代解决方案包括组相对策略优化(GRPO)(Shao等人,2024),它通过从组分数估计基线来消除对评论家模型的需求,以及RLOO(Ahmadian等人,2024),它引入了一种简化的REINFORCE风格(Williams,1992)优化框架。尽管取得了这些进展,但强化学习在大语言模型驱动的搜索引擎交互和推理中的应用在很大程度上仍未得到探索。

3.Search-R1

在以下部分,我们将介绍SEARCH - R1的详细设计,包括:(1)结合搜索引擎的强化学习;(2)交错多轮调用搜索引擎的文本生成;(3)训练模板;(4)奖励模型设计。

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

3.1 结合搜索引擎的强化学习

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

我们的方法基于两种成熟的策略梯度强化学习方法:近端策略优化(PPO)(Schulman等人,2017)和组相对策略优化(GRPO)(Shao等人,2024;Guo等人,2025),利用它们各自的优势来优化检索增强推理。

检索令牌的损失掩码

在近端策略优化(PPO)和组相对策略优化(GRPO)中,令牌级损失是在整个滚动输出序列上计算的。在SEARCH - R1中,滚动输出序列既包含大语言模型生成的令牌,也包含从外部文本中检索到的令牌。虽然优化大语言模型生成的令牌可以增强模型与搜索引擎交互和进行推理的能力,但对检索到的令牌应用相同的优化可能会导致意外的学习动态。为了解决这个问题,我们引入了检索令牌的损失掩码,确保策略梯度目标仅在大语言模型生成的令牌上计算,同时将检索到的内容排除在优化过程之外。这种方法在保持搜索增强生成灵活性的同时,稳定了训练。

PPO+搜索引擎

近端策略优化(PPO)(Schulman等人,2017)是一种流行的演员 - 评论家强化学习算法,通常用于在强化学习阶段对大语言模型(LLMs)进行微调(Ouyang等人,2022)。在我们的推理加搜索引擎调用场景中,它通过最大化以下目标来优化大语言模型:

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

3.2 交错多轮调用搜索引擎的文本生成

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

我们的方法遵循迭代框架,大语言模型在文本生成和外部搜索引擎查询之间交替进行。具体来说,每当需要外部检索时,系统指令会引导大语言模型在两个指定的搜索调用令牌​​<search>​​​和​​</search>​​​之间封装其搜索查询。系统在生成的序列中检测到这些令牌后,会提取搜索查询,查询搜索引擎,并检索相关结果。检索到的信息随后被封装在特殊的检索令牌​​<information>​​​和​​</information>​​​内,并附加到正在进行的展开序列中,作为下一个生成步骤的额外上下文。这个过程会迭代继续,直到满足以下条件之一:(1)搜索引擎调用预算耗尽;(2)模型生成最终响应,该响应被封装在指定的答案令牌​​<answer>​​​和​​</answer>​​之间。完整的工作流程如算法1所示。

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

3.3 训练模板

为了训练SEARCH - R1,我们首先创建一个简单的模板,指导初始大语言模型遵循我们预定义的指令。如表1所示,这个模板以迭代的方式将模型的输出结构化为三个部分:首先是推理过程,然后是搜索引擎调用函数,最后是答案。我们特意将约束限制在这种结构格式上,避免任何特定内容的偏差,例如强制进行反思性推理和搜索引擎调用,或者支持特定的问题解决方法。这确保了在强化学习过程中,模型的自然学习动态保持可观察且无偏差。

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

回答给定的问题。每次获得新信息时,你必须首先在​​<think>​​​和​​</think>​​​内进行推理。推理之后,如果你发现自己缺少某些知识,可以通过​​<search>查询</search>​​​调用搜索引擎,它将在​​<information>​​​和​​</information>​​​之间返回搜索到的顶级结果。你可以根据需要多次进行搜索。如果你认为不再需要外部知识,可以直接在​​<answer>​​​和​​</answer>​​​内给出答案,无需详细说明。例如,​​<answer>北京</answer>​​。问题:[具体问题]

表1:SEARCH - R1的模板。在训练和推理过程中,“问题”将被具体问题替换。

3.4 奖励建模

奖励函数是强化学习中指导优化过程的主要训练信号。为了训练SEARCH - R1,我们采用基于规则的奖励系统,该系统仅由最终结果奖励组成,用于评估模型响应的正确性。例如,在事实推理任务中,可以使用基于规则的标准(如精确字符串匹配)来评估正确性。其中是从响应中提取的最终答案,是真实答案。与Guo等人(2025)不同,我们不纳入格式奖励,因为我们训练的模型已经表现出很强的结构遵循性。我们将更复杂格式奖励的探索留作未来工作。此外,我们有意避免训练用于结果或过程评估的神经奖励模型,这与Guo等人(2025)的做法一致。做出这一决定的原因是,在大规模强化学习中,神经奖励模型容易受到奖励作弊的影响,同时重新训练这些模型会带来额外的计算成本和复杂性。

4 主要结果

4.1 数据集

我们在七个基准数据集上评估SEARCH - R1,这些数据集分类如下:

通用问答:自然问题(NQ)(Kwiatkowski等人,2019)、琐事问答(TriviaQA)(Joshi等人,2017)和流行文化问答(PopQA)(Mallen等人,2022)。

多跳问答:火锅问答(HotpotQA)(Yang等人,2018)、2维基多跳问答(2WikiMultiHopQA)(Ho等人,2020)、音乐问答(Musique)(Trivedi等人,2022b)和Bamboogle(Press等人,2022)。

这些数据集涵盖了各种搜索与推理挑战,能够在单轮和多跳检索场景中全面评估SEARCH - R1。

4.2 基线

为了评估SEARCH - R1的有效性,我们将其与以下基线方法进行比较:

无检索推理:直接推理和思维链(CoT)推理(Wei等人,2022)。

有检索推理:检索增强生成(RAG)(Lewis等人,2020)、IRCoT(Trivedi等人,2022a)和Search - o1(Li等人,2025)。

基于微调的方法:监督微调(SFT)(Chung等人,2024)和基于强化学习但不使用搜索引擎的微调(R1)(Guo等人,2025)。

这些基线涵盖了广泛的检索增强和微调方法,能够在零样本和学习检索设置中全面评估SEARCH - R1。为了在不同方法之间进行公平比较,我们使用相同的检索器、知识语料库、训练数据和大语言模型。更多细节见4.3节。

4.3 实验设置

我们使用三种类型的模型进行实验:Qwen - 2.5 - 3B(基础/指令)和Qwen - 2.5 - 7B(基础/指令)(Yang等人,2024),以及Llama - 3.2 - 3B(基础/指令)(Dubey等人,2024)。对于检索,我们使用2018年的维基百科转储(Karpukhin等人,2020)作为知识源,并使用E5(Wang等人,2022)作为检索器。为确保公平比较,我们遵循Lin等人(2023)的方法,将所有基于检索的方法中检索到的段落数量设置为三个。

在训练方面,我们将自然问题(NQ)和火锅问答(HotpotQA)的训练集合并,为SEARCH - R1和其他基于微调的基线方法形成一个统一的数据集。在所有七个数据集的测试集或验证集上进行评估,以评估域内和域外性能。遵循Yu等人(2024)的方法,使用精确匹配(EM)作为评估指标。对于推理风格的基线方法,我们使用指令模型,因为基础模型无法遵循指令。对于强化学习微调方法,在基础模型和指令模型上都进行实验。

在SEARCH - R1训练中,近端策略优化(PPO)训练时,策略大语言模型的学习率设置为,价值大语言模型的学习率设置为。广义优势估计(GAE)参数,。在组相对策略优化(GRPO)训练中,策略大语言模型的学习率设置为,每个提示采样五个响应。我们使用精确匹配(EM)计算结果奖励。除非另有说明,近端策略优化(PPO)作为默认的强化学习方法,5.1节将提供近端策略优化(PPO)和组相对策略优化(GRPO)之间的详细比较。

4.4 性能

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

表2展示了在七个数据集上SEARCH - R1与基线方法比较的主要结果。从结果中,我们得出以下关键观察:

• SEARCH - R1始终优于强大的基线方法。使用Qwen2.5 - 7B、Qwen2.5 - 3B和LLaMA3.2 - 3B时,我们分别实现了26%、21%和10%的平均相对提升。这些提升在分布内评估(即自然问题(NQ)和火锅问答(HotpotQA))和分布外评估(即琐事问答(TriviaQA)、流行文化问答(PopQA)、2维基多跳问答(2WikiMultiHopQA)、音乐问答(Musique)和Bamboogle)中均成立。

• SEARCH - R1优于不进行检索的大语言模型推理的强化学习训练方法(R1)(Guo等人,2025)。这符合预期,因为将搜索纳入大语言模型推理可以获取相关的外部知识,从而提高整体性能。

• SEARCH - R1对基础模型和指令调整后的模型均有效。这表明,基于结果奖励的DeepSeek - R1 - Zero风格强化学习(Guo等人,2025)可以成功应用于结合搜索的推理,扩展了其先前在纯推理场景中已证实的有效性。

• SEARCH - R1在不同的基础大语言模型(包括Qwen2.5和LLaMA3.2)上具有通用性。这与数学推理中强化学习的研究结果形成对比,在数学推理中,强化学习仅对某些基础大语言模型有效(Zeng等人,2025)。我们的结果表明,搜索增强的强化学习在不同模型系列中具有更广泛的适用性。

5 分析

5.1 不同的强化学习方法:PPO与GRPO

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

我们使用近端策略优化(PPO)和组相对策略优化(GRPO)作为基础强化学习方法对SEARCH - R1进行评估,并在LLaMA3.2 - 3B和Qwen2.5 - 3B模型上进行实验。图2展示了训练动态的比较,揭示了以下见解:

• GRPO在所有情况下都比PPO收敛得更快。这是因为PPO依赖于评论家模型,该模型在有效训练开始前需要几个热身步骤。

• PPO表现出更高的训练稳定性。如图2(b)所示,当应用于LLaMA3.2 - 3B - Instruct模型时,GRPO导致奖励崩溃,而PPO在不同的大语言模型架构中保持稳定。

• PPO和GRPO的最终训练奖励相当。尽管收敛速度和稳定性存在差异,但两种方法都实现了相似的最终奖励值,表明它们都可用于优化SEARCH - R1。

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

评估结果如表3所示,揭示了以下关键发现:

• GRPO通常优于PPO。在Qwen2.5 - 3B和LLaMA3.2 - 3B上,GRPO均取得了更高的平均性能,证明了其在优化检索增强推理方面的有效性。

• 指令变体的表现优于基础变体。对于Qwen2.5 - 3B,SEARCH - R1 - Instruct(GRPO)实现了最高的总体平均得分(0.365),优于所有其他配置。对于LLaMA3.2 - 3B,表现最佳的变体是SEARCH - R1 - Base(GRPO),平均得分0.324,紧随其后的是SEARCH - R1 - Instruct(PPO),平均得分0.322。

5.2 基础大语言模型与指令调整后的大语言模型

我们分析了SEARCH - R1在基础大语言模型和指令调整后的大语言模型上的训练动态。在三个模型变体(LLaMA3.2 - 3B、Qwen2.5 - 3B和Qwen2.5 - 7B)上进行实验。如图3所示,我们观察到指令调整后的模型比基础模型收敛得更快,并且初始性能更高。然而,经过训练后,两种模型类型的最终性能仍然非常相似。这一发现表明,虽然一般的训练后调整在推理加搜索场景中加速了学习,但随着时间的推移,强化学习可以有效地弥合差距,使基础模型能够达到可比的性能。

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

5.3 响应长度研究

我们使用带有LLaMA3.2 - 3b - base模型的SEARCH - R1进行实验,在自然问题(NQ)上进行训练,以分析训练过程中训练奖励和响应长度的动态变化。结果如图4(a)所示,揭示了以下关键趋势:

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

早期阶段(前100步):响应长度急剧下降,而训练奖励略有增加。在此阶段,基础模型学习消除过多的填充词,并开始适应任务要求。

中期阶段(100 - 130步):响应长度和训练奖励都显著增加。此时,大语言模型学会调用搜索引擎,由于检索到的段落,响应变长。随着模型更有效地利用搜索结果,训练奖励大幅提高。

后期阶段(130步之后):响应长度稳定下来,训练奖励继续略有增加。在此阶段,模型已经学会有效地使用搜索引擎,并专注于优化其搜索查询。鉴于自然问题(NQ)是一个相对简单的任务,响应长度稳定在大约500个令牌左右,表明模型收敛。

5.4 检索令牌损失掩码的研究

在3.1节中,我们引入了检索令牌的令牌级损失掩码,以防止意外的优化行为。在这里,我们通过分析其对训练稳定性和模型性能的影响,实证评估其有效性。

我们在LLaMA3.2 - 3b - base模型上进行实验,比较有无检索令牌损失掩码的训练动态。如图4(b)所示,应用检索令牌掩码使大语言模型有更大的改进,减轻了意外的优化影响,并确保了更稳定的训练动态。

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

表4提供了性能比较,表明使用检索令牌损失掩码训练的SEARCH - R1始终优于未使用掩码的变体。

5.5 案例研究

为了更深入地了解SEARCH - R1,我们使用Qwen2.5 - 7B - Base进行案例研究,将其行为与不使用搜索引擎的强化学习(Guo等人,2025)进行比较。结果如表5所示,揭示了以下关键观察:

Search-R1:强化学习增强大语言模型推理+搜索能力-AI.x社区

交错推理和检索增强问题分析:SEARCH - R1使大语言模型能够通过多轮检索进行深入推理,而不使用搜索的强化学习仅依赖模型的内部知识。通过整合检索到的段落,SEARCH - R1允许大语言模型迭代优化其推理,从而得出更明智、更准确的响应。

通过迭代检索进行自我验证:我们观察到,在第二轮检索后,大语言模型已经收集了足够的信息来回答问题。然而,SEARCH - R1执行了额外的检索步骤来自我验证其结论,进一步增强了其对最终响应的信心。这一现象与不使用检索的大语言模型推理强化学习的发现一致(Guo等人,2025),突出了即使在搜索增强的设置中,强化学习也可以鼓励基于验证的推理。

6 结论

在这项工作中,我们引入了SEARCH - R1,这是一种新颖的强化学习框架,使大语言模型(LLMs)能够将自我推理与实时搜索引擎交互交错进行。与现有的检索增强生成(RAG)方法不同,SEARCH - R1通过强化学习优化大语言模型的滚动输出,允许自主查询生成和对检索信息的策略性利用,而检索增强生成(RAG)方法缺乏多轮检索的灵活性,工具使用方法则需要大规模的监督训练数据。通过在七个数据集上的广泛实验,我们证明了SEARCH - R1显著增强了大语言模型处理需要实时外部知识的复杂推理任务的能力。我们的分析还为搜索增强推理的强化学习训练策略提供了关键见解。展望未来,未来的工作可以探索扩展SEARCH - R1以支持更广泛的搜索策略,包括更复杂的奖励机制、基于不确定性的动态检索调整,以及与网络搜索之外的各种信息源的集成。研究其在多模态推理任务中的适用性也很有前景。

本文转载自旺知识,作者:旺知识

已于2025-3-19 09:51:29修改
收藏
回复
举报
回复
相关推荐