Search-R1：让大模型学会“检索+推理”的新范式

发布于 2025-3-27 00:09

浏览

0收藏

今天分享一篇伊利诺伊大学的文章，标题为：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning（Search-R1：利用强化学习训练LLM进行推理并利用搜索引擎）。

这篇文章是关于如何训练大型语言模型（LLMs）有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCH-R1的框架，该框架仅仅通过强化学习（RL）让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时检索交互。
该方法特点总结如下：1）使用检索token mask技术稳定RL训练，2）支持多轮交错推理和搜索，以支持复杂的任务解决，3）设计了一个简单而有效的基于结果的奖励函数。通过在七个问答数据集上的实验，SEARCH-R1在三个LLM上实现了相对于SOTA基线的显著性能提升。

主要特点：

1.将搜索引擎建模为环境的一部分: SEARCH-R1将搜索引擎建模为环境的一部分，实现了LLM token生成与搜索引擎检索的交错序列。

2.支持多轮检索和推理: SEARCH-R1 支持由 <search> 和 </search> 标签触发的显示搜索，检索到的内容位于 <information> 和 </information> 标签内。

3.简单的奖励函数: 采用直接的基于结果的奖励函数，避免了复杂的基于过程的奖励。

一、概述

•Title:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

•URL: https://arxiv.org/abs/2503.09516v1

•Authors:Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han

•Institutions:University of Illinois at Urbana-Champaign, University of Massachusetts Amherst

•Code: https://github.com/PeterGriffinJin/Search-R1

1.Motivation

• 大型语言模型（LLMs）在复杂推理和从外部来源检索最新信息方面面临挑战（LLM非常吃外部的检索知识）。

• 现有的LLM与搜索引擎集成方法缺乏复杂的多轮检索灵活性或需要大规模的监督数据。

• 提示工程方法在推理时利用LLM来使用搜索引擎并不理想，因为LLM没有学会如何以最佳方式与搜索引擎交互。

• 总结：Å（将DeepSeek R1的强化学习方法用于Search链路还没人做过!!!）

2.Methods

SEARCH-R1通过强化学习让LLM在推理时与搜索进行交互。将搜索作为环境的一部分，采用 multi-turn 检索，并用简单的 outcome-based reward。在多个问答数据集上效果显著。

详细方法和步骤:

论文提出了一种新的强化学习框架SEARCH-R1，使LLM能够以交错的方式与搜索引擎进行交互。具体步骤如下：

Search-R1：让大模型学会“检索+推理”的新范式-AI.x社区

将搜索引擎建模为环境的一部分：SEARCH-R1将搜索引起作为环境的一部分，让模型与环境交互，从而得到 reward。
支持多轮检索和推理：SEARCH-R1通过特定的标签（<search>,</search>,<information>,</information>,<think>,</think>,<answer>,</answer>）来支持多轮检索和推理。
采用 retrieved token masking:为了稳定优化，SEARCH-R1采用 retrieved token masking, 只对LLM生成的 token 进行优化，检索的内容不参与优化。
优化算法兼容性：SEARCH-R1 与各种 RL 算法兼容，包括 PPO 和 GRPO。
简单结果奖励函数：避免复杂的基于过程的奖励, 采用简单的基于结果的奖励函数（字符串匹配作为reward!!!）。