Fin-R1：通过强化学习实现金融推理的大语言模型原创

发布于 2025-4-7 06:34

浏览

0收藏

摘要

推理大语言模型（LLMs）正在各个领域快速发展，但其处理复杂金融问题的能力仍需深入探索。本文介绍了Fin-R1，一个专为金融推理设计的大语言模型。该模型参数规模轻量（70亿），显著降低了部署成本，同时有效解决了金融领域的三大痛点：碎片化的金融数据、不可控的推理逻辑以及薄弱的业务泛化能力。为提升模型推理能力，我们首先通过从多个权威数据集蒸馏和筛选，构建了Fin-R1-Data——一个包含约60,091条完整思维链（CoT）的高质量数据集，涵盖推理和非推理金融场景。随后，我们基于该数据集进行监督微调（SFT）和强化学习（RL）训练。这种两阶段框架显著增强了模型执行复杂金融推理任务的能力，使其在金融AI应用中能够做出更准确且可解释的决策。尽管Fin-R1仅有70亿参数的紧凑结构，但在覆盖多种金融业务场景的权威基准测试中表现优异，平均得分75.2，综合排名第二，显著优于其他大规模推理LLMs。值得注意的是，Fin-R1优于DeepSeek-R1-Distill-Llama-70B，展现了其高效性和有效性。在专注于金融推理的ConvFinQA和FinQA任务中，Fin-R1分别取得了85.0和76.0的先进水平得分。在实际应用中，Fin-R1在金融合规和机器人投顾等领域展现了强大的自动化推理和决策能力，为长期困扰金融行业的挑战提供了高效解决方案。代码已开源：https://github.com/SUFE-AIFLM-Lab/Fin-R1。

1 引言

近年来，大语言模型（LLMs）的快速迭代显著推动了人工智能向通用人工智能（AGI）的演进。OpenAI的o1系列模型通过“探索-反思-迭代”机制扩展“思维链”推理过程的长度，增强了解决复杂推理任务的能力。类似的o1类LLMs，如QwQ和Marco-o1，在数学、编程和逻辑推理等多种任务中取得了显著进步。金融领域的o1模型复现版本，如XuanYuan-FinX1-Preview和Fino1，也展示了LLMs在模拟人类认知过程和处理复杂任务方面的巨大潜力。DeepSeek-R1采用了与o1类模型完全不同的方法，通过纯强化学习（RL）增强大语言模型的推理能力。经过数千步的无监督RL训练，结合少量冷启动数据和多阶段训练框架，该模型在基准测试中展现出涌现的推理能力。同时，这种训练策略进一步优化了模型的推理性能和可读性，证明了RL驱动方法在提升大规模语言模型推理能力方面的有效性。

然而，通用推理模型应用于金融领域时，仍面临垂直场景适配的挑战。金融推理任务通常涉及法律条款、经济指标和数学建模等知识，不仅需要跨学科知识的整合，还要求推理逻辑可验证且步骤清晰。在真实金融业务场景中应用LLMs时，常遇到以下问题：

1. 金融数据碎片化：数据不一致不仅增加了预处理复杂度，还可能导致信息冗余或缺失，削弱模型对金融领域的全面理解和推理能力。

2. 黑盒推理逻辑：现有模型的复杂结构使其推理过程难以直观解释，与金融监管对透明性和可追溯性的要求相矛盾，限制了模型在关键金融业务中的应用。

3. 金融场景泛化能力不足：现有模型在不同场景中表现不稳定，难以及时迁移和泛化到新业务场景，导致高风险金融应用中输出不可靠。

为解决通用推理模型在金融领域的挑战，本文提出Fin-R1——专为金融推理设计的大语言模型。通过重构高质量金融推理数据集并采用两阶段训练框架，Fin-R1有效解决了金融数据碎片化、推理逻辑不可控和业务泛化能力弱三大核心问题。主要贡献如下：

- 高质量金融推理数据集：提出Fin-R1-Data，一个从多权威金融数据集蒸馏筛选的高质量CoT数据集，专为专业金融推理场景设计，覆盖中英文金融垂直领域的多维专业知识。

- 显式金融推理大语言模型：提出Fin-R1，基于多维金融业务数据集训练，精准满足金融行业对决策过程、数值严谨性和业务泛化能力的核心需求。

- 两阶段模型构建框架：提出包含高质量CoT数据集构建和SFT+RL模型训练的两阶段工作流框架，显著提升模型金融推理性能。

报告结构如下：第2节详细描述方法框架；第3节简述多金融基准测试的实验结果；第4节总结技术贡献并展望未来研究方向。

2 方法

2.1 概述

我们提出了如图1所示的两阶段模型构建框架。在数据生成阶段，我们基于DeepSeek-R1进行数据蒸馏，并采用LLM-as-Judge（Xu et al., 2023）的数据过滤方法，构建高质量金融推理数据集Fin-R1-Data。在模型训练阶段，我们基于Qwen2.5-7B-Instruct构建金融推理模型Fin-R1，通过监督微调（SFT）和组相对策略优化算法（GRPO）（Shao et al., 2024）提升模型推理能力并规范化输出格式。

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

图1：Fin-R1构建流程示意图。展示了Fin-R1的两阶段构建框架：数据生成阶段（使用DeepSeek-R1生成CoT数据，并通过Qwen2.5-72B-Instruct进行质量过滤）和模型训练阶段（包括Fin-R1的SFT预训练和GRPO优化）。右侧突出显示了Fin-R1在金融代码生成、专业知识和业务知识方面的性能表现。

2.2 数据构建

我们的目标是开发Fin-R1-Data，一个专为金融领域设计的高质量监督微调（SFT）数据集。为此，我们设计了稳健且全面的数据构建流程，包括数据蒸馏和数据过滤，以确保数据集的准确性和可靠性。数据构建的详细流程如图2所示。

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

图2：第一阶段数据构建流程：(1)数据蒸馏，(2)答案检查（通过LLM评估DeepSeek-R1生成答案的准确性），(3)推理选择（通过LLM评估和评分推理轨迹以确保逻辑连贯性和质量）。"Reasoning"表示推理输出，"Thinking"指评判模型的评估过程。

2.2.1 数据来源

Fin-R1-Data共包含60,091条独立条目，涵盖中英双语内容。数据集主要由开源数据集和专有数据集两部分组成。开源数据集包括：

- Ant_Finance（Alipay Team, 2023）

- FinanceIQ（Duxiaoman DI Team, 2023b）

- Quant-Trading-Instruct (FinanceQT)（Malik, 2024）

- ConvFinQA（Chen et al., 2022）

- FinQA（Chen et al., 2021）

- Twitter-Financial-News-Sentiment (TFNS)（Anonymous, 2024）

- Finance-Instruct-500K（Flowers, 2025）

- FinCorpus（Duxiaoman DI Team, 2023a）

- FinCUGE（Lu et al., 2023）

专有数据集部分为金融研究生入学考试（FinPEE）数据集，包含350道金融研究生入学考试的计算题。FinPEE的构建遵循严格的多阶段流程：

1. 首先以PDF格式收集数据，并使用Mineru（Wang et al., 2024a）批量转换为Markdown格式。

2. 随后通过正则化技术提取结构化问答对（Q-A）。

3. 为确保数据完整性和准确性，所有提取的Q-A对均经过人工审查和验证，最终形成高质量的金融研究生考试题目数据集。

Fin-R1-Data的组成结构如图3所示。

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

图3：Fin-R1-Data的组成结构：(1)金融代码，(2)金融专业知识，(3)金融推理知识，(4)金融非推理知识。

表1系统展示了Fin-R1-Data中各类别的描述、数据来源及比例分布。数据集主要由金融非推理业务知识和金融推理业务知识构成，合计占比77.9%。这两类数据全面覆盖了真实金融业务场景的广泛操作流程。此外，金融专业知识是数据集的重要组成部分，涵盖多个金融子领域的关键概念，占比21.9%。Fin-R1-Data还包含专门用于量化交易策略开发的金融代码数据，但仅占0.2%。

表1：Fin-R1-Data的类别及来源

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

2.2.2 数据处理

数据处理包括数据蒸馏和数据过滤两个阶段。

数据蒸馏阶段的参数配置严格遵循DeepSeek-R1官方规范，具体设置如下：

1. 温度（temperature）设为0.6。

2. 对于数学数据，使用标准化提示：“请用\boxed{}包裹最终答案”，以确保答案格式一致。

3. 为保持与目标推理模式对齐，在生成数据前强制在每个输出开头追加“\n”。

数据过滤阶段包含两个主要部分：

1. 答案检查（评估模型生成答案的准确性）：仅保留与参考答案完全匹配的响应。若DeepSeek-R1生成的答案与数据集提供的标准答案不符，则直接丢弃。对于客观题，采用精确匹配确保正确性；对于主观题，采用LLM-as-Judge评估答案有效性。

2. 推理筛选（评估推理轨迹的质量）：从Xie et al.（2024）的研究中提炼出七个关键维度——内部一致性、术语重叠率、推理步骤数量、逻辑连贯性、内容多样性、任务领域相关性和任务指令对齐性，用于全面评估模型的推理轨迹数据。

为确保过滤过程的稳健性，我们对比了人工标注者与模型的评分相关性。结果显示，Qwen2.5-72B-Instruct的评分与人工判断高度一致，仅存在微小偏差，而GPT-4o的偏差较大（详见附录A.2）。因此，我们选择Qwen2.5-72B-Instruct评估推理轨迹质量，并基于评分筛选高质量轨迹，最终形成用于监督微调（SFT）的优化数据集。图4展示了高质量与低质量推理轨迹的对比示例。

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

图4：高质量和低质量推理选择过滤的示例

2.3 训练方法

Fin-R1首先通过监督微调（SFT）使用高质量金融推理数据集进行训练，以增强其推理能力。在此基础上，我们采用强化学习实现组相对策略优化（GRPO），结合金融问答数据和双奖励机制，提升答案格式和内容的准确性。图5直观总结了整体训练框架，展示了监督学习与强化学习的协同整合。

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

图5：第二阶段训练构建流程。SFT阶段：基础模型使用结构化推理增强数据集进行SFT，重点提升金融推理能力。RL阶段：应用GRPO算法，引入组计算机制提供两种奖励信号——格式正确性和内容准确性。

2.3.1 训练数据模板

SFT训练数据：在监督微调阶段，训练数据集V中的每个样本v包含三个部分，即v = (x, c, y)，其中：

- x表示问题

- c表示推理轨迹，格式化为...

- y表示答案，格式化为...

在SFT阶段，x作为训练集输入，c和y作为训练集输出。此阶段使模型学习结构化金融推理模式，优化参数以生成格式良好的推理轨迹和准确答案。

RL训练数据：在强化学习阶段，每个样本v = (x, y)，其中x为问题，y为模型输出（仅含答案，不含推理轨迹）。强化学习通过提升答案准确性和格式合规性进一步优化输出质量。

2.3.2 监督微调(SFT)

我们首先在Qwen2.5-7B-Instruct模型上进行监督微调，特别针对金融推理的关键方面进行优化。这一微调过程有效缓解了通用模型在金融推理任务中出现的推理失败问题。训练数据由ConvFinQA和FinQA数据集组成。经过SFT后，模型在金融推理方面表现出显著提升的性能，详见表2。

2.3.3 组相对策略优化(GRPO)

在强化学习阶段，我们采用组相对策略优化(GRPO)算法。

对于每次训练迭代，我们从旧策略π_old中采样G个候选输出{α_i}^G_i=1。每个输出获得奖励r_i，据此我们计算组相对优势A_i：

A_i = (r_i - μ_{r})/σ_{r}

其中μ_{r}和σ_{r}分别表示组内奖励值的均值和标准差。超过组平均值的输出将获得更高的优势值以进行优先优化。策略更新通过最大化以下目标函数实现：

J_GRPO(θ) = E_{v∼P(V),{α_i}^G_i=1∼π_{θ,old}(O|v)}

[1/G Σ^G_i=1 (min(r^ratio_i A_i, clip(r^ratio_i,1-ε,1+ε)A_i) - βD_KL(π_θ||π_ref))]

其中：

- r^ratio_i = π_θ(α_i|v)/π_{θ,old}(α_i|v)表示重要性采样比率

- A_i表示组相对优势

- clip(r^ratio_i,1-ε,1+ε)将更新幅度限制在信任区域内

- D_KL(π_θ||π_ref)是KL散度

- β是超参数

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

2.3.4 奖励函数设计

在基于GRPO训练奖励模型的过程中，我们采用两种奖励机制：格式奖励和准确度奖励。

格式奖励：我们鼓励输出包含...标签内的推理步骤序列和...标签内的简明最终答案。如果所有四个标签恰好出现一次且标签外无额外内容，则给予1分格式奖励分，否则为0分。格式奖励函数定义如下：

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

准确度奖励：在金融场景中，我们发现难以通过基于规则的方法穷尽列举答案正则表达式。因此采用Qwen2.5-Max作为答案评估的评判者。从模型输出中提取...标签内的内容作为标准答案。如果标签内输出与标准答案语义一致，则奖励1分，否则为0分。准确度奖励函数定义如下：

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

2.4 评估

2.4.1 评估数据集

我们通过系统验证五个代表性开源异构数据集建立金融领域多任务基准框架：FinQA、ConvFinQA、Ant-Finance、TFNS和Finance-Instruct-500k。为控制成本并保持数据分布相对统一，每个评估集随机采样1,000条数据进行评估，若不足1,000条则评估全部。

2.4.2 评估方法

本研究采用的金融评估数据集(除Finance-Instruct-500k外)均采用客观题形式，具有确定唯一的参考答案。鉴于数值计算问题可能导致模型输出与参考答案在表示形式上存在差异(如图6所示，表现为百分数与小数表示的等效转换问题或有效数字保留差异)，我们采用大语言模型作为自动评估评判者进行答案检查，采用Zhu等人(2024)提出的提示设计和评估方法。

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

图6：模型输出与真实答案的差异展示。图5(a)展示小数位差异，图5(b)展示表达形式差异。

3 实验

3.1 基线模型

为全面评估Fin-R1在金融场景中的推理能力，我们与多个最先进模型进行了全面对比评估，包括：DeepSeek-R1、Fin-R1-SFT、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct和Qwen-2.5-32B-Instruct。这些模型涵盖了从轻量级到高性能架构的完整谱系，综合考虑了推理能力和计算资源消耗等因素。

3.2 结果

在覆盖多个金融业务场景的综合基准评估中，Fin-R1尽管只有轻量级的7B参数量，仍展现出显著的性能优势。它以平均75.2分的成绩总体排名第二，仅比DeepSeek-R1(78.2分)低3分，同时以6分优势超越DeepSeek-R1-Distill-Llama-70B(69.2分)。Fin-R1在两个推理任务中排名第一：FinQA(76.0分)和ConvFinQA(85.0分)，超越了所有竞争模型。虽然Fin-R1主要针对FinQA和ConvFinQA进行了专门训练，但在其他金融基准测试(Ant_Finance、TFNS和Finance-Instruct-500K)中也表现出显著性能提升，表明该模型具有强大的跨任务泛化能力。

表2：不同金融基准测试中的评估结果

Fin-R1：通过强化学习实现金融推理的大语言模型-AI.x社区

4 结论与未来工作

我们提出了金融推理大语言模型Fin-R1，有效解决了金融AI应用中的三大核心挑战：碎片化的金融数据、不可控的推理逻辑和薄弱的业务泛化能力。通过构建高质量金融推理CoT数据集Fin-R1-Data，再通过SFT和RL训练模型，形成了金融领域内的两阶段工作流框架。Fin-R1在ConvFinQA和FinQA上分别取得85.0和76.0分的先进水平表现。未来我们将聚焦于金融科技领域的整合与创新：一方面优化金融多模态场景架构，深化其在尖端领域的应用探索；另一方面推动LLMs在金融领域的广泛应用，深化与金融应用的整合以增强风险管理和监管合规，最终扩展模型的实际效用。

局限性

尽管模型在金融领域取得了显著改进，我们的研究仍存在三个主要局限：

1. 训练数据集覆盖范围有限：当前训练数据仅局限于ConvFinQA和FinQA

2. 单模态架构限制：纯文本架构难以处理包含视觉元素的财务报告

3. 封闭场景关注偏差：当前评估主要针对有明确标准答案的推理问题

我们相信这些改进将显著提升模型在真实金融场景中的适用性和有效性。

本文转载自公众号AIRoobt ，作者：Zhaowei Liu等

原文链接：https://mp.weixin.qq.com/s/3fFOE_gh_dOxyLZ4mLQ41w

标签

Fin-R1

强化学习

大语言模型

已于2025-4-7 06:34:20修改

51CTO

51CTO博客

51CTO学堂

Fin-R1：通过强化学习实现金融推理的大语言模型原创

摘要

1 引言