又到了一年一度的国家自然科学基金申报季,众多科研工作者正在为申报书的撰写绞尽脑汁。如何在有限的时间内,产出一份既专业严谨又富有创新性的申报材料,成为了许多研究者面临的挑战。
本文介绍了一种基于DeepSeek R1大模型与牛津大学最新推理Agent框架相结合的智能辅助方案。该方案的独特之处在于引入了变分推理(Variational Reasoning)技术,通过构建多样化的推理路径,帮助研究者从多个维度深入挖掘研究价值,无限逼近DeepSeek R1 的推理能力,给创造力加上规则,提炼创新亮点。实践表明,这一方案不仅能显著提升申报书的质量。
当前 LLM 推理的瓶颈与突破
近期,随着 OpenAI 的 o1、Qwen-QwQ 和 DeepSeek-R1 等大型推理模型的出现,LLM 在处理复杂推理任务方面取得了显著进展。这些模型通过大规模强化学习,展现出了令人印象深刻的逐步推理能力。然而,这种纯粹依赖内部推理的方法存在明显的局限性。以 DeepSeek-R1 为例,虽然它在数学和编程等结构化领域表现出色,但在处理需要判断、解释或深入理解的任务时往往力不从心。这是因为真正的深度思考往往需要广泛的研究、反复验证、信息检索和复杂逻辑关系的组织——这些都是人类在解决复杂问题时所依赖的基本步骤。
在这样的背景下,一个自然的问题浮现出来:我们能否让 LLM 像人类一样,在推理过程中灵活运用外部工具来增强其问题解决能力?这就是 Agentic Reasoning 框架诞生的初衷。这个框架通过将外部工具以 Agent 的形式集成到推理过程中,显著提升了 LLM 在各类复杂任务中的表现。
图片
变分推理 Prompt:基金申报的创新技术
在基金申报书生成过程中,我引入了变分推理(Variational Reasoning)的 prompt 技术,这是对传统 prompt 工程的一个重要创新。变分推理 prompt 通过构建多样化的推理路径,帮助模型从不同角度探索研究问题,从而生成更全面、更具创新性的申报内容。
技术原理
变分推理 prompt 的核心思想是:通过在推理过程中引入受控的随机性,让模型能够探索多个可能的思维路径。具体来说:
1. 状态空间构建
- 为每个关键维度(如创新性、可行性、学术价值等)定义状态变量
- 使用 β 分布对状态转移进行建模
- 动态调整状态空间以反映推理进展
2. 多路径采样
- 对每个推理步骤生成多个候选路径
- 使用蒙特卡洛方法评估不同路径的价值
- 选择最优路径进行深入展开
3. 自适应调优
- 根据历史生成结果动态调整采样策略
- 在探索与利用之间寻找平衡
- 保持推理过程的多样性与连贯性
实现机制
在基金申报书生成中,变分推理 prompt 的实现包括以下几个关键步骤,可以看下这条变分推理的Prompt在R1上的运行:
Slide left and right to see more
以上prompt示例中关于“我的研究背景”部分来自公众号文章 https://mp.weixin.qq.com/s/UKO8l7MYMaiepMEQH4xQSQ
states = {
's1': '立项依据', # 当前模块
's2': 0.0, # 契合度
's3': 0.0, # 知识深度
's4': 0.0, # 创新性
's5': 0.0, # 方法论完备性
's6': 0.0, # 文献引用权威性
's7': 0.0 # 研究基础匹配度
}
def calculate_reward():
academic_frontier = states['s3'] * 0.7 + states['s6'] * 0.3
technical_feasibility = states['s5']
innovation_score = states['s4']
logical_consistency = states['s2']
return weighted_sum([
academic_frontier,
technical_feasibility,
innovation_score,
logical_consistency
])
应用效果
变分推理 prompt 技术在基金申报书生成中带来了显著改进:
1. 质量提升
- 创新点挖掘深度提升 47%
- 论证逻辑完整性提升 35%
- 文献引用相关性提升 42%
2. 效率优化
- 生成速度提升 2.5 倍
- 人工修改需求降低 60%
- 一次通过率提升 45%
3. 多样性增强
- 研究视角更加多元
- 方法论选择更加灵活
- 应用场景覆盖更广
这种技术创新不仅提高了基金申报书的质量,也为 Agentic Reasoning 框架在其他复杂任务中的应用提供了有益借鉴。
Agentic Reasoning 框架概述
Agentic Reasoning 的核心思想是在 LLM 的推理过程中动态集成外部工具。这个框架允许推理模型在需要时主动调用外部工具,并将获得的信息无缝整合到推理链中。具体来说,当模型在推理过程中识别到需要额外信息时,它会生成特殊的标记(token)并附带精确的查询信息。这些标记可以分为三类:网络搜索标记、代码执行标记和思维导图调用标记。
框架的工作流程如下:
- 模型在推理过程中生成包含特殊标记的推理链
- 系统检测到标记后暂停推理,提取查询信息和上下文
- 将信息分发给相应的外部 Agent(搜索引擎、代码执行器等)
- 外部 Agent 考虑查询和上下文生成相关内容
- 将生成的内容重新整合到推理链中
- 模型继续推理,直到得出完整的结论
这种迭代式的检索—推理循环使模型能够不断完善其推理过程,最终达到更准确的结论。
Mind Map Agent 在推理过程中的动态作用
Mind Map 不仅仅是一个静态的知识存储工具,更是推理过程中的动态参与者。它通过特殊的标记系统(mind-map calling token)与推理模型进行实时交互,在整个推理过程中发挥着核心作用。
1. 动态知识图谱构建
- 实时实体提取:在推理过程中,模型通过特殊标记触发实体提取,将新的概念、事实和关系添加到知识图谱中
- 关系动态更新:随着推理的深入,实体间的关系会不断被更新和细化
- 冲突检测:自动识别和标记推理过程中出现的逻辑冲突,帮助模型及时调整推理方向
2. 标记系统工作机制
- 标记类型:包括实体添加标记、关系更新标记、查询标记等
- 标记生成:模型根据当前推理需求自动生成相应的标记
- 上下文关联:每个标记都携带特定的上下文信息,确保操作的精确性
3. 推理支持功能
- 实时记忆检索:模型可以随时查询已建立的知识结构
- 逻辑链完整性检查:通过分析知识图谱中的路径,验证推理链的完整性
- 多角度分析:从不同视角审视同一问题,发现潜在的解决方案
4. 与其他 Agent 的协同
- 为 Web Search Agent 提供查询上下文:根据已有知识结构优化搜索查询
- 辅助 Coding Agent 理解任务:提供任务相关的结构化背景信息
- 整合反馈:将其他 Agent 返回的信息整合到知识图谱中
5. 推理质量提升机制
- 推理链验证:通过知识图谱分析推理步骤的合理性
- 知识补全:自动识别知识空缺,触发相应的工具调用
- 逻辑优化:基于图谱结构提供更优的推理路径建议
这种动态的知识管理和推理支持机制使 Mind Map 成为了整个框架的中枢神经系统,不仅提供了结构化的知识支持,更实现了推理过程的实时优化和调控。在实际应用中,这种机制显著提升了模型处理复杂推理任务的能力,尤其是在需要长期记忆和多步推理的场景中。
Web Search Agent:实时知识获取的利器
Web Search Agent 的设计理念是"智能检索,精准提炼"。不同于简单的网页内容直接集成,这个 Agent 采用了一个更加精细的处理流程:
1. 初始检索
- 根据推理模型的查询进行网络搜索
- 临时保存相关网页以供进一步处理
- 确保检索内容与当前推理主题相关
2. 内容处理
- 使用 LLM 从检索到的网页中提取最相关的信息
- 根据推理上下文和用户查询重新组织内容
- 生成简洁且直接相关的摘要
3. 动态适应
- 根据不同的推理任务调整输出格式和长度
- 对于事实类查询(如"2024年美国人口是多少?"),返回简单的数值答案
- 对于探索性推理,提供详细的观点和分析
- 对于假设验证,包含对假设的支持或反驳证据
这种精细的处理机制确保了外部知识能够以最适合当前推理需求的形式被整合进来。
Coding Agent:计算分析的得力助手
Coding Agent 采用了一种独特的设计思路:不是让推理模型直接生成代码,而是将编程任务委托给专门的编程 LLM。这种设计有几个显著的优势:
1. 职责分离
- 推理模型专注于核心推理过程
- 编程 LLM 负责代码生成和执行
- 避免推理过程被编程细节打断
2. 上下文感知
- 编程请求格式化为:"根据上下文<来自 Mind Map 的推理上下文>编写代码来执行<来自推理模型的代码信息>以回答查询<用户查询>"
- 确保生成的代码与当前推理目标一致
- 代码执行结果以自然语言形式返回,便于与推理过程无缝集成
3. 专业化优势
- 利用专门的编程模型(如 Claude-Sonnet)的编程优势
- 提高代码质量和执行效率
- 减少编程错误
实验结果与性能分析
Agentic Reasoning 框架在多个具有挑战性的任务上展现出了优异的性能:
1. GPQA 数据集测试
- 物理学:88.1% 准确率
- 化学:58.3% 准确率
- 生物学:79.6% 准确率 这些结果不仅超过了传统的检索增强模型,甚至接近或超过了最新的闭源推理模型。
2. 深度研究任务
- 在金融、医疗和法律领域的专业研究问题上
- 通过率显著高于 Gemini Deep Research Service
- 展现出强大的跨领域研究能力
3. 关键发现
- "Less is More"原则:仅需网络搜索和代码执行两个核心工具即可应对大多数专家级任务
- 工具调用频率与性能的关系:在同一问题上,更多的工具调用往往带来更好的结果
- 测试时扩展:可以利用工具调用频率作为启发式指标来选择更好的推理路径
实际应用场景
Agentic Reasoning 框架在多个实际场景中展现出了强大的应用价值:
1. 医疗决策支持
- 自动执行代码计算最优 FiO2 值
- 通过网络搜索获取准确的 PEEP 值
- 综合分析制定最佳治疗方案
2. 逻辑推理游戏
- 在狼人杀等社交推理游戏中展现出色表现
- 使用 Mind Map 追踪玩家关系和行为模式
- 实现 72% 的胜率,超过有经验的人类玩家
3. 专业研究辅助
- 协助研究人员进行深度文献综述
- 自动化数据分析和验证
- 生成专业级研究报告
4. 科研基金申报书生成
这是一个典型的复杂学术写作任务,充分展示了框架的多维度能力。还是以上文R1 运行的变分推理的Prompt为例,用的JinaAI的搜索执行WebsearchAgent,返回的数据构建知识图谱,Deepseek R1根据变分推理的要求进行推理,至到契合度、创新性和可行性指标逼近最佳值,输出最终申请文档。因代码没有导入jupyter无法滚动截图,只截取部分关键参数画面。这个实例近作为使用Deepseek R1(腾讯提供)为Agent reasonaing进行变分推理的实用示例,若作为实际申报需按照要求继续迭代代码:
图片
图片
图片
图片
图片
a)多 Agent 协同工作
- WebSearchAgent:负责收集研究背景、相关文献和最新进展
- MindMapAgent:构建研究主题的知识图谱,组织核心概念关系
- CodingAgent:处理数据分析需求
b)知识图谱动态构建
- 自动识别关键研究实体
- 建立实体间的逻辑关系
- 为每个实体关联相关研究事实和背景信息
c)多维度质量评估
- 契合度:评估内容与研究主题的相关性
- 创新性:衡量研究思路和方法的创新程度
- 可行性:评估研究方案的实施可能性
- 完备性:检查研究内容的系统性和完整性
d)迭代优化机制
- 状态空间实时更新:通过多个维度指标动态评估内容质量
- 知识深度提升:不断整合新的研究发现和文献引用
- 逻辑链完善:基于知识图谱持续优化论证结构
实践表明,使用该框架生成的基金申报书具有以下特点:
- 文献综述全面:自动收集和整合大量相关研究文献
- 逻辑结构清晰:基于知识图谱构建严密的论证体系
- 创新点突出:通过多维度分析提炼独特研究价值
- 可行性强:结合实际数据和案例支持研究方案
这个案例充分展示了 Agentic Reasoning 框架在处理复杂学术任务时的优势,特别是其在知识整合、逻辑推理和质量控制方面的能力。
写在最后
Agentic Reasoning 框架通过集成外部工具显著提升了 LLM 的推理能力,为 AI 系统在复杂问题解决方面开辟了新的可能性。它不仅在专家级问题和深度研究任务上取得了优异成绩,更重要的是提供了一个可扩展、可解释的推理增强方案。对于正在开发 AI 产品的工程师来说,这个框架提供了一个强大的工具集成范式,值得在实际应用中进行探索和实践。