截止目前,o1 等强推理模型的出现证明了 PRMs(过程级奖励模型)的有效性。
(“幕后功臣” PRMs 负责评估推理过程中的每一步是否正确和有效,从而引导 LLMs 的学习方向。)
但关键问题来了:我们如何准确评估 PRMs 本身的性能?
作为回应,复旦大学、苏州大学,上海AI Lab等联合提出了 PRMBench,它包含 6,216 条精心设计的问题和 83,456 个步骤级标签,用于评测模型细粒度的错误检测能力。
具体而言,目前主流的评估方法往往侧重于最终结果的正确性,而忽略了对推理过程中细致入微的错误类型的识别。例如,一个推理步骤可能存在冗余、部分正确、 甚至完全错误等多种状态,简单的“正确/错误”标签难以捕捉其复杂性。
而 PRMBench 提供了一个更全面、更精细化的评估工具,可以更有效地识别 PRMs 的潜在缺陷,促进相关算法的改进。
实验发现,目前 PRMs 在细粒度错误检测上仍有较大提升空间。即使是表现最佳的模型 Gemini-2-Thinking,其 PRMScore 也仅为 68.8,勉强高于随机猜测的 50.0。
即使是专门在步骤级数据上训练过的 PRMs,其表现仍不如优秀的闭源通用模型,且多步推理能力专门增强过的模型表现优于一般通用模型。
除此之外,研究人员还公布了一些其他发现和探讨。
PRMBench:一次针对PRMs的“全方位体检”
据介绍,PRMBench 并非简单的“升级版”评估数据集,而是一套经过精心设计的“体检方案”,目的是全面考察 PRMs 在不同维度上的能力。
下图为 PRMBench 的主要结构,左侧部分展示了数据整理的流程,右侧部分展示了评估主题的示例以及测试模型的相对性能表。
其主要特点包括:
- 海量且精细的标注数据:包含 6,216 个精心设计的问题,并包含 83,456 个步骤级别的标签,确保评估的深度和广度。
- 多维度、多层次的评估体系:从简洁性 (Simplicity)、合理性 (Soundness) 和敏感性 (Sensitivity) 三个主要维度出发,进一步细分为九个子类别,例如非冗余性、非循环逻辑、评价合理性、步骤一致性、领域一致性、置信度不变性、前提条件敏感性、 欺骗抵抗和一题多解一致性,力求全面覆盖PRMs可能遇到的挑战。
- 揭示现有 PRMs 的“盲区”:研究团队对 15 个代表性模型进行了广泛的实验,包括开源 PRMs 以及将强力通用语言模型提示作为 Critic Model 的模型。实验结果令人惊讶,也引人深思。
具体来说,研究的主要发现如下:
1、整体表现堪忧。即使是表现最佳的模型 Gemini-2-Thinking,其 PRMScore 也仅为 68.8,勉强高于随机猜测的 50.0。这表明,即使是最先进的 PRMs,在多步过程评估中仍然有巨大的提升空间。
2、开源 PRMs 表现更弱。开源 PRMs 的平均 PRMScore 更低至 50.1,部分模型甚至不如随机猜测,揭示了其可靠性和潜在训练偏差的问题。
3、“简洁性”成最大挑战。在 “简洁性” 维度上,即使是表现相对较好的 ReasonEval-34B,其 PRMScore 也骤降至 51.5,表明 PRMs 在识别推理过程中的冗余步骤方面能力不足。
4、 “阳性偏好”现象显著。部分模型,例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B,在评估中表现出显著的“阳性偏好”,难以区分正确和错误的步骤。
5、数据驱动的洞察。研究发现,错误步骤出现的位置也会影响PRMs的判断准确率。总的来说,随着错误步骤位置的后移,PRMs 的表现会逐渐提升。
具体提出过程
下面介绍一下具体研究过程。
提出主要问题
在一项需要举出反例的证明题实践中,研究人员观察到一个有趣的现象:
即使大语言模型 (o1) 自身意识到当前推理过程存在一些问题,仍然会产生错误的推理步骤。
更令人担忧的是, 当调用现有的 PRMs 去检测刚刚 o1 生成的推理过程时,结果却发现多数 PRMs 无法检测出这种细粒度的错误。
这一发现引出了一个关键问题:当前的 PRMs 是否具备检测推理过程中细粒度错误的能力?
下图为,当询问模型一道拉格朗日中值定理相关问题时,o1 和 PRMs 可能会产生的错误。
然而,现有针对 PRMs 评测而设计的 benchmark 大多仅仅关注步骤评判的对错,而忽视步骤评判的错误类型, 缺乏对错误类型的细致分类。
这也就意味着,目前缺少这样能够评测 PRMs 在细粒度错误上表现的综合 benchmark。
而这,正是研究人员推出 PRMBench 这一精细化基准的根本原因。
他们希望通过 PRMBench,打破现有评估的局限,真正遴选出能够有效识别细粒度错误的“优秀” PRM。
下图为 PRMBench 与其他数据集对比。
PRMBench构建
如下所示,PRMBench 包含三大评测主题:简洁性,合理性和敏感性。
- 数据来源:基于 PRM800K 构建,首先筛选出其完全正确的问题、答案以及解题步骤作为元数据。
- 错误引入:针对多数评测主题(前8个)使用 LLMs(特别是 GPT-4o)将各种细粒度的错误引入到完全正确的解题推理步骤中。对于一题多解的情况,则使用多步推理增强过的语言模型为同一问题生成不同的正确解法及其推理步骤。
- 人工验证:严格的人工审查,以确保引入错误的质量和相关性。
- 数据集统计:包含 6,216 个精心设计的问题,带有 83,456 个步骤级别的标签。
- 评估对象:分为三个主要领域。简洁性评估冗余检测能力(非冗余性、非循环逻辑);合理性评估PRM产生奖励的准确性和正确性(评价合理性、步骤一致性、领域一致性、 置信度不变性);敏感性评估对变化和误导性信息的鲁棒性(前提条件敏感性、欺骗抵抗、多解一致性)。
实验与结果
研究人员测试了 15 个模型,包括开源 PRMs (Skywork-PRM, Llemma-PRM, MATHMinos-Mistral,MathShepherd-Mistral, RLHFlow-PRM) 和提示为 Critic Models 的优秀闭源语言模型 (GPT-4o, o1-mini,Gemini-2)。
评估指标主要为:
- 负 F1 分数 (Negative F1 Score):评估错误检测性能的主要指标。
- PRMScore:将 F1 和负 F1 相结合的统一、标准化的分数,以反映整体能力。
可以看出,整体而言 PRMs 在多步过程评估中表现出有限的能力,其得分通常仅略高于随机猜测。
同时, 开源 PRMs 的表现通常不如将强力通用语言模型(如o1, Gemini-thinking等)提示为 Critic Model 的表现更好。
而且相较于其他评测主题,检测冗余 (简洁性) 被证明对 PRMs 来说尤其困难。
另外,通过 PRMBench 下模型对于正确标签测试样例(阳性数据)和错误标签测试样例(阴性数据)的得分对比及相似度来看。
许多 PRMs 表现出对正确标签的偏好,难以正确识别错误标签测试样例(阴性数据)。
且从推理步骤位于推理链中不同位置对模型 PRMScore 的影响来看,PRMs 的性能往往会随着推理步骤位于推理链中的位置逐渐靠后而提高。
最后从不同 Few shot 数目对于提示为 Critic Model 的通用语言模型表现影响来看,少样本 ICL 的影响有限。
在 reward 过程中使用不同数量示例的 In-Context Learning 对闭源模型的性能影响不大。
小结一下,PRMBench 的发布,提醒我们重新审视现有 PRMs 的能力边界。
按照研究团队的说法,“我们希望 PRMBench 能够成为推动 PRM 评估和发展研究的坚实基石”。
更多细节欢迎查阅原论文。
论文链接:https://arxiv.org/abs/2501.03124
项目主页:https://prmbench.github.io/
Code:https://github.com/ssmisya/PRMBench
Data:https://huggingface.co/datasets/hitsmy/PRMBench_Preview