在企业正在寻找在不同环境和应用中使用这些新模型的新方法时,将SLM部署在复杂推理任务中的能力将非常有用。
测试时扩展解释
测试时扩展(TTS)是指在推理过程中为LLM提供额外的计算周期,以提高其在各种任务上的性能。领先的推理模型,如OpenAI的o1和DeepSeek-R1,使用“内部TTS”,这意味着它们被训练为通过生成一长串思维链(CoT)标记来“缓慢思考”。
另一种方法是“外部TTS”,即借助(顾名思义)外部帮助来增强模型性能。外部TTS适用于将现有模型重新用于推理任务,而无需进一步微调。外部TTS设置通常由“策略模型”(即生成答案的主要LLM)和过程奖励模型(PRM,用于评估策略模型的答案)组成。这两个组件通过采样或搜索方法耦合在一起。
最简单的设置是“N中最佳”,其中策略模型生成多个答案,PRM选择一个或多个最佳答案来组成最终响应。更先进的外部TTS方法使用搜索。在“束搜索”中,模型将答案分解为多个步骤。对于每个步骤,它采样多个答案并通过PRM运行它们。然后,它选择一个或多个合适的候选答案,并生成答案的下一步。而在“多样验证树搜索”(DVTS)中,模型生成多个答案分支,以创建更多样化的候选响应集,然后再将它们合成为最终答案。
什么是正确的扩展策略?
选择正确的TTS策略取决于多个因素。研究作者对不同策略模型和PRM如何影响TTS方法效率进行了系统调查。
他们的研究结果表明,效率在很大程度上取决于策略模型和PRM。例如,对于小型策略模型,基于搜索的方法优于N中最佳。然而,对于大型策略模型,N中最佳更为有效,因为这些模型具有更好的推理能力,并且不需要奖励模型来验证其推理的每一步。
他们的研究结果还表明,正确的TTS策略取决于问题的难度。例如,对于参数少于70亿的小型策略模型,N中最佳在简单问题上效果更好,而束搜索在更难的问题上效果更好。对于参数在70亿至320亿之间的策略模型,多样树搜索在简单和中等难度问题上表现良好,而束搜索在难题上表现最佳。但对于大型策略模型(720亿参数及以上),N中最佳是所有难度级别的最优方法。
为什么小型模型能击败大型模型
基于这些发现,开发人员可以创建计算最优的TTS策略,这些策略考虑了策略模型、PRM和问题难度,以充分利用计算预算来解决推理问题。
例如,研究人员发现,采用计算最优TTS策略的Llama-3.2-3B模型在MATH-500和AIME24这两个复杂的数学基准测试中的表现优于Llama-3.1-405B。这表明,在使用计算最优TTS策略时,一个SLM可以击败一个比其大135倍的模型。
在其他实验中,他们发现,采用正确的计算最优TTS策略的5亿参数Qwen2.5模型可以击败GPT-4o。使用相同的策略,DeepSeek-R1的15亿参数蒸馏版本在MATH-500和AIME24上的表现优于o1-preview和o1-mini。
在考虑训练和推理的计算预算时,研究结果表明,采用计算最优扩展策略时,SLM可以用少100至1000倍的计算量(FLOPS)击败更大的模型。
研究人员的结果表明,计算最优TTS显著增强了语言模型的推理能力。然而,随着策略模型的增大,TTS的改进逐渐减小。
“这表明TTS的有效性直接与策略模型的推理能力相关,”研究人员写道,“具体而言,对于推理能力较弱的模型,扩展测试时计算量会导致显著改善,而对于推理能力较强的模型,增益则有限。”
该研究证实,在应用计算最优测试时扩展方法时,SLM的表现可以优于更大的模型。虽然本研究侧重于数学基准测试,但研究人员计划将其研究扩展到其他推理任务,如编码和化学。