小型语言模型借TTS反超大模型-51CTO.COM

在企业正在寻找在不同环境和应用中使用这些新模型的新方法时，将SLM部署在复杂推理任务中的能力将非常有用。

测试时扩展解释

测试时扩展(TTS)是指在推理过程中为LLM提供额外的计算周期，以提高其在各种任务上的性能。领先的推理模型，如OpenAI的o1和DeepSeek-R1，使用“内部TTS”，这意味着它们被训练为通过生成一长串思维链(CoT)标记来“缓慢思考”。

另一种方法是“外部TTS”，即借助(顾名思义)外部帮助来增强模型性能。外部TTS适用于将现有模型重新用于推理任务，而无需进一步微调。外部TTS设置通常由“策略模型”(即生成答案的主要LLM)和过程奖励模型(PRM，用于评估策略模型的答案)组成。这两个组件通过采样或搜索方法耦合在一起。

最简单的设置是“N中最佳”，其中策略模型生成多个答案，PRM选择一个或多个最佳答案来组成最终响应。更先进的外部TTS方法使用搜索。在“束搜索”中，模型将答案分解为多个步骤。对于每个步骤，它采样多个答案并通过PRM运行它们。然后，它选择一个或多个合适的候选答案，并生成答案的下一步。而在“多样验证树搜索”(DVTS)中，模型生成多个答案分支，以创建更多样化的候选响应集，然后再将它们合成为最终答案。

什么是正确的扩展策略?

选择正确的TTS策略取决于多个因素。研究作者对不同策略模型和PRM如何影响TTS方法效率进行了系统调查。

他们的研究结果表明，效率在很大程度上取决于策略模型和PRM。例如，对于小型策略模型，基于搜索的方法优于N中最佳。然而，对于大型策略模型，N中最佳更为有效，因为这些模型具有更好的推理能力，并且不需要奖励模型来验证其推理的每一步。

他们的研究结果还表明，正确的TTS策略取决于问题的难度。例如，对于参数少于70亿的小型策略模型，N中最佳在简单问题上效果更好，而束搜索在更难的问题上效果更好。对于参数在70亿至320亿之间的策略模型，多样树搜索在简单和中等难度问题上表现良好，而束搜索在难题上表现最佳。但对于大型策略模型(720亿参数及以上)，N中最佳是所有难度级别的最优方法。

为什么小型模型能击败大型模型

基于这些发现，开发人员可以创建计算最优的TTS策略，这些策略考虑了策略模型、PRM和问题难度，以充分利用计算预算来解决推理问题。

例如，研究人员发现，采用计算最优TTS策略的Llama-3.2-3B模型在MATH-500和AIME24这两个复杂的数学基准测试中的表现优于Llama-3.1-405B。这表明，在使用计算最优TTS策略时，一个SLM可以击败一个比其大135倍的模型。

在其他实验中，他们发现，采用正确的计算最优TTS策略的5亿参数Qwen2.5模型可以击败GPT-4o。使用相同的策略，DeepSeek-R1的15亿参数蒸馏版本在MATH-500和AIME24上的表现优于o1-preview和o1-mini。

在考虑训练和推理的计算预算时，研究结果表明，采用计算最优扩展策略时，SLM可以用少100至1000倍的计算量(FLOPS)击败更大的模型。

研究人员的结果表明，计算最优TTS显著增强了语言模型的推理能力。然而，随着策略模型的增大，TTS的改进逐渐减小。

“这表明TTS的有效性直接与策略模型的推理能力相关，”研究人员写道，“具体而言，对于推理能力较弱的模型，扩展测试时计算量会导致显著改善，而对于推理能力较强的模型，增益则有限。”

该研究证实，在应用计算最优测试时扩展方法时，SLM的表现可以优于更大的模型。虽然本研究侧重于数学基准测试，但研究人员计划将其研究扩展到其他推理任务，如编码和化学。