小型语言模型借TTS反超大模型

人工智能
上海AI实验室研究发现,借助测试时扩展(TTS)技术,小型语言模型在复杂推理任务中可超越大型模型,且计算量更少。研究验证了计算最优TTS策略的有效性,并计划扩展至其他推理任务。

在企业正在寻找在不同环境和应用中使用这些新模型的新方法时,将SLM部署在复杂推理任务中的能力将非常有用。

测试时扩展解释

测试时扩展(TTS)是指在推理过程中为LLM提供额外的计算周期,以提高其在各种任务上的性能。领先的推理模型,如OpenAI的o1和DeepSeek-R1,使用“内部TTS”,这意味着它们被训练为通过生成一长串思维链(CoT)标记来“缓慢思考”。

另一种方法是“外部TTS”,即借助(顾名思义)外部帮助来增强模型性能。外部TTS适用于将现有模型重新用于推理任务,而无需进一步微调。外部TTS设置通常由“策略模型”(即生成答案的主要LLM)和过程奖励模型(PRM,用于评估策略模型的答案)组成。这两个组件通过采样或搜索方法耦合在一起。

最简单的设置是“N中最佳”,其中策略模型生成多个答案,PRM选择一个或多个最佳答案来组成最终响应。更先进的外部TTS方法使用搜索。在“束搜索”中,模型将答案分解为多个步骤。对于每个步骤,它采样多个答案并通过PRM运行它们。然后,它选择一个或多个合适的候选答案,并生成答案的下一步。而在“多样验证树搜索”(DVTS)中,模型生成多个答案分支,以创建更多样化的候选响应集,然后再将它们合成为最终答案。

什么是正确的扩展策略?

选择正确的TTS策略取决于多个因素。研究作者对不同策略模型和PRM如何影响TTS方法效率进行了系统调查。

他们的研究结果表明,效率在很大程度上取决于策略模型和PRM。例如,对于小型策略模型,基于搜索的方法优于N中最佳。然而,对于大型策略模型,N中最佳更为有效,因为这些模型具有更好的推理能力,并且不需要奖励模型来验证其推理的每一步。

他们的研究结果还表明,正确的TTS策略取决于问题的难度。例如,对于参数少于70亿的小型策略模型,N中最佳在简单问题上效果更好,而束搜索在更难的问题上效果更好。对于参数在70亿至320亿之间的策略模型,多样树搜索在简单和中等难度问题上表现良好,而束搜索在难题上表现最佳。但对于大型策略模型(720亿参数及以上),N中最佳是所有难度级别的最优方法。

为什么小型模型能击败大型模型

基于这些发现,开发人员可以创建计算最优的TTS策略,这些策略考虑了策略模型、PRM和问题难度,以充分利用计算预算来解决推理问题。

例如,研究人员发现,采用计算最优TTS策略的Llama-3.2-3B模型在MATH-500和AIME24这两个复杂的数学基准测试中的表现优于Llama-3.1-405B。这表明,在使用计算最优TTS策略时,一个SLM可以击败一个比其大135倍的模型。

在其他实验中,他们发现,采用正确的计算最优TTS策略的5亿参数Qwen2.5模型可以击败GPT-4o。使用相同的策略,DeepSeek-R1的15亿参数蒸馏版本在MATH-500和AIME24上的表现优于o1-preview和o1-mini。

在考虑训练和推理的计算预算时,研究结果表明,采用计算最优扩展策略时,SLM可以用少100至1000倍的计算量(FLOPS)击败更大的模型。

研究人员的结果表明,计算最优TTS显著增强了语言模型的推理能力。然而,随着策略模型的增大,TTS的改进逐渐减小。

“这表明TTS的有效性直接与策略模型的推理能力相关,”研究人员写道,“具体而言,对于推理能力较弱的模型,扩展测试时计算量会导致显著改善,而对于推理能力较强的模型,增益则有限。”

该研究证实,在应用计算最优测试时扩展方法时,SLM的表现可以优于更大的模型。虽然本研究侧重于数学基准测试,但研究人员计划将其研究扩展到其他推理任务,如编码和化学。

责任编辑:庞桂玉 来源: 企业网D1Net
相关推荐

2024-12-12 09:11:58

2024-09-29 10:56:58

2020-02-11 09:30:08

微软浏览器Windows

2024-05-16 11:34:55

2024-12-13 15:53:58

VLM小型视觉语言模型LLM

2023-01-04 13:33:19

AI模型

2017-06-02 10:58:00

统计语言模型

2024-08-09 16:22:34

2024-12-09 08:15:43

2024-08-02 14:26:19

2021-11-16 14:11:59

语音合成微软人工智能

2021-10-15 15:26:10

AI 数据人工智能

2024-04-16 16:14:01

人工智能LLMRAG

2024-03-19 13:12:36

自动驾驶模型

2022-08-24 15:08:19

模型数据技术

2024-07-09 13:29:37

新架构RNNFPS

2022-09-23 15:36:07

语言模型Google

2020-09-25 09:52:48

机器学习人工智能计算机

2023-06-24 19:59:40

2024-05-30 08:40:41

大型语言模型LLM人工智能
点赞
收藏

51CTO技术栈公众号