不到140块!李飞飞团队超低成本复刻DeepSeek R1推理!16张H100只训练了26分钟,与R1训练方法不同! 原创

发布于 2025-2-6 18:36
浏览
0收藏

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

太魔鬼了!上周李飞飞团队发了篇新论文,再次降低了复刻o1能力的成本。

低到什么程度呢?论文里说,在现成的预训练模型(用的是阿里系开源的Qwen2.5- 32B-Instruct)进行监督微调(SFT),使用构建的小规模数据集,仅耗时26分钟,就在16张 H100 GPU上完成训练。

据研究人员介绍,这样的算力租赁成本大约在20美元左右!

不到140块!李飞飞团队超低成本复刻DeepSeek R1推理!16张H100只训练了26分钟,与R1训练方法不同!-AI.x社区图片

这么省时省钱的模型,居然和o1预览版性能掰手腕:实验结果显示,在数学竞赛类问题上,s1-32B的表现超过o1-preview多达27%(MATH 和 AIME24 数据集)。

李飞飞团队的训练成果已经开源了:https: //github.com/simplescaling/s1. 

此外,研究团队还发现了一种技巧,被称为预算控制(budget forcing)策略,即调整测试时计算资源。这个方法的具体做法是强制终止模型的推理过程,或在模型尝试结束生成时多次附加“Wait”,从而延长其思考时间。这一方法能促使模型自我检查答案,往往可以纠正错误的推理步骤。

论文中用了经典的数R问题做例子,在模型差点要得出错误答案“2”时。研究人员打断了AI的思考,并在其生成内容后追加“Wait”,从而促使 s1-32B 自我修正了答案。像极了家长检查作业的样子。

不到140块!李飞飞团队超低成本复刻DeepSeek R1推理!16张H100只训练了26分钟,与R1训练方法不同!-AI.x社区图片

1.蒸馏:站在大模型巨人的肩膀上

李飞飞团队的s1可以说是Qwen2.5和Gemini 2.0 Flash Thinking Experimental的孩子。(在谷歌今天更新的Gemini 2.0全家桶中,Gemini 2.0 Flash的推理能力已经正式上线,摘掉了“Experimental”的帽子,并扩展到谷歌地图、搜索等应用中。)

阿里旗下通义千问(Qwen)的开源小模型,提供了s1的基座。而Gemini 2.0 Flash则是s1在推理方面的“老师”。

研究人员通过精心筛选的1000个问题及其答案,记录了Gemini 2.0 Flash Thinking Experimental的“思考过程”数据,构建了训练集。然后使用这一数据集对Qwen2.5- 32B-Instruct进行了微调。

有意思的是,这事也违反了谷歌的条款。Gemini的使用条款禁止用户对其模型进行逆向工程,以开发与Google AI产品竞争的服务。对此,Google尚未发表评论。

2.监督微调,比R1的“大规模强化学习”更省钱

在论文中,研究人员提到s1希望找到实现强推理能力和“测试时扩展”(即让AI在回答问题前思考更久)的最简单方法。

OpenAI的o1模型在推理方面的突破,引发了DeepSeek等AI实验室尝试通过不同技术加以复现。

论文指出,推理模型可以通过“监督微调”(SFT)蒸馏而成,这种方法让AI模型明确模仿数据集中某些行为。SFT的成本通常低于DeepSeek用于训练其R1模型的“大规模强化学习”方法。

因为SFT 使用了高质量的标注数据,例如,论文中提到的 s1K 数据集,仅包含 1,000 个样本,但这些样本是经过精心筛选的,具有高难度、多样性和质量。

而纯RL 方法通常需要大量的交互数据,例如,DeepSeek R1 使用了数百万个样本进行训练,这些样本的生成需要大量的计算资源和时间。

此外,相对于DeepSeek V3作为R1的底座,s1使用了更小的模型做微调。研究人员所采用的 Qwen2.5-32B-Instruct 模型进行 SFT,仅需调整少量的超参数即可获得较好的性能。由于初始的预训练模型复杂度较低,能更好地在有限的计算资源下进行训练和部署。

3.写在最后

李飞飞团队的复刻再次给人带来亿些震撼。

半个小时,20美元的投入,就能比肩OpenAI等美AI公司数百万美元所完成的成果。

学界的研究人员无需投入百万美元资金也能在AI领域取得创新突破,这无疑令人兴奋。但是,推理模型的“商品化”还有未来吗?

如果有人能用少量资金复制一个价值数百万美元的AI模型,企业的护城河还能在哪里?

但是,蒸馏只是一种廉价复现AI能力的有效方法,并不能创造出远超当前水平的全新AI模型。因此,我们可能仍然需要志向远大的梦想家,需要AI中的巨人。

参考链接:https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

本文转载自​​51CTO技术栈​​,作者:伊风

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-2-6 18:37:31修改
收藏
回复
举报
回复
相关推荐