鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

不到140块！李飞飞团队超低成本复刻DeepSeek R1推理！16张H100只训练了26分钟，与R1训练方法不同！原创

发布于 2025-2-6 18:36

2033浏览

0收藏

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

太魔鬼了！上周李飞飞团队发了篇新论文，再次降低了复刻o1能力的成本。

低到什么程度呢？论文里说，在现成的预训练模型（用的是阿里系开源的Qwen2.5- 32B-Instruct）进行监督微调（SFT），使用构建的小规模数据集，仅耗时26分钟，就在16张 H100 GPU上完成训练。

据研究人员介绍，这样的算力租赁成本大约在20美元左右！

不到140块！李飞飞团队超低成本复刻DeepSeek R1推理！16张H100只训练了26分钟，与R1训练方法不同！-AI.x社区图片

这么省时省钱的模型，居然和o1预览版性能掰手腕：实验结果显示，在数学竞赛类问题上，s1-32B的表现超过o1-preview多达27%（MATH 和 AIME24 数据集）。

李飞飞团队的训练成果已经开源了：https: //github.com/simplescaling/s1.

此外，研究团队还发现了一种技巧，被称为预算控制（budget forcing）策略，即调整测试时计算资源。这个方法的具体做法是强制终止模型的推理过程，或在模型尝试结束生成时多次附加“Wait”，从而延长其思考时间。这一方法能促使模型自我检查答案，往往可以纠正错误的推理步骤。

论文中用了经典的数R问题做例子，在模型差点要得出错误答案“2”时。研究人员打断了AI的思考，并在其生成内容后追加“Wait”，从而促使 s1-32B 自我修正了答案。像极了家长检查作业的样子。

不到140块！李飞飞团队超低成本复刻DeepSeek R1推理！16张H100只训练了26分钟，与R1训练方法不同！-AI.x社区图片

1.蒸馏：站在大模型巨人的肩膀上

李飞飞团队的s1可以说是Qwen2.5和Gemini 2.0 Flash Thinking Experimental的孩子。（在谷歌今天更新的Gemini 2.0全家桶中，Gemini 2.0 Flash的推理能力已经正式上线，摘掉了“Experimental”的帽子，并扩展到谷歌地图、搜索等应用中。）

阿里旗下通义千问（Qwen）的开源小模型，提供了s1的基座。而Gemini 2.0 Flash则是s1在推理方面的“老师”。

研究人员通过精心筛选的1000个问题及其答案，记录了Gemini 2.0 Flash Thinking Experimental的“思考过程”数据，构建了训练集。然后使用这一数据集对Qwen2.5- 32B-Instruct进行了微调。

有意思的是，这事也违反了谷歌的条款。Gemini的使用条款禁止用户对其模型进行逆向工程，以开发与Google AI产品竞争的服务。对此，Google尚未发表评论。

2.监督微调，比R1的“大规模强化学习”更省钱

在论文中，研究人员提到s1希望找到实现强推理能力和“测试时扩展”（即让AI在回答问题前思考更久）的最简单方法。

OpenAI的o1模型在推理方面的突破，引发了DeepSeek等AI实验室尝试通过不同技术加以复现。

论文指出，推理模型可以通过“监督微调”（SFT）蒸馏而成，这种方法让AI模型明确模仿数据集中某些行为。SFT的成本通常低于DeepSeek用于训练其R1模型的“大规模强化学习”方法。

因为SFT 使用了高质量的标注数据，例如，论文中提到的 s1K 数据集，仅包含 1,000 个样本，但这些样本是经过精心筛选的，具有高难度、多样性和质量。

而纯RL 方法通常需要大量的交互数据，例如，DeepSeek R1 使用了数百万个样本进行训练，这些样本的生成需要大量的计算资源和时间。

此外，相对于DeepSeek V3作为R1的底座，s1使用了更小的模型做微调。研究人员所采用的 Qwen2.5-32B-Instruct 模型进行 SFT，仅需调整少量的超参数即可获得较好的性能。由于初始的预训练模型复杂度较低，能更好地在有限的计算资源下进行训练和部署。

3.写在最后

李飞飞团队的复刻再次给人带来亿些震撼。

半个小时，20美元的投入，就能比肩OpenAI等美AI公司数百万美元所完成的成果。

学界的研究人员无需投入百万美元资金也能在AI领域取得创新突破，这无疑令人兴奋。但是，推理模型的“商品化”还有未来吗？

如果有人能用少量资金复制一个价值数百万美元的AI模型，企业的护城河还能在哪里？

但是，蒸馏只是一种廉价复现AI能力的有效方法，并不能创造出远超当前水平的全新AI模型。因此，我们可能仍然需要志向远大的梦想家，需要AI中的巨人。

参考链接：https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

本文转载自51CTO技术栈，作者：伊风

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

已于2025-2-6 18:37:31修改

赞

收藏

回复

举报

回复

相关推荐

基于 DeepSeek R1 和 Ollama 开发 RAG 系统

玄姐聊AGI • 3120浏览 • 0回复
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研习社 • 1577浏览 • 0回复
部署满血DeepSeek R1的避坑指南-vLLM 0.7.1

NLP工作站 • 5706浏览 • 0回复
如何运用DeepSeek R1构建一款全栈简历筛选应用

51CTO内容精选 • 2193浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 4172浏览 • 0回复
外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！

51CTO技术栈 • 1350浏览 • 0回复
强化学习与大模型后训练：DeepSeek R1 如何获得推理能力？

lintoms • 3561浏览 • 0回复
综述 DeepSeek R1、LIMO、S1 等 6 篇文章的关键结论

amei2000go • 1749浏览 • 0回复
DeepSeek R1与Qwen大模型，构建Agentic RAG全攻略

小虎哦哦 • 3942浏览 • 0回复
DeepSeek又开源R1部署最佳实践！

探索AGI • 1527浏览 • 0回复
这个开源项目厉害了：一键部署DeepSeek R1！

NLP前沿1 • 2419浏览 • 0回复
大模型对决：DeepSeek R1与o3-mini

丢翅膀的鱼 • 1710浏览 • 0回复
从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能

小虎哦哦 • 8593浏览 • 0回复
DeepSeek R1 全系列模型部署指南

芝士AI吃鱼 • 6102浏览 • 0回复
白嫖资源训练 DeepSeek R1 推理模型

AIGC前沿技术追踪 • 2861浏览 • 0回复
白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

后向传播 • 2262浏览 • 0回复
后 DeepSeek R1 时代：从资本壁垒到技术普惠

Baihai_IDP • 1498浏览 • 0回复
M3芯片+Ollama本地部署DeepSeek R1：小白也能玩转AI推理

zhishan15 • 1177浏览 • 0回复
DeepSeek R1 & R2 技术原理

ceesoft • 1047浏览 • 0回复

LV.11

追踪IT新动向，赋能全球技术人员成长。

觉得TA不错？点个关注精彩不错过

388

帖子

5629

声望

5

粉丝

关注

最近发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：对标DeepSeek，Gemini 2.0轻量模型开卷“极致性价比”！谷歌守住多模态阵地应用们都要开始做推理了！

下一篇：怕被对手蒸馏，OpenAI只敢公开“阉割版”思维链！网友失望：错误的摘要还不如没有！

社区精华内容

目录

1.蒸馏：站在大模型巨人的肩膀上
2.监督微调，比R1的“大规模强化学习”更省钱
3.写在最后

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载

恭喜您，今日已阅读两篇内容，特奖励+2声望，快来「登录」领取吧。