鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证原创

发布于 2025-2-10 09:18

浏览

0收藏

最近各种营销号鼓吹基于qwen的模型几十块钱复现deepseek-R1-zero，坑坏了算法工程师，笔者实验验证下这个夸张说法，因为实验仅仅是快速的实现，无过多的优化，下面实验数据仅供参考，欢迎指正。

实验过程

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

DeepSeek-R1-Zero过程

DeepSeek-R1-Zero是一个纯RL（无SFT）来探索模型推理能力的过程（基于GRPO的RL优化过程）。Reward Model是基于规则的奖励过程（Rule-Base RM），R1-Zero阶段只关注数学、程序类推理问题，都是能简单通过规则判别答案对错的，所以奖励模型采用的是纯Rule-Base 的设计，主要包括2类Reward：

正确性校验Reward：数学问题通过简单的规则抽取答案与ground truth对比校验。对于程序题，通过编译生成的程序，校验是否能通过测试用例，产生一致的答案
格式校验Reward：校验是否thought内容是包含在‘’ 和 ‘’tags之间

模版设计

遵循论文的方式，如下：

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

DeepSeek-R1-Zero prompt模版

训练目标-产生如“顿悟时刻”的思考过程

“Aha Moment” -顿悟时刻：这个短语中的 “aha” 是一个象声词，用来表示突然的领悟或发现时发出的惊叹声。就像人们在突然想明白一件事情的时候，可能会不自觉地发出 “啊哈！” 这样的声音。

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

DeepSeek-R1-Zero报告中-顿悟时刻

实验设计

模型选型：Qwen2___5-3B-Instruct和Qwen2___5-7B-Instruct，网上有很多实验已经验证了3B以下的模型没什么作用，就不浪费时间了。
数据集：https://huggingface.co/datasets/Jiayi-Pan/Countdown-Tasks-3to4，使用这个数据集的目标是根据一个数字列表，组成表达式得到一个数值的过程：如：给定[1,2,3]组成表达式得到6，即：1+2+3=6。
强化学习算法：基于群体相对策略优化（Group Relative Policy Optimization，GRPO）
实验环境：8 * H100

实验过程

先说结论，笔者基于7B以下的模型，尚未复现出“顿悟时刻”，按照网上一些营销说法，推理模型在启动训练后很快就会产生“顿悟时刻”，然而实际却不是，下面来看两个基于qwen-7B训练一小时后采样的例子（例子显示推理过程太过于线性）：

case1：

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

基于qwen-7B训练一小时后采样

理论上要产生的“顿悟时刻”效果？

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

case2：

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

基于qwen-7B训练一小时后采样

理论上要产生的“顿悟时刻”效果？

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

豆包生成

显存占用情况如下图：按照5刀一小时的服务器租用价格，假设训练24小时，也需要120刀了。

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证-AI.x社区

几点猜想

要产生“顿悟时刻”的能力，与基座模型的参数量强相关
要产生“顿悟时刻”的能力，基座模型要“语言犀利？”，或者风格别那么严肃、沉稳？

总结

实践出真知，本文仅作记录、参考，简单的实验复现验证几十块复现一个R1-zero模型的不可能性（如果是纯粹的基于qwen2.5-7B以下模型经过RL得到一个R1-zero模型），代码就不整理了，今天看到一个新的实现仓库供参考：https://github.com/GAIR-NLP/LIMO

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/5OxrQX6sIjNDMmQMpn-YWA

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

大模型嵌入学习机，打破教育的“不可能三角”

mb5f8eba9bdb0af • 1353浏览 • 0回复
全球首次，湿实验证实！上交成功实现「蛋白质功能定向进化」，零数据跨入AGI时代

duhorse • 1200浏览 • 0回复
解密o1推理过程！DeepSeek-R1-Lite预览版上线

kede96 • 1188浏览 • 0回复
零编码制作报表真地可能吗？

铁骨铮铮中国人 • 216浏览 • 0回复
DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来

小虎哦哦 • 1.1w浏览 • 0回复
DeepSeek-R1 + RooCline：极佳的强化学习AI编码代理！对标o1、蒸馏小模型本地部署

老蛀虫 • 1313浏览 • 0回复
大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度

风云2002_1 • 5228浏览 • 0回复
满血o3即将推出，OpenAI的Q1还有硬货！首席产品官：o1 Pro不可能一直傻乎乎地亏钱！今明两年不会推出机器人

51CTO技术栈 • 331浏览 • 0回复
DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 • 1364浏览 • 0回复
基于 DeepSeek R1 和 Ollama 开发 RAG 系统

玄姐聊AGI • 729浏览 • 0回复
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研习社 • 178浏览 • 0回复
DeepSeek-R1：通过强化学习激发大语言模型的推理潜能

柏企阅文 • 1293浏览 • 0回复
部署满血DeepSeek R1的避坑指南-vLLM 0.7.1

NLP工作站 • 661浏览 • 0回复
不到140块！李飞飞团队超低成本复刻DeepSeek R1推理！16张H100只训练了26分钟，与R1训练方法不同！

51CTO技术栈 • 566浏览 • 0回复
如何运用DeepSeek R1构建一款全栈简历筛选应用

51CTO内容精选 • 196浏览 • 0回复
一文读懂 DeepSeek-R1：大语言模型推理能力进化的秘密武器

十一月雨_55 • 1108浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 381浏览 • 0回复
图文详解：带你读懂 DeepSeek-R1 的核心原理

Baihai_IDP • 464浏览 • 0回复
DeepSeek-R1-Zero自我进化的3大特点和3大基石

智驻未来 • 82浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

简单有效的企业多模态RAG问答框架-MuRAR 14h前发布
DeepSeek中的多头潜在注意力（MLA）浅尝 14h前发布

热门推荐

DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度 0回复

上一篇： RAG范式演进及Agentic-RAG总结综述

下一篇：英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载