
后 DeepSeek R1 时代:从资本壁垒到技术普惠 原创 精华
编者按: AI 落地又一次迎来拐点了吗?当模型蒸馏技术能以零头成本复刻顶尖 AI 性能,传统巨头的商业壁垒是否已形同虚设?
我们今天为大家带来的文章,作者的核心观点是:以深度求索(DeepSeek)R1 模型为代表的高效推理技术,正在颠覆 AI 经济的底层规则,推动行业进入“轻量化革命”时代。
文章重点围绕三大话题展开:
- R1 模型的革新性训练方案:通过纯强化学习的 R1-Zero 生成合成数据,结合三重奖励机制,使模型以极低推理成本实现与 OpenAI 相仿的性能。
- 模型蒸馏的行业冲击:小型蒸馏模型(如 7B 参数)通过知识迁移能够超越 GPT-4o,彻底瓦解头部实验室的资本护城河,迫使 OpenAI 等巨头转向消费级产品或基础设施服务。
- 边缘 AI 的终极愿景:本地设备推理(如三台 Mac Studio 集群部署)与能力密度定律的指数级演进,或将终结云端依赖,催生免费 AI 应用与超高毛利率的新商业模式。
技术迭代的速度正在以“百天减半”的节奏改写规则。当轻量化模型让智能触手可及,这场革命不仅关乎技术效率,更是一场关于“谁将主宰未来 AI 生态”的无声博弈。
作者 | Akash Bajwa
编译 | 岳扬
我们倾向于将人工智能的发展划分为两个截然不同的时代:2022 年 11 月 ChatGPT 发布前的"前 ChatGPT 时代"和其后的"后 ChatGPT 时代"。
而 2025 年 1 月或许将成为人工智能经济模式发生根本性变革的转折点。
01 限制催生创新
1 月 20 日,中国人工智能实验室深度求索(DeepSeek)发布了首款推理模型 R1。此前在 2024 年 12 月 26 日,该实验室刚推出拥有 671B 参数的稀疏混合专家模型 V3,该模型在推理时激活参数为 37B。
V3 模型成为了当时的最佳“开源”模型,而 R1 模型仅以极低成本就实现了与 OpenAI o1 模型近乎相当的推理性能。
美国的半导体出口管制政策正迫使深度求索(DeepSeek)等中国 AI 实验室(包括面壁智能、智谱AI、MiniMax、月之暗面、百川智能、零一万物、阶跃星辰等)在模型效率优化领域持续创新突破。
Moonshot’s Kimi k1.5
事实上,如果我们对中国实施制裁以限制其获取算力资源,结果是否反而赋予了他们一个需要突破的约束条件?这种约束会促使他们思考:"如何让每一单位的计算能力(FLOP)都产生最大的智能效果(IQ)?" 最终他们总能找到巧妙的解决方案,用更少的资源实现更大的突破。
——纳特·弗里德曼(Nat Friedman)[1]
如果将人才成本和研究/实验成本计算在内,训练这些模型的成本自然超过了 V3 模型宣称的 560 万美元(约 280 万 GPU 小时)的投入[2]。
即便如此,相较于大型 AI 实验室(无论是开源还是闭源实验室),这些成果的计算效率还是非常高的。
要预判这些技术进步会通过怎样的路径对社会、行业或技术生态产生更深层的影响,关键是要先理解这些模型的训练顺序。
早在 2024 年 5 月,深度求索(DeepSeek)就发布了 V2 模型,这个模型不仅成本低于 Llama 3 70B,性能也更优。
Source: SemiAnalysis
DeepSeek 的 V3 模型发布于去年 12 月,而 R1 模型则于 1 月 20 日刚刚发布。R1 被用于 V3 的后训练阶段,但真正引人注目的是 R1 独特的训练方案。
R1 模型的训练依赖于 R1-Zero 生成的合成数据。R1-Zero 是一个完全通过强化学习(无监督微调)训练而成的独立推理模型。其训练机制包含:
- 输入要素:
- 待解决问题(数学、编程、逻辑题)
- 双重奖励机制:
- 结果正确性:"答案是否正确?"
- 过程规范性:"解题步骤是否符合标准格式?"
通过纯粹的试错机制,R1-Zero自发形成了三类涌现能力,如深度思考能力(产生"顿悟时刻",主动延长思考时间)、自我纠错能力(出现"等等,我再检查一遍"的反思行为)、多步推理能力(能自主拆解复杂问题为多个推理步骤)。
现在进入R1的训练流程:
- 冷启动监督微调(Cold Start SFT):向 R1 输入 R1-Zero 生成的合成推理数据,以及其他未公开的模型的合成数据。
- 大规模强化学习(Large-Scale RL):使用答案正确性 + 格式规范性(如强制使用\/\
- 拒绝采样(Rejection Sampling):过滤 R1 的输出,将推理能力与通用技能(写作能力、常识处理等)融合。
- 最终强化学习(Final RL):将推理质量技术指标(如步骤完整性、结论准确性)和人类偏好指标(实用性、安全性)相结合。
当 V3 发布时,许多人都觉得它很有趣:
DeepSeek 模型开源的是其模型权重,因此我们无法追溯其训练数据来源。可以合理推测,训练 V3 和/或 R1 所需的某些合成数据确实源自 OpenAI 的模型。
由于模型蒸馏的低门槛,使用其他模型的合成数据来训练新模型是一种必然的情况。
但还有一种理论认为:任何优势都可能被竞争淘汰,真正重要的是行业能获得多少关注度 —— 如果你能每天登上所有新闻媒体的头条,当加入并从中分一杯羹的进入门槛足够低时,供应链中任何明显的利润空间都会被彻底榨干。尤其是在软件领域,这种准入门槛低到离谱,以至于随便一家公司都可能突然杀进来抢夺蛋糕。我认为如果创业门槛是必须搭建化学实验室才能开展 AI 研究的话,情况会完全不同。
Daniel Gross[1]
没错,当你开拓技术前沿时,本质上是在为“先发劣势”买单 —— 因为你必须构建那些容易被复制的昂贵模型。不过这里有个有趣的类比:就像人类一样,聪明人通过成长和学习理解世界运作规律,这个过程其实就是在蒸馏前人积累的知识体系 —— 那可是包含了整个人类文明百万年智慧结晶的巨大模型。我们每个人本质上都在做相同的事。现在的 AI 模型同样在通过互联网数据进行知识蒸馏。
Nat Friedman[1]
DeepSeek 随后基于 MIT 开源许可证发布了 6 个蒸馏模型:基于 Alibaba Qwen 2.5(14B、32B、Math 1.5B 和 Math 7B)的版本和基于 Llama 3(Llama-3.1 8B 和 Llama 3.3 70B Instruct)的版本。
这些模型通过 R1 生成的 80 万条高质量样本进行微调,使小型模型习得大模型的推理范式。
这些微型(7B 参数量级)蒸馏模型最终实现了对 GPT-4o 的性能超越,将智能获取成本大幅降低至 OpenAI 长期追求的水平 —— 这正是这些成果之所以具有划时代意义的原因。
对大型 AI 实验室而言,资本与规模曾是护城河。预训练一个最先进的模型需要耗费数十亿美元的计算资源和数据成本,更不用说支付顶尖研究人员的天价薪酬(前提是你能招到他们!)。全球仅有少数企业能承担这种量级的资本支出和人才投入。当创新需要如此巨额的投入时,商业化收费便成为必然选择。
然而,模型蒸馏技术正在改写游戏规则。推理模型的蒸馏难度也同样(甚至可能更低)较低。这说明:任何组织都能以极低的成本(仅为原始投入的零头)对耗资数十亿打造的最先进复杂模型进行知识蒸馏,最终获得性能相近的自有模型。 这究竟意味着什么?
用最悲观的视角看,头部 AI 实验室正在为全球提供免费的外包研发和资本支出服务。以定价为例:OpenAI 的 o1 模型收费高达 15 美元/百万input token 和 60 美元/百万output token,而 DeepSeek R1 模型的对应成本仅为 0.14 美元/百万 input token 和2.19美元/百万output token —— 相差了好几个数量级。
Jamin Ball[3]
由于我们无法获知训练 R1 模型所用合成数据的具体构成比例,关于其中包含多少(或是否包含) o1 模型生成的 token 数据只能进行推测。但这一技术路线已展现出多重革命性影响。
根据月之暗面(Moonshot)与深度求索(DeepSeek)的最新研究成果,还有一些关键突破,包括:
- 训练与推理搜索范式革新:不同于 o1 宣称的推理阶段搜索机制(inference time search),R1 与 k1.5 模型转向更高效的预训练强化学习路径。这些模型能在训练过程中习得隐式搜索策略,从而避免在推理阶段进行复杂搜索。
- 过程奖励模型(PRMs)演进:这些新型模型不再依赖推理过程中每一步的精细化反馈,而是更侧重结果导向的奖励机制。虽然仍会对单步推理进行反馈评估,但不再需要显式训练独立的奖励模型。
- 长思维链到短思维链的知识蒸馏:Kimi 创新性地提出"long2short"方法,将长上下文模型中习得的推理能力迁移至更高效的短上下文模型。这有效解决了实际应用痛点 —— 长上下文模型运行成本高昂,将其知识蒸馏至更轻量、更快速的模型具有重要商业价值。这正是 R1 模型成功实现 Qwen 与 Llama 系列模型蒸馏的技术基础。
另一家专注边缘 AI 的中国公司面壁智能(ModelBest)也取得了关键突破[4]。其联合创始人刘知远提出大模型能力密度定律(Densing Law of Large Models),揭示模型能力密度随时间呈指数级增长的规律。
能力密度(Capability Density)定义为:给定大语言模型的有效参数规模与实际参数规模的比值。 例如,若某 3B 参数模型能达到 6B 基准模型的性能,则该模型能力密度为 2(6B/3B)。
根据大模型能力密度定律:
- 每 3.3 个月(约 100 天),实现同等能力所需的模型参数规模减半
- 模型推理成本随时间大幅下降
- 模型训练成本随时间快速降低
- 大模型能力密度呈现加速提升态势
- 模型微型化揭示边缘智能的巨大潜力
- 模型压缩技术无法提升能力密度
- 能力密度倍增周期决定模型的"有效期"
举个例子,2024 年 2 月发布的 2.4B 参数模型,其能力已与 2020 年发布的 GPT-3(175B 参数)持平。
这些 AI 实验室产出的研究成果正在引发深远的技术变革。
02 前沿模型融资现状
模型蒸馏技术的底层逻辑建立在"教师模型-学生模型"的知识传递机制上。
"星际之门"计划(Stargate)叠加科技巨头们披露的资本支出预测,共同揭示着前沿模型训练与推理所需的基础设施投资强度。
这场 6000 亿美元[5]量级的豪赌,其胜败本质上取决于能否创收。
对于任何前沿 AI 实验室而言,在缺乏稳健商业模式支撑的情况下持续维持所需量级的资本投入,将面临前所未有的挑战。
以 OpenAI 为例,据传其年度营收预期已达 40-50 亿美元并保持强劲增长。按科技公司发展规律,此阶段的企业应至少保持三位数的年增长率,这意味着该公司未来营收规模将很快突破百亿美元门槛。
Brad Gerstner
但若模型的防御性因模型蒸馏技术而瓦解,且技术折旧周期缩短,AI 实验室如何持续募集维持投资所需的资金?
这正是我们此前讨论过的[6] —— 前沿实验室纷纷向产品型公司转型的根本动因。
从 DeepSeek 登顶应用商店榜单这一事件可见,技术迁移成本之低远超预期 —— 这迫使大模型厂商必须在两条道路中做出战略抉择:要么转型为消费级科技公司(OpenAI 显然已经是这样),要么深耕企业级基础设施(正如 Anthropic 必然选择依托亚马逊生态)。
03 蒸馏垂直领域大模型
模型蒸馏技术为训练垂直领域模型提供了明确路径。若 R1-Zero 所采用的"纯强化学习+前沿 AI 实验室合成数据"模式可规模化推广,低成本推理模型的产业化道路将畅通无阻。
一个值得关注的创新方向是:将这类高性能、低成本的模型与各领域专家的高质量人工标注相结合。
诸如 Mercor、Labelbox 等专业标注平台已为 OpenAI、Meta 等头部实验室提供专家标注服务 —— Mercor 的人才库中有 30 万名领域专家。
Source:Mercor
除了开发垂直领域模型的应用开发商外,坐拥私有数据资产的企业或将重新激发对模型训练的热情,这为 MosaicML(隶属 Databricks 生态)等训练平台提供商带来新机遇。
04 边缘 AI 与应用利润重构
将 DeepSeek R1 进行 4-bit 量化后,模型运行仅需 450GB 总内存 —— 通过 3 台配备 192GB 内存的 Apple M2 Ultra Mac Studio(单台售价 5,599 美元,总成本 16,797 美元)即可实现集群部署。
若大模型能力密度定律持续生效,本地推理的终极愿景将成为现实。SaaS 厂商可通过终端设备本地推理保持高利润率,同时向用户收取订阅费用。
更革命性的突破在于:当前开发者无法真正提供免费 AI 应用,因为必须预估云端推理的累计成本并设计盈利方案。这正是订阅制等笨拙商业模式盛行的根源。若苹果能推出 Apple Intelligence SDK 实现设备端本地推理,开发者将首次能够提供完全免费的 AI 应用 —— 目前这根本不可行,因为没人能承受不可预测的云端推理成本。
Chris Paik
模型蒸馏+路由技术已使应用型 AI 公司的毛利率超越传统软件的毛利率。相比两年前,当今开发者的模型推理成本已下降 100-200 倍,这种成本曲线陡降速度在云计算 15 年的发展史上都前所未见。我们在 2022 年投资了初代 AI 应用公司,当时前沿模型的推理成本高达 15-20 美元/百万 token。而现在,通过智能路由系统将基础任务分配给小模型,企业推理成本趋近于零,特定任务的毛利率可达 95%。
Chetan Puttagunta
亚马逊的 Nova 模型表明,他们正全力投入到模型的商品化进程中,而苹果终于能借蒸馏模型实现技术追赶。
未来数月,DeepSeek 引发的模型轻量化浪潮必将催生大量追随者。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Akash Bajwa
Principal @ Earlybird Venture Capital, investing across Europe from inception onwards.
END
本期互动内容 🍻
❓0.14 美元/百万 input token 和 2.19 美元/百万output token 的 R1 推理成本构成中,你认为哪部分压缩空间最大?
🔗文中链接🔗
[2]https://x.com/nabeelqu/status/1882842953728827426
[3]https://x.com/jaminball/status/1881718692956016713
[4]https://docs.google.com/document/d/1x3FM01NDdXvvQTbkaJlPhyfBoBAFpE3E60tMe_ZlUH8/edit?tab=t.0
[5]https://www.sequoiacap.com/article/ais-600b-question/
[6]https://akashbajwa.substack.com/p/vertical-integration-model-vs-product
原文链接:
