鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

发布于 2025-2-12 16:06

浏览

0收藏

DeepSeek-R1火遍海内外，但推理服务器频频宕机，专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案，多为参数量缩水90%的蒸馏版，背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此，想在本地小规模硬件上跑真正的DeepSeek-R1，被认为基本不可能。

但就在近期，清华大学KVCache.AI团队联合趋境科技发布的KTransformers

开源项目公布更新：

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。

预处理速度最高达到286 tokens/s ，推理生成速度最高能达到14 tokens/s 。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区

其实早在DeepSeek-V2 时代，这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行，把显存需求砍到10分之一。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区 △HuggingFace 的开源负责人的点赞

随着DeepSeek-R1的发布，社区的需求迅速激增，在GitHub盖起上百楼的issue，呼吁对其进行支持。

版本更新发布后，不少开发者也纷纷用自己的3090显卡和200GB内存进行实测，借助与Unsloth优化的组合，Q2_K_XL模型的推理速度已达到9.1 tokens/s，真正实现了千亿级模型的“家庭化”。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区图片

此外，KTransformers团队还公布了v0.3预览版的性能指标，将通过整合Intel AMX指令集，CPU预填充速度最高至286 tokens/s，相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务（比如大规模代码库分析）来说，相当于能够从“分钟级等待”瞬间迈入“秒级响应”，彻底释放CPU的算力潜能。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区图片

另外，KTransformers还提供了兼容Hugginface Transformers的API与ChatGPT式Web界面，极大降低了上手难度。同时，其基于YAML的“模板注入框架”能够灵活切换量化策略、内核替换等多种优化方式。

目前，KTransformers在localLLaMa社区持续位居热榜第一，有上百条开发者的讨论。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区图片

项目背后的技术细节，团队也给出了详细介绍。

利用MoE架构的稀疏性

DeepSeek-R1/V3均采用了MoE（混合专家）架构，这种架构的核心是将模型中的任务分配给不同的专家模块，每个专家模块专注于处理特定类型的任务。MoE结构的模型具有很强的稀疏性，在执行推理任务的时候，每次只会激活其中一部分的模型参数。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区图片

因此，MoE架构需要大量的存储空间，但是并不需要很多的计算资源。

基于此，团队采用了GPU/CPU的异构计算划分策略：仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上并使用llamafile提供的高速算子处理，剩余稠密部分放在GPU上使用Marlin算子处理。

在这样的情况下，同样使用4bit量化，GPU上的参数只需要24GB的显存环境，这样的消耗只需要一张4090就能满足。

此外通过这样的组合，还能够大幅度提升整个推理的性能，达到286 token/s的预填充和14 token/s的生成速度，比llama.cpp快28倍。

具体到技术实现中，团队采用了基于计算强度的offload策略、高性能的CPU和GPU算子、CUDA Graph加速的多种方式来加速推理速度。

基于计算强度的offload策略

在Attention的核心，DeepSeek引入了一种新的MLA算子，它能够充分利用显卡算力，能够很大程度提升效率。然而，MLA运算符在官方开源的v2版本中，是将MLA展开成MHA进行的计算，这个过程不仅扩大了KV cache大小，还降低了推理性能。

为了真正发挥MLA的性能，在KTransformers推理框架中，团队将矩阵直接吸收到q_proj和out_proj权重中。因此，压缩表示不需要解压缩来计算Attention。

这种调整显著减少了KV缓存大小，并增加了该运算符的算术强度，这非常显著地优化了GPU计算能力的利用率。

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛-AI.x社区图片

在计算中，MLA和Expert的计算强度相差数千倍。因此，团队通过计算强度来决定划分策略，优先将计算强度高的放入GPU（MLA > Shared Expert > Routed Expert），直到GPU放不下为止。

引入CPU和GPU的高性能算子

在CPU算子中，团队使用llamafile作为CPU内核，使用expert并行和其他优化，组成高性能算子框架CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA感知等优化。

在GPU算子的使用上，团队引入Marlin算子作为GPU计算的内核，它能够非常高效地进行量化后的矩阵计算，和torch这些计算量化后的矩阵乘法的库相比，使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。

CUDA Graph的改进和优化

为了平衡推理性能和框架本身的易用性/可扩展性，基于Python构建KTransformers框架，同时使用CUDA Graph降低Python调用开销是一个必然的选择。

KTransformers中使用CUDA Graph过程中尽可能地减少了CPU/GPU通讯造成的断点，在CUDA Graph中掺杂和CPU异构算子通讯，最终实现一次decode仅有一个完整的CUDA Graph调用的结果。

灵活高效的推理实验平台

值得关注的是，KTransformers不止是一个固定的推理框架，也不只能推理DeepSeek的模型，它可以兼容各式各样的MoE模型和算子，能够集成各种各样的算子，做各种组合的测试。

此外还同时提供了Windows、Linux的平台的支持，方便运行。

当大模型不断往上卷，KTransformers用异构计算打开一条新的推理路径。基于此，科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址：https://github.com/kvcache-ai/ktransformers

具体技术细节指路：https://zhuanlan.zhihu.com/p/714877271

本文转载自量子位

标签

已于2025-2-12 16:10:24修改

赞

收藏

回复

举报

回复

相关推荐

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

duhorse • 1853浏览 • 0回复
解密o1推理过程！DeepSeek-R1-Lite预览版上线

kede96 • 2562浏览 • 0回复
大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度

风云2002_1 • 1.0w浏览 • 0回复
DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 • 3144浏览 • 0回复
DeepSeek-R1：通过强化学习激发大语言模型的推理潜能

柏企阅文 • 3622浏览 • 0回复
部署满血DeepSeek R1的避坑指南-vLLM 0.7.1

NLP工作站 • 5739浏览 • 0回复
一文读懂 DeepSeek-R1：大语言模型推理能力进化的秘密武器

十一月雨_55 • 4643浏览 • 0回复
带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈

玄姐聊AGI • 6136浏览 • 1回复
如何利用 DeepSeek-R1 本地部署强大的推理模型：从 ChatGPT 风格界面到 API 集成

Halo咯咯 • 2497浏览 • 0回复
DeepSeek-R1技术大揭秘：论文核心原理拆解与模型性能突破关键

arnoldzhw • 2442浏览 • 0回复
满血DeepSeek-R1免费用！附带数据蒸馏的一些想法！

NLP工作站 • 2345浏览 • 0回复
这个开源项目厉害了：一键部署DeepSeek R1！

NLP前沿1 • 2425浏览 • 0回复
4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！

玄姐聊AGI • 5587浏览 • 0回复
Grok 3 与 DeepSeek-R1 是怎么学会思考的？

机器学习与数学 • 2574浏览 • 0回复
冲，DeepSeek-R1/V3推理系统架构设计被开源了！

PaperAgent • 1468浏览 • 0回复
在消费级硬件上微调 DeepSeek-R1

AIGC前沿技术追踪 • 1410浏览 • 0回复
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

大模型自然语言处理 • 1367浏览 • 0回复
DeepSeek-R1关键创新技术再总结

大模型自然语言处理 • 1183浏览 • 0回复
Deepseek-R1，论文番外篇!

NLP前沿1 • 677浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成 2025-02-26 11:59:41发布
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩 2025-02-14 13:02:21发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

大半精锐尽出！o1下线！满血o3之后，模型本身就是Manus，最大卖点：替代人干真活！ 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

上一篇：震撼！AI实时生成游戏，每秒20帧输出，DeepMind扩散模型最新突破一夜爆火

下一篇：奥特曼再谈DeepSeek：每天醒来都有压力

社区精华内容

目录

利用MoE架构的稀疏性
基于计算强度的offload策略
引入CPU和GPU的高性能算子
CUDA Graph的改进和优化
灵活高效的推理实验平台

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载