4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！原创

发布于 2025-2-18 15:56

浏览

1收藏

最近，无论是在国内还是国外，一股 DeepSeek-R1 部署热潮正在兴起，许多人都争相在自己的本地服务器上尝试部署完整版的 DeepSeek-R1。不过，想要在本地部署一个满血版本的 DeepSeek-R1 版本，可能需要大约16张 A800 显卡，这意味着大约需要投入200万元人民币的成本。长期以来，业界对于 671B 大模型的成本问题感到困扰，迫切希望找到一种低成本的满血版 671B DeepSeek部署方案。今天，向大家推荐一个框架——KTransformers，它能够在单台配备 24GB VRAM 的 GPU 或多 GPU 以及 382G DRAM 的平台上支持满血版 Deepseek-R1 的部署，并且能够实现3到28倍的速度提升。这可能是许多朋友们一直在寻找的解决方案，如果你也感兴趣的话，不妨赶紧收藏起来。

项目地址：https://github.com/kvcache-ai/ktransformers/tree/main

1、DeepSeek-R1部署痛点梳理

最近，无论是在国际还是国内市场，DeepSeek-R1 的部署热潮正盛，许多人都争相在自己的本地服务器上安装满血版本的 DeepSeek-R1。但是，要本地部署这个满血版本的 DeepSeek-R1，通常需要配备 16个 A800 显卡，这意味着大约需要 200万元人民币的投资。这样的高昂成本无疑让许多人望而却步，尽管如此，还是有一些资金雄厚的企业不惜重金部署了满血版本的 DeepSeek-R1。

此外，许多网友反映，70B及以下的模型与满血版在性能上存在显著差距。同时，大模型微调的成本也不低。这些限制因素使得满血版大模型的能力无法广泛惠及更多人。长期以来，业界对于 671B 大模型的成本问题感到苦恼，迫切期待出现一种成本较低的满血版本 671B DeepSeek R1 部署解决方案。

2、KTransformers 框架简介

KTransformers，其发音类似于"Quick Transformers"，该框架的目标是通过高级内核优化和位置并行来提升您的 Transformers 性能。

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！-AI.x社区

KTransformers 是一个以 Python 为重心、极具灵活性的框架，其设计理念围绕可扩展性展开。只需一行代码，用户即可集成并注入一个优化模块，从而获得与 Transformers 兼容的接口、支持 OpenAI 和 Ollama 的 RESTful API，甚至是简化版的类似 ChatGPT 的网页用户界面。作者期望 KTransformers 能够成为一个灵活的实验平台，用于探索和优化 LLMs（大语言模型）推理的新方法。

3、KTransformers 硬件配置

基于 KTransformers 的硬件配置如下：

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！-AI.x社区

CPU 型号：Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)

GPU型号：4090D 24G VRAM

内存： DDR5-4800 server DRAM (1 TB)

模型：DeepseekR1-q4km (int4)

4、KTransformers 框架性能指标

在本地运行的 671B DeepSeek-Coder-R1：仅需14GB VRAM和382GB DRAM 即可启动其 Q4_K_M 版本。

预填充速度（令牌/秒）：KTransformers 的表现为 54.21（32核）→ 74.362（双插槽，2×32核）→ 255.26（基于 AMX 优化的 MoE 内核，仅限 V0.3）→ 286.55（选择性使用6位专家，仅限 V0.3），相较于 llama.cpp 在 2×32 核上的10.31令牌/秒，速度提升了27.79倍。

解码速度（令牌/秒）：KTransformers 的解码速度为8.73（32核）→ 11.26（双插槽，2×32核）→ 13.69（选择性使用6位专家，仅限V0.3），与 llama.cpp 在2×32核上的 4.51令牌/秒相比，速度提升了3.03倍。

此外，作者还预告了即将推出的优化措施，包括英特尔 AMX 加速内核和选择性专家激活技术，这些都将显著提升性能。通过使用 V0.3-preview，作者已经实现了每秒高达286个令牌的预填充速度，这使得其在局部推理上比 llama.cpp 快了28倍。具体的 wheel 文件详情待发布。

5、KTransformers 框架上手指南

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！-AI.x社区

# 步骤1-利用wget将.wh文件下载到本地
wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.1.4/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl


# 步骤2-安装.whl文件
pip install ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl


# 步骤3-执行推理
python -m ktransformers.local_chat --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 65 --max_new_tokens 1000 <when you see chat, then press enter to load the text prompt_file>1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

更详细的细节如下所示：

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

本文转载自公众号玄姐聊AGI 作者：玄姐

原文链接：https://mp.weixin.qq.com/s/Uy6nDPI0FWno7PAC14AJsg

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

DeepSeek

DeepSeek-R1

KTransformers

已于2025-2-19 18:15:18修改