4090单卡部署满血 671B DeepSeek,本地部署“成本骤降32倍”!!! 原创

发布于 2025-2-18 15:56
浏览
0收藏

最近,无论是在国内还是国外,一股 DeepSeek-R1 部署热潮正在兴起,许多人都争相在自己的本地服务器上尝试部署完整版的 DeepSeek-R1。不过,想要在本地部署一个满血版本的 DeepSeek-R1 版本,可能需要大约16张 A800 显卡,这意味着大约需要投入200万元人民币的成本。长期以来,业界对于 671B 大模型的成本问题感到困扰,迫切希望找到一种低成本的满血版 671B  DeepSeek部署方案。今天,向大家推荐一个框架——KTransformers,它能够在单台配备 24GB VRAM 的 GPU 或多 GPU 以及 382G DRAM 的平台上支持满血版 Deepseek-R1 的部署,并且能够实现3到28倍的速度提升。这可能是许多朋友们一直在寻找的解决方案,如果你也感兴趣的话,不妨赶紧收藏起来

项目地址:https://github.com/kvcache-ai/ktransformers/tree/main

1、DeepSeek-R1部署痛点梳理

最近,无论是在国际还是国内市场,DeepSeek-R1 的部署热潮正盛,许多人都争相在自己的本地服务器上安装满血版本的 DeepSeek-R1。但是,要本地部署这个满血版本的 DeepSeek-R1,通常需要配备 16个 A800 显卡,这意味着大约需要 200万元人民币的投资。这样的高昂成本无疑让许多人望而却步,尽管如此,还是有一些资金雄厚的企业不惜重金部署了满血版本的 DeepSeek-R1。

此外,许多网友反映,70B及以下的模型与满血版在性能上存在显著差距。同时,大模型微调的成本也不低。这些限制因素使得满血版大模型的能力无法广泛惠及更多人。长期以来,业界对于 671B 大模型的成本问题感到苦恼,迫切期待出现一种成本较低的满血版本 671B DeepSeek R1 部署解决方案。

2、KTransformers 框架简介

KTransformers,其发音类似于"Quick Transformers",该框架的目标是通过高级内核优化和位置并行来提升您的 Transformers 性能

4090单卡部署满血 671B DeepSeek,本地部署“成本骤降32倍”!!!-AI.x社区


KTransformers 是一个以 Python 为重心、极具灵活性的框架,其设计理念围绕可扩展性展开。只需一行代码,用户即可集成并注入一个优化模块,从而获得与 Transformers 兼容的接口、支持 OpenAI 和 Ollama 的 RESTful API,甚至是简化版的类似 ChatGPT 的网页用户界面。作者期望 KTransformers 能够成为一个灵活的实验平台,用于探索和优化 LLMs(大语言模型)推理的新方法。

3、KTrans​formers 硬件配置

基于 KTransformers 的硬件配置如下:

4090单卡部署满血 671B DeepSeek,本地部署“成本骤降32倍”!!!-AI.x社区

CPU 型号:Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)

GPU型号:4090D 24G VRAM

内存: DDR5-4800 server DRAM (1 TB)

模型:DeepseekR1-q4km (int4)

4、KTransformers 框架性能指标

在本地运行的 671B DeepSeek-Coder-R1:仅需14GB VRAM和382GB DRAM 即可启动其 Q4_K_M 版本。

预填充速度(令牌/秒):KTransformers 的表现为 54.21(32核)→ 74.362(双插槽,2×32核)→ 255.26(基于 AMX 优化的 MoE 内核,仅限 V0.3)→ 286.55(选择性使用6位专家,仅限 V0.3),相较于 llama.cpp 在 2×32 核上的10.31令牌/秒,速度提升了27.79倍

解码速度(令牌/秒):KTransformers 的解码速度为8.73(32核)→ 11.26(双插槽,2×32核)→ 13.69(选择性使用6位专家,仅限V0.3),与 llama.cpp 在2×32核上的 4.51令牌/秒相比,速度提升了3.03倍

此外,作者还预告了即将推出的优化措施,包括英特尔 AMX 加速内核和选择性专家激活技术,这些都将显著提升性能。通过使用 V0.3-preview,作者已经实现了每秒高达286个令牌的预填充速度,这使得其在局部推理上比  llama.cpp 快了28倍。具体的 wheel 文件详情待发布。

5、KTransformers 框架上手指南

4090单卡部署满血 671B DeepSeek,本地部署“成本骤降32倍”!!!-AI.x社区

# 步骤1-利用wget将.wh文件下载到本地
wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.1.4/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl


# 步骤2-安装.whl文件
pip install ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl


# 步骤3-执行推理
python -m ktransformers.local_chat --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 65 --max_new_tokens 1000 <when you see chat, then press enter to load the text prompt_file>

更详细的细节如下所示:

​​​https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md​


本文转载自公众号玄姐聊AGI  作者:玄姐

原文链接:​​https://mp.weixin.qq.com/s/Uy6nDPI0FWno7PAC14AJsg​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-2-19 18:15:18修改
收藏
回复
举报
回复
相关推荐