求求你们了,别在某音上学习DeepSeek部署了好吗?

开发 前端
如果你的电脑没有GPU或者使用的是集显,这种情况下,建议你部署个1.5B的模型尝一下鲜就可以了,即使纯CPU跑个推理也没什么问题,速度也勉强说的过去。

哈喽大家好啊,我是Hydra。

最近刷某音的时候,总是动不动就给我推一个类型的直播间,标题都差不多,类似于“1分钟教你本地部署DeepSeek满血版”什么的,头像清一色的蓝色小鲸鱼,就很耽误我看小姐姐跳舞。

前几次的时候,我还耐着性子看了几分钟,后来基本上看见了就拉黑划走,首先是因为他们讲的内容高度雷同,都是部署Ollama、ChatBox、CherryStudio这些东西,内容相似到我甚至怀疑他们是同一个割韭菜培训班培训出来的。其次就是讲的东西真没什么用, 稍微了解一些大模型的都明白,按他们这样部署完了,你顶多也就当个玩具玩玩。

为什么呢,听我给你分析分析,听完之后,答应我别看这些直播浪费时间了好吗?

首先,大家都知道,运行大模型是需要算力的,这个算力通常由GPU提供。注意我说的是"通常",因为还有NPU、TPU等设备也能提供算力,但是平常使用的电脑一般并没有配备,所以暂不讨论。在本地部署大模型之前,你首先需要评估一下你的电脑配置,明确两件事情:

我的电脑能不能跑起来大模型、能跑起来多大参数量的模型?

如果你的电脑没有GPU或者使用的是集显,这种情况下,建议你部署个1.5B的模型尝一下鲜就可以了,即使纯CPU跑个推理也没什么问题,速度也勉强说的过去。

但是如果你想部署7B以上的模型,没有GPU的话还是算了,只用CPU推理的话token输出速度非常感人。我在16核64G内存的CPU的服务器上做了个测试,可以感受一下这个速度:

图片图片

那么模型的参数规模和性能有什么具体的关联呢?一般来说,参数规模越大,大模型推理时就拥有更高的准确性和泛化能力,处理问题的表现也更加出色。但是同时,运行所需要的显存资源更高,推理时间可能更长。

在计算大模型推理需要的显存时,需要考虑的不光是模型基础占用显存,还需要考虑KV cache、激活值占用显存,以及一些其他的开销等。

我看了看那些直播间里列出的显存估算表格,但是基本上都是只考虑了最低模型基础占用显存,这一块可以使用公式计算:

其中,P是模型的参数量(单位是亿),Q是加载模型使用的位数。那么以DeepSeek-R1-Distill-Qwen-7B为例,它的参数规模是7B,模型精度为BF16,那么加载它使用的基础显存就需要:

也就是,要运行起来模型,最少需要13.04GB的显存。

除了模型基础显存外,上下文长度也是个显存刺客,离开上下文长度谈显存使用就是耍流氓,这里使用工具对比一下不同上下文长度进行推理时占用的显存:

图片图片

所以说,如果在显存有限的情况下,还需要额外对上下文长度进行一定控制。群里大佬发了一张图,给出了DeepSeek-R1在稳定运行情况下,各个模型的显存需求。

图片图片

至于这个表上为什么R1的规模是685B,是因为额外加了14B的MTP模块的参数,使R1能够在推理阶段一次生成多个token。并且,这张表中R1还是进行了FP8量化或INT4量化的情况,如果直接运行BF16精度需要的显存更高,估计至少也需要双节点的8卡H100才能部署成功。

所以说,我的建议是如果你的电脑GPU配置不足,与其花费时间捣鼓部署,真不如去SiliconFlow上直接调用API,1.5B、7B、8B的R1蒸馏模型的API都是免费调用,难道不香吗?

其次,我觉得Ollama这个东西是有些鸡肋的,它的优点是安装确实很简单,运行模型也容易。但是说直接点,Ollama就是个玩具,根本不可能拿到生产环境使用,原因很简单,它有一个最致命的问题,并发处理能力有限。

相比之下,vLLM在这方面就做的好的多。简单来说,vLLM是一个高性能的大模型推理引擎,它通过 Paged Attention 技术高效管理KV cache,实现了比 transformers 高14-24倍的吞吐量,所以我们在选推理框架的时候,首先会看它支不支持vllm。

所以个人推荐的是,使用Xinference这一推理框架来代替Ollama,它支持的推理引擎非常多,包括了transformers 、vLLM、Llama.cpp、SGLang、MLX,并且支持多卡部署、多副本部署,在实用性上真的比Ollama要强上很多,而且部署也非常简单。

最后,其实本地部署的小规模的模型能力还是比较有限的,例如7B模型有时候会出现输出的token中英文混杂的情况,并且对 Function Call 的支持也不是很好。在配置有限的情况下,本地部署的小规模模型和官方满血版提供的能力差距还是挺大的,不过归根结底,咱们部署的小规模模型在本质上其实不是DeepSeek-R1,看一下官方仓库,可以看到这几个单词:DeepSeek-R1-Distill Models

复习一下 distill 这个单词,六级词汇,蒸馏的意思。

所以说,这个列表里从1.5B到70B的模型都是蒸馏模型,是用最简易的方法使R1的结果能在小模型上复现,将R1的推理能力迁移至小规模模型。

图片图片

DeepSeek-R1-Distill-Qwen-7B 这个模型举例,它就是基于Qwen2.5-Math-7B这个模型蒸馏出来的,通过这一过程,验证了较大模型的推理能力的可迁移性。但是归根结底,测试过程中还是存在各种各样的问题,后续还需要做各种的适配工作。

在这个算法狂欢的时代,技术祛魅或许比盲目追新更重要,当我们刷着满屏的"本地部署"教程时,不妨先看清它们背后的真相,虽然看似充满了诱惑,但实际上却缺乏深度和实用性,这些内容往往只是在重复一些基础的操作,却忽略了运行大模型背后真正需要考虑的因素。

所以,下次看到类似的直播间时,不妨停下来思考一下,这些内容是否真的对你有价值,当你划走时,失去的不是通向人工智能的捷径,而是一张名为"技术智商税"的入场券。

责任编辑:武晓燕 来源: 码农参上
相关推荐

2020-06-15 08:12:51

try catch代码处理器

2020-09-22 09:05:45

MySQLUTF-8utf8mb4

2021-05-11 07:10:18

标准库DjangoOS

2020-12-11 09:24:19

Elasticsear存储数据

2020-12-15 08:06:45

waitnotifyCondition

2022-10-27 21:34:28

数据库机器学习架构

2023-12-08 14:37:51

接口jar包开发

2020-11-09 08:22:29

程序员 IT科技

2020-05-09 10:18:31

Java开源工具

2021-09-30 06:13:36

打印日志error

2020-12-04 10:05:00

Pythonprint代码

2020-12-02 11:18:50

print调试代码Python

2024-03-14 08:15:18

COUNT(*)数据库LIMIT 1​

2020-10-12 10:45:44

nullava程序员

2024-06-12 13:54:37

编程语言字符串代码

2024-03-28 16:27:03

2023-08-02 08:15:31

AgentMETA转换库

2020-12-01 11:18:34

对外接口枚举

2020-04-16 08:22:11

HTTPS加解密协议

2020-08-06 10:09:08

抖音木马安全隐私
点赞
收藏

51CTO技术栈公众号