
DeepSeek太给力了!自家的大模型秘方开源到底!国产大模型雄起 原创
出品 | 51CTO技术栈(微信号:blog51cto)
DeepSeek “开源周”第五天,依旧保持了一如既往地“务实”风,满满的诚意。
先来回忆下前四天,源神的慷慨发布——
第一天,2月24日,最为外界称道的MLA技术率先开源,这项解码加速器FlashMLA技术能够让英伟达Hopper架构GPU跑得更快,效果更好!
紧接着,25日,直接亮出首个面向MoE模型的开源专家并行通信库DeepEP,实现了MoE训练推理的全栈优化;
第三天,则进一步祭出一项跨时代的发布:FP8通用矩阵乘法加速库,从底层让模型训练、微调变得更加流畅丝滑;
第四天,也就是昨天的并行优化“三剑客”:DeepSeek-V3和R1 模型背后的并行计算优化技术——DualPipe(双向流水线并行算法,让计算和通信高效协同)、EPLB ( 专家并行负载均衡器,让每个 GPU 都“雨露均沾”)、profile-data (性能分析数据,可以理解成V3/R1 的并行优化的分析经验)
可以说前四天的发布聚焦在算力通信、模型架构优化,也就是算力和算法的层面,而接下来第五天的开源则补上了AI三驾马车的最后一块,也是用户体验感知更为明显的一块优化动作:高性能分布式文件系统(数据存储层面的改进)。
五天整体看下来,可以说是把R1技术报告中没来得及公开的“黑科技”一股脑的全部开源了!
第五天究竟开源了什么呢?
“开源周”活动中发布的第5天,DeepSeek主要Open他们开源的两个项目:3FS(高性能分布式文件系统)和 Smallpond(基于3FS的数据处理框架)。
为了便于大家理解,这里为大家梳理一下。
首先,3FS 是什么?简单来说,就是一个专为现代硬件设计的 并行分布式文件系统,目标是最大化利用SSD硬盘和高速网络(RDMA,绕过CPU直接传输数据)的性能,解决海量数据(如AI训练、推理)的存储和访问速度问题。
那,为什么需要3FS?因为在AI训练、大数据分析等场景需要处理TB/PB级数据,传统文件系统可能成为性能瓶颈。3FS厉害之处就在于,通过并行技术和硬件优化(如SSD+RDMA),实现超高吞吐量和低延迟。
DS还给出了3FS 的三个性能亮点——
- 速度惊人
a.180台机器集群:每秒读取6.6 TiB(约等于同时传输10部4K电影)。
b.25台机器:每分钟排序3.66 TiB数据(GraySort基准测试,体现大数据排序能力)。
c.单客户端节点:每秒40+ GiB的键值缓存查询(适合AI推理中的快速数据检索)。
- 架构优势
- 解耦架构 (Disaggregated):计算和存储资源分离,可按需扩展。
- 强一致性:多节点读写时,数据始终保持一致(避免脏读/脏写)。
- 应用场景
- AI数据预处理、模型训练时的数据集加载
- 模型训练中快速保存/恢复检查点(防止中断丢失进度)
- 向量搜索(如推荐系统、语义匹配)
- 推理时的键值缓存(加速实时查询)
再来看Smallpond。它是DeepSeek基于3FS开发的一种数据处理框架,可理解为在3FS上高效管理数据的“工具箱”。
这种工具就非常容易上手了,值得各位大模型“炼丹”士拥有,因为它能够简化数据清洗、转换、加载(ETL)等流程,适合大规模数据处理任务。
Github链接奉上——
- 3FS代码仓库:https://github.com/deepseek-ai/3FS
- Smallpond代码仓库:https://github.com/deepseek-ai/smallpond
具体都用在哪儿?
- AI/大数据团队:用3FS可加速训练和推理,减少数据读写等待时间。
- 需要高吞吐存储的场景:如科学计算、实时分析、推荐系统等。
整体上看,DeepSeek AI 通过开源3FS和Smallpond,提供了针对AI和大数据场景的高性能存储与数据处理方案,解决海量数据下的速度瓶颈问题。
大佬点评:AI Infra的又一福音!
业内对于今天DeepSeek开源的神器评价很高。知名大模型+AI芯片专家陈巍第一时间表达了惊叹,称“3F和smallpond是从1到10的优化典范,从底层重构AI Infra。”
陈巍认为,3F和smallpond绝对是基层炼丹师的福音。“简化分布式应用程序的开发,提供轻量级的数据库整合系统,减少超大模型训练中的维护和断点保存,将大模型IT拯救于水火。预计该框架会迅速整合到现有training framwork中,加速工业界和学术界牛马的发paper tps。”
硅基流动创始人袁进辉也称今天的发布是:“DeepSeek可以用好硬盘缓存的秘密”。
DeepSeek:中国大模型的生态崛起的希望
去年大家还在纠结国产的万卡系统很难建设,其中有各种问题。去年中国工程院院士郑纬民就曾对此提出了担忧:“现在用国产,我们的生态不太好,我们想办法要做好十个软件:并行系统、编程框架、通信库、AI编译器、算子库、编程语言、调度器、容错系统、内存分配系统、存储系统。”
郑院士还举了自研国产并行系统和通信库、内存分配系统、存储系统的必要性。
比如,并行系统,现在不是1块卡,而是1000块卡、1万块卡,1块卡训练一百天,我们买100块卡,一天就训练完了。但中间要交换数据,交换一次是人家的90倍了,如果做得不好的话,100块卡我们希望有100倍效能,只能做到3、4倍的效率。我们希望有70倍、80倍、90倍这就叫并行系统,想办法接近100倍。做得不好,20倍。
再比如通信库,1000块卡、1万块卡要通信,怎么写好?算子库,写一个矩阵软件,最好不要写,调用矩阵成本软件,碰到什么就调用什么,这个库要写得多,写得好。要有编译器,国内会做编译系统的特别少,龙舟系统,一个小时就出错了,怎么才能继续做下去?
郑院士还提出,“数据实地化,内容主题化,算力国产化是目前的实际要求。”
但时钟拨回到去年夏天,国产的大家还是不大愿意用,因为生态不好。
那DeepSeek这波的诚意十足的开源,可以说让大家看到了国产学术界、产业界生态崛起的希望,这家了不起的公司一股脑把国产自研的大模型配套的技术全都搞出来了,并行、编译、通信、内存、存储、算子……
可以预见的是,DeepSeek正在标志着国产算力和国产模型正在成为新兴的大模型势力,中国也将迸发出性能强大、成本低廉、普惠全面的大模型应用。
参考链接:https://www.zhihu.com/question/13614300508/answer/112464472761
本文转载自51CTO技术栈
