DeepSeek开源周，第三弹， DeepGEMM来袭！

NLP前沿1

发布于 2025-2-26 13:47

浏览

0收藏

今天开源了deepseek-v3中提到的的FP8 GEMM内核。

DeepSeek开源周，第三弹， DeepGEMM来袭！-AI.x社区

300行代码的暴力cuda美学，看不太懂，但是每天都可以打个酱油~

支持普通的矩阵乘法以及 Mix-of-Experts 分组矩阵乘法。使用 CUDA 编写，安装时无需编译，所有内核在运行时通过轻量级的即时编译（JIT）模块动态编译。

DeepSeek开源周，第三弹， DeepGEMM来袭！-AI.x社区

DeepGEMM设计，避免了对CUTLASS和CuTe的过度依赖，采用了更简洁的设计，核心代码只有大约300行。整个库就是非常“轻量化”，但同时性能又很强大，甚至超过了专家调优的库。在某些场景下的加速比达到了2.7倍。

DeepSeek开源周，第三弹， DeepGEMM来袭！-AI.x社区

使用这个仓库，需要支持Hopper架构的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本。

项目地址：https://github.com/deepseek-ai/DeepGEMM/blob/main/README.md

贡献者似乎包含梁文峰。

DeepSeek开源周，第三弹， DeepGEMM来袭！-AI.x社区

本文转载自 NLP前沿，作者： NLP前沿

标签

DeepSeek

CUDA

内核

相关推荐

Midjourney最新功能来袭

开发者阿橙 • 2024浏览 • 0回复
Octopus v4：八爪鱼来袭，整合各开源大模型一起玩耍，取长补短！

PaperAgent • 5098浏览 • 0回复
Optimus来袭！人形机器人进厂打工

echo_ning • 1784浏览 • 0回复
3DitScene：通过语言引导的解耦 Gaussian Splatting开源来袭！

angel • 1936浏览 • 0回复
Jamba前生今世：1.5开源来袭

鲁班模锤1 • 1250浏览 • 0回复
3DitScene：通过语言引导的解耦 Gaussian Splatting开源来袭！

angel • 1022浏览 • 0回复
SDM: 第三代神经网络和扩散模型强强联合！FID最多超基线12倍，能耗省60%，实力SOTA！

angel • 1646浏览 • 0回复
图像生成，编辑，翻译三合一！全能视觉助手PixWizard来袭！

angel • 1450浏览 • 0回复
关于调用第三方大模型服务商接口的感受

AI探索时代 • 899浏览 • 0回复
AI Video Composer：Qwen2.5-Coder 赋能，简易开源视频创作神器来袭

穿越时空111 • 1925浏览 • 0回复
Deepseek 671B + Milvus 重新定义知识库搭建！

玄姐聊AGI • 2119浏览 • 0回复
4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！

玄姐聊AGI • 3002浏览 • 0回复
DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！

51CTO技术栈 • 512浏览 • 0回复
DeepSeek开源DeepGEMM，仅300行代码

Aceryt • 552浏览 • 0回复
DeepSeek开源第3弹：DeepGEMM炸场，算力焦虑终结者？

智驻未来 • 451浏览 • 0回复
外网夸爆DeepSeek开源周！今天一口气开源3个重磅！压轴戏期待拉满，R2、V4、被提名

51CTO技术栈 • 499浏览 • 0回复
DeepSeek官方开源生态工具库「狂飙」指南

墨风如雪小站 • 1105浏览 • 0回复
如何安全地使用第三方应用程序访问DeepSeek

51CTO内容精选 • 462浏览 • 0回复
DeepSeek的三种接入使用方法

一起AI技术 • 272浏览 • 0回复

51CTO

51CTO博客

51CTO学堂

DeepSeek开源周，第三弹， DeepGEMM来袭！