鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

杀疯了！DeepSeek开源第3弹：DeepGEMM炸场，算力焦虑终结者？

发布于 2025-2-26 14:45

浏览

0收藏

‌家人们谁懂啊‌！DeepSeek连续两天向AI圈扔出炸弹后，今天又甩出一个王炸——‌DeepGEMM‌！

这玩意儿简直可以称作一键榨干显卡性能，让算法速度原地芜湖起飞🛫。

本摸鱼小编带你们盘一盘这个让码农狂喜、资本沉默的「算力永动机」！

一、啥是 DeepGEMM？

杀疯了！DeepSeek开源第3弹：DeepGEMM炸场，算力焦虑终结者？-AI.x社区

先来给大家介绍一下，DeepGEMM 是一款专注于 FP8 高效通用矩阵乘法（GEMM） 的库。咱都知道，矩阵乘法在深度学习里那可是家常便饭，就像是盖房子时的砖头，少了它啥都干不成。而 DeepGEMM 就是专门来优化这个“砖头”的生产效率的。

它的原理说起来有点复杂，但简单来讲，就是通过动态优化资源分配，让算力效率像坐了火箭一样飙升。而且它是基于 CUDA 开发的，还用了轻量级即时编译（JIT）模块，这意味着啥呢？就是你不用提前编译和安装，直接就能用，是不是很方便？就像你早上起来，不用自己做饭，直接就有热乎乎的早餐等着你一样。

二、性能咋样？

DeepGEMM 的性能可不是吹出来的，那是实打实的厉害。根据官方数据，在 Hopper 架构的 GPU 上，它的性能可以达到 1350+ FP8 TFLOPS，这数字听着就让人热血沸腾！

杀疯了！DeepSeek开源第3弹：DeepGEMM炸场，算力焦虑终结者？-AI.x社区

（图1）

杀疯了！DeepSeek开源第3弹：DeepGEMM炸场，算力焦虑终结者？-AI.x社区

（图2）

杀疯了！DeepSeek开源第3弹：DeepGEMM炸场，算力焦虑终结者？-AI.x社区

（图3）

而且，DeepGEMM 在普通 GEMM（密集模型）中，矩阵运算的提速最高可达 2.7 倍（图1）；在分组 GEMM（MoE 模型）中，连续性布局和掩码布局下的提速也能达到 1.1 倍至 1.2 倍（图2）、（图3）。这就好比你平时开车上班要一个小时，用了 DeepGEMM 就像开了挂，半小时就能到，是不是很爽？

三、有啥作用？

DeepGEMM 的作用可大了去了！它主要是为 DeepSeek-V3/R1 模型的训练与推理提供高效支持，就像是给这些模型装上了超级引擎，让它们跑得更快、更稳。而且，它还特别适合大规模模型的训练和推理，能显著提升计算效率，为研究人员节省大量时间和精力，就像给科研人员配备了一个超级助手，让他们能更专注于模型的优化和创新。

此外，你以为DeepGEMM只是个“速度外挂”？格局小了！

小厂狂喜‌：再也不用跪求英伟达老仙“赐我算力”了！
科研狗泪目‌：论文实验从“等到海枯石烂”变成“再来亿次！”

关键的是——‌它！免！费！‌

（某厂CTO哀嚎：“我花10亿买的算力方案，不如人家GitHub一行README？”）

四、未来影响几何？

DeepGEMM 的开源，对整个 AI 行业来说，那简直就是一场及时雨。它不仅降低了高性能计算技术的应用门槛，让更多开发者能够轻松上手，还可能推动整个行业向更高效、更经济的方向发展。就像打开了潘多拉魔盒，未来可能会有更多基于 DeepGEMM 的创新应用涌现出来。

本文转载自智驻未来，作者：小智

标签

已于2025-2-26 14:55:30修改

赞

收藏

回复

举报

回复

相关推荐

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

轻薄滴假象 • 2121浏览 • 0回复
终结落地焦虑：突然火了的AI Agent，会成为破局的关键吗？

51CTO技术栈 • 2295浏览 • 0回复
杀疯了！Meta开源SAM-2：可商用，随意分割视频、图像

Aceryt • 3335浏览 • 0回复
OpenAI版终结者降临！地表最强机器人Figure 02问世，进宝马狂飙20小时

duhorse • 1915浏览 • 0回复
【智汇金秋创造季】智汇成海，致敬开发者的“超级码力”！

AI.x社区官方账号 • 32.9w浏览 • 148回复
图解DSPy：Prompt的时代终结者？！

鲁班模锤1 • 2802浏览 • 0回复
突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

Aceryt • 1807浏览 • 0回复
DeepSeek算力平权后端侧AI和Agent智能体迎来爆发

数字化助推器 • 1604浏览 • 0回复
DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！

51CTO技术栈 • 1512浏览 • 0回复
DeepSeek开源DeepGEMM，仅300行代码

Aceryt • 1684浏览 • 0回复
DeepSeek开源周，第三弹， DeepGEMM来袭！

NLP前沿1 • 1405浏览 • 0回复
DeepSeek创造历史！登顶全球AI应用第2名，豆包排名第10

Aceryt • 1548浏览 • 0回复
DeepSeek成本公开：还值得自建算力吗？

云原生AI百宝箱 • 1339浏览 • 0回复
CVPR 2025 | 数据荒漠终结者！DoraCycle跨模态自循环算法：让生成不再依赖配对数据

angel • 1492浏览 • 0回复
基于秘密共享重构 DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 • 1489浏览 • 0回复
谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

Aceryt • 1853浏览 • 0回复
算力革命：租赁与自建的博弈与未来

AI算力补给站 • 1088浏览 • 0回复
算力租赁：人工智能时代的"算力加油站"

AI算力补给站 • 1004浏览 • 0回复
GPT-4.1深夜炸场！API专供的“开发者福音”，价格打下来了！小而强大，百万token上下文，GPT-4.5尴尬了

51CTO技术栈 • 421浏览 • 0回复

穿越时空111

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

28

帖子

280

声望

1

粉丝

关注

最近发布

一文轻松搞懂 MHA、MQA、GQA 和 MLA 4天前发布
有一款神器！深入探索Transformer语言模型的可视化工具BertViz 4天前发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： 5000字揭秘！DeepSeek-R1-Zero自我进化的3大特点和3大基石

下一篇：深度解析理解 Transformer 中的3大位置嵌入：从绝对位置嵌入到旋转位置嵌入

社区精华内容

目录

一、啥是 DeepGEMM？
二、性能咋样？
三、有啥作用？
四、未来影响几何？

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载