DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

人工智能 新闻
简单来说,FlashMLA就是一个为了让 英伟达Hopper架构 GPU跑得更快更溜的 MLA 解码加速器!

DeepSeek 开源周day1 推出 FlashMLA! 专为Hopper 架构 GPU打造的 超高效 MLA (Multi-Layer Attention) 解码内核,现在已经正式开源啦!👏


什么是 FlashMLA?🤔

简单来说,FlashMLA就是一个为了让 英伟达Hopper架构 GPU跑得更快更溜的 MLA 解码加速器! 它主要针对 变长序列 (variable-length sequences) 的场景进行了深度优化,尤其是在大模型推理服务中,效率提升简直肉眼可见!🚀

根据官方介绍,FlashMLA 目前已经 在生产环境中使用,稳定性杠杠的!

FlashMLA 有啥亮点? ✨

  • • ✅ BF16 精度支持: 紧跟潮流,支持最新的 BF16 精度,性能与效率兼得!
  • • ✅ Paged KV Cache (页式键值缓存): 采用页式 KV 缓存,块大小为 64,更精细的内存管理,效率更高!
  • • ⚡️ 极致性能: 在 H800 SXM5 GPU 上,内存受限场景下可达 3000 GB/s 的惊人速度,计算受限场景也能达到 580 TFLOPS 的算力! 而且,这一切都基于 CUDA 12.6 实现的!

快速上手,体验飞一般的感觉! 💨

DeepSeek AI 也非常贴心地给出了快速上手指南,只需简单几步,就能体验 FlashMLA 的强大!

安装:

python setup.py install

复制

跑个 Benchmark 试试水:

python tests/test_flash_mla.py


👉 GitHub 仓库传送门: https://github.com/deepseek-ai/FlashMLA

技术细节 & 引用

FlashMLA 的背后,离不开对 FlashAttention 2&3 以及 cutlass 等优秀项目的学习和借鉴。DeepSeek AI 在这些基础上进行了创新和优化,才有了今天的 FlashMLA。

写在最后

温馨提示: FlashMLA 需要 Hopper 架构 GPUCUDA 12.3 及以上 以及 PyTorch 2.0 及以上 版本支持哦! 使用前请确保你的环境满足要求!

责任编辑:张燕妮 来源: AI寒武纪
相关推荐

2025-02-18 10:34:36

2020-10-24 07:30:05

开源字节跳动模型

2023-10-30 16:02:20

区块链元宇宙

2025-02-17 10:36:00

微软开源模型

2020-12-30 14:03:29

腾讯AI人工智能

2024-10-28 10:30:00

AI开源模型

2025-01-21 11:53:53

2018-06-28 22:04:25

智能体华为云人工智能

2025-02-21 15:18:20

2024-10-29 21:01:44

2024-11-21 14:00:00

模型AI

2022-06-01 16:47:53

AI模型开源

2025-02-17 03:00:00

RAG开源DeepSeek

2014-01-02 13:08:38

2009-10-29 16:28:04

2023-12-14 11:19:52

开源AI

2025-02-07 12:09:37

2015-10-08 10:55:55

物联网市场新版图

2024-02-04 15:58:53

C++ 17编程代码
点赞
收藏

51CTO技术栈公众号