华为云发布EMS弹性内存存储 突破内存墙限制

业界
目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。

在华为开发者大会(HDC 2024)上,华为云CTO张宇昕正式发布了EMS弹性内存存储服务。这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(NPU)的高带宽内存(HBM)容量限制,该问题长期制约着AI算力的高效利用。

华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,运用Memory Pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:

显存扩展:大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能将模型参数装下来进行推理,但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS,只用了一半的卡,就可存下万亿参数的大模型,NPU部署数量减少50%。

算力卸载:大模型推理过程中包括模型计算和KV相关计算,其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS,而模型计算仍在NPU中进行,将AI推理性能提升了100%。

以存代算:大模型推理中为了节省显存,历史对话的KV Cache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,优化了80%。

目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。

责任编辑:林周
相关推荐

2010-09-26 15:16:37

MyEclipseJVM

2009-07-08 15:31:58

MyEclipse 设

2017-01-10 10:51:06

腾讯云

2014-02-27 13:57:36

华为弹性计算云

2018-10-16 16:46:14

华为云

2010-11-08 10:07:23

SQL Server内

2011-08-03 09:15:47

存储内存云云计算

2012-02-07 13:29:29

云计算云存储

2021-04-01 15:58:11

AI 数据人工智能

2014-06-05 17:40:05

2024-01-06 10:26:04

2023-03-06 00:13:58

IOT内存物联网

2009-06-17 15:39:00

本机内存硬件限制虚拟内存

2009-04-09 18:59:00

Vmware虚拟化虚拟机

2020-05-15 12:55:44

华为云政企Stack

2015-04-13 09:25:22

亚马逊AWS弹性文件存储

2024-11-05 14:48:57

2013-05-15 16:06:01

华为交换机虚拟化网络

2021-07-19 16:15:27

手机安卓内存
点赞
收藏

51CTO技术栈公众号