AIGC时代,谁说炼大模型就一定得用GPU?
英特至强CPU,运行扩散模型Stable Diffusion只需5秒就能出图。
而在这两天,专门搭载在该CPU上使用的AI加速器更是新鲜出炉。
它叫Gaudi2,面向中国市场发布,用于加速AI训练及推理,有了它,大规模部署AI便多了一种新选择。
性能上,它在MLPerf最新报告中的多种训练和推理基准测试中都直接超越了英伟达A100,并提供了约2倍的性价比。
至于H100,它虽然还不能敌过,但若拉上成本,则也能“扳回一局”。
这款主打超强性价比的AI加速器,究竟什么来头?
全新Gaudi2加速器,性能超A100
Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础,加速高性能大语言模型运行。
(ps. Gaudi1代处理器诞生于2019年,其背后公司来自以色列,当年年底被英特尔以20亿美元收购,如今成为英特尔“叫板”英伟达的重要底气。)
Gaudi2采用7nm制程工艺,具备24个可编程Tensor处理器核心(TPCs),支持面向AI的各类高级数据类型:FP8、BF16、FP16、TF32和FP32。
它配备21个100 Gbps(RoCEv2)以太网接口,可通过直接路由实现Gaudi处理器间通信(相比原版少了3个,但英特尔公司执行副总裁Sandra Rivera介绍,这对整体性能影响基本不大)。
同时,它还能做到2.4TB/秒的总内存带宽,先进的HBM控制器则针对随机访问和线性访问进行了优化,在各种访问模式下都可以提供这一保证。
此外,48MB片上SRAM和集成多媒体处理引擎亦是标配。
图片
就在上个月公布的MLCommons® MLPerf®基准测试中,Gaudi2在1750亿参数的GPT-3模型训练上表现出色,使用384个加速器上耗时311分钟就完成了训练。
虽然相比之下,英伟达只需61分钟便可,但这样的成绩需要512个H100——由于Gaudi2的成本要远低于H100,所以要论性价比,Sandra Rivera表示,Gaudi2是更具诱惑力的选择。
与此同时,Gaudi2在基于8个和64个加速器助力的BERT、8个加速器助力的ResNet-50和Unet3D训练结果上,全部优于A100。
此外,Gaudi2也可为大规模的多模态和语言模型提供出色的推理性能。
在最近的Hugging Face评估中,其在大规模推理方面的表现,包括在运行Stable Diffusion、70亿以及1760亿参数BLOOMZ模型时,在行业内均保持领先。
能耗方面,训练计算机视觉模型时,Gaudi2的每瓦性能是A100的2倍,推理176B参数的BLOOMZ时,功耗则可降低40%。
——不仅性能和功耗强大,英特尔还提供了配套的成熟软件支持:SynapseAI。
它可以方便开发者轻松构建模型,或将当前基于GPU的模型业务和系统迁移到基于全新Gaudi2服务器。
同时,SynapseAI集成了对TensorFlow和PyTorch框架的支持,提供众多流行的计算机视觉和自然语言参考模型,可以满足深度学习开发者的多样化需求。
另外,说到Gaudi2服务器,现在,英特尔已与浪潮信息合作,打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。
该服务器集成了8颗Gaudi2加速卡HL-225B,还包含双路第四代英特尔至强可扩展处理器,进一步帮助大家高效部署大模型。
最后,值得一提的是,在发布会后的交流环节中,当被问及英特尔是否有一个预期,能占领多少AI加速芯片的市场时,Sandra Rivera表示:
国内AI产品需求非常大,产品完全不够用。因此市场就在那里,在这种情况下我们不用特别设什么份额的目标,就把最好的产品带出来,满足市场需求,帮助大家创新,这就是我们想要做的事情。
而据量子位现场获悉,明年,能够进一步缩小差距甚至超越英伟达H100的Gaudi3就将问世。
与此同时,2025年之时,英特尔还将整合既有的GPU Max产品线和Gaudi系列,取两者之长,推出更加完整的下一代GPU产品。
而在这之中,英特尔将对大家最为关心的可持续软件生态做大笔投入。