据微软 Azure 官方发布,微软将过去十年的超级计算经验和支持超大型 AI 训练工作负载的经验应用于搭建具备大规模化高性能的 AI 基础架构。微软 Azure 智能云,特别是以图形处理单元(GPU)加速的虚拟机(VM),为微软及其客户的生成式 AI 发展奠定了基础。
微软现推出 ND H100 v5 VM,是 Azure 迄今更强大和高度可伸缩的 AI 虚拟机系列。该虚拟机支持的按需配置可达 8 至上千个通过 Quantum-2 InfiniBand 网络互连的 NVIDIA H100 GPU,使得 AI 模型的性能明显提高。相较上一代 ND A100 v4 VM,本次推出的虚拟机包含以下创新技术:
- 8 块 NVIDIA H100 Tensor Core GPU,通过下一代 NV Switch 和 NV Link 4.0 互连。
- 在无阻塞胖树网络中,每个 GPU 搭载 400 Gb / s NVIDIA Quantum-2 CX7 InfiniBand 和每 VM 3.2Tb / s 的性能。
- 每个 VM 中的 8 块本地 GPUs 之间通过 3.8Tb / s 对分割带宽的 NV Switch 和 NV Link 4.0 互联。
- 第四代英特尔至强可扩展处理器。
- PCIE 第 5 代主机到 GPU 互连,每个 GPU 带宽为 64Gb / s。
- 16 信道的 4800 MHz DDR5 内存。
注:NVIDIA Quantum-2 采用第七代 NVIDIA InfiniBand 架构,可为 AI 开发者和科学研究人员提供超强网络性能和丰富功能,帮助他们解决充满挑战性的问题。NVIDIA Quantum-2 通过软件定义网络、网络计算、性能隔离、高级加速引擎、远程直接内存访问 (RDMA) 以及高达 400 Gb / s 的超快的速度,为先进的超级计算数据中心提供助力。
微软表示,大规模 AI 已内置于 Azure 的 DNA 中。对大型语言模型研究(如图灵)的初始投资,以及诸如在云中构建第一台 AI 超级计算机等里程碑,都为生成式 AI 的问世做好了充分准备。Azure 机器学习等 Azure 服务使客户能够访问 AI 超级计算机,以进行模型训练。Azure OpenAI 服务使客户能够利用大规模生成式 AI 模型的强大功能。「规模」一直是 Azure 优化 AI 基础设施的目标之一。现在,微软正为各种规模的初创公司和企业带来无需大量物理硬件或软件投入的超级计算功能。
现在,ND H100 v5 预览发布,将成为 Azure 产品组合中的标准服务。