近日,锐捷网络正式成为超以太网联盟 (Ultra Ethernet Consortium,UEC)新成员,该联盟是在 Linux 基金会的牵头下由多家全球头部科技企业联合成立,致力于突破传统以太网的性能瓶颈,满足AI和高性能计算对智能算力日益激增的需求。
锐捷网络始终致力于将技术与应用创造性融合,以开放的态度全面拥抱面向下一代智算网络的创新技术,为优化以太网标准、实现高性能网络注入新的活力,并为未来网络技术持续做出贡献。
RoCE用于未来AI/HPC网络的局限性
RDMA(Remote Direct Memory Access)是当今 AI 训练作业的基本组成部分,允许 CPU、GPU、TPU等加速器将数据直接从发送方内存传输到接收方内存,单个GPU/TPU加速器可以集成多个同构或异构网络 I/O。其中RoCE (RDMA over Converged Ethernet) 通过 Verbs API 表达的方式可追溯到上世纪末,多年前才首次由InfiniBand贸易协会(InfiniBand Trade Association,IBTA)进行标准化,其底层的以太网络已经提供每秒400G甚至800G速率,这比最初设想的场景提高了几个数量级,重新审视AI/HPC网络核心所采用的底层传输协议和网络API成为必然。
实际上,随着人工智能模型规模扩大、通信模式及计算方法的多样化,传统基于RoCE的RDMA方案存在诸多问题:
- RoCE和DCQCN是拥塞控制算法,用于避免链路超限并提高速率。但DCQCN对其下方网络和负载性质敏感,需手动调整性能。未来的AI网络需要一种适用于任何数据中心的传输协议。
- 网络运营商在“无损”网络(InfiniBand和RoCE)上运行RDMA以避免此行为,但效率低。优先级流量控制 (PFC) 生成逐跳背压以太网是无损的,但背压(Back Pressure)传播导致拥塞树、队头阻塞、环路死锁等,使网络性能下降。PFC/ECN、DCQCN需根据网络情况调整、操作和监控,成本高。未来的AI网络急需不依赖于无损结构的传输协议。
- 无论是在带宽还是对等点数量方面。Verbs API设计规模已经捉襟见肘。RC(可靠连接)传输模式如果不减少快速路径状态,就不适合高速率下的高效硬件卸载。此外,固有的流程到流程 (N*P*P)的可扩展性问题也是一大限制。这些问题还没有完美的解决方案,而未来的AI网络需要能支撑Verbs API设计规模的传输协议。
- AI应用程序传输大量数据,受NIC QP Scale和AI模型数据交互方式限制,传统RoCE需仔细进行大象流负载均衡以防止链路过载。AI工作负载决定了整个计算周期受限于所有流成功交付,而未来更高性能的AI网络需要改进的负载均衡技术。
另一方面,TCP/IP具有RoCE没有的的优点,包括生态系统、性能/规模、工具、成本、标准调整和GPU超大规模部署。但为真正满足AI网络需求,以太网需要进行改进创新,尽快将消息传递到所有参与端点,避免少数端点出现长时间延迟,并尽量减少“尾部延迟”,提供更高性能并适应未来AI/HPC和Cloud网络规模扩大、带宽提高和时延降低的需求。
超以太网传输协议(UET)
尽管TCP/IP具有一些RoCE不具备的优点,但是在无损架构下(Lossless Network)运行并提供丢包重传功能,同时避免触发队头阻塞和拥塞扩散,这一挑战仍然存在。为了应对这一挑战,超以太网联盟(UEC)提出了超以太网传输协议(Ultra Ethernet Transport, UET),该协议可以在保留以太网/IP生态系统优势的同时,为AI和HPC应用程序提供所需的性能。UET传输协议通过提供以下功能超越了现状:
- 开放协议规范从一开始就设计为在 IP 和以太网上运行
- 多路径、数据包喷射传输,充分利用 AI 网络,不会造成拥塞或队头阻塞,无需集中式负载均衡算法和路由控制器
- Incast 管理机制可控制到目标主机的最终链路上的扇入,并以最小的丢包率进行控制
- 高效的速率控制算法,允许传输快速提升至线速,同时不会导致竞争流的性能损失
- 用于无序(out-of-order)数据包传输的 API,也可选择按顺序 (in-order)完成消息,最大限度地提高网络和应用程序的并发性,并最大限度地减少消息延迟
- 可扩展未来网络,支持 1,000,000 个端点
- 性能和网络利用率优化无需针对网络和工作负载进行拥塞算法参数调整
- 旨在在商用硬件上实现 800G、1.6T 和未来更快以太网的线速性能
UET协议将超越传输层,定义标准语义层、改进的低延迟交付机制以及一致的 AI 和 HPC API,并提供标准的多供应商支持,以便通过 UEC 传输协议实现这些 API。
为了实现全行业在互操作性方面的合作,UEC构建了完整的基于以太网的通信堆栈架构,以最好地匹配快速发展的、大规模的AI/HPC工作负载,并提供一流的功能、性能、互操作性、TCO以及开发人员和最终用户友好性。UEC由在高性能解决方案方面拥有悠久历史和经验的公司创立,每个成员都以平等的方式为更广泛的高性能生态系统做出了重大贡献。这些成员包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软,他们都有数十年的网络、人工智能、云和高性能计算大规模部署经验,将为UEC的四个工作组——物理层、链路层、传输层和软件层做出贡献。
锐捷网络在行动
锐捷网络作为智算中心网络建设者,也在践行以太无损网络解决方案的路线,支撑超大规模的算力集群建设。锐捷网络推出了AI-Fabric智算中心网络解决方案,天然支持无损机制和负载均衡,方案优势具体如下:
- 基于AI fabric的架构设计,NCP层面采用1. 1 : 1的超速比缓解网络中Incast的问题规避拥塞,基于Cell的高效路由可以加速互联链路的故障收敛时间,不需要部署复杂低效的BGP路由。
- 基于Cell的切片技术,优化链路的负载均衡效果提升网络带宽利用率,缩短业务的流完成时间FCT 。
- 基于VoQ缓存和Credit的拥塞控制机制实现Fabric网络中的数据无损转发,彻底解决丢包重传的问题确保业务持续高吞吐地转发,进而来提升整个算力集群的GPU利用率。
(详见《锐捷网络高性能网络方案,为AIGC打通 “任督二脉”》)
同时,在传统RoCE协议的基础上,锐捷网络在多路径流量调度技术上进行了创新,推出RALB(Remote Adaptive Load Balancing)技术。通过感知链路质量,进行逐包的全局动态负载均衡,让网络带宽利用率可达97.6%,有效实现端网联动。(详见《解决数据中心网络拥塞,锐捷RALB负载均衡技术助力高效数据传输》)
在全球互联网流量不断增长和数据应用需求日益多样化的背景下,锐捷网络致力于推动网络技术的进步和发展,全局负载均衡解决方案的推出正是其不断探索和创新的有力证明。通过持续的技术研发和产品创新,锐捷网络将继续开放创新,积极探索国内外先进技术,为全球的数据中心提供更加高效、可靠、智能的网络解决方案,助力互联网、运营商及各行各业的快速发展。