腾讯星脉网络2.0升级 支持十万卡超级集群

原创
网络
星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。

随着人工智能技术的飞速发展,模型规模的不断膨胀对底层算力提出了前所未有的挑战。为了支撑AIGC领域中海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,互联互通,共同完成训练任务。

然而,集群规模的扩大也伴随着通信开销的激增,成为制约计算效率的关键因素。在模型训练过程中,GPU频繁地在计算与等待数据同步之间切换,造成了宝贵计算资源的闲置。只有把提升通信的效率不断提升、把通信成本占到降到最低,才能充分利用计算资源。因此,要充分发挥GPU计算资源的强大算力,必须构建一个全新的高性能网络底座,用高速网络的大带宽来助推整个集群计算的高效率。

2023年,腾讯云首次公开展示了其自研的星脉高性能计算网络,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。一年后,星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。

腾讯云副总裁王亚晨形象地比喻道,AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“道路控制系统与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。同时配备了专业的抢修队,一旦故障发生,快速定位和抢救,让赛事快速恢复运行。

腾讯云副总裁王亚晨腾讯云副总裁王亚晨

此次星脉网络2.0就针对自研网络设备、通信协议、通信库以及运营系统四大关键组件进行了全面升级。

赛道升级-自研网络硬件

通过自研网络硬件设备,星脉网络“赛道”也进行了全新升级。自研交换机容量从25.6T升级到51.2T,光模块的速率从200G升级到了400G,让网络延迟降低40%,整体组网规模翻倍,同一训练集群最大可支持超过10万卡。同时支持可插拔控制卡,全面降低了低功耗与运维成本。

值得注意的是,星脉网络2.0搭载了腾讯自研的全新算力网卡CNIC,这是公用云业内首款为AI训练设计的网卡,网卡采用最新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最高的3.2T整机通信带宽。

指挥中心升级-自研通信协议TiTA

自研TITA协议相当于指挥中心,分配车流量,避免单一车道拥堵,释放赛车速度极限。相比起上一代,TiTa协议2.0从部署在交换机转移到了端侧的网卡上,协议算法也从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法,可主动调整数据包发送速率,从而避免网络拥堵;并通过拥堵智能调度,实现网络拥塞快速自愈。这让MoE训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。

车队升级-集合通信库TCCL

星脉网络1.0的通信库TCCL相当于智能导航系统,缩短到达路径。而星脉网络2.0的TCCL通信库就像一支更专业的车队,原来只给车加了导航,现在可以根据不同的场景,对赛车本身进行改装,让赛车时刻处于最佳性能。TCCL 2.0 阶段,腾讯云通过NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等通信库的升级,在MoE模型训练下,给星脉网络带来了30%的通信效率提升,让模型训练效率提升10%。

抢修队升级-运营系统GOM&GOA

运营系统是抢修队,全栈网络运营系统保障了道路的可用性,出现异常后第一时间抢修,让网络尽快恢复训练。运营系统2.0新增灵境仿真平台,通过收集训练过程中的日志记录与GPU相关信息,通过仿真模拟还原训练任务的空间关系和通信的时序关系,定位大模型训练的卡死和性能抖动类故障,定位效率从传统手段的天级别缩短到10分钟以内。

面对GPU性能的暴增,网络成为了集群算力的瓶颈。腾讯正在规划星脉3.0,将基于以太网技术构建开放、弹性的ETH-X超节点系统,以突破集群算力的瓶颈,降低集群成本,为AI技术的进一步发展提供更强大的支持。

责任编辑:鸢玮 来源: 51CTO
相关推荐

2014-03-13 10:14:59

离线集群Hadoop 2.0淘宝

2024-07-01 20:45:55

2009-06-19 13:12:05

Spring2.0Spring2.0.7

2016-10-24 15:45:19

2009-06-23 08:35:12

微软Windows 7操作系统

2009-08-16 09:25:55

Windows 7系统升级

2009-09-17 08:39:52

Windows 7系统升级

2010-05-06 09:57:45

RHEL 5.5升级

2009-06-05 08:55:16

2012-12-12 09:53:50

Windows 8

2012-05-11 09:54:23

微软Windows 8

2013-10-18 12:14:34

联想服务Windows8.1升级

2013-10-18 16:09:30

Windows8.1联想

2009-05-27 08:36:34

2020-05-21 09:17:51

Vue 3Vue代码

2009-12-28 16:39:56

Fedora 9

2012-03-22 21:15:43

Android

2012-06-29 09:19:30

Windows 8微软

2009-04-30 08:47:37

iPhone苹果移动OS

2009-06-25 08:53:44

微软Windows 7升级工具
点赞
收藏

51CTO技术栈公众号