8月9日,国际网络通信顶会 SIGCOMM 昨日落下帷幕,阿里云 7 篇论文入选本次 SIGCOMM,其中 AI 网络调度成果论文斩获 SIGCOMM 2024 优胜奖。据了解,获奖论文介绍了阿里云自研的集合通信优化调度器 Crux,可提升高达 14.8% 的 GPU 计算利用率。
阿里云获 SIGCOMM 2024优胜奖
ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM 对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在SIGCOMM上。2024年度的SIGCOMM仅录用62篇论文,录取率不到 17%,为近五年最低。
AI 网络是今年最热门的领域之一。阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是 GPU 集群的训练效率不高的基础性原因。对此,团队从学术理论层面突破,证明了 GPU 利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。
阿里云自研集合通信优化调度器 Crux,提升 GPU 计算利用率
实验结果表明,在 96卡GPU测试环境中,Crux可以提高GPU计算利用率8.3%至14.8%。在基于大规模生产跟踪仿真中,与Sincronia、TACCL和CASSINI等已有方案相比,Crux可以将 GPU 计算利用率最多提高 23%。据了解,Crux 已被集成到阿里云自研通信库,实现规模化使用。
SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。SIGCOMM 评审专家认为 Crux 解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。
从2019年以来,阿里云有20余篇成果论文先后发表在SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM。除上述介绍的 Crux 论文外,今年关于智算集群网络架构 HPN 7.0 的成果论文,成为SIGCOMM在AI智算集群网络架构领域的首篇论文。HPN 7.0 创新性地设计了“双上联+多轨+双平面”的新型数据中心网络架构,可实现单层千卡、两层万卡 GPU 的高性能和高稳定互联。
阿里云网络研发团队与大会程序委员会主席合影
据了解,阿里巴巴曾在 2022 年获评AMiner全球十大网络研究机构,是榜单中唯一的中国科技企业。阿里云在网络技术领域创新成果不断,业界首个提出了端网融合的可预期网络技术体系,并在全球率先大规模实践RDMA低延时网络、AI 智算集群网络架构 HPN 7.0 等先进技术,为下一代 AI 基础设施的设计提供了新范式。