显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖

网络
8月9日,国际网络通信顶会 SIGCOMM 昨日落下帷幕,阿里云 7 篇论文入选本次 SIGCOMM,其中 AI 网络调度成果论文斩获 SIGCOMM 2024 优胜奖。据了解,获奖论文介绍了阿里云自研的集合通信优化调度器 Crux,可提升高达 14.8% 的 GPU 计算利用率。

8月9日,国际网络通信顶会 SIGCOMM 昨日落下帷幕,阿里云 7 篇论文入选本次 SIGCOMM,其中 AI 网络调度成果论文斩获 SIGCOMM 2024 优胜奖。据了解,获奖论文介绍了阿里云自研的集合通信优化调度器 Crux,可提升高达 14.8% 的 GPU 计算利用率。

阿里云获 SIGCOMM 2024优胜奖

ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM 对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在SIGCOMM上。2024年度的SIGCOMM仅录用62篇论文,录取率不到 17%,为近五年最低。

AI 网络是今年最热门的领域之一。阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是 GPU 集群的训练效率不高的基础性原因。对此,团队从学术理论层面突破,证明了 GPU 利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。

阿里云自研集合通信优化调度器 Crux,提升 GPU 计算利用率

实验结果表明,在 96卡GPU测试环境中,Crux可以提高GPU计算利用率8.3%至14.8%。在基于大规模生产跟踪仿真中,与SincroniaTACCL和CASSINI等已有方案相比,Crux可以将 GPU 计算利用率最多提高 23%。据了解,Crux 已被集成到阿里云自研通信库,实现规模化使用。

SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。SIGCOMM 评审专家认为 Crux 解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。

2019年以来,阿里云有20余篇成果论文先后发表在SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM除上述介绍的 Crux 论文外,今年关于智算集群网络架构 HPN 7.0 的成果论文,成为SIGCOMM在AI智算集群网络架构领域的首篇论文。HPN 7.0 创新性地设计了“双上联+多轨+双平面”的新型数据中心网络架构,可实现单层千卡、两层万卡 GPU 的高性能和高稳定互联。

阿里云网络研发团队与大会程序委员会主席合影

据了解,阿里巴巴曾在 2022 年获评AMiner全球十大网络研究机构,是榜单中唯一的中国科技企业。阿里云在网络技术领域创新成果不断,业界首个提出了端网融合的可预期网络技术体系,并在全球率先大规模实践RDMA低延时网络、AI 智算集群网络架构 HPN 7.0 等先进技术,为下一代 AI 基础设施的设计提供了新范式。

责任编辑:鸢玮 来源: 阿里云
相关推荐

2022-04-12 15:54:12

阿里云云原生开源

2013-04-02 09:15:40

服务器虚拟化

2012-05-08 13:24:45

负载均衡带宽锐捷网络

2012-03-05 13:03:17

2013-03-19 12:23:25

SDN网络利用率网络系统架构

2020-09-23 10:20:02

深度学习GPU人工智能

2013-08-21 14:20:50

飞鱼星流控王飞鱼星

2009-05-26 17:34:14

VMware虚拟化服务器

2015-10-15 09:09:38

Oracle数据库华为

2015-09-10 13:34:10

浪潮枣庄地税局

2013-08-09 13:40:43

2020-06-19 10:33:16

阿里AIICML

2015-06-04 13:44:34

5G

2013-09-29 16:09:26

OpenStack云计算

2015-07-22 18:05:31

阿里云GPU高性能计算

2015-09-07 11:54:25

云计算数据中心资源利用
点赞
收藏

51CTO技术栈公众号