关注最新一期全球超级计算机榜单的意义在于未来,而非过去。整整六个月以来,榜单位次基本没有多大变化,而即将于本月公布的最新榜单可能最终打破这死水微澜的半年。驱动这波变化的,当然要归功于云系统和AI系统的涌入。两股新势力正令超算排名逐渐偏离其最初目标,在高性能计算(HPC)模拟之外开辟出新的算力厮杀战场。
但这种转变又在情理之中,甚至可以说是不可避免。毕竟传统意义上的“高性能计算”就是用Linpack基准测试核查分布式系统的理论算力,但这种简单粗暴的方式显然不足以确切反映各国超算系统在商业、学术和模拟/建模任务当中表现出的相对性能。
之前我们已经多次谈到,超算500强榜单上经常会有日常处理电信、Web和托管工作负载的高性能机器实例。而随着商业AI系统的兴起,构建这些机器的供应商以及负责托管的企业/国家自然也深为自己掌握的巨量算力而自豪。表面这种自豪的重要方式,就是在机器上运行高性能Linpack基准测试(HPL)。但现实情况是,这些机器很少、甚至几乎不会运行64位浮点数学运算,就连传统意义上的HPC负载都接触不多。全球范围内存在着成千上万的超算系统,但榜单只有区区500个名额。HPC社区当然希望在榜单中多引入新选手,借此展示整个生态的蓬勃活力。
当然,从最广泛的意义上对全球超算系统进行排名也无可厚非。但我们认为AI社区还需要一些门槛更低的选项,比如说多测HPL,这可比AI硬件厂商最喜欢的MLPerf基准测试简单得多。另外,还应当对基准测试结果做更加严格的审核,以证明机器确实在运行HPC或AI负载,而不只是将超大规模服务商、云供应商和电信公司的集群分割出足够大的一块,然后粗暴占据Top500榜单中高达三分之一的名额。(HPE和联想,感谢你们对HPC做出的卓越贡献,但实际情况就是如此。当然,IBM在2000年左右也有过类似的「霸榜」行为,这里并不是要指责哪家厂商。)
带着这样的思考,让我们一起来看2023年6月的最新一轮Top500超算榜单。虽然很多人确定中国已经建立起了自己的百亿亿级系统,但其在本次榜单中仍然不见踪影;Frontier超级计算机的HPL持续性能为1.19百亿亿次(exaflops),还是目前全球唯一得到认证的百亿亿级系统。同样由美国能源部出资建设的劳伦斯利弗莫尔国家实验室El Capitan系统和阿贡国家实验室的Aurora系统,也将在今年晚些时候加入百亿亿级俱乐部。不出意外的话,二者的亮相首秀将是2023年11月的下一次Top500超算排名。
超算系统的性能提升恐怕已经跟不上摩尔定律的预测了。
位列榜首的Frontier系统来自橡树岭国家实验室,是一套由4000多个节点组成的集群,采用定制版“Trento”AMD Epyc CPU和4个AMD“Aldebaran”Instinct MI250X GPU加速器,通过HPE的Slingshot 11以太网实现互连。第二名则是采用富士通A64FX高度矢量化Arm CPU和Tofu D互连系统的“Fugaku”超级计算机。二者的64位浮点运算理论峰值性能分别为1.68百亿亿次和537.2千万亿次(petaflops)。Fukago比Frontier年长两岁、发热量更大,但64位运算的性能只有后者的三分之一强,耗能更高导致其单位计算成本相对更差。作为Fugaku及其身前K超级计算机的所在地,日本RIKEN实验室掌握着相当全面的超算系统阵容,在Graph500测试和HPCG等高强度工作负载上都把持着最佳能效的桂冠。
芬兰科学计算中心(CSC Finland)的Lumi系统在本次榜单上位列第三,依靠的就是去年11月升级后获得的309.1千万亿次持续性能。与Frontier一样,Lumi系统也是基于HPE架构的Cray EX235a超算,同门师兄弟还有即将亮相的夺冠大热El Capitan和Aurora。El Capitan将采用Instinct MI300-A的“Antares”混合CPU-GPU计算引擎,该引擎在单一封装内塞进了2个“Genoa”Epyc小芯片外加6个GPU小芯片。Aurora则拥有2个英特尔“Sapphire Rapids”至强jSP节点,各节点交叉耦合至6个“Ponte Vecchio”Max GPU加速器,CPU与GPU之间使用Xe互连进行对接,再辅以Slingshot 11连接节点。从目前的情况看,HPE显然特别擅长在准百亿亿级和百亿亿级超算中使用Slingshot 11连通各CPU和GPU节点。根据之前的推测,Lumi系统的GPU部分算力应该扩展到了550千万亿次的峰值,但目前还不清楚论断是否准确。芬兰科学计算中心只提到,Lumi的GPU部分在Linpack上的持续峰值性能可达到375千万亿次。
来自意大利Cineca超算中心的Leonardo系统由Atos(现更名为Eviden)负责建造,并于去年11月首次上榜。虽然通过升级将设备规模提升了25%,但Leonardo目前在Top500榜单中的排名仍在第四。升级后Leonardo的峰值性能提升19.1%来到304.5千万亿次,而持续Linpack性能则提升36.6%达到238.7千万亿次。
Top500的前十名没有任何变化,我们也将继续期待看到更多新的系统和技术发展趋势。
趋势和花絮
下面咱们聊聊云计算阵营。微软Azure提供7个永久(可能是虚拟)集群,负责运行真正的客户HPC工作负载。这些集群也进入了本轮Top500榜单。这一点非常重要,其中排名第11的Explorer-WUS3系统由48核Epyc 7V12处理器和AMD MI250X GPU组成,服务器节点采用英伟达100 Gb/秒HDR InfiniBand互连,其峰值Linpack性能接近87千万亿次,持续性能则接近54千万亿次。由此可知,其计算效率为62%,跟我们在GPU加速计算系统中常见的65%到70%效率基本持平。而且很明显,Azure云实例还要配合Hyper-V管理程序运行,所以必然额外消耗一点性能(一切云平台上的任何管理程序都必然额外消耗性能)。Voyager-EUS2集群自2021年夏季起正式运行,并在当年11月的榜单中位列第十。但其持续30千万亿次的性能很快跌至榜单第16位。微软的四个Pioneer集群继续以16.6千万亿次的峰值性能位列40多名;而采用英特尔至强SP CPU加英伟达V100 GPU的HyperCluster设备最初于2019年11月进入榜单,目前仍以2.67千万亿次的持续Linpack峰值性能位列榜单第289位。
微软的所有HPC集群目前在64位基准测试中的峰值性能在229千万亿次,持续运行性能则为153千万亿次,跟橡树岭的“Summit”超级计算机处于同一水平。我们很好奇这7个多云HPC集群到底帮微软赚了多少钱,目前有没有收回成本。但唯一可以肯定的,就是全球还没有哪个国家实验室的集群能真正创造收入,即使把科研产出算上也不行。如果再加上俄罗斯Yandex的两个集群和美国亚马逊云科技Descartes Labs的一个集群,那么6月Top500榜单中全部10个云实例共对应294.1千万亿次峰值性能,在全榜所有超算64位浮点算力总值7.83百亿亿次中占比3.8%。
虽然看起来比例不高,但请注意:这份Top500榜单只采集主动提交上来的超算系统信息。其他一切已知和未知的HPC设备,无论属不属于云基础设施,都不会被计入进来。这也是我们长久以来最为不满的点:我们需要一套完整的数据库,包含对所了解的一切超算设备及其测试性能的全面记录。如若不然,这样的榜单反而可能扭曲我们对于现实的认知。(请千万别误会,Top500超算榜首提供的数据也很有价值,包括其中的HPCG、Graph500、Green500及其他测试基准。)
我们只是认为HPC集群的云实例其实更多,其中相当一部分属于云内部设施,且生命周期在三到四年之间。
说到这里,我还想再提点意见。Top500榜单会告诉我们一台机器排在多少名,每隔半年其成绩有何变化,但却不会直接显示各位选手在榜单上待了多久。对于传统超算系统来说,这倒不是个大问题,查询一下非常方便。但云计算集群就不同了,我们很想知道它们会不会被更快淘汰,至少跟传统超算相比在生命周期上有何异同。最近一段时间,各大云服务商正在将基础设施的使用寿命由三年延长到四年、五年甚至是六年——我们强烈怀疑超级计算机的工作周期也在延长,不再一味追求每年定期推出的最新、最强计算引擎。
下面,咱们聊聊在HPC领域重新崛起的AMD和他们的CPU/GPU成果。
在2023年6月榜单上的184位GPU加速选手中,有11位搭载了AMD GPU,167位配备英伟达GPU,另外6位配备其他加速器(例如英特尔Knights协处理器)。AMD在GPU加速系统中的份额为5.9%,英伟达则为90.8%,看来天秤已经彻底倾斜了。但如果具体审视系统中GPU流式多处理器的数量,则AMD的份额为30.3%,英伟达为53.2%——这是因为AMD重回GPU赛道的时间还不长,但目前已经在184位GPU加速选手中占得总体Linpack持续性能份额的49.2%,而英伟达GPU的总和性能反而只有48.6%。
短短几年间恢复到这样的水准无疑令人惊叹,也引得英伟达用Grace-Hopper和Grace-Grace计算引擎施以反击——前者为CPU-GPU混合引擎,后者则是双CPU密耦合封装。
现在我们再看看Top500榜单中的CPU们。以下图表按时间顺序记录了每一代CPU和各家厂商在榜单中的核心数量:
首先需要注意的是,Top500榜单中各超算系统的总核心数量已接近4000万,而且过去两年间一直在迅猛增加。目前AMD的核心份额约在三分之一,而且自2020年来保持着稳步提升。但如果深入研究数据并计算各代CPU核心的性能占比,则AMD在目前这份榜单中的比例仅为24.2%,核心数量占比为35.4%,而各核心带来的持续Linpack性能份额为51.1%。这些数据均来自Top500数据库的子列表生成器,但似乎同时计入了CPU和GPU核心的数量和对应性能。不太清楚具体要怎么把纯CPU系统剥离出来单独比较。
在我们看来,如果AMD能在Top500超算榜单的CPU数量上占比超过三分之一,那么这些CPU所对应的性能很可能是榜单总量的40%或者更高一点。自2000年代中后期Opteron达到顶峰以来,AMD在HPC领域从未取得过此等成功。而这一次,AMD不仅要在CPU市场上正面对抗英特尔,还打算在GPU领域跟英伟达一较高下。
最后,Top500超算榜单的守门性能水平为Linpack 1.87千万亿次;要冲击前100(也就是真正具备HPC承载能力的高容量超算的正式门槛)则为6.32千万亿次。
Top500榜单目前的总算力为5.24百亿亿次,比去年11月增长了7.8%,较上年同期的4.4百亿亿次增长了19.1%。