最快AI计算机开动，每秒4百亿亿浮点运算！正拼接最大宇宙3D地图

作者：佚名 2021-05-31 09:48:10

近日，被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器，将负责拼接有史以来最大的可见宇宙3D地图。

一个计算机探索宇宙的史诗级时刻！近日，被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器，将负责拼接有史以来最大的可见宇宙3D地图。并且，它有望拨开物理学天空的乌云——暗能量。

宇宙是在不断膨胀的吗？是的！而令宇宙不断膨胀的「罪魁祸首」就是暗能量。

作为是宇宙中最神秘的物质，它看不见摸不着，为了捕捉它，人类在地球上建立了许多相关实验，但都成效甚微。

[[402628]]

但如今，一台拥有强大AI性能的超级计算机，或许能够助我们一臂之力。

近日，英伟达和美国国家能源研究科学计算中心（NERSC）打开了一个「开关」—— Perlmutte，该计算机被称为世界上用于人工智能工作负载的最快的超级计算机。

这台新的超级计算机以天体物理学家索尔-珀尔马特（Saul Perlmutter）的名字命名，拥有6144个英伟达A100 Tensor Core GPU，将负责拼接有史以来最大的可见宇宙3D地图

不仅如此，Perlmutter 还将对「宇宙摄像机」暗能量光谱仪（DESI）的数据进行处理，这是一种可以在一次曝光中捕获多达 5,000 个星系的宇宙相机。

处理DESI巨量数据，绘制最大的可见宇宙3D地图

那么，宇宙的3D地图该如何拼凑呢？

在不久前的5 月 17 日，DESI先行启动，开始了为期五年的捕捉数据之旅。在此前的四个月试运行期间，DESI已经捕获了 400 万个星系的光谱，这超过了以往所有光谱调查的总和。

而Perlmutter要做的，就是对DESI的数据进行汇总处理。

根据官网的介绍， Perlmutter 的 GPU 在一个晚上捕获数十次曝光。在之前的系统上，准备一年的数据以供发布可能需要数周或数月的时间，但 Perlmutter 将能够在短短几天内完成任务。

「我对我们在准备工作中在 GPU 上获得的 20 倍加速感到非常满意。」NERSC 的数据架构师 Rollin Thomas 说，他正在帮助研究人员为Perlmutter准备代码。

Rollin Thomas难掩对Perlmutter性能的自信，因为Perlmutter是世界上最大的 A100 驱动系统，有超过 20 个应用程序正准备成为首批搭载 6,159 个NVIDIA A100 Tensor Core GPU 的应用程序，在NERSC正式投入使用后，Perlmutter将为 7,000 多名研究人员提供近 4 exaflops 的 AI 性能。

暗能量主要是通过 2011 年诺贝尔奖获得者 Saul Perlmutter 的工作发现的。

在物理宇宙学中，暗能量是一种充溢空间的、增加宇宙膨胀速度的难以察觉的能量形式。暗能量假说是当今对宇宙加速膨胀的观测结果的解释中最为流行的一种。在宇宙标准模型中，暗能量占据宇宙68.3%的质能

作为某种作用于时空结构本身的能量，暗能量是种均匀的负压力，会导致时空结构膨胀。1998年，高红移超新星搜索队观测组发表了Ia型超新星的观测数据，显示宇宙在加速膨胀。随之，1999年，超新星宇宙学计划证实了该结果。该项工作于2011年获得诺贝尔物理学奖。

但遗憾的是，目前我们对它的研究仍然不够确切，DESI 的地图为我们带来了揭示暗能量奥秘的的新希望。

超级计算机融合 AI、HPC

毫无疑问，Perlmutter的作用将是无限的，除了拼凑宇宙的 3D 地图，还能帮助探索绿色能源的亚原子相互作用等等。

NERSC的应用性能专家Brandon Cook说：「过去不可能对像电池界面这样的大系统进行完全的原子模拟，但现在科学家们计划用Perlmutter来做这件事。」

我们知道，传统的超级计算机几乎无法处理几纳秒内生成几个原子模拟所需的数学运算，无法使用 Quantum Espresso 等程序。但通过将其高度精确的模拟与机器学习相结合，科学家可以在更长的时间内研究更多的原子。

这也是英伟达 A100 中 Tensor Core 发挥其独特作用的地方。它们加速了用于模拟的双精度浮点数学运算和深度学习所需的混合精度计算。

Perlmutter 基于包括 Slingshot 互连的 HPE Cray Shasta 平台，这是一个具有 GPU 加速节点和仅 CPU 节点的异构系统。该系统分两个阶段进行安装——最近揭幕的是第一阶段，其中包括系统的 GPU 加速节点和暂存文件系统；第 2 阶段将在 2021 年晚些时候添加仅使用 CPU 的节点。

英伟达高级产品营销经理 Dion Harris 在今天发布的博客中表示：「这使 Perlmutter 成为地球上在 16 位和 32 位混合精度数学 AI 使用中速度最快的系统。而且是目前为止，今年晚些时候在劳伦斯伯克利国家实验室的系统的第二阶段或许更强。」

Perlmutter 的 A100 GPU 采用 Nvidia Tensor Core 技术和直接液体冷却。另外，它也是 NERSC 的第一台具有全闪存暂存文件系统的超级计算机。据 NERSC 称，35 PB 的 Lustre 文件系统将以超过 5 TB/秒的速度移动数据，使其成为同类中最快的存储系统。

Perlmutter 安装的第一阶段由 12 个 GPU 加速机柜组成，可容纳 1,500 多个节点。今年晚些时候的第二阶段将增加 12 个 CPU 机柜，超过 3,000 个节点。Phase 1 的每个 GPU 加速节点都有四个基于 NVIDIA Ampere GPU 架构的 A100 Tensor Core GPU 以及 256GB 的内存。每个 Phase 1 节点还有一个 AMD「Milan」 CPU。第一阶段系统还包括非计算节点 (NCN)、20 个用户访问节点（NCN-UAN – 登录节点）和服务节点。据 NERSC 称，一些 NCN-UAN 可用于部署容器化用户环境，使用 Kubernetes 进行编排。

第一阶段机柜没有连接门，直接液体冷却系统的蓝色和红色线条

Phase 2 的每个 CPU 节点都将有两个 AMD Milan CPU，每个节点具有 512GB 的内存。Phase 2 系统还增加了 20 个登录节点和 4 个大内存节点。

支持多种编程环境，用计算极限探索宇宙极限

除了 CCE、GNU 和 LLVM 编译器外，Perlmutter 编程环境还将采用 NVDIA HPC SDK（软件开发套件），以支持多种并行编程模型，例如 MPI、OpenMP、CUDA 和用于 C、C++ 和 Fortran 代码的 OpenACC。

虽然人类用肉身探索宇宙的能力有限，但计算机没有这个障碍。

例如去年10月份，来自夏威夷大学马诺阿分校天文研究所的一组天文学家就在AI神经网络的帮助下，创造了迄今为止最全面的「天文学成像目录」，包括恒星、星系和类星体等。

该系统还测定了与星系的距离，最多只有3% 的误差。根据夏威夷大学的说法，最终的成果是「世界上最大的恒星、星系和类星体三维成像目录」

甚至，有来自微软的物理学家用80页论文证明「模拟矩阵」：宇宙是个自学成才的计算机。

进化定律的自学成才系统（a self-learning system of evolutionary laws）

根据作者的观点，宇宙也演化出了类似深度学习框架的自发系统。

我们知道，深度学习框架就是一套积木，各个组件就是某个模型或算法的一部分，你可以自己设计积木的堆叠。

因此，我们是否可以想象，宇宙演化出法则的操作矩阵架构，其本身是从一个自动教学系统演化而来的，该系统产生于最可能的最小初始条件?

论文中，作者描述了几个模型，这些模型均实现了「自导自演」：

有7,088个节点和7,304条边的图，由抽样可能的未来构成

生活中，物理定律的得出靠的是我们的观察，所以原始物理定律将极其简单，但经过代代更迭，定律有了自我延续并具有学习和发展的能力。

也许，宇宙不是从大爆炸开始的，而仅仅是粒子之间的简单相互作用。

文章围绕受限玻尔兹曼机（restricted Boltzmann machine, RBM）讨论。

受限玻尔兹曼机由Hinton等人提出，是一种生成式随机神经网络。这个概念非常抽象，是一种类似物理学的机器学习模型。然而，受限玻尔兹曼机是最简单的一类深度神经网络结构，

该架构由两层神经元组成。一个是可见层（绿色），一个是隐藏层（蓝色）。

了解宇宙未知的一面，一直是天文学家努力的方向。有了AI这个「队友」，我们会不会加速通向探秘宇宙的星辰大海呢？

责任编辑：张燕妮来源：新智元

AI 数据人工智能