单机训练200亿参数大模型：Cerebras打破新纪录-单机规模

本周，芯片创业公司 Cerebras 宣布了一个里程碑式的新进展：在单个计算设备中训练了超过百亿参数的 NLP（自然语言处理）人工智能模型。

由 Cerebras 训练的 AI 模型体量达到了前所未有的 200 亿参数，所有这些都无需横跨多个加速器扩展工作负载。这项工作足以满足目前网络上最火的文本到图像 AI 生成模型——OpenAI 的 120 亿参数大模型 DALL-E。

Cerebras 新工作中最重要的一点是对基础设施和软件复杂性的要求降低了。这家公司提供的芯片 Wafer Scale Engine-2（WSE2）顾名思义，蚀刻在单个台积电 7 nm 制程的整块晶圆上，该面积通常足以容纳数百个主流芯片——具有惊人的 2.6 万亿个晶体管、85 万个 AI 计算内核和 40 GB 集成缓存，封装后功耗高达 15kW。

接近晶圆大小的 Wafer Scale Engine-2，面积比一个 iPad 还大。

虽然 Cerebras 的单机在体量上已经类似于超算了，但在单块芯片中保留多达 200 亿个参数的 NLP 模型仍然显著降低了数千个 GPU 的训练成本，以及相关的硬件和扩展要求，同时消除了在它们之间分割模型的技术困难。Cerebras 表示，后者是「NLP 工作负载中最痛苦的方面之一」，有时「需要几个月才能完成」。

这是一个定制化的问题，不仅对每个正在处理的神经网络，对于每个 GPU 的规格以及将它们联系在一起的网络都是独一无二的——这些元素必须在第一次训练开始之前提前设置好，而且也不能跨系统移植。

Cerebras 的 CS-2 是一个独立的超级计算集群，其中包括 Wafer Scale Engine-2 芯片，所有相关的电源、内存和存储子系统。

200 亿的参数量大概是个什么水平？在人工智能领域里，大规模预训练模型是最近各家科技公司和机构正在努力发展的方向，OpenAI 的 GPT-3 是一种 NLP 模型，它可以写出足以欺骗人类读者的整篇文章、做数学运算和翻译，其具有惊人的 1750 亿个参数。DeepMind 的 Gopher 于去年年底推出，将参数量的纪录提高到 2800 亿。

最近一段时间，谷歌大脑甚至宣布训练了一个超过万亿参数的模型 Switch Transformer。

「在 NLP 领域中，体量更大的模型被证明效果更好。但传统上，只有极少数公司拥有足够的资源和专业知识来完成分解这些大型模型，将其分散到数百或数千个图形处理单元的艰苦工作，」Cerebras 首席执行官、联合创始人 Andrew Feldman 说道。「因此也只有极少数公司可以训练大型 NLP 模型——这对于行业的其他人来说太昂贵、太耗时且无法使用。」

现在，Cerebras 的方法能够降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的应用门槛，使整个 AI 生态系统能够在几分钟内建立大型模型，并在单个 CS-2 系统上训练它们。

然而，就像旗舰级 CPU 的时钟速度一样，参数量只是大模型性能的其中一项指标。最近，一些研究在减少参数的前提下已经取得了更好的结果，例如 DeepMind 今年 4 月提出的 Chinchilla，只用 700 亿个参数就在常规情况下超过了 GPT-3 和 Gopher。

这类研究的目标当然是更智能的工作，而不是更努力地工作。因此 Cerebras 的成就比人们第一眼看到的更为重要——该研究让我们相信现有的芯片制程水平能够适应日益复杂的模型，该公司表示，以特殊芯片为核心的系统具备了支撑「数千亿甚至数万亿参数」模型的能力。

在单芯片上可训练参数量的爆炸式增长需要依赖 Cerebras 的 Weight Streaming 技术。该技术可以将计算和内存占用分离，根据 AI 工作负载中快速增长的参数量，允许内存进行任意量级的扩展。这使得设置时间从几个月减少到几分钟，并且可以在 GPT-J 和 GPT-Neo 等型号之间切换。正如研究者所说：「只需要敲几次键盘。」

「Cerebras 以低成本、便捷的方式向人们提供了运行大型语言模型的能力，开启了人工智能令人兴奋的新时代。它为那些不能花费数千万美元的组织提供了一个简单而廉价的，参与到大模型竞争之中的方式，」Intersect360 研究公司的首席研究官 Dan Olds 说道。「当 CS-2 客户在大量数据集上训练 GPT-3 和 GPT-J 级模型时，我们非常期待 CS-2 客户的新应用和新发现。」