全球首款3D晶圆级封装处理器IPU发布，突破7nm制程极限-晶圆级芯片封装

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

总部位于英国的AI芯片公司Graphcore发布了新一代IPU产品Bow，这是其第三代IPU系统，发布即面向客户发货。与上一代IPU相比，Bow IPU性能提升40% ，能耗比提升了16%，电源效率也提升16%。

值得注意的是，这一次Bow IPU的性能提升并非主要依赖采用更先进的制程，Bow IPU采用了和上一代IPU相同的台积电 7nm，通过采用和台积电共同开发的先进硅晶圆堆叠技术（3D Wafer-on-Wafer）达到性能和能耗比的提升。

Bow作为世界首款3D WoW处理器，证明了芯片性能提升的范式从先进制程向先进封装转移的可行性。

新一代 IPU 性能提升40%，价格保持不变

2016年，Graphcore成立并开创了全新类型处理器架构IPU，因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次革命。

经历6年时间的发展，Graphcore的IPU逐渐在在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四，Graphcore又推出了第三代产品Bow IPU。

据Graphcore介绍，第三代IPU相对于上一代M2000，性能提高40%，每瓦性能提升16%，即能耗比实现16%的提升。不过，AI芯片的真实性能还需要放在不同的应用领域中讨论。为此，Graphcore也给出了在不同垂直领域中Bow的性能表现。

在图像方面，无论是典型的CNN网络，还是近期比较热门的Vision Transformer网络，以及深层次的文本到图片的网络，与上一代产品相比，Bow IPU都有30%到40%的性能提升，在EfficientNet-B4这一项中，接近理论上限值。

BERT训练模型是自然语言方面的经典模型，基于BERT，OpenAI提出了GPT-1、GPT-2、GPT-3等纵向扩展或横向扩展，通过更深的网络层次和更宽的网络宽度让模型的性能和精度进一步提高。

“我们可以看到，这些模型在我们最新的硬件形态上都有很大的性能提升。”Graphcore中国工程副总裁、AI算法科学家金琛介绍道。

不仅如此，转换到实际模型中的吞吐量，与IPU POD64相比，在计算机视觉的ResNet50 和 EifficientNet-B4 训练模型中，Bow Pod64的吞吐量能够达到34%和39%的性能提升。自然语言方面， BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型，后者都有36%的吞吐量提升。

作为英伟达的竞争对手，Graphcore自然不忘将 Bow Pod16 与DGX-A100进行对比，实验数据表明，EfficientNet-B4的backbone的训练在DGX-A100上需要花费70个小时的训练时间，而在Bow Pod16上，只需要14小时左右。

接近理论极限的性能提升，Graphcore Bow IPU是如何实现的？

5nm不再是首选，采用先进封装性价比更高

从芯片的规格上看，Bow IPU是世界上第一款基于台积电的 3D Wafer-On-Wafer的处理器，单个封装中拥有超过600亿个晶体管，具有350 TeraFLOPS的人工智能计算的性能，是上一代MK2 IPU的1.4倍。片内存储较上一代来看没有变化，依然保持0.9GB的容量，不过吞吐量从47.5TB提高到了65TB。

“变化主要体现在，它是一个3D封装的处理器，晶体管的规模有所增加，算力和吞吐量均得到提升。” Graphcore大中华区总裁兼全球首席营收官卢涛说道。而在大家都关注的工艺制程上，Bow IPU 延续了上一代台积电 7nm 工艺制程，没有变化。

理论上，一颗芯片的性能提升很大程度上取决于工艺制程上的进步，但随着工艺制程越来越逼近物理极限，摩尔定律逐渐失效，业界不得不寻找新的技术方向来延续摩尔定律。其中，3D封装就是被业界广泛看好的技术方向。

中国工程院院士、浙江大学微纳电子学院院长吴汉明就曾在一次演讲中提到，如果将芯片制造和芯片封装相结合，也可以做到65nm工艺制程实现40nm工艺制程的性能功耗要求。

Bow IPU正好验证了吴院士的观点。

卢涛表示，Bow IPU产品性能的提升主要来源于3D WoW和新增的Die。

至于为何选择改变封装方式而不是更先进的工艺，卢涛则表示MK2 IPU有594亿个晶体管，大概823平方毫米，已经是7nm单个Die能够生产的最精密的芯片。

“我们评估从7nm、5nm，到3nm等不同工艺节点的收益时发现，从7nm到5nm的生产工艺提升所带来的收益不像以前从28nm到14nm一样，能够带来百分之几十的收益，而是降到了20%。这时候我们可以通过别的手段和方法获得同样的收益。”

通过3D堆叠的方式，Bow IPU的两个Die增加了晶体管的数量，其中一个Die（Colossus Die）和上一代一样，另一个Die主要用于提高跨Colossus Die的电源功率传输，优化Colossus Die的操作节点，从而转化为有效的时钟加速。

在同台积电的合作方面，卢涛告诉雷峰网，Graphcore在一年之前就同台积电合作了一颗测试芯片，与台积电的关系非常紧密，加上AI处理器本身规模较大，需要一些新技术支持落地，而从台积电的角度而言，新的技术也需要有需求的产品共同推进。

值得一提的是，虽然封装方式有所变化，但Bow IPU开箱即用，与前一代产品百分之百软件兼容，不用修改任何代码，老用户无需做任何软件适配工作就能获得性能提升，价格保持不变。

目前，美国国家实验室Pacific Northwest已经基于Bow IPU尝试做一些基于Transformer的模型以及图神经网络，面向计算化学和网络安全方面的应用，且给出了比较正面的反馈。

延续3D封装，开发超越人脑的超级智能机器

Bow IPU使用3D封装只是起点，面向未来，Graphcore正在开发一款可以用来超越人脑处理的超级智能机器。

Graphcore将这款正在研发的产品命名为Good Computer，一方面希望计算机能够为这个世界带来正面的影响，另一方面致敬著名计算机科学家Good。

基于3D WoW，预计未来Good Computer将包含8192个IPU，提供超过10 Exa-Flops的AI算力，实现4 PB的存储，可以助力超过500万亿参数规模的人工智能模型的开发。

取决于不同的配置，Good Computer价格将在100万美元到1.5亿美元之间。

卢涛表示，开发Good Computer还是会沿用IPU的体系结构，IPU的存储是在处理器里面，虽然不叫类脑、内存计算或存算一体，但从某种程度上而言，IPU的运作机理接近大脑计算的工作原理，只是把计算和存储相结合。

另外，Graphcore也将从软件方面更有效支持稀疏化以达到类脑的计算量。