本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

今天，人工智能行业权威“跑分”MLPerf训练v0.7出炉，这是该跑分推出以来第三次放榜。

谷歌TPU训练BERT只要23秒，华为AI芯片超英伟达V100，MLPerf出炉

英伟达刚发布的A100 GPU、谷歌即将推出的TPUv4，两个冤家的AI芯片性能孰强孰弱，在这份榜单里都能看到。

除了两家AI巨头相争，此次也是中国芯片首次在榜单中亮相，来自华为的昇腾910芯片实测成绩曝光，性能一度超越了英伟达同类产品。

MLPerf测试内容

随着AI技术的进步，今年的测试基准进一步加大了难度。

MLPerf训练测试基准包括图像分类、翻译、推荐系统和围棋等8个机器学习任务中，最终结果是这8项任务的训练时间，速度越快则性能越强。

具体的8项任务内容如下：

其中后三项是新加入或重新制定的标准：

1、BERT：用Wikipedia语料库训练BERT，这是首次将BERT引入MLPerf测试基准。

2、DLRM：用Criteo AI Lab的Terabyte点击率数据集训练的深度学习推荐模型（DLRM），广泛用于在线购物推荐、搜索结果和社交媒体内容排序。

3、Mini-Go：之前的MLPerf v0.5和v0.6也有训练围棋的强化学习任务，但却是迷你棋盘，此次v0.7将棋盘扩大为19x19全尺寸，这更能反映研究成果。

了解过测试内容后，我们来看看各家的跑分成绩。

BERT训练刷新纪录

今年英伟达和谷歌两家公司都拿出了自己最强的硬件参与竞争。

英伟达方面，他们打破了16项AI训练测试纪录，而谷歌则表示，自己在全部8项任务中有6项获得了最高成绩。

得益于两家的激烈竞争，AI训练速度有了飞速发展。有一些在5年前还需要训练3周的任务，现在只需不到1分钟即可完成，几乎是一年提高一个数量级。

令人印象最深刻的还是BERT，这个NLP模型在刚推出时需要训练3天时间。

去年，谷歌用1024块TPUv3将训练时间缩短到76分钟，英伟达又用1472个V100 GPU将训练时间进一步减少到53分钟。

在最新的MLPerf中，英伟达只花了49秒就完成了BERT的训练，他们用了一台包含2048个A100 GPU的超级计算机SuperPOD。

作为对比，英伟达还表示，谷歌用16个TPUv3训练了56.7分钟才完成。（看看，我们才用了不到1分钟！）

然而，实际上谷歌比他们的速度更快，谷歌的一个研究项目使用了4096块TPU芯片，在训练BERT上获得了绝对最高的成绩——23秒！

需要注意的是，这次训练BERT的数据集和去年并不相同，但是把BERT训练时间缩短到半分钟内已经足够惊人。

谷歌声称，快速训练BERT用的是世界上最快的机器学习训练超算，其内部有4096个TPU v3芯片和数百个CPU主机，所有芯片都通过超快速、超大规模的定制互连进行连接，可提供430PFLOP的峰值性能。

这台超算在4项任务中都把训练时间缩到半分钟内。

华为芯片首次亮相

另外，在训练芯片榜单上，我们首次看到了国产芯片的身影。

中科院深圳先进技术研究所提供了华为昇腾910的测试成绩，虽然仅测试了ResNet-50一项，但是相同规模的情况下，其速度已经超过了英伟达的V100 GPU。

同样使用128个至强白金CPU和512个AI加速芯片，昇腾910在ImageNet任务中，训练ResNet-50只需1.59分钟，而英伟达V100需要2.35分钟。

华为昇腾910不仅可以运行自研的MindSpore框架，也能运行谷歌的TensorFlow框架。两者性能差距很小，后者的训练时间为1.53分钟，比在MindSpore框架上运行时间稍短。

不过，从这份榜单中可以看出，国产AI芯片任重道远，英伟达仍在商业领域占据主导地位。

参与测试的多家公司使用的均是英伟达GPU，不久前推出的A100 GPU也迅速得到商用。戴尔、阿里、富士通、腾讯、浪潮，甚至连谷歌自己，都是英伟达的客户。

而且台积电将停止为华为代工芯片，使华为自研AI芯片的未来蒙上了一层阴影。

谷歌TPUv4泄露

此次MLPerf跑分还泄露了谷歌新一代TPU的性能指标。

相比两年前的TPUv3，谷歌的TPUv4带来平均2.7倍的性能提升。

更可怕的是，谷歌23秒训练完BERT使用的是TPUv3，而使用256块TPUv4训练BERT的时间是1.82分钟。

至于更大规模的TPUv4计算集群会带来怎样恐怖的成绩，或许只能等谷歌正式发布后才能知晓。

关于MLPerf

MLPerf是业内首套衡量机器学习软硬件性能的通用基准，由图灵奖得主David Patterson联合谷歌和几所著名高校于2018年发起。

MLPerf基准联盟现有83家成员，包括谷歌、英伟达、微软、Facebook、阿里巴巴等73家企业和斯坦福、哈佛、多伦多大学等10所高校。

2018年，MLPerf发布了首个AI训练测试基准v0.5，v0.7是第三个AI训练跑分榜单。去年，该组织还发布过AI推理测试基准v0.5，国产芯片阿里含光800曾获得多项第一。

榜单地址：

https://mlperf.org/training-results-0-7

谷歌TPU训练BERT只要23秒，华为AI芯片超英伟达V100

MLPerf测试内容

BERT训练刷新纪录

华为芯片首次亮相

谷歌TPUv4泄露

关于MLPerf