英伟达与美国商务部的角力又升级了!
在美国出口管制之下,老黄不断拿出变通之策,一场猫鼠游戏正在上演。
出口管制新规实施以后,没少耽误老黄在中国市场赚钱。
截至今年1月,出口新规恰好实施一年,中国市场占英伟达收入的比例下降至17%。两年前,这个数字还是25%+。
面对监管,英伟达连续推出为中国定制的「特供版」芯片,然而这些性能削弱的芯片往往销路不畅。
此前出师不利的H20销量刚刚见涨,英伟达却惊闻噩耗——
杰富瑞分析师在上周的一份研究报告中透露,美国商务部将于10月份对半导体出口限制进行年度评估,可能会禁止H20芯片的出口。
监管不断升级,这一次,老黄彻底拼了。
不仅推出了新旗舰AI芯片B20,担心它不够好用,还推出了配套服务器GB20。
从命名就不难猜出,B20是英伟达今年三月发布的Blackwell B200的一个变体。
作为迄今为止最快的GPU, B200在某些任务上的处理速度可以达到前代产品的30倍。(eg.让聊天机器人生成答案)
可惜,这与「特供版」B20芯片可以说是毫无关系……
在美国出口管制政策限制下诞生的B20,注定会是一款入门级产品,与具备行业领先AI性能的B200形成鲜明对比。
但据爆料人表示,虽然B20在处理AI计算时会比B200慢一些,但在GB20服务器中将大量芯片安装在一起,可以部分弥补这种缺陷。
这将确保英伟达在与中国产品交锋时,保有一定的竞争力,同时也符合美国出口管制规定的芯片计算能力上限。
管制之下,上演「猫鼠游戏」
自2022年年底以来,英伟达多次重新配置面向中国市场的芯片,瞄准了中国客户需要芯片来开发LLM的需求,试图在符合美国法规的同时,保持对中国客户的吸引力。
2022年10月,美国政府禁止销售英伟达的A100和H100(当时是其最先进的人工智能芯片)。
几个月后,英伟达就针对中国市场推出了两款替代产品A800和H800。
此后不到一年,美国商务部再次更新了出口管制措施,对这两款芯片实施了限制。
英伟达反应迅速,仅仅在几周后,就推出了H20,与之一同推出的还有L20 PCle和L2 PCle。
其中,H20芯片性能有限但连接速度更高,凭借高带宽内存和成熟的软件支撑,带来了较优的性能。
虽然初期销量不济,但比较之下,越来越多的中国客户选择购买这款芯片。
据四位直接参与英伟达芯片在中国销售的人士透露,中国公司已经订购了50多万颗H20芯片,总价值近58亿美元,将于2024年交付。
研究机构SemiAnalysis也做出了乐观的估计,英伟达今年将在中国销售超100万颗H20芯片,价值超过120亿美元。
但正如前文所述,这项业务面临商务部新的威胁。等到年底法规调整,H20或将禁售。
该禁令可能会采用多种形式,包括针对特定产品的禁令、降低芯片的计算能力或限制其内存容量。
毕竟宏观背景如此,外界普遍预计美国将继续对半导体相关出口管制施加压力。
消息人士称,美国希望荷兰和日本进一步限制向中国提供芯片制造设备。
在不断加强的管制之下,可能会有越来越多的「特供版」出现。
有传言称,英伟达还在开发一款新的旗舰游戏显卡 RTX 5090D。
该显卡将专为中国市场设计,是首款面向消费者并符合出口标准的显卡 RTX 4090D 的后续产品。
芯片性能不够,服务器来凑
B20的具体规格还未确定,但可以确定的是,绝对不会打破美国GPU出口政策「天花板」。
就像它的老前辈——之前推出的H20、L20和L2,这3个芯片的性能都可谓是「史诗级」大缩水,不仅性能是残血的,而且还只配备了残血版的NVLink连接。
TPP & PD两大指标锁喉
美国对中国GPU出口有严格的性能规定,采用一种名为「总计算性能」(Total Processing Power,TPP)的指标。
该指标将GPU计算能力的TFLOPS和精度纳入考量。具体来说,将TFLOPS(不含稀疏性)乘以精度(以位为单位)即可得出TPP。
当前的限制设定在4800 TPP,这意味着什么呢?
以英伟达之前的产品为参考:Hopper H100和H200已经远远超过了这一标准,两款GPU的TPP均达到了16000,是规定上限的3倍不止。
即使是RTX 4090,其660.6 TFLOPS的FP8计算能力也超过了限制。
保持在4800 TPP限制内的最强大的英伟达桌面GPU是 RTX 4090D,它是专门为遵守出口限制而构建的。
Blackwell在计算性能方面树立了新的标杆,其双芯片解决方案可能会输出约4500 TFLOPS的FP8计算能力,这将是出口限制的7.5倍。
换言之,B20的性能将不足Blackwell B200性能的1/7!
不仅如此,B20还面临额外的限制——「性能密度」(Performance Density,PD)限制。
这是美国对数据中心GPU专门实施的限制,消费级GPU不受此影响。
将TPP分数除以芯片尺寸即可得到PD指标,对中国出口的GPU的PD不得高于6.0。
按照这个指标,RTX 40系列GPU(Ada Lovelace 架构)已经不可被用于数据中心使用。
而Blackwell在密度和性能上,明显要优于Ada Lovelace。
也就是说,英伟达需要严格限制B20的性能,或使用更大比例的芯片,以符合相关规定。
据Tom's Hardware预计,B20将成为英伟达 A30和H20入门级AI GPU的继任者。
以H20为例,其FP16计算能力仅为296 TFLOPS,TPP为2368,PD仅为2.90,而H100/H200则为1979 TFLOPS。
与此同时,A30的TPP评分为2640,PD评分为3.20,比H20略有提升。
由此可见,英伟达为中国市场打造的AI GPU在性能上有一定进步空间,但空间很有限。
最好的情况是,英伟达可能会寻求创建一个TPP在4000到4500之间,芯片尺寸为800平方毫米的GPU。
GB20:全力挽救B20的性能
为了提高即将推出的B20的效率,英伟达正在采用H20曾经使用过的策略,例如升级内存容量,因为内存芯片不受当前出口管制的限制。
据参与开发服务器的两位人士透露,英伟达正在努力提高内存与B20处理器之间的数据传输速度,从而可以更快地处理大型能数据集。
不仅如此,英伟达还将在GB20机架设计中采用其NVLINK技术(可实现不同芯片之间的快速通信)和冷却方案。
两人补充道,这有望提高B20芯片的利用率和GB20计算集群在为人工智能提供动力方面的有效性。
GB20系统将使客户能够通过更高效地并行运行多个芯片来进行人工智能训练和推理。
在GB20被曝出之前,Tom's Hardware曾大胆预测,B20将是一款难以销售的芯片。
但现在有了GB20的加持,似乎又有了新的希望。