中国有望使用最强Blackwell架构!英伟达拼了!突破拜登政府芯片出口限制,为中国定制旗舰版B20! 原创
编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
英伟达最强算力架构Blackwell,有望来中国销售了!
英伟达真的很拼,对于中国AI市场,总是不遗余力,甚至为突破美国对中的出口限制,绞尽脑汁。
22 日,据四位知情人士称,Nvidia 正在为中国市场开发一款新的旗舰 AI 芯片,该芯片设计是为了突破当前的美国商务部出口管制政策。
1.英伟达推“合规旗舰版”AI芯片为中国市场再次一博
作为当之无愧的AI芯片巨头,英伟达于 3 月推出了“Blackwell”芯片系列,该系列将于今年晚些时候量产。新处理器结合了两块硅片,大小与该公司之前的产品相同。在该系列中,B200 在某些任务(如提供聊天机器人的答案)上的速度比其前代产品快 30 倍。
美国针对向中国出售AI加速器的贸易限制,并没有阻止英伟达将其最新的Blackwell架构带到中国。
据悉,这块为中国市场定制的芯片,名为B20,将基于这家GPU巨头在春季GTC上宣布的Blackwell架构。与之前的Hopper架构相比,Nvidia声称其基于Blackwell的芯片在原始浮点精度方面快了2.5~5倍。
而至于分销方面,据外媒说法,英伟达已选择“浪潮”作为该芯片的主要分销商,据称将于明年第二季度开始发货,这一点小编认为存疑,因为浪潮也在美国实体管制名单之列。
2.对华一禁再禁,出口限制究竟限制啥
然而,既有的出口管制可能会限制英伟达下一批中国市场芯片的性能功效。这是因为H20是目前英伟达在该地区无需许可即可销售的最强大的芯片,其性能已经接近出口限制的极限。
早在2022年10月,美国政府就颁布了全面限制措施,目的就是为了遏制中国芯片行业发展。不过当时英伟达就迅速应对,仅用了一个月不到的时间就为中国市场研发了一款新型先进芯片,目的是在“不违规”的情况下继续在中国市场提供服务。
不过时隔一年,拜登政府“变本加厉”地收紧了管制要求。去年10月实施的美国出口管制对“总处理能力”和“性能密度”设定了上限。这些规定实际上禁止了许多英伟达数据中心卡的销售,并一度阻止了面向消费者的RTX 4090的销售,直到为中国市场推出特别型号后才恢复。
然而,在规则生效的一个月内,就已有三款旨在突破这些限制的削减版显卡的传言浮出水面。其中最强的是96GB的H20,其FP8性能高达296 teraFLOPS。
据介绍,B20加速器的性能上限将与H20相同,至少在FP8性能方面是如此。Blackwell引入了FP4数据类型的支持,因此,预计其公布的teraFLOPS数值将是H20的两倍,尽管它们之间不能直接比较。
3.面向中国市场的芯片性能上限
到目前为止,对出口到受关注国家(即中国)的图形处理单元(GPU)和人工智能加速器的主要性能上限主要集中在互连带宽上。这指的是处理器之间相互通信的速度。去年的规定限制了双向互连带宽超过600GB/s的芯片的出口,除非获得特别许可证。
为此,英伟达和英特尔都对其最新的GPU进行了调整,降低了互连速度,以规避商务部的限制。我们之前提到的H800系列就是一个很好的例子。
拜登政府现在更进一步,实施了一系列性能密度的上限。根据本周工业和安全局(BIS)提交的文件[PDF],这些规定中第一个也是最重要的一个限制了对以下产品的出口:
“具有一个或多个数字处理单元的集成电路具有以下任一特性:a.1. ‘总处理能力’为4800或更高,或a.2. ‘总处理能力’为1600或更高,且‘性能密度’为5.92或更高。”
计算任何给定GPU或加速器的总处理能力(TPP)分数是一个相对直接的任务。首先,将每秒最大密集型万亿次操作(无论是浮点还是整数)的数量乘以2,然后再乘以操作的位长度。如果针对不同精度(如INT4、FP8、FP16和FP32)宣传了多个性能指标,则使用最高的TPP分数。
以英伟达的L40S为例,计算公式大致如下:
2 x 733万亿次浮点运算/秒 x 8位 = TPP为11,728
11728 TPP/609 mm²=性能密度为19.25
结果明显远高于新规则规定的5.92性能密度限制,所以就不能对中国出售。
更详细的计算方式不再赘述,目前英伟达受规则影响的GPU列表如下:A100、A800、H100、H800、L40、L40S和RTX 4090。
4.在性能限制边缘试探B20性能会有哪些提升?
尽管美国的出口管制意味着这些芯片的浮点性能和计算密度仍然受到限制,但这并不意味着B20不能在性能上实现代际提升。在运行预训练的大型语言模型时,性能(通常以每秒处理的令牌数来衡量)更多地受到内存带宽的限制,而不是芯片能推动多少FLOPS或TOPS。
因此,与H20相比,内存带宽的任何增加(显然能够达到4TB/s)都会带来可观的性能提升,至少在推理方面是这样。这些收益的实际大小将取决于芯片的架构以及它与多少HBM堆栈配对。
因此,像英伟达的H20这样的芯片,即使在与大名鼎鼎的H100相比时,对于像运行AI聊天机器人(而不是训练)这样计算要求较低的工作负载来说,仍然非常强大。
英伟达拒绝了The Register对B20的置评请求。
5.拜登政府的态度“第二天就会反制”
美国商务部长吉娜·雷蒙多(Gina Raimondo)对英伟达和其他接近出口限制边缘的芯片制造商并不太感冒,这已不是秘密。
“我告诉你们,如果你们围绕一条特定的分界线重新设计芯片,使其能够进行人工智能操作,我将在第二天就对其进行控制,”她在去年年底的一次国防论坛上明确提到了英伟达。
美媒报道,拜登政府将在未来几个月内实施更严格的出口管制,以扼杀中国的人工智能发展。
然而,这样的措施并不能阻止中国国内加速器的发展,比如摩尔线程、华为等公司开发的加速器。为了遏制这里的发展,据报道,拜登政府正在考虑实施一项名为“外国直接产品规则”的措施,这将使其能够对使用美国技术的任何产品的销售实施控制。
6.内存带宽也可能会受限制
媒体预测,接下来的内存带宽上限可能会严重限制美国芯片向中国的销售。无论发生什么,任何额外的限制无疑都会对英伟达的业务产生重大影响,因为中国仍占该公司年收入的17%左右。
具体来讲,内存带宽将直接影响芯片在给定时间内能够输出的AI tokens(即单词、短语、标点符号或数字)的数量。同时,内存容量决定了单个GPU或加速器上可以部署的模型大小。
考虑到内存带宽和容量对人工智能聊天机器人性能的巨大影响,相信未来美国还会对内存带宽上限进行更为严格的限制。
7.英伟达在中国市场更多变数
事实上,自美国收紧了对中国尖端半导体出口的控制以来,英伟达已经专门为中国市场设计了数款AI芯片。例如,HGX H20、L20 PCle和L2 PCle等。
早在去年,TrendForce在一份研究报告中表示:“英伟达也可能试图将其目前稀缺的资源,如H800,分配给中国客户使用。”
该公司CEO黄仁勋在第一财季的财报会议上表示,由于种种限制,中国数据中心业务已经显著降低,公司将继续尽最大可能服务中国客户。
“我们有值得尊敬的客户,我们会尽最大努力服务好每一位客户。我们在中国的业务确实比过去的水平下滑很多。由于限制,现在中国的竞争更加激烈。这些都是事实。但英伟达将继续尽最大努力为中国市场的客户提供服务,会尽最大努力做到最好。”
不过英伟达的卡的确好用,也是全球的AI芯片的龙头,好在,在美新规定生效之前,国内许多互联网巨头,如字节跳动、百度、阿里巴巴和腾讯等囤积了“澎湃”的GPU算力。
但这次,最新的Blackwell架构能否顺利在华发货,可能要取决于英伟达推出B20的时间,能否快于拜登政府更严厉的管制规定的出台。
本文转载自51CTO技术栈,作者:言征