100%英伟达的错:黄仁勋确认Blackwell缺陷修复,明年初出货

人工智能 新闻
本周三,在与高盛(Goldman Sachs)进行的会议中,英伟达表示 Blackwell GPU 中影响良率的设计缺陷已宣告修复,B100/B200 处理器的改进版即将投入量产。

「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下,」黄仁勋表示。「这 100% 是英伟达的错。」

自 3 月份发布以来,全球科技公司都在疯狂求购的 Blackwell AI 芯片,似乎终于要到了出货的时候。

本周三,在与高盛(Goldman Sachs)进行的会议中,英伟达表示 Blackwell GPU 中影响良率的设计缺陷已宣告修复,B100/B200 处理器的改进版即将投入量产。

据路透社等外媒报道,英伟达 CEO 黄仁勋本周承认,该缺陷完全由英伟达造成,并表示该现在已在台积电的及时帮助下修复了缺陷

图片

今年 8 月,当有关英伟达最新一代芯片 Blackwell 设计缺陷的第一批报道出现时,一些媒体称台积电应承担责任 —— 并暗示这可能导致英伟达与其代工合作伙伴之间的关系紧张。

黄仁勋表示,事实并非如此。他还驳斥了有关两家公司关系紧张的报道,并称其为「假新闻」。为了让 Blackwell 计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产

英伟达的 Blackwell 芯片采用全新一代架构,台积电 4NP 工艺打造,拥有 2080 亿个晶体管,在执行大模型推理等任务时效率较前代提升了 30 倍,因而备受科技公司期待。

此种面积的芯片,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层(以实现约 10 TB/s 的数据传输速率)。

英伟达表示,双芯片的 GPU 没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU,可见这些芯片的桥接器至关重要。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。

图片

图源:Nvidia

因此,英伟达在 8 月承认了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的顶部金属层和凸片,以提高生产良率。当时,英伟达在一份声明中表示,「公司已经对 Blackwell GPU 的掩膜实施了修复。」

不过,英伟达也重申,公司在第二季度与客户一起对 Blackwell GPU 进行了抽样检查,并承认必须生产「低良率 Blackwell 材料」才能满足对 Blackwell 处理器的需求。

同时,黄仁勋在 2025 财年第二季度财报电话会议上表示,公司针对 Blackwell B100 和 B200 GPU 的设计进行了所有必要的变更,从而有望在第四季度实现量产。

图片

英伟达 Blackwell GPU 不同型号的参数规格。

其实在半导体行业中,影响良率的 bug 以及重大功能问题并不是什么新鲜事。通常,公司通过修改金属层(或两层)等新步进(stepping)来修复这些问题。

据此前报道,英特尔的 Sapphire Rapids 有 500 个 bug。因此,英特尔发布了大约十几个步进来修复所有 bug(其中五个是基础重置)。每个新步进大约需要三个月才能完成(包括识别问题、修复问题和生产新版本芯片)。

图片

图源:Intel

从这一点来看,英伟达和台积电修复 Blackwell GPU 的速度的确令人印象深刻。

目前,已修复的用于 AI 和超级计算机的 Blackwell GPU 预计将于最近几天投入量产,并在 2025 年初开始发货(仍在英伟达 2025 财年内)

此外,根据英伟达在今年初披露的消息,AWS、谷歌、Meta 和微软是其主要客户(合计收入占比高达 40%),为满足他们对其新一代 AI 算力的需求,该公司必须在本年度出货一些最初低良率的 Blackwell GPU。不过,2024 年究竟会有多少 Blackwell GPU 被「送」往数据中心,我们不得而知。

周三美股收盘,刚刚创下历史新高的英伟达股票收跌 2.81 %,回落到 140 美元以下。

图片

责任编辑:张燕妮 来源: 机器之心
相关推荐

2023-05-31 07:30:09

国产显卡RTX 3060

2022-02-28 18:03:36

网络安全攻击黑客

2023-09-15 09:27:35

英伟达

2024-08-30 14:00:00

AI训练

2023-11-02 13:36:00

AI模型

2009-11-26 09:27:16

微星公司否认裁员

2012-07-03 10:15:50

火狐OSFirefox

2023-03-22 08:14:03

英伟达人工智能

2023-06-01 07:16:15

中国芯片企业

2021-11-10 09:49:49

自动驾驶数据汽车

2024-04-02 11:39:17

数据训练

2023-08-09 17:47:40

黄仁勋计算机NVIDIA

2023-08-10 07:13:24

互联网NVIDIANVLink

2019-12-18 16:17:56

自动驾驶数据人工智能

2023-11-28 14:00:00

模型数据

2024-10-25 16:50:01

2013-10-29 09:42:45

Windows 8Windows 8.2微软

2013-04-03 10:17:15

Intel黄仁勋CEO
点赞
收藏

51CTO技术栈公众号