英伟达的硬件路线图对广大开发人员的影响-51CTO.COM

译者 | 布加迪

审校 | 重楼

英伟达是AI热潮的最大受益者，GPU销售额带来了大量现金。现在，该公司正采取前所未有的计划，在2027年之前每年发布一款GPU。

英伟达首席执行官黄仁勋在今年6月的台北国际电脑展上表示：“我们的基本理念非常简单。构建整个数据中心规模的架构，并以一年为周期将部分产品出售给您。我们竭力将各项技术推向极限。”

微软和Meta等公司正投资数十亿美元新建数据中心，希望获得最新最好的GPU。因此，英伟达正以更快的速度创新硬件技术。

金融分析师认为，英伟达的股价处于不可持续的价位。就像互联网热潮一样，AI热潮也将消退，英伟达的股价到时也将回落。但英伟达的GPU和技术进步对软件开发的影响将是永久性的。

英伟达的目标是让GPU成为操作或运营中的必备硬件，就像过去几年的CPU一样。英伟达首席执行官黄仁勋认为，CPU还不够，需要GPU更快地处理数据。

黄仁勋在最近一次活动中说：“软件惰性是计算机中最重要的因素。当一台电脑在架构上与所有已经创建的软件向后兼容时，你就能以极快的速度进入市场。”

英伟达的旗舰GPU：Hopper为微软、Meta和OpenAI支持AI项目。OpenAI和微软在英伟达的Hopper H100及其前身A100 GPU上提供GPT-4和4.0。

微软已经订购了下一代GPU：Blackwell，最早将于明年部署到其数据中心。但由于英伟达在制造Blackwell芯片时遇到了技术难题，因此这款芯片的发货日期成了问题。

SemiAnalysis的分析师在一份报告中表示：“这是以前从未实现过的计算和功率密度，考虑到所需的系统级复杂性，这种提升已被证明颇具挑战性。”

分析师表示，Blackwell面临全面的挑战，包括输电、过热、泄漏和复杂性。

Blackwell拥有2080亿个晶体管，这使其成为有史以来最复杂的芯片之一。一台机架式服务器可以容纳多达72个Blackwell，英伟达正在提供通过以太网连接多达576个GPU的功能。这涉及庞大的AI算力。

英伟达正在将Blackwell GPU与其基于ARM的Grace CPU配对。英伟达现推出配备这些芯片的服务器，可以在云端享用。英伟达试图终结将其GPU与英特尔或AMD的x86处理器配对的传统编程模式。

英伟达明年将交付Blackwell Ultra，与Blackwell一样，该芯片也将含有HBM3E，但容量更大。此后，英伟达在2026年将发布Rubin平台，该平台将包括全新的GPU和CPU，并支持HBM4内存。2027年，英伟达将发布Rubin Ultra GPU。

所有新的GPU都配有更快的网络芯片和互连技术，以实现更快的服务器和芯片通信。黄仁勋说：“这基本上就是英伟达在构建的产品，所有丰富的软件都建立在此基础上。”

英伟达未来的GPU预示着向混合精度计算转变，这种计算结合了传统计算和AI计算。

该公司的GPU正放弃对64位精度的专注，64位精度对精确计算至关重要。相反，它在开发硬件功能，以提升概率AI计算中使用的低精度4位、8位和16位数据类型。

英伟达在其GPU中加入了更多用于矩阵乘法的Tensor Cores（张量核心）。一种名为GEMM的算法是英伟达AI模型的核心，它充分利用了张量核心，并与CUDA中的库兼容，以便程序员与GPU核心进行交互。

首先，英伟达想要拉拢更多的开发人员。开发人员需要了解C++和Fortran以便GPU编程，但英伟达希望支持更多的编程语言，包括Rust和Julia。

英伟达正在将Python打造成CUDA并行编程框架中的优先者，包括扩展SDK和框架对Python的访问。该公司不会停止为其C++库摇旗呐喊，这些库是解锁英伟达的部分GPU功能所必需的。

不过要注意：一旦开人员深陷CUDA，就很难脱身了。

英伟达声称其GPU绿色节能，但芯片业内人士一直开玩笑称，英伟达唯一绿色的地方就是它的徽标。英伟达的Blackwell GPU耗电1200瓦，需要液冷。

即将推出的GPU耗电量会很大，但也提供最快的运算结果。Blackwell将包括支持新的低精度数据类型：FP4和FP6这项功能，从而进一步提升每瓦特性能。

英伟达还在宣传更高效的编程，以减少交付计算结果所需要的循环。即将推出的GPU将包括软件层，可以将任务重定向到正确的核心。这也将减轻程序员的压力。

英伟达的GPU和软件战略正在并行开发。其目标是建立庞大的GPU集群，能够处理拥有数万亿个参数的AI模型。

与此同时，英伟达正在为“AI超级模型”制定一个框架。开发人员使用大语言模型后，通过插入定制模型、护栏、检索增强生成（RAG）及其他工具对其进行优化。

英伟达已为其A超级模型策略优化了开源Llama 3.1。开发人员可以为Llama 3.1模型配备一系列适配器、大语言低阶适应（LoRA）模型和护栏，以创建自己的模型。

英伟达有一套复杂的流程来构建AI超级模型。开发人员需要找出优化模型的基本要素，输入本地化数据，并确定适配器。开发人员需要实施提取相关数据并将其推送到矢量数据库的程序，矢量数据库评估信息，并向用户发送响应。

开发人员需要完善CUDA，并了解NIM（英伟达推理微服务），这是英伟达网站上的云原生AI容器。

英伟达的竞争对手英特尔和AMD正想尽一切办法让开发人员远离英伟达的CUDA。

包括英特尔和富士通在内的众多公司已组成了一个名为UXL基金会的联盟，以开发CUDA的开源替代品。UXL的并行编程框架基于英特尔的OneAPI构建。目标很简单：代码方面的一些变化将允许程序在英伟达和非英伟达AI加速器上运行。

当然，UXL还提供了一种工具来剥离CUDA代码，以便程序在其他AI芯片上运行，包括FPGA和ASIC等。

AMD有ROCm，尽管大肆宣传，但还远未成熟。

所有竞争对手都使用开源工具，并不使用内部工具在专有硬件上创建运行AI的神经网络。

但英伟达凭借CUDA领先竞争对手近10年。CUDA始于2006年，用于高性能计算，后来成为AI领域的一股强大力量。