译者 | 布加迪
审校 | 重楼
英伟达是AI热潮的最大受益者,GPU销售额带来了大量现金。现在,该公司正采取前所未有的计划,在2027年之前每年发布一款GPU。
英伟达首席执行官黄仁勋在今年6月的台北国际电脑展上表示:“我们的基本理念非常简单。构建整个数据中心规模的架构,并以一年为周期将部分产品出售给您。我们竭力将各项技术推向极限。”
微软和Meta等公司正投资数十亿美元新建数据中心,希望获得最新最好的GPU。因此,英伟达正以更快的速度创新硬件技术。
金融分析师认为,英伟达的股价处于不可持续的价位。就像互联网热潮一样,AI热潮也将消退,英伟达的股价到时也将回落。但英伟达的GPU和技术进步对软件开发的影响将是永久性的。
GPU路线图
英伟达的目标是让GPU成为操作或运营中的必备硬件,就像过去几年的CPU一样。英伟达首席执行官黄仁勋认为,CPU还不够,需要GPU更快地处理数据。
黄仁勋在最近一次活动中说:“软件惰性是计算机中最重要的因素。当一台电脑在架构上与所有已经创建的软件向后兼容时,你就能以极快的速度进入市场。”
英伟达的旗舰GPU:Hopper为微软、Meta和OpenAI支持AI项目。OpenAI和微软在英伟达的Hopper H100及其前身A100 GPU上提供GPT-4和4.0。
微软已经订购了下一代GPU:Blackwell,最早将于明年部署到其数据中心。但由于英伟达在制造Blackwell芯片时遇到了技术难题,因此这款芯片的发货日期成了问题。
SemiAnalysis的分析师在一份报告中表示:“这是以前从未实现过的计算和功率密度,考虑到所需的系统级复杂性,这种提升已被证明颇具挑战性。”
分析师表示,Blackwell面临全面的挑战,包括输电、过热、泄漏和复杂性。
Blackwell拥有2080亿个晶体管,这使其成为有史以来最复杂的芯片之一。一台机架式服务器可以容纳多达72个Blackwell,英伟达正在提供通过以太网连接多达576个GPU的功能。这涉及庞大的AI算力。
英伟达正在将Blackwell GPU与其基于ARM的Grace CPU配对。英伟达现推出配备这些芯片的服务器,可以在云端享用。英伟达试图终结将其GPU与英特尔或AMD的x86处理器配对的传统编程模式。
英伟达明年将交付Blackwell Ultra,与Blackwell一样,该芯片也将含有HBM3E,但容量更大。此后,英伟达在2026年将发布Rubin平台,该平台将包括全新的GPU和CPU,并支持HBM4内存。2027年,英伟达将发布Rubin Ultra GPU。
所有新的GPU都配有更快的网络芯片和互连技术,以实现更快的服务器和芯片通信。黄仁勋说:“这基本上就是英伟达在构建的产品,所有丰富的软件都建立在此基础上。”
这对开发人员意味着什么?
英伟达未来的GPU预示着向混合精度计算转变,这种计算结合了传统计算和AI计算。
该公司的GPU正放弃对64位精度的专注,64位精度对精确计算至关重要。相反,它在开发硬件功能,以提升概率AI计算中使用的低精度4位、8位和16位数据类型。
英伟达在其GPU中加入了更多用于矩阵乘法的Tensor Cores(张量核心)。一种名为GEMM的算法是英伟达AI模型的核心,它充分利用了张量核心,并与CUDA中的库兼容,以便程序员与GPU核心进行交互。
首先,英伟达想要拉拢更多的开发人员。开发人员需要了解C++和Fortran以便GPU编程,但英伟达希望支持更多的编程语言,包括Rust和Julia。
英伟达正在将Python打造成CUDA并行编程框架中的优先者,包括扩展SDK和框架对Python的访问。该公司不会停止为其C++库摇旗呐喊,这些库是解锁英伟达的部分GPU功能所必需的。
不过要注意:一旦开人员深陷CUDA,就很难脱身了。
电源效率
英伟达声称其GPU绿色节能,但芯片业内人士一直开玩笑称,英伟达唯一绿色的地方就是它的徽标。英伟达的Blackwell GPU耗电1200瓦,需要液冷。
即将推出的GPU耗电量会很大,但也提供最快的运算结果。Blackwell将包括支持新的低精度数据类型:FP4和FP6这项功能,从而进一步提升每瓦特性能。
英伟达还在宣传更高效的编程,以减少交付计算结果所需要的循环。即将推出的GPU将包括软件层,可以将任务重定向到正确的核心。这也将减轻程序员的压力。
AI超级模型
英伟达的GPU和软件战略正在并行开发。其目标是建立庞大的GPU集群,能够处理拥有数万亿个参数的AI模型。
与此同时,英伟达正在为“AI超级模型”制定一个框架。开发人员使用大语言模型后,通过插入定制模型、护栏、检索增强生成(RAG)及其他工具对其进行优化。
英伟达已为其A超级模型策略优化了开源Llama 3.1。开发人员可以为Llama 3.1模型配备一系列适配器、大语言低阶适应(LoRA)模型和护栏,以创建自己的模型。
英伟达有一套复杂的流程来构建AI超级模型。开发人员需要找出优化模型的基本要素,输入本地化数据,并确定适配器。开发人员需要实施提取相关数据并将其推送到矢量数据库的程序,矢量数据库评估信息,并向用户发送响应。
开发人员需要完善CUDA,并了解NIM(英伟达推理微服务),这是英伟达网站上的云原生AI容器。
竞争激烈
英伟达的竞争对手英特尔和AMD正想尽一切办法让开发人员远离英伟达的CUDA。
包括英特尔和富士通在内的众多公司已组成了一个名为UXL基金会的联盟,以开发CUDA的开源替代品。UXL的并行编程框架基于英特尔的OneAPI构建。目标很简单:代码方面的一些变化将允许程序在英伟达和非英伟达AI加速器上运行。
当然,UXL还提供了一种工具来剥离CUDA代码,以便程序在其他AI芯片上运行,包括FPGA和ASIC等。
AMD有ROCm,尽管大肆宣传,但还远未成熟。
所有竞争对手都使用开源工具,并不使用内部工具在专有硬件上创建运行AI的神经网络。
但英伟达凭借CUDA领先竞争对手近10年。CUDA始于2006年,用于高性能计算,后来成为AI领域的一股强大力量。
原文标题:Nvidia’s Hardware Roadmap and Its Impact on Developers,作者:Agam Shah