英伟达的硬件路线图对广大开发人员的影响

译文
开发 前端
英伟达修订后的GPU路线图对开发人员意味着什么?首先,Python在其CUDA并行编程框架中将具有优先权。

译者 | 布加迪

审校 | 重楼

英伟达是AI热潮的最大受益者,GPU销售额带来了大量现金。现在,该公司正采取前所未有的计划,在2027年之前每年发布一款GPU

英伟达首席执行官黄仁勋在今年6月的台北国际电脑展上表示:“我们的基本理念非常简单构建整个数据中心规模的架构,并以一年为周期将部分产品出售给您。我们竭力将各项技术推向极限。

微软和Meta等公司正投资数十亿美元建数据中心,希望获得最新最好的GPU。因此,英伟达正以更快的速度创新硬件技术。

金融分析师认为,英伟达的股价处于不可持续的价位。就像互联网热潮一样,AI热潮也将消退,英伟达的股价到时也将回落。但英伟达的GPU和技术进步对软件开发的影响将是永久性的。

GPU路线图

英伟达的目标是让GPU成为操作或运营中的必备硬件,就像过去几年的CPU一样。英伟达首席执行官黄仁勋认为,CPU还不够,需要GPU更快地处理数据。

黄仁勋在最近一次活动中说:“软件惰性是计算机中最重要的因素。当一台电脑在架构上与所有已经创建的软件向后兼容时,你就能以极快的速度进入市场。”

英伟达的旗舰GPUHopper为微软、MetaOpenAI支持AI项目OpenAI和微软在英伟达的Hopper H100及其前身A100 GPU上提供GPT-44.0

微软已经订购了下一代GPU:Blackwell,最早将于明年部署到其数据中心。但由于英伟达在制造Blackwell芯片时遇到了技术难题,因此这款芯片的发货日期成了问题。

SemiAnalysis的分析师在一份报告中表示:“这是以前从未实现过的计算和功率密度,考虑到所需的系统级复杂性,这种提升已被证明具挑战性。

师表示Blackwell面临全面的挑战,包括输、过热、泄漏和复杂性。

Blackwell拥有2080亿个晶体管,这使其成为有史以来最复杂的芯片之一。一台机架式服务器可以容纳多达72Blackwell,英伟达正在提供通过以太网连接多达576个GPU功能。这涉及庞大的AI算力。

英伟达正在将Blackwell GPU基于ARM的Grace CPU配对。英伟达推出配备这些芯片的服务器,可以在云端享用。英伟达试图终结将其GPU与英特尔或AMD的x86处理器配对的传统编程模式。

英伟达明年将交付Blackwell Ultra,与Blackwell一样,该芯片也将含HBM3E,但容量更大。此后,英伟达在2026年将发布Rubin平台,该平台将包括全新的GPU和CPU,并支持HBM4内存。2027年,英伟达将发布Rubin Ultra GPU。

所有新的GPU都配有更快的网络芯片和互连技术,以实现更快的服务器和芯片通信。黄仁勋:“这基本上就是英伟达在构建的产品,所有丰富的软件都建立在此基础上。

这对开发人员意味着什么

英伟达未来的GPU预示着向混合精度计算转变,这种计算结合了传统计算AI计算。

该公司的GPU正放弃64位精度的专注64位精度对精确计算至关重要。相反,它在开发硬件功能,以提升概率AI计算中使用的低精度4位、8位和16位数据类型。

英伟达在其GPU中加入了更多用于矩阵乘法的Tensor Cores(张量核心)。一种名为GEMM的算法是英伟达AI模型的核心,它充分利用了张量核心,并与CUDA中的库兼容,以便程序员与GPU核进行交互。

首先,英伟达想要拉拢更多的开发人员。开发人员需要了解C++和Fortran以便GPU编程,但英伟达希望支持更多的编程语言包括Rust和Julia。

英伟达正在将Python打造CUDA并行编程框架中的优先者,包括扩展SDK和框架对Python的访问。该公司不会停止为其C++库摇旗呐喊,这些库是解锁英伟达的部分GPU功能所必需的。

不过要注意:一旦开人员深陷CUDA,就很难脱身了。

电源效率

英伟达声称其GPU绿色节能,但芯片业内人士一直开玩笑,英伟达唯一绿色的地方就是它的徽标。英伟达的Blackwell GPU耗电1200瓦,需要液冷。

即将推出GPU耗电量会很大,但也提供最快的运算结果。Blackwell将包括支持新的低精度数据类型FP4和FP6这项功能从而进一步提升每瓦特性能。

英伟达还在宣传更高效的编程,以减少交付计算结果所需要的循环。即将推出的GPU将包括软件层,可以将任务重定向到正确的核心。这也将减轻程序员的压力。

AI超级模型

英伟达的GPU和软件战略正在并行开发。其目标是建立庞大的GPU集群,能够处理有数万亿个参数的AI模型。

与此同时,英伟达正在为“AI超级模型”制定一个框架开发人员使用大语言模型,通过插入定制模型、护栏、检索增强生成RAG)及其他工具对其进行优化。

英伟达为其A超级模型策略优化了开源Llama 3.1。开发人员可以为Llama 3.1模型配备一系列适配大语言适应(LoRA)模型和护栏,以创建自己的模型。

英伟达有一套复杂的流程来构建AI超级模型。开发人员需要找出优化模型的基本要素,输入本地化数据并确定适配器。开发人员需要实施提取相关数据并将其推送到矢量数据库的程序矢量数据库评估信息并向用户发送响应。

开发人员需要完善CUDA并了解NIM(英伟达推理微服务,这是英伟达网站上的云原生AI容器。

竞争激烈

英伟达的竞争对手英特尔和AMD正想尽一切办法让开发人员远离英伟达的CUDA。

包括英特尔和富士通在内的众多公司已组成了一个名为UXL基金会的联盟,以开发CUDA的开源替代品。UXL的并行编程框架基于英特尔的OneAPI构建。目标很简单代码方面的一些变化将允许程序在英伟达和非英伟达AI加速器上运行。

当然,UXL还提供了一种工具来剥离CUDA代码,以便程序在其他AI芯片上运行,包括FPGA和ASIC等。

AMD有ROCm,尽管大肆宣传,但还远未成熟。

所有竞争对手都使用开源工具,并不使用内部工具在专有硬件上创建运行AI的神经网络。

英伟达凭借CUDA领先竞争对手近10年。CUDA始于2006年,用于高性能计算,后来成为AI领域的一股强大力量。

原文标题:Nvidia’s Hardware Roadmap and Its Impact on Developers,作者:Agam Shah


责任编辑:华轩 来源: 51CTO
相关推荐

2021-03-01 10:34:28

开发技能代码

2019-12-03 08:00:00

软件开发产品路线图路线图工具

2020-06-05 14:38:25

开发人员职位开发

2011-05-11 16:29:38

iOS

2016-10-18 10:45:00

开发开源

2011-05-30 14:07:42

2016-08-25 10:15:50

Linux内核代码

2009-12-07 16:07:19

WCF编程

2010-08-09 16:09:25

2023-05-22 14:57:47

2013-12-23 15:46:42

2012-02-15 09:17:02

Python编程

2010-02-02 16:07:17

Python开发人员

2012-07-12 00:09:34

2023-08-30 08:01:37

前端CSS

2013-01-16 17:34:32

Android开发路线图

2024-06-26 09:00:00

2010-02-25 09:46:19

Google App

2009-12-25 10:11:22

.NET Framew

2021-02-16 16:44:40

RustJavaScript开发
点赞
收藏

51CTO技术栈公众号