出品 | 51CTO技术栈(微信号:blog51cto)
编辑 | 伊风
老黄也太凡尔赛了!竟然在播客中喊话客户少买英伟达,“每年买一点”就好。
上述发言就在黄仁勋做客的科技节目Bg2 Pod,在与主持人Brad、Clark对谈时,老黄非常投机,话匣子一开就收不住了!
上图:播客开场,黄仁勋与Brad戴了搞怪的眼镜
主持人一开始还紧张地打断,并表示自己还有不少问题。
而黄仁勋一直慷慨地表示:没事,我的时间多的是!
最终,这场酣畅淋漓的对话持续了一个半小时之久,黄教主从英伟达的护城河、AI向AGI的发展、AI推理的未来,一直聊到 OpenAI 和 xAI 的最新进展。
那先给大家画个重点:
1.摩尔定律已经被突破,十年内英伟达将计算的边际成本降低了十万倍。
2.黄仁勋认为,AGI个人助手很快会以某种形式出现。
3.黄仁勋认为,机器学习的飞轮是最重要的东西,需要有更智能的AI来处理数据,以支持研究人员在这个飞轮中高效工作。
4.黄仁勋表示,英伟达在推理方面的护城河只会比训练更强,英伟达重视旧设备从训练转向推理的兼容性,并且持续创新算法,提升推理体验。
5.技术更迭很快,每年的产品在性能、成本和能源效率上都有巨大飞升。黄仁勋建议,用户不要做一次性购买,“每年买一点”。
6.Nvidia是一家市场创造者,唯一关心的是如何创造下一个产品,公司的PPT从来不讨论市场份额。
7.分析师曾预言Nvidia 2023 年将实现 260 亿美元的收入,但他们最终实现了 600 亿。黄仁勋认为,重塑计算这件事使得英伟达注定会取得巨大成功。
8.AI是基础设施。黄仁勋估计,有一万亿美元的旧系统需要现代化,至少还有一万亿的新AI工作负载即将出现,预计今年的收入大概是1250亿美元。
9.黄仁勋不认为,AGI实现的节点特别重要。“AI将在未来拥有一条充满能力的路线图,沿着这条路线,它的能力将会非常惊人。”
10.在谈AI技术和商业化时,黄仁勋提到,模型能力和人工智能之间存在根本的区别,就像GPU与加速计算之间的关系,一些非常擅长构建GPU的人可能完全不知道如何成为一家加速计算公司。AI初创公司的管理者应该厘清这些概念,并意识到“哪些部分能被商品化”。
11.黄仁勋爆料,马斯克的超级集群从开始到投入训练仅用19天,称赞马斯克“是超人的成就,我认为,世界上只有一个人能够做到这一点。Elon 对工程、建设、大型系统和资源调配的理解是独一无二的。”
12.随着需求的增长,未来集群会需要数百万个GPU。
13.谈论AI行业,就是谈论工业革命,推理及智能的生产还将增长千亿倍。
14.黄仁勋说,未来英伟达可能会有5万员工,和1亿AI助手。未来,每个人都会是AI Agents 的CEO。
15.英伟达之所以做Nemotron,是为了生成合成数据。
以下是经过整理的完整播客内容,enjoy:
Brad Gerstner:Jensen 的眼镜很好看。
图片
黄仁勋:嘿嘿,是啊。
Brad Gerstner:很高兴和你在一起。
黄仁勋:是的,我戴的是丑眼镜。
Brad Gerstner:别这样,那不丑,挺不错的。你更喜欢红色的那副吗?
黄仁勋:那是只有你家里人才能喜欢的东西。
Brad Gerstner:好吧,现在是10月4日星期五,我们在Nvidia总部,离Altimeter(编者注:风投公司,Brad是这家公司的创始人兼 CEO )很近。
黄仁勋:欢迎!
Brad Gerstner:感谢你,感谢你。我们将在周一举行年度投资者会议,讨论AI的所有影响,以及我们扩展智能(scaling intelligence)的速度。我真的找不到比你更合适的人来开启这个讨论了,作为股东和想法伙伴,你和我们一起探讨,让我们更能看到更多。我们非常感激这段友谊。所以谢谢你来这里。
黄仁勋:很高兴来这里。
所需算力每年增4倍,见证职业生涯最大“变局”
Brad Gerstner:你知道,今年的主题是扩展智能到AGI(通用人工智能)。想想两年前我们讨论的是AI的时代,那时距离ChatGPT发布还有两个月,想想这一切变化多么令人惊讶。所以我想我们可以通过一个思想实验和预测开始。如果我将AGI视作口袋里的个人助手,如果我把AGI看作那个能了解我所有信息、拥有我完美记忆的助手,它可以帮我订酒店,或者帮我预约医生。当你看到当今世界的变化速度,你认为我们什么时候会拥有这种个人助手?
黄仁勋:很快就会以某种形式出现,对,很快会以某种形式出现。而且这个助手会随着时间变得越来越好。这就是我们熟知的科技的美妙之处。所以我认为一开始,它会相当有用,但并不完美,然后随着时间的推移会越来越完美,就像所有科技一样。
Brad Gerstner:当我们看变化的速度时,我想Elon曾经说过,唯一重要的事情就是变化的速度。对我们来说,这确实感觉像是变化速度大幅加快了,是我们见过的最快的变化速度。因为我们已经在AI领域摸索了十年,你甚至比我们更久。这是你职业生涯中见过的最快的变化速度吗?
黄仁勋:是的,因为我们重新发明了计算。你知道,很多事情之所以发生,是因为我们在十年内将计算的边际成本降低了十万倍。摩尔定律预测的提升大约是100倍,但我们通过多种方式达到了更大的突破。我们通过引入加速计算,将在CPU上效果不佳的工作转移到GPU上。我们发明了新的数值精度,我们发明了新的架构,发明了Tensor核心,系统的构建方式,NVLink加上了极快的HBM内存,以及通过NVLink Infiniband扩展整个堆栈。基本上,我描述的所有Nvidia做的事情都导致了一个超级摩尔定律的创新速度。
现在,真正令人惊讶的是,结果是我们从人类编程转向了机器学习。令人惊讶的是,事实证明,机器学习可以学得很快。因此,随着我们重新设计了计算的分配方式,我们进行了各种各样的并行处理,Tensor并行处理,流水线并行处理,各种并行处理方法,并且我们变得擅长在这些新训练方法的基础上发明新算法。所有这些发明都在彼此叠加,结果非常显著,对吧?
回到过去,如果你看看摩尔定律的运作方式,软件是静态的。它是预编译的,包装好,放到商店里,它是静态的,而底下的硬件则按照摩尔定律的速度增长。现在,我们的整个堆栈都在增长,在整个堆栈上进行创新。所以我认为这是现在的情况。
突然之间,我们看到了非凡的扩展。当然,我们过去谈论的是预训练模型的扩展,如何在那个层面扩展,以及我们如何每年将模型大小翻倍,因此适当地将数据大小翻倍。因此,所需的计算能力每年增加4倍,这是一件大事。
但现在我们看到了后训练的扩展,我们在推理阶段也看到了扩展,不是吗?以前人们认为预训练很难,推理很容易。现在一切都很难,人类思维是一击即中的想法有点荒谬。所以一定有快速思考和慢速思考的概念,推理、反思、迭代和模拟这些,现在都在进入。
英伟达的护城河继续加深:重视机器学习的飞轮
Clark Tang:我认为,在这个点上,你知道,有关Nvidia最被误解的事情之一就是Nvidia的真正护城河有多深,对吧?我认为外界有一种观念,认为只要有人发明了一个新的芯片,一个更好的芯片,他们就赢了。但事实是,你们在过去十年里一直在构建从GPU到CPU到网络的整个堆栈,特别是支持应用程序在Nvidia上运行的软件和库。
所以我认为你已经讲到了这一点。当你想到今天的Nvidia护城河时,对吧?你认为今天的Nvidia护城河比三四年前更大还是更小?
黄仁勋:我很感激你认同计算的改变。事实上,之所以人们认为,也许你仍然认为,设计一个更好的芯片,它拥有更多的浮点运算能力,有更多的翻转操作和洛杉矶比特,你懂我的意思吗?你会在他们的主题演讲幻灯片上看到这些,有所有这些翻转操作和浮点运算条形图,之类的东西。这些都很好,我的意思是,性能确实很重要,所以这些事情从根本上说是重要的。然而,不幸的是,这是旧思维,这种旧思维认为软件是运行在Windows上的某个应用程序,而软件是静态的,这意味着你改进系统的最佳方式就是让芯片越来越快。
但我们意识到,机器学习不是人类编程。机器学习不仅仅是软件,它涉及整个数据管道,事实上,机器学习的飞轮是最重要的东西。那么,你如何思考如何支持这个飞轮,一方面,支持数据科学家和研究人员在这个飞轮中高效工作?这个飞轮从最开始就开始了。
很多人甚至不知道需要AI来策划数据,以教会另一个AI。而仅仅是那个AI本身就相当复杂。
Brad Gerstner:而且那个AI本身也在改进,也在加速,对吗?当我们再次考虑竞争优势时,对吧?它是所有这些系统的组合。
黄仁勋:完全正确,完全正确,这正是我要说的。因为有更智能的AI来策划数据。我们现在甚至有合成数据生成和各种策划数据的方法,呈现数据。因此,在你进行训练之前,已经有大量的数据处理在进行。人们认为,哦,PyTorch就是一切的开始和结束,它确实很重要。但不要忘记,在PyTorch之前有很多工作,在PyTorch之后也有很多工作。而关于飞轮的思考方式确实是你应该思考的方式,如何思考整个飞轮?
你如何设计一个计算系统,一个计算架构,帮助你让这个飞轮尽可能高效?它不是一个应用程序训练的某个片段,对吧?
这只是其中一步,每一步都不容易。所以首先你应该做的不是思考如何让Excel更快,如何让《毁灭战士》更快,那是过去的日子,对吗?现在你要思考的是如何让这个飞轮更快,这个飞轮有很多不同的步骤,而且机器学习没有任何容易的地方,你们都知道,OpenAI或X或Gemini和DeepMind团队做的事情都不容易。所以我们决定,这才是你真正应该思考的东西。
这是整个过程,你要加速每一部分。你要尊重Amdahl法则(编者注:计算机科学中的一个基本定律,主要描述了在多处理器系统中并行计算的加速比如何受到串行部分的限制),Amdahl法则会建议,如果这个步骤占了30%的时间,我通过3倍的速度加速它,我并没有真的显著加速整个过程,对吧?你真的想创建一个系统,加速每一步,因为只有这样做,你才能真正实质性地改善循环时间,而那个飞轮的学习速度最终就是导致指数增长的原因。因此,我想说的是,一个公司的视角决定了他们的产品表现方式。我一直在谈论这个飞轮,你知道的,整个过程,对吧?我们现在正在加速一切,对,现在主要关注的是加速推理,但我们也关注加速训练的所有步骤。
想象一下前端系统每秒钟摄取的数据量是以TB计算的。给我举个例子,说明数据管道是如何摄取这些数据的,并为训练做准备的,而这一切都是由CUDA加速的。
Clark Tang:人们现在只考虑文本模型,但未来还会有视频模型。还有,你知道,像o1的这些文本模型能处理大量数据,这都是在我们真正到达未来之前的过程。
黄仁勋:语言模型将涉及到每一个步骤。行业为训练这些大型语言模型投入了巨大的技术和努力。现在我们每一步都在使用大型语言模型,真的很了不起。
谈竞争对手:我们和英特尔的想法相反
Brad Gerstner:我不想过于简化这个问题,但你知道,投资者们经常问:“是的,但定制ASIC呢?是的,但他们的竞争优势会被打破。”我听你说的意思是,在组合系统中,优势随着时间的推移而增长。所以我听到你说我们今天的优势比三到四年前更大,因为我们在改进每个组件,而这就是组合优势。例如,如果作为商业案例研究来考虑英特尔,他们在堆栈中的主导地位相对于今天的位置如何?你能不能稍微简化一下,比较一下你们的竞争优势与英特尔在其巅峰时期的竞争优势?
黄仁勋:英特尔是非凡的,因为他们可能是第一家在制造工艺工程和制造方面非常出色的公司,此外,他们在制造之上还有一层,那就是设计和架构x86芯片,并不断推出更快的x86芯片。这是他们的聪明之处。他们将这一点与制造结合了起来。
我们的公司有点不同,我们认识到并行处理不需要每个晶体管都表现优异,而串行处理却要求每个晶体管都要表现优异。并行处理需要大量晶体管,并且要更加具有成本效益。我宁愿拥有速度慢20%却多10倍的晶体管,也不愿拥有速度快20%但数量少10倍的晶体管。英特尔则是相反的想法。单线程处理和并行处理是非常不同的。因此,我们发现,在我们的世界中,不是为了变得更好而向下优化,我们希望尽可能优秀,但我们的世界实际上是为了通过并行计算变得更好而向上发展。
并行处理很难,因为每个算法都需要根据架构进行重新设计和重新架构。人们没有意识到的是,在三种不同的CPU ISA中,每种都有自己的C编译器。你可以将软件编译到ISA中。但在加速计算中,并行计算中,这是不可能的。
提出架构的公司还必须提供自己的OpenGL。所以我们因为专用库 cuDNN而彻底改变了深度学习。没有人讨论 cuDNN,因为它是在PyTorch和TensorFlow之下的一层,早期的Caffe和Theano也是如此,现在还有Triton和许多不同的框架。专用库cuDNN,专用库OptiX,还有叫 Quantum Rapids的专用库。还有其他很多,比如ArrayFire。
Brad Gerstner:行业特定的算法位于所有人都关注的PyTorch层之下。
黄仁勋:如果我们没有发明那个,没有任何应用程序能在上层运行。你们理解我的意思吗?Nvidia擅长的是算法和架构之间的数学融合,这就是我们真正擅长的。
推理其实就是大规模的训练,Nvlink功不可没
Clark Tang:现在终于有很多关注推理的目光了。但我记得两年前,Brad和我和你共进晚餐时,我们问你,你认为你们在推理中的护城河会和在训练中一样强吗?
黄仁勋:我肯定当时说了,会的。
Clark Tang:更强。你刚才提到了很多相关的元素,比如我们对某些组合的灵活性。对于客户来说,灵活性是非常重要的。能不能谈谈现在我们处于推理时代的情况?
黄仁勋:推理其实就是大规模的训练。如果你训练得好,你很可能推理得也好。如果你在这个架构上进行了训练,它就会在这个架构上运行。你仍然可以为其他架构进行优化,但至少在最小的情况下,它会在Nvidia上运行。
当然,另一个方面就是资本投资的考虑。当你训练新模型时,你会希望使用最新的设备,这意味着之前的设备可以用于推理。因此,旧设备其实非常适合推理。而我们非常注重兼容性,确保旧设备依然能很好地工作。
我们还投入了很多精力持续创新新算法,使得当Hopper架构推出时,它比以前的版本好2到4倍,这样基础设施仍然非常高效。我们对新算法和新框架的改进不仅仅帮助了Hopper,也帮助了Ampere,甚至是Vault。最近,Sam告诉我他们刚刚在OpenAI退役了他们的Volta基础设施。所以,这种旧设备的遗留就像所有计算基础设施一样重要,Nvidia的设备遍布所有云端、本地,甚至到边缘设备。因此,在云端创建的Vila语言模型可以无缝运行在机器人上,而无需修改。
这一切都是由CUDA驱动的。所以我认为架构兼容性对大型模型来说非常重要。
我认为推理中,基础安装的影响非常重要。但我们真正受益的是,由于我们在训练这些大型语言模型的新架构上进行工作,我们能够考虑如何为未来设计出优秀的推理架构。因此,我们一直在思考迭代模型的推理方式,以及如何为你的个人代理创建非常互动的推理体验。比如,当你和它对话时,它需要去思考一会儿,然后迅速与你互动。所以我们一直在想,如何才能实现这样的事情?
于是,我们发明了Nvlink。你知道,Nvlink使我们能够把这些系统用在训练上,训练完成后,其推理性能同样非常卓越。你想要优化的其实是从训练到第一个Token输出的时间,这非常难做到。因为第一个Token输出时间需要大量带宽,如果你的上下文很丰富,你还需要大量计算能力。因此,为了在几毫秒内响应,你需要无限的带宽和无限的计算能力同时具备,这种架构非常难设计。为了实现这一目标,我们发明了Grace、Hopper Blackwell的Nvlink。
Brad Gerstner:为了节省时间,我还有更多的问题。
黄仁勋: 别担心,别担心时间。各位,听我说,Janine,让我们做到最好。
Nvidia是一家市场创造者,而不是市场份额的抢夺者
Brad Gerstner:太棒了,我喜欢这种感觉。上周我和Andy Jassy(编者注:亚马逊CEO)共进晚餐时,(现在我们不用再担心时间了)。Andy说:“我们有Trainium,还有Inferentia来了。”我认为大多数人会觉得这些对Nvidia是个问题。但他接着说:“Nvidia是我们重要的合作伙伴,并且会继续是未来的重要伙伴。” 这个世界运行在Nvidia上,对吧?当你想到那些专门为特定应用构建的定制ASIC (编者注:Application-Specific Integrated Circuit,专用集成电路)可能是Meta的推理加速器,或者是Amazon的Trainium,或者是Google的TPU ISS,再结合你目前的供应短缺情况,这些会改变动态或对他们从你这里购买的系统产生影响吗?
黄仁勋:我们在做不同的事情,追求不同的目标。Nvidia在做的是为这个新世界——这个机器学习、生成式AI、代理式AI的世界——构建一个计算平台。令人深刻的是,在计算发展的60年后,我们重新发明了整个计算栈。从编程到机器学习的写软件方式,从CPU到GPU的处理方式,以及从软件到人工智能的应用程序方式——每一个计算栈和技术栈的方面都发生了变化。
我们想要做的是创建一个随处可用的计算平台。这就是我们所做事情的复杂性。
我们在做的事情很复杂,如果你思考我们在做什么,我们正在构建整个AI基础设施,我们将其视为一个计算机。我以前说过,数据中心现在是计算单元。当我想到一台计算机时,我不会只想到芯片,而是整个软件、所有编排系统、所有内部的机器设备,这是我的使命,这是我的计算机,我们每年都试图构建一个全新的版本。
是的,这太疯狂了,没人之前做过这样的事。我们每年构建一个全新的计算机,每年性能提高两到三倍,成本降低两到三倍,能源效率提高两到三倍。所以我们建议客户不要一次性购买所有东西,每年买一点,好吗?
我们希望他们随着时间推进,而不是一次性买完。现在我们所有的架构都是兼容的,在这个速度下单独构建这些就已经非常困难了。更加复杂的是,我们将所有这些基础设施分解开来,不是作为一个基础设施卖出,而是作为一个服务销售。我们将其分解并集成到GCP、AWS、Azure、X中,每一个集成都不同。我们需要将所有的架构库、算法、框架与他们集成起来。我们将安全系统、网络集成到他们的系统中。每年我们进行10个这样的集成,这就是奇迹。
Brad Gerstner:这的确是个奇迹!这太疯狂了。是什么驱使你每年去做这件事的?另外,你们的合作伙伴在(中国)台湾、韩国、日本见面时,这些长期合作关系在构建这个竞争壁垒时有多重要?
黄仁勋:当你系统性地分解这些问题时,你会发现整个电子生态系统今天都在与我们合作,最终要构建这个整合到各个生态系统中的超级计算机。这种无缝的协调非常惊人。有API、方法论、业务流程、设计规则,这些都是我们在向前和向后传播的。
Brad Gerstner:这些方法已经经过了几十年的打磨。
黄仁勋:是的,几十年磨练的同时也在不断演进。这些API到时都会整合在一起,所有在台湾和全球制造的东西,最后都会落到Azure的数据中心中,然后一切都会融合,“咔咔咔咔”,一切都配合得天衣无缝。
Clark Tang:有人只需要调用OpenAI的API,它就能立即工作。
黄仁勋:没错,正是这种疯狂的整合。我们发明了这个全球性的计算基础设施,整个星球都在和我们一起构建这个体系,集成到各个地方。你可以通过Dell销售,通过HPE销售,它在云中托管,甚至已经延伸到边缘计算,很多人在机器人系统中使用它,包括人形机器人、自动驾驶汽车等,所有这些都在架构上兼容,非常疯狂的整合。
Brad Gerstner:的确是疯狂。
黄仁勋:Clark,我不想让你觉得我没有回答你的问题。事实上,我已经回答了。对于你提到的ASIC问题,我们公司在做的是完全不同的事情。作为一家公司,我们必须对周围的环境保持敏锐的感知。我非常清楚我们公司和生态系统的所有动态。我知道很多公司在做一些不同的事情,有时候是竞争的,有时候不是。我非常清楚这些,但这并不改变我们公司的使命。公司的唯一使命是构建一个可以无处不在的架构和平台,这就是我们的目标。
我们并不试图从任何人那里抢占市场份额。Nvidia是一家市场创造者,而不是市场份额的抢夺者。看看我们的公司PPT,从来没有一天我们在讨论市场份额。
我们唯一关心的是如何创造下一个产品?下一个问题是什么?如何为用户做得更好?如何加速我们原本需要一年的飞轮效应,缩短到一个月?这些都是我们在思考的事情。但唯一确定的是,我们对使命非常坚定。
唯一的问题是产品对我们的这个使命是否必要,是否有意义,你知道吗?所有公司,所有伟大的公司都应该有这样的使命。
核心问题是你在做什么,对吧?唯一的问题是它是否必要、是否有价值、是否有影响力、是否帮助了人们?我确信你是开发者,是一家生成式 AI 初创公司,你正要决定如何成为一家公司,唯一不需要做的决定就是选择支持哪个 A6。如果你仅支持 CUDA,你就可以走遍全球,你以后随时可以改变主意,但我们是进入 AI 世界的入口,不是吗?一旦你决定进入我们的平台,其他决定可以延后做,你以后随时可以自己构建 ASIC。我们不反对,也不会因此感到冒犯。
当我与所有 GCP 合作时,无论是 GCP 还是 Azure,我们会提前多年向他们展示我们的路线图。他们从不会向我们展示他们的 ASIC 路线图,但这从未冒犯到我们。明白了吗?如果你的目标明确,且目标对你和其他人都非常重要,那么你可以透明化。注意,我在 GTC 会议上展示的路线图是透明的。我们的路线图会更深入地展示给 Azure 和 AWS 的朋友们。即使他们在构建自己的 ASIC,我们也毫无问题。
从第一性原则分析,英伟达注定会“起飞”
Brad Gerstner:我认为,当人们观察商业时。你最近说过对 Blackwell 的需求非常疯狂,你还说你工作中最难的部分是面对世界缺乏计算能力时,拒绝人们的情感负担。但批评者说这只是暂时的,对吧?他们说这就像 2000 年的 Cisco(编者注: Cisco 在 2000 年左右在光纤建设方面过度投资,直到互联网泡沫破裂),我们过度建设光纤,最终将是繁荣与衰退。我记得 23 年初我们共进晚餐时,当时对 Nvidia 的预测是 2023 年将实现 260 亿美元的收入,而你们最终实现了 600 亿,对吧?
黄仁勋:让真相大白,这是历史上最大的一次预测失败,大家能否承认这一点?
Brad Gerstner:对我来说(是的)。
当时我们在 22 年 11 月非常兴奋,因为像 Mustafa(来自 Inflection)等人,以及 Character AI 的 Noam 来到我们办公室讨论投资他们的公司。他们说,如果你不能投资我们的公司,那就买 Nvidia,因为全世界的人都在努力获取 Nvidia 芯片来构建这些将改变世界的应用。当然,ChatGPT 的诞生带来了坎勃里时刻(编者注:源自寒武纪大爆发,指飞跃性突破),尽管如此,那些 25 位分析师过于关注加密货币寒冬,以至于无法想象当时世界上正在发生的事情。所以最终规模远超预期。你用非常直接的语言说,对 Blackwell 的需求是疯狂的,并且在你所能预见的未来都会如此。当然,未来是未知的,但批评者为什么错了?这不会像 Cisco 在 2000 年的过度建设那样吗?
思考未来的最佳方式是从第一性原理推理(编者注:通过将复杂问题分解为最基本的真理(或者最基本的已知事实)来进行推理和解决问题的思维方式)。那么问题是,我们的第一性原理是什么?
首先,我们在做什么?我们做的第一件事是我们正在重新定义计算,对吧?我们刚刚说过,未来的计算将高度依赖机器学习,几乎我们做的每一个应用,无论是 Word、Excel、PowerPoint、Photoshop、Premiere、 AutoCAD,你随便挑一个你最喜欢的应用,过去都是手工工程化的,我向你保证未来它们都会高度依赖机器学习,对吧?所以这些工具都会如此,除此之外,还会有机器、代理来帮助你使用这些工具,对吧?所以我们现在已经知道这是事实,对吧?
我们已经重新定义了计算,不会回头了,整个计算技术堆栈正在被重新构建。所以我们已经完成了这一点,现在软件也会有所不同,软件能写的东西会不同,我们使用软件的方式也会不同。所以让我们承认这些是我的基础事实。现在的问题是接下来会发生什么?
让我们回顾过去的计算方式。过去我们有价值数万亿美元的计算机。你看看数据中心,问问自己:这些计算机是你想用来做未来的计算机吗?答案是否定的,后面有那么多 CPU,我们知道它们能做什么,不能做什么,我们有价值数万亿美元的数据中心需要现代化。所以现在,如果我们设定一个未来四到五年的轨迹来现代化这些旧设备,这是合理的,不是吗?
Brad Gerstner:所以你和那些需要现代化的人有这些对话,他们正在用 GPU 进行现代化,对吧?
黄仁勋:让我们再做一个测试。你有 500 亿美元的资本支出,你有两个选项:A 选项,未来的资本支出,B 选项,过去的资本支出。你已经有了过去的资本支出,它就在那里,不会再有大的改进了。
摩尔定律几乎已经终结了,那为什么还要重建那些呢?让我们拿 500 亿美元投资到生成式 AI 上,对吧?你的公司因此变得更好了,对吧?你会把多少 500 亿投入到其中?我会全部投入,因为我已经有四年的旧基础设施了。所以现在,我只是从第一性原理的角度进行推理。这就是聪明人在做聪明的事。
第二部分是,现在我们有价值数万亿美元的容量需要构建,对吧?我们要投入约 1500 亿美元。我们有价值数万亿美元的基础设施要在未来四到五年内构建。
其次,我们观察到,软件的编写方式变了,未来使用软件的方式也会变。我们将拥有代理,对吧?我们将有数字员工。在你的收件箱中,你会看到这些小点和小脸。未来,它们将是 AI 的小图标,对吧?我会发送它们。我将不再用 C++ 编写程序,而是用提示词编写 AI,对吧?
这跟我早上给团队写邮件没有什么不同,对吧?我会描述背景,说明我所知道的基本限制,还会讲清楚他们的任务。我会给出足够明确的方向,让他们明白我的需求,同时也留出足够的模糊空间,让他们在创造力方面给我惊喜,对吧?
这跟我今天如何提示AI是一样的,完全一样。所以在我们即将现代化的基础设施之上,还会有一个新的基础设施。这新的一层将是运行这些数字人类的AI工厂,它们会全天候24小时不停运作。我们将在全球所有的公司、工厂和自主系统中使用这些AI。对吧?所以这是一整层的计算架构,我称之为AI工厂,这层基础设施目前还不存在。问题是,它的规模有多大?现在还无法知道,也许几万亿美元,但现在我们所构建的美妙之处在于,现代化这个新数据中心的架构和AI工厂的架构是一样的。
Brad Gerstner:这很棒。你已经明确说明了:有一万亿美元的旧系统需要现代化,至少还有一万亿的新AI工作负载即将出现,预计今年的收入大概是1250亿美元。你知道,曾有人对你说公司市值永远不会超过十亿。现在,你坐在这里,有什么理由认为你的收入不会翻倍、三倍增长?有没有什么理由会阻碍你的收入增长?
黄仁勋:没有,对,你知道,问题不在于一切。公司的规模受限于市场的大小。金鱼只能在鱼缸里长到一定程度,问题是我们的‘鱼塘’有多大?这需要很大的想象力。这也是为什么市场缔造者会考虑未来,而不是单纯去争取市场份额。
回头看很难弄清楚,只靠争市场份额只能做到一定程度,但市场缔造者的潜力是非常大的。我认为我们公司一直以来的幸运之处在于,自成立之初,我们就不得不为自己创造市场来发展。人们也许现在不记得了,但我们几乎从零开始创建了3D游戏PC市场。我们发明了这个市场和所有的生态系统,所有的显卡生态系统,都是我们发明的。因此,创造新市场并在未来为其服务,这对我们来说是很自然的事。
谈OpenAI:我们这个时代最具影响力的公司之一
Brad Gerstner:确实如此,作为一位市场创造者,我们来谈谈模型和OpenAI。你知道,OpenAI本周融资了65亿美元,估值达到了1500亿美元。我们都参与了。
黄仁勋:真的为他们感到高兴,这件事最终得以实现。他们做得很棒,团队表现得非常出色。
Brad Gerstner:有报道称他们今年的年化收入大概是50亿美元,明年可能达到100亿。如果你看看这家公司,收入是谷歌IPO时的两倍。他们拥有2.5亿的每周活跃用户,是谷歌当年IPO时的两倍。如果你相信他们明年的收入将达100亿美元,那么它的前瞻市盈率约为15倍,和谷歌与Meta在IPO时的市盈率相当。你怎么看待一家22个月前还没有收入、没有每周活跃用户的公司?
黄仁勋:Brad对历史的掌控非常惊人。
Brad Gerstner:对此你怎么看?跟我们谈谈OpenAI作为你们的合作伙伴的重要性,以及它在推动公众对AI的认识和使用方面的重要性。
黄仁勋:这是我们这个时代最具影响力的公司之一。
一家纯粹的AI公司,追求AGI(通用人工智能)的愿景,无论它的定义如何,我几乎认为定义本身并不重要,我也不认为时间节点特别重要。我唯一知道的是,AI将在未来拥有一条充满能力的路线图,沿着这条路线,它的能力将会非常惊人。而且在到达任何人定义的AGI之前,我们会充分利用它。
现在,只要你去找数字生物学家、气候科技研究者、材料研究者、物理学家、天体物理学家、量子化学家,你去问问视频游戏设计师、制造工程师、机器人专家,随便你挑选一个行业,深入其中,问问那些重要的人,问他们:AI是否已经彻底改变了他们的工作方式?你收集这些数据点,再回来问问自己,你还是否怀疑AI。
“因为他们现在谈论AI时,不是在说未来某一天的概念性的好处,而是在谈论当下的实际应用。现在就有农业科技、材料科技、气候科技,你挑一个科技领域或科学领域,他们都在前进,而AI正在帮助他们,推进他们的工作。此时此刻,每一个行业、每一家公司、每一所大学都在使用AI,不可思议,对吧?它必然会以某种方式改变商业,我们知道这一点,对吧?我意思是,我们知道这已经如此具象化了,你可以看到它正在发生。所以,我认为AI的觉醒,由ChatGPT引发,完全令人难以置信。我也非常欣赏他们推进这一领域的速度和专一目标,因此,这真的非常重要。”
Brad Gerstner:他们构建了一个可以为下一代模型提供资金的引擎,对吧?我认为在硅谷,关于整个模型层面正在商品化的共识在不断增长,LLaMA正在让很多人以非常低的成本构建模型。所以,早期我们有很多模型公司,比如 Character AI、Inflection、Cohere 和 Mistral,名单可以列得很长。很多人质疑这些公司是否能建立起能够为下一代模型持续提供资金的经济引擎。我个人的看法是,这就是你看到整合的原因,对吧?OpenAI显然已经达到了逃逸速度(指公司有足够的资源持续发展),他们可以为自己的未来提供资金。而我不确定其他许多公司能否做到这一点。这是否是对模型层现状的合理评估,即我们将看到像许多其他市场一样的整合,形成可以负担得起、拥有经济引擎的市场领导者,并且可以继续投资?
黄仁勋:首先,模型和人工智能之间存在根本的区别,对吧?模型是人工智能的一个基本要素,这是必要但不充分的,对吧?所以人工智能是一种能力,但它的应用是什么呢?汽车驾驶软件的人工智能与人形机器人使用的人工智能相关,但并不相同,它又与聊天机器人的人工智能相关,但也不相同,对吧?所以你必须理解技术堆栈的分类,在堆栈的每一层都会有机会,但并不是每一层堆栈上都有无限的机会。
我刚才说了一些话,你只需要把“模型”这个词替换为“GPU”。事实上,这是我们公司32年前的一个重大观察,即GPU(图形处理器)与加速计算之间存在根本区别。而加速计算与我们在人工智能基础设施中所做的工作又是不同的,它们是相关的,但并不完全相同,它们是建立在彼此之上的。每一层抽象都需要不同的基本技能。
一些非常擅长构建GPU的人可能完全不知道如何成为一家加速计算公司。有很多公司制造GPU,我不知道哪个是第一个,我们发明了GPU,但你知道的,现在不止我们一家公司制造GPU。而且到处都有GPU,但它们不是加速计算公司。还有很多公司做应用加速器,但这与加速计算公司又不同。例如,一个非常专业的AI应用程序可能会非常成功。
Brad Gerstner:确实如此。
黄仁勋:但是它可能不是那种具有广泛覆盖面和能力的公司。所以你得决定你想要在哪里立足。可能在所有这些不同领域都有机会,但像构建公司一样,你必须意识到生态系统的变化以及随着时间推移哪些部分被商品化,认识到什么是功能、什么是产品、什么是公司。
马斯克是超人,超级集群投产只用19天
Brad Gerstner:当然,有一个新的进入者拥有资金、智慧和野心,那就是 xAI,对吧?有报道称你和 Larry(编者注:甲骨文公司 CEO) 以及 Elon 共进晚餐。他们向你要了10万台 H100 GPU。他们去了孟菲斯,并在几个月内建立了一个大型的超级计算集群,你知道,这真是一个奇迹。
黄仁勋:(慌张打断)首先……三个点连不成一条线(编者注:three points don't make a line,这里指主持人列举的细节是事实,但之间的逻辑或连贯关系不是这样),好吗?是的,我的确和他们共进了晚餐。但这个因果关系……
Brad Gerstner:你怎么看他们构建这个超级集群的能力?外界有传言说他们还要再要10万台 H100,对吧?以扩大那个超级集群的规模。首先,和我们聊聊 X 及其野心,以及他们已经取得的成就。其次,我们已经进入拥有20万或30万台GPU的集群时代了吗?
黄仁勋:答案是肯定的。首先,(xAI)成就应该得到应有的认可,从概念的提出,到准备好让 Nvidia 的设备进入数据中心,再到我们启动电源、连接好所有设备,并进行首次训练。
仅仅是建立一个大型工厂、液冷系统、供电、获得许可,并在如此短的时间内完成。这是超人的成就,我认为,世界上只有一个人能够做到这一点。Elon 对工程、建设、大型系统和资源调配的理解是独一无二的。真的太不可思议了。
当然,他的工程团队也是非凡的。
软件团队很棒,网络团队很棒,基础设施团队也很棒。Elon 对此有着深刻的理解。从我们与他们的工程团队、网络团队、基础设施计算团队和软件团队开始规划,到所有的准备工作,再到基础设施、物流以及当天涌入的大量技术和设备,Nvidia 的基础设施、计算设备,所有这些技术到训练仅用了19天。
你知道吗?没人睡觉,全天候工作。当然,19天非常了不起,但也让我们稍微停下来想一想,19天有多长?也就几个星期。而如果你看到现场的技术数量,那真是令人难以置信。
所有的布线和网络连接,Nvidia 的设备网络与超大规模数据中心的网络非常不同。一个节点的背后全是电缆。只是把这座技术山整合起来并安装好所有的软件,简直令人惊叹。所以我认为 Elon 和 X 团队所做的事情非常了不起,我也非常感谢他对我们工程工作、规划工作的认可。但他们的成就是独一无二的,前所未有的。
为了更好地理解,10万个GPU就是目前地球上最快的超级计算机,这只是一个集群。你要建造一台这样的超级计算机,通常需要三年的规划时间,对吧?然后交付设备,花一年时间让它全部运行。是的,我们说的是19天。
Clark Tang:哇,这要归功于Nvidia的平台,对吧?整个流程已经非常完善了。
黄仁勋:没错,一切都已经准备就绪。当然,还有很多 X 算法、X 框架和 X 堆栈之类的东西,所以我们要做大量的集成工作。但规划的部分真的很了不起,所有的预规划都非常出色。
Brad Gerstner:万里挑一是对的。Elon 是一个万里挑一的存在。但是你一开始回答时就说,是的,20万到30万个GPU的集群已经出现了,对吧?那么这个规模会扩大到50万个吗?会扩大到100万个吗?你们的产品需求是否依赖于规模将扩大到数百万?
黄仁勋: 最后这个问题的答案是否定的。我的感觉是,分布式训练必须得可行,我认为分布式计算将会被发明出来,某种形式的联邦学习和异步分布式计算会被发现,我对此非常乐观。当然,值得注意的是,扩展法则以前只适用于预训练。现在我们已经进入了多模态,我们进入了合成数据生成,后训练已经大规模发展,合成数据生成、基于奖励系统的强化学习也随之增加,推理扩展现在也达到了前所未有的高度。
在模型给你答案之前,可能已经进行了1万次内部推理,这并不夸张。它可能已经进行了树搜索,可能进行了强化学习,可能进行了某些模拟,肯定也进行了大量反思,它可能查找了某些数据或信息,对吧?因此,这种情境可能相当庞大。
这种类型的智能就是我们所做的工作,不是吗?这就是我们做的事情,对吧?因此,考虑到这一扩展,如果你做了这些计算,并且结合每年模型规模和计算规模的4倍增长,而另一方面,需求还在继续增长。
我们是否认为需要数百万个GPU?毫无疑问,是的。这现在是一个确定的事实。
问题在于如何从数据中心的角度进行架构设计,而这很大程度上取决于数据中心是每次提供千兆瓦的电力,还是每次提供250兆瓦的电力。我的感觉是你会同时看到这两种情况。
Clark Tang:我认为分析师们总是关注当前的架构赌注。但我觉得这次对话的最大收获之一是,我们是在考虑整个生态系统,并且是在展望许多年后的未来。所以,Nvidia的扩展上升或扩展外展是为了适应未来,而不是仅仅依赖于一个拥有50万或100万个GPU集群的世界。到那时,分布式训练的软件已经被写好了。
黄仁勋: 没错,记得没有我们七年前开发的Megatron,这些大型训练作业的扩展就不会发生。所以我们发明了Megatron,发明了NCCL GPU direct,所有的工作都与我们的DMA(编者注:Direct Memory Access)有关,这使得流水线并行化变得轻而易举。所有的模型并行化工作现在都在进行,所有分布式训练的拆解和批处理都在发生,所有这些工作都是因为我们做了早期的工作,现在我们也在为未来的下一代做早期的工作。
谈 o1:今天,我的导师是AI
Brad Gerstner:那么我们来谈谈 Strawberry 和 o1。我想尊重你的时间。
黄仁勋:我有的是时间。
Brad Gerstner:你非常慷慨。
黄仁勋:我有的是时间。
Brad Gerstner:首先,我觉得他们用 o1 来命名这个项目真的很酷,这与 o1 签证(编者注:美国非移民签证,专门为具有特殊才能的人提供)有关,签证是为了招募世界上最优秀和最聪明的人,将他们带到美国。这是我们两人都非常关心的话题。因此,我喜欢这种构建能够思考并将我们带到下一层智能扩展的新模型的想法,它向那些通过移民来到美国的人致敬,是他们的集体智慧造就了今天的我们。
黄仁勋:向外星智慧致敬。
Brad Gerstner:当然,这个项目是由我们的朋友Noah Brown领导的。他曾在Pluribus和Cicero工作,后来加入了Meta。推理时间的推断作为一个全新的智能扩展向量有多重要?它是否与构建更大模型的方式完全不同?
黄仁勋:模型?这是个大问题。它是个大问题。很多智能是无法预先完成的,你知道吗?而且很多计算,即使是很多计算,也无法重新排序。我知道,乱序执行是可以预先完成的,你知道吗?所以很多事情只能在运行时完成。无论你是从计算机科学的角度看,还是从智能的角度看,很多事情都需要上下文。
情况、你想要的答案类型。有时候,快速的回答就足够了,取决于答案的后果,取决于答案的使用性质。所以,有些答案,可能需要一晚时间,有些答案需要一周时间。是吧?
我完全可以想象我把一个提示发给我的AI,告诉它,你知道吗,想一想吧,想一晚上,别马上告诉我,我希望你一整晚思考,明天回来告诉我你最好的答案,帮我推理一下。
所以,我认为智能的质量和分段现在,从产品的角度来看,会有一种一锤子买卖的版本。是的,然后有些可能需要五分钟。
Brad Gerstner:那个智能层会将这些问题引导到适合的模型,用于正确的用例。我是昨晚在使用先进的语音模型和o1预览版时,我在辅导我儿子的AP历史考试,就像拥有世界上最棒的AP历史老师坐在你旁边思考这些问题一样,真的是太不可思议了。
黄仁勋:今天,我的导师是AI。
Brad Gerstner:当然,他们现在就在这里,这又回到了这个问题,你们今天超过40%的收入来自推理。而推理正在因为推理链的出现而迅速增长,对吗?
黄仁勋:它即将增长一千亿倍。
Brad Gerstner:一千亿倍。
黄仁勋:是的。这部分大多数人还没有完全理解。我们谈论的那个行业,但这就是工业革命。
Brad Gerstner:这就是智能的生产。对吧?
黄仁勋:它将增长一千亿倍。
Brad Gerstner:每个人都过于专注于Nvidia,认为它仅仅是在做更大模型的训练。难道不应该是你们的收入——如果今天是50美元——未来将会有更多推理,而不是说训练永远重要,但推理的增长将比我们希望的训练增长要大得多。我们几乎无法想象别的方式。
黄仁勋:我们希望是对的。是的,去上学是好事,但目标是让你能在社会中更有生产力,所以训练这些模型是好事,但目标是推理。
Brad Gerstner:你们现在已经在使用推理链和像 o1 这样的工具来改善你们自己的业务了吗?
黄仁勋:我们今天的网络安全系统没有我们的Agents就无法运行。我们有Agents帮助设计芯片,没有它们,Hopper不可能存在,Blackwell 不可能存在,Ruben(下一代架构)连想都别想,根本不可能有数字化。我们有AI芯片设计师,AI软件工程师,AI验证工程师,我们在现场建立了这些,因为我们有能力,也更愿意使用它,利用这个机会自己探索技术。
英伟达的未来:5万名员工,1亿个AI
Brad Gerstner:今天走进大楼时,有人走过来对我说,知道你们的文化吗?一切都关乎文化,我看着这个公司,有很多关于健身、效率、扁平化的组织结构,可以快速执行的小团队。
你知道,Nvidia真的处于一个独特的地位,每名员工带来的收入为400万美元,每名员工对公司的净利润或自由现金流贡献约为200万美元。你们建立了一个高效的文化,真正释放了创造力、创新、所有权和责任感。你们打破了职能管理的模式。每个人都喜欢谈论你们所有的直接下属。是利用AI继续保持高创造力的事情吗,同时保持效率呢?
黄仁勋:毫无疑问,我希望有一天Nvidia有32000名员工,我们在以色列有4000个家庭。我希望他们能想念你们。我希望有一天,Nvidia会是一个拥有50000名员工的公司,配有1亿个AI助手。
在每个小组里,我们都会有一个AI目录,它们非常擅长做事情。我们的收件箱将充满我们与之合作的AI目录,这些AI非常擅长特定的技能。因此,AI将招募其他AI来解决问题。AI将与彼此、与人类一起在Slack频道(编者注:企业通信工具)中工作。所以我们将是一个庞大的团队,你可以说有些是数字的、有些是AI的、有些是生物的,我希望有些甚至是机电一体化的。 而且…
Brad Gerstner:我觉得从商业角度看,这是一件被极大误解的事情。你刚刚描述了一个公司,它的输出相当于拥有15万人,但你们做到了只有50000人。现在,你并没有说我要去掉所有员工,你们仍然在增长员工的数量,但这个组织的产出将比现在大得多。
黄仁勋:这常常被误解。AI不是,AI不会改变每一份工作。AI将对人们思考工作的方式产生巨大影响。让我们承认这一点,AI有可能带来巨大的好处,也有可能带来伤害,我们必须建立安全的AI,让这一点成为基础。好吧?被忽视的一部分是,当公司通过人工智能提高生产力时,它通常会转化为更好的收益、更好的增长,或者两者兼有。当发生这种情况时,下一封来自CEO的邮件很可能不是裁员通知。
Brad Gerstner:当然,因为你们在增长。
黄仁勋:是的,原因在于我们有更多的想法可以探索,但我们需要人们帮助我们思考这些问题,然后再自动化。所以,自动化部分AI可以帮助我们做,显然,它也会帮助我们思考,但它仍然需要我们去弄清楚,我想解决什么问题?有无数问题我们可以去解决。公司需要解决哪些问题?从中选出那些想法,找到方法来自动化和扩展。因此,结果是,当我们变得更加高效时,我们将雇佣更多的人。人们常常忘记这一点。如果你回顾过去,显然我们今天的想法比200年前要多。这就是为什么GDP增长的原因,虽然我们在疯狂地进行自动化。
Brad Gerstner:这是我们即将进入的时期的一个非常重要的点,几乎所有的人类生产力,几乎所有的人类繁荣,都是过去200年自动化技术的副产品。你可以看看,从亚当·斯密到熊彼特的创造性毁灭,你可以看到过去200年人均GDP的增长,它只是加速了,这引出了这个问题,如果你看看90年代,美国的生产力增长大约是每年2.5%到3%,然后到了2000年代,下降到了大约1.8%。而过去10年是生产力增长最慢的时期。也就是说,劳动和资本的总产出增长最慢,实际上创下了历史纪录。很多人都在争论这个原因。但是如果世界如你所描述的那样,我们将利用并制造智能,那是不是意味着我们即将迎来人类生产力的戏剧性扩展?
黄仁勋:这是我们的希望,当然,你知道,我们生活在这个世界中,所以我们有直接证据。我们有直接的证据,无论是作为一个孤立的案例,比如一个研究人员,能够利用AI以如此不可思议的规模探索科学,这是生产力的一个衡量标准,或者我们在设计芯片时,以如此高的速度构建的芯片复杂度和计算机复杂度不断上升,而公司员工数量并没有像生产力那样增长,正确吗?我们正在开发的软件越来越好,因为我们使用AI和超级计算机来帮助我们,而员工数量几乎是线性增长的。
好吧,另一个生产力的展示,无论是我可以进入,我可以在许多不同的行业中进行抽查。我自己可以进行验证。对,商业上就是这样。毫无疑问,智能是世界上最有价值的商品,而现在我们将大规模生产它。我们所有人都必须变得擅长于AI,如果你被这些AI包围,而它们做的事情非常出色,比你做得好得多,那么会发生什么呢?
反思这一点,这就是我的生活。我有60个直接下属。之所以他们在高管团队,是因为他们在自己擅长的领域世界级,比我做得好得多。我和他们互动毫无困难,且我也不难对他们进行提示工程,因为我不难编程他们。所以,我认为人们将会学到的是,每个人都会成为CEO,每个人都会是AI Agents 的CEO。他们的创造力、意志力和一些知识,以及如何进行推理、分解问题的能力,将使得你可以编程这些AI帮助你实现像我一样的目标。这就是经营公司。
AI不是闭源和开源的零和博弈,而是两者的结合
Brad Gerstner:你提到了这个对齐问题,安全AI,你提到了中东正在发生的悲剧。你知道,世界各地有很多AI正在被滥用。我们来谈谈AI的负面影响、安全AI、与官方的协调问题。
你今天的感觉如何?我们走在正确的道路上吗?我们有足够的协调吗?你知道,马克·扎克伯格曾说过,我们打败坏AI的方法就是让好的AI变得更好。你如何看待确保这对人类来说是积极的净收益,而不是让我们陷入一个没有目的的反乌托邦世界?
黄仁勋:关于安全的讨论非常重要,而且好的。抽象的看法,即将AI看作一个庞大的神经网络,这种看法不好。原因在于,我们知道人工智能和大语言模型是相关的,但并不相同。许多正在做的事情我认为是非常优秀的。首先,开源模型,这样整个研究者社区、各个行业和公司都可以参与AI并学习如何在他们的应用中利用这种能力。非常好。第二,致力于AI安全的技术数量也在增加。
AI用于整理数据、传递信息、训练AI。AI创建它,来使AI对齐,生成合成数据以扩展AI的知识,减少其幻觉,所有这些AI的创造,都是为了向AI提供保护的边界。AI之间互相监控,系统中的AI用于创建安全的AI,这是被低估的。
我们已经建立了这样的系统。
我们正在构建的所有这些东西,行业中每一个人都在进行方法论、红队测试、过程、模型卡、评估系统、基准测试系统,所有这些以惊人的速度进行建设,真的是被低估的。你们理解吗?
Brad Gerstner:没有政府规定你必须这样做。今天在这个领域中创建这些AI的参与者们,认真地协调着最佳实践,尊重这些关键问题。
黄仁勋:所以这是被低估和误解的。有人需要,也应该说每个人都需要开始讨论人工智能作为一种AI系统和工程化系统的系统,这些系统是经过良好设计的,从基本原理构建,经过充分测试等等。
监管。记住,人工智能是一项可以应用的能力,并且不...需要对重要技术进行监管,但也不要过度干预到某些监管应该进行的领域,大部分的监管应该在应用层面进行,比如FAA、NIH、FDA等等,对吧?所有现在已经对技术应用进行监管的不同生态系统,现在必须对融入AI的技术应用进行监管。我认为...不要误解,也不要忽视世界上那种需要为人工智能激活的、庞大的监管量,不要仅仅依赖于一个可能能够做这件事的普遍的银河级别的AI委员会,因为这些不同的监管机构之所以被创建,是有原因的。
这些不同的监管机构之所以被创建,是有原因的。再回到基本原理。
Brad Gerstner:如果我不提开源问题,我会被我的合作伙伴Bill Gurley批评。你们最近发布了一个非常重要、非常大的、非常有能力的开源模型,显然Meta也在开源方面做出了重要贡献。我发现当我读推特时,关于开源与闭源有很多讨论。你如何看待开源,尤其是你自己的开源模型在与前沿保持同步方面的能力?这是第一个问题。第二个问题是,拥有开源模型同时也有闭源模型,驱动商业运作,你认为这是未来的趋势吗?这两者是否能够创造出有益的安全张力?
黄仁勋:开源与闭源涉及安全,但不仅仅是关于安全。例如,完全没有问题的是拥有作为经济模型引擎的闭源模型,这对维持创新是必要的。我全力支持这一点。我认为封闭与开放之间的争论是错误的,它不应该是封闭或开放,应该是封闭和开放的结合。是的,因为开放对许多行业的激活是必要的。
如果没有开源,所有这些不同领域的科学怎么能够在人工智能上得到应用?因为他们必须开发自己的领域特定的AI,并且必须使用开源模型来创建领域特定的AI。这是相关的,但并不相同。仅仅拥有开源模型并不意味着你拥有人工智能。所以你必须拥有这些开源模型,才能启用AI的创建。金融服务、医疗保健、交通等行业,科学领域的所有工作都是由于开源的启用而得以实现。
Brad Gerstner:不可思议。你们的开源模型是否有大量需求?
黄仁勋:开源模型?首先是Llama下载量(就能说明),显然,是的。马克和他们所做的工作,令人难以置信,完全激活并参与了每一个行业,每一个科学领域。
我们之所以做Nemotron,是为了生成合成数据。直观地说,一个AI坐在那里不断循环生成数据来学习自己,这听起来很脆弱,你能在那个无限循环中绕多少次呢?那样的循环是有问题的。我的内心图像就像是把一个超级聪明的人放进一个房间,关上门待上一个月,出来的可能并不会更聪明。但是,假设你可以有两三个不同的AI,拥有不同的知识分布,大家可以互相QA。我们三个都能变得更聪明。因此,AI模型交换、互动、辩论、强化学习、合成数据生成等方面的想法,直觉上是合理的。
是的,所以我们的模型Nemotron 340B是世界上最好的奖励系统模型,它是最好的批判模型。好吧,有趣,嗯,所以,这是一个出色的模型,用来提升别人的模型,不管别人模型有多好,我建议使用Nemotron 340B来增强和改进它。我们已经看到LMA的效果,更好地让所有其他模型变得更好。
工作并不总是有趣,但始终充满热爱
Brad Gerstner:好了,我们快到结尾了。
黄仁勋:谢天谢地。(小编注:谢天谢地)
Brad Gerstner:作为2016年交付DGX-1的人,这真是一次非凡的旅程。你的旅程既不可能又非凡,感谢你一直都在。像我们在2016年交付了第一个DGX-1,我们在2022年经历了一个Cambrian(小编注:寒武纪,物种大爆发)时刻。我将问你一个我常被问到的问题,如何在有60名直接下属的情况下维持你今天所做的工作?你无所不在,推动着这场革命。你开心吗?有没有想做别的事情?
黄仁勋:这个问题关于过去一个半小时的讨论。答案是:很好,我度过了一段美好时光,真的是非常开心,我不能想象有比这更好的事情做了。让我看看,我不认为应该给人留下这样的印象,认为我们的工作一直很有趣。我的工作并不是总是有趣的,我也不期望它总是有趣。是不是每时每刻都应该有趣?我认为很重要的是,我不把自己看得太重,我非常认真地对待工作,对待我们的责任,对待我们的贡献和我们所处的时刻。
那总是有趣吗?不,但我总是热爱它。就像所有的事情一样,不管是家庭、朋友、孩子,是不是每时每刻都很有趣?不,但我们总是深深爱着它。所以,我认为...
我能做多久?真正的问题是我能保持多久的相关性?这个问题只能通过我如何继续学习来回答。我今天比以前更乐观。我今天这样说并不是因为我们今天的话题,而是因为人工智能。每天我都会使用它。我不确定你们是否也在使用,但我可以说,我每天都在使用它。
没有一项研究我不涉及人工智能,没有一个问题,即使我知道答案,我都会用人工智能再检查一下,令人惊讶的是,我接下来的两三次提问,居然会揭示我之前不知道的事情。你选择任何一个话题,我认为AI作为一个导师、AI作为一个助手、AI作为一个合作伙伴来进行头脑风暴、检查我的工作,哇,简直是革命性的。你知道,我是一个信息工作者,我的输出就是信息。所以,我认为所有对社会的贡献都是非凡的。如果是这样,如果我能保持相关性,并继续做出贡献,我知道这份工作足够重要,值得我继续追求。而且我的生活质量非常好。所以我会说...
Brad Gerstner:我无法想象,你和我已经做了几十年,我们不能错过这个时刻,这是我们职业生涯中最有意义的时刻,我们深深感激这段合作。
黄仁勋:不要错过未来十年。
Brad Gerstner:感谢你的思维分享,你让我们变得更聪明。谢谢,我认为你真的是那个领导团队中的重要一员,能够乐观、安全地推动这一切向前发展。
黄仁勋:感谢大家陪伴,真的很开心,感谢Brad,谢谢Clark。
Brad Gerstner:提醒大家,这只是我们的个人观点,不构成投资建议。