构建大模型，GPU是唯一生命线？未必原创

51CTO技术栈

发布于 2024-9-29 12:55

浏览

0收藏

嘉宾丨杨龚轶凡、蔡哲文

撰稿丨张洁

出品 | 51CTO技术栈（微信号：blog51cto）

OpenAI 前首席科学家伊利亚曾公开表示：“GPU 就是新时代的比特币。”

大模型一朝起飞，算力需求激增。作为AI淘金热里“卖铲子的人”，英伟达也因此成为了这轮技术变革里的最大赢家。随着AI军备竞赛的升级，即使GPU价格一路看涨，市面上也常常“一卡难求”。

一方面，GPU产能吃紧，实在无法跟上需求；另一方面，若是算力供给受制于人，那就等于将领先窗口期拱手让人。在这一背景下，众多厂商要么自研芯片，要么寻找替代方案，在GPU之外寻找新的算力解决之道。

那么，面对“一卡难求”的困境，到底如何破局？苹果放弃GPU选择TPU的背后有何玄机？国产芯片创业企业如何在巨头垄断的赛道上实现突围？

本期“AIGC实战派”邀请中昊芯英创始人&CEO杨龚轶凡，以及赛智伯乐投资合伙人蔡哲文就上述议题进行了探讨。

1.GPU不会是整个AI大模型的终点

放眼当前的AI芯片市场，英伟达可以说一枝独秀。而英伟达之所以能占据如今的生态位，在蔡哲文看来，可以说“三分天注定，七分靠打拼”。

他谈到，英伟达的成功首先得益于它抓住了AI技术发展的大趋势。正所谓“时势造英雄”，随着大模型崛起，生成式AI遍地开花，算力需求激增，恰好市场上又缺乏专门针对这一领域的芯片，英伟达的GPU成为了一个自然的、合适的选择，从而占据了市场的先机。

更重要的是，英伟达在发展过程中坚持不懈地做出了种种努力。“在2006年左右，英伟达推出了CUDA系统，最初其实面临非常大的内部阻力，毕竟它不是一个能赚钱的东西，但最终英伟达坚持了下来，坚持推广这一系统，让大家接受并认可以此为中心构建的生态，从而自然而然地去用它的芯片。”最终英伟达成功地培养了用户习惯，建立了品牌忠诚度，也为它的产品创造了持续的需求。

那么英伟达是否会继续这样一骑绝尘下去呢？未必。

“从产品和技术角度上来说，我们不认为英伟达的GPU会是整个AI大模型的终点。”杨龚轶凡给出了这样的判断。

这位在人生的关键节点选择了回国创业的年轻创始人直接指出：“因为这个市场过于大了，所以会让大家对市场上的很多现象产生‘误解’。为什么如今英伟达GPU可以形成‘垄断’？因为还没有专业的芯片出来，专业芯片还在设计、量产的路上，但此时整个行业应用爆发了。”

人类历史上，半导体的整个发展历程总是以十年为一个周期发生重大变革。每一次变革都是因为现有应用的需求超过了现有工具的能力，当这个临界点到来，自然会催生新的技术和产品。

杨龚轶凡表示：当前AI的爆发正处于这样一个节点，虽然初期各种应用可以利用现有芯片满足需求，但随着应用的深化和市场扩展，专业AI芯片的出现将不可避免地改变市场格局。

“（未来）GPU可能只占据10%到20%的市场，剩下80%的市场都是由新型的AI芯片去占据。我们希望TPU会成为80%的市场份额里面的主力军。这是我们的愿景，也是我们为什么在国内成立中昊芯英的原因。”

2.挑战英伟达：寻找破局的可能

当然也有人说，英伟达的显卡未必是最适合的AI训练工具，但它的CUDA生态，全球仅此一家。

由于CUDA的普及，大量的开发者和研究人员开始基于CUDA开发应用，形成了庞大的用户基础和应用生态。这种广泛的应用基础为英伟达GPU创造了强大的生态壁垒，使得其他竞争对手难以企及。但是随着技术的发展和市场需求的变化，CUDA的局限性也逐渐暴露，一些初创公司和团队正在尝试摆脱CUDA，寻求开发更高效、更适应特定需求的解决方案。

杨龚轶凡认为，任何行业包括人工智能行业在内，一般都可以分成两个阶段：在研发阶段，迭代速度是关键，因此开发者倾向于使用更熟悉的工具，这些工具的性价比是否是最优的反而不是主要考量因素；在产品化和商业运营阶段，尤其是大规模部署往往导致成本的敏感性增加，此时性价比往往会成为关键要素。这也是为什么 CUDA 生态虽然成熟，但到了产业化阶段，就会显现出其在性价比方面的劣势。

“因为所有通用的东西，它都是以损失绝对性能作为代价的。”杨龚轶凡强调，CUDA作为一个通用的软件栈，虽然提供了广泛的支持，但这种通用性是以牺牲一定性能为代价的。在特定应用场景下，这种性能损耗可能导致性价比不高，进而促使行业去寻求更定制化、更优化的软件栈。

另外值得关注的一点是，英伟达不仅是GPU制造商，也是大模型的重要构建者。遗憾的是，尽管英伟达在大模型领域投入巨大，但其GPU架构和CUDA软件栈可能无法满足未来技术演进对计算性能、成本效益和网络互联的更高要求。

杨龚轶凡指出，对于一个科技公司尤其是芯片公司而言，“它没有任何可能性更改自己的核心构架，完全去革自己的命”。因为这涉及到从零开始重新设计和开发，这是一个漫长且复杂的过程，相应的，建构在此之上的软件栈同样也要从头开始。换言之，无论是芯片还是软件栈，后续迭代都是基于前一代产品的实验结果和真实场景。

某种程度上，“GPU最大的优势可能就是CUDA，但它的最大的劣势也是CUDA”。

“因为CUDA软件栈限制了它。如果将来我决定不再使用GPU，转而采用TPU、LPU等其他更适合执行深度学习任务的硬件架构，这种惯性依赖就会变成它的限制条件。尽管GPU可以通过优化提高性能，但它存在一个理论上的天花板。相比之下，专门为AI设计的芯片如TPU，其性能上限可能远高于GPU。随着大模型的应用落地规模化产业化，更有效的AI芯片如TPU可能就会迎来爆发，因为它们能提供更高的性能和更低的成本。”

蔡哲文对此也表达了认同。在他看来，终有一天 GPU也会变得不那么合时宜，正如当年GPU取代了CPU在图形处理方面的功能一样，现在出现了专门为AI设计的芯片，这些专用芯片在处理AI任务时比GPU更加高效。只要未来整个 AI 应用的场景持续不断迭代，整个市场变得足够大，专用芯片逐渐取代GPU在AI领域的主导地位也是一个必然的趋势。

此外，蔡哲文还提到一点：GPU虽然在并行处理方面表现出色，但其能耗相对较高。随着对能效比要求的提升，高能耗可能会成为GPU在AI领域的一个劣势，尤其是在大规模计算任务中。不同地区在电力供应和新能源技术方面的差异可能会影响AI硬件的选择。如果GPU的高能耗成为限制因素，而专用AI芯片能提供更低的能耗和更高的性能，它们可能会成为更受欢迎的选择。

3.TPU 启示录：谷歌往事 & 苹果的选择

随着历史的车轮滚滚向前，GPU 可能不再有今日的地位，但是当下GPU 依旧主导了当前这个 AI 时代的硬件供应，而就在这样强势的包围下，谷歌 TPU 依旧穿越了重重考验，在时间的历练中成长为一个真正富有竞争力的对手。

2016年5月，谷歌在I/O大会上首次公布了TPU，并且称这款芯片已经在谷歌数据中心使用了一年之久，李世石大战 AlphaGo 时，谷歌直接将 TPU 称之为 AlphaGo 击败李世石的“秘密武器”。那么在已有 GPU 的前提下，谷歌为何执意要开发TPU呢？

杨龚轶凡提到，谷歌开发TPU的过程实际是一个“无心插柳柳成荫”的故事。TPU的产生并非谷歌高层直接规划的结果，而是内部团队自发探索、逐步验证、进而抓住时代契机实现商业化的过程。

最初，它诞生于一个内部创业项目。因为谷歌内部的创业环境允许团队进行自主探索和创新，TPU正是这种机制下的产物。不过鉴于软件项目的增长潜力、变现速度远大于硬件，所以 TPU 本身价值是不符合创始人愿景的，它需要验证其在特定领域的发展潜力。

于是， TPU 流转于谷歌内部不同部门之间，在不同的应用场景下接受考验。幸运的是，通过不断地试用和迭代，TPU逐渐展现出其在模型训练和推理中的效率和成本优势。特别是在谷歌广告部门使用后，推荐系统的精准度有所提升，这直接关联到营收增长，证明了TPU的商业价值。

这也为谷歌继续投入资源进行TPU的研发和迭代提供了动力。最终，随着AI技术的发展和大模型的崛起，TPU成为了谷歌在AI领域的一个重要竞争力。

不过在很长一段时间内，TPU 还是在 GPU 的暗影下低调发展。直到最近，苹果公布Apple Intelligence的细节，才再次让 TPU 走到台前，接受聚光灯的洗礼。根据相关论文的披露，苹果并没有采用常见的英伟达 H100 等 GPU，而是选了谷歌的 TPU，训练 Apple Intelligence 的基础模型，一时引起了诸多讨论。

对此，杨龚轶凡表示，起初TPU是谷歌自家使用的技术，并未开放供外部使用，但其开源文化昭示着它终会将TPU集群作为云服务的一部分对外开放，以推动整个行业的发展。而苹果是除了谷歌之外第一个使用 TPU 进行大模型训练的大型玩家。

“从技术角度来说的话，它主要的商业驱动力还是性价比。”杨龚轶凡介绍，TPU在相同制程、工艺和能耗条件下，由于其架构的特殊性，在深度学习和大模型领域具有更高的芯片利用率，通常可以实现3到5倍的性能提升，且在相同算力下成本可降低50%。而在商业化应用中，成本节约变得至关重要，这时TPU的高性价比就成为了关键优势。因此随着行业发展，像TPU这样的专用芯片很可能会成为主流算力平台。

蔡哲文则从行业角度对苹果的这一选择进行了分析。在他看来苹果转向TPU主要有四个原因：

一是市场驱动，随着人工智能的发展，市场需要性价比更高且易于复制的技术；二是技术演进，最初人工智能缺乏专用芯片，GPU作为一种权宜之计被广泛应用。但现在随着需求激增，需要更具成本效益的芯片。三是市场竞争规律，英伟达目前占据主导地位，但这也激发了竞争对手开发针对AI优化的新芯片来挑战其地位。尤其对于中小型新兴企业而言，涉足TPU领域是个好机会；四是天然匹配度，TPU源自谷歌，在与谷歌的大模型框架的兼容性和商业匹配上具有天然优势。总体来说，苹果的选择既是偶然也是必然。

本文转载自51CTO技术栈，作者：张洁

标签

大模型

GPU

TPU

51CTO

51CTO博客

51CTO学堂

构建大模型，GPU是唯一生命线？未必原创

1.GPU不会是整个AI大模型的终点

2.挑战英伟达：寻找破局的可能

3.TPU 启示录：谷歌往事 & 苹果的选择

目录

51CTO

51CTO博客

51CTO学堂

构建大模型，GPU是唯一生命线？未必 原创

1.GPU不会是整个AI大模型的终点

2.挑战英伟达：寻找破局的可能

3.TPU 启示录：谷歌往事 & 苹果的选择

目录

构建大模型，GPU是唯一生命线？未必原创