00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍！-51CTO.COM

有史以来最快的Transformer芯片，刚刚诞生了？

去年21岁哈佛辍学华裔小哥的神级创业故事，进化到了新的阶段。

这一次，号称专为LLM推理加速打造的Sohu芯片，已经成超越Groq，成为最强AI芯片。

如今的Sohu，在跑Llama 70B时每秒可生成高达500000个token的输出。

换句话说就是：1张Sohu≈20张H100≈10张B200。

图片

在去年12月，Etced就曾火过一阵，当时两位哈佛辍学小哥的2人公司，估值已经高达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍，单价吞吐量更是高达140倍。

而就在刚刚，Etced又宣布了炸裂的新消息：已筹到1.2亿美元。

图片

就在上周，英伟达的市值达到3.3万亿美元，超过微软成为全球第一。而Etched相信，自己的35人团队能够击败英伟达。

他们的豪放预言，得到了硅谷真金白银的支持。投资名单中，是一众豪华的机构和硅谷大佬，包括Peter Thiel。

Primary Venture Partners和Positive Sum Ventures领投了这轮融资，机构投资者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。

天使投资者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。

Etched创始人之一Gavin Uberti表示，「我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片，但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部...」

图片

Pika研究人员表示，每秒50万token简直太疯狂了。你可以在2秒内写出「圣经」，或者一年内生成15万亿token。

图片

Sohu大约每秒能输出21个人一天说的话，简直太不真实了。

图片

Thiel Fellowship的主任Alex Handy，对几位年轻人表示了高度的赞许：「投资Etched是对 AI 价值的战略性押注。他们的芯片解决了竞争对手不敢面对的可扩展性问题，挑战了同行中普遍存在的停滞状态。」

在他看来，正是因为几位小哥做了底层的工作，硅谷的程序员们才能继续安心编程，不必担心正在开发技术的底层出问题。

图片

两年前开始的豪赌

这个传奇的故事，始于两年前。

2022年，几位创始人就打赌：Transformer将占领世界。

图片

为此，他们花了两年时间打造Sohu，这是世界上第一个用于Transformer的专用芯片（ASIC）。

图片

将Transformer架构烧录到Sohu芯片后，它无法运行大多数的传统AI模型：比如DLRMs、AlphaFold 2，或Stable Diffusion 2；也无法运行CNNs、RNNs或LSTMs。

但对于Transformer来说，Sohu确实是有史以来最快的芯片。但它还可以更快。

对于Llama 70B，Sohu的吞吐量每秒超过了50万个token，因此它可以构建在GPU上根本不可能实现的产品。

而且，它甚至比英伟达的下一代Blackwell（B200）更快、更便宜！

如今最先进的AI模型，无一不是基于Transformer的，比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。

如果Transformer被SSM、RWKV或任何新架构取代，那Sohu将毫无用处。

但是，创始人小哥表示，如果他们押对了，Sohu将彻底改变世界！

这，就是一场豪赌。

Scale是「超级智能」所需的全部？

五年内，AI模型在大多数标准化测试中，超越了人类。

这是怎么做到的？

因为Meta用于训练Llama 400B（2024年SOTA模型）的计算量，比OpenAI训练GPT-2（2019年SOTA模型）多5万倍。

OpenAI用Scaling Law预测了GPT-4性能，并预计GPT-5+同样适用

奥特曼曾说过，「扩展参数规模确实非常重要。当我们在太阳周围建造了一个戴森球（Dyson Sphere）之后，我们才可以考虑讨论是否应该停止这么做，但在那之前不应该停下来」。

也就是说，通过向LLM提供更多的算力和更好的数据，才使得AI变得更加智能。

不得不承认，参数规模扩展（Scale）将会是几十年来唯一持续有效的方法。

每个大型AI公司（谷歌、OpenAI/微软、Anthropic/亚马逊等）都在未来几年投入超1000亿美元来继续扩大LLM规模。

然而，再扩展1000倍必定是昂贵的，形象地解释，下一代数据中心的成本将超过一个小国的GDP。

按照目前的发展速度，我们的硬件、成本、财力根本无法跟得上。

GPU撞墙了

圣克拉拉，英伟达总部所在地，不愿意让人知道的小秘密是——

GPU性能其实没有变得更好，只是变得更大了。

过去四年里，芯片单位面积的计算能力（每平方毫米的TFLOPS）几乎没有提升。

就比如，英伟达的B200、AMD的MI300、英特尔的Gaudi 3，以及亚马逊的Trainium2都将2个芯片集成到一张卡上，以使其性能翻倍。

如下曲线图中，也可以看出，从2022年-2025年，AI芯片并没有真正变得更好只是变得更大了。

在过去四年中，计算密度（TFLOPS/mm^2）仅提高了约15%。

图片

而现在，随着摩尔定律的放缓，提高芯片性能的唯一途径，便是让其走向「专用」化。

专用芯片，势在必行

在Transformer占领世界之前，许多公司构建了灵活的AI芯片和GPU来处理数百种不同的机器学习架构。

举几个例子：

图片

却从来没有人制造，针对特定算法的AI芯片（ASIC）。

因为，全新的芯片项目需要花费5000万-1亿美元，甚至要用许多年的时间才能投入生产。

当Etched开始着手这一项目时，根本就不存在这样的市场。

突然间，这种情况一下子发生了转变。

ChatGPT出现之前，Transformer的推理市场规模大约是5000万美元。

而现在，已经达到数十亿美元。所有的科技巨头，初创公司都在使用Transformer模型。

大模型架构，都在走向融合趋同。自从GPT-2诞生以来，最先进的模型架构几乎保持一致！

OpenAI GPT系列、谷歌PaLM、Meta Llama，甚至特斯拉的全自动驾驶系统，都采用了Transformer架构。

当模型的训练成本超过10亿美元，推理成本超过100亿美元时，专用芯片的出现是必然的。

在这种巨大参数规模之下，即使只有1%的性能提升，也足以证明5000万-1亿美元的定制芯片项目是值得的。

实际上，ASIC的速度要比GPU快很多个数量级。

Transformer拥有巨大的护城河

Etched.ai的几位创始人表示，他们相信硬件彩票——能在硬件上运行得最快、最便宜的模型，就是获胜的那一个。

而Transformer拥有巨大的护城河，足以在替代方案成熟之前主导各大AI计算市场。

理由如下——

1. Transformer正在为每一个大型AI产品提供支持，无论是Agent、搜索还是聊天。

为了优化GPU去适应Transformer，AI实验室已经在研发上投入了数亿美元。

无论是当前还是下一代SOTA模型，都是基于Transformer的。

2. 随着未来几年模型训练的规模从10亿美元扩大到100亿美元，再到1000亿美元，测试新架构的风险也急剧上升。

与其重新测试Scalling law和性能，不如把时间花在基于Transformer的功能开发上，比如多token预测。

3. 当前的软件栈，已为Transformer进行了优化。每个流行的库（TensorRT-LLM、vLLM、Huggingface TGI等），都有在GPU上运行Transformer模型的专用内核。

许多建立在Transformer之上的功能，比如推测解码、树搜索等，在替代方案中都很难得到支持。

图片

Sohu可以通过树搜索更好地编码，能够并行比较数百个响应

4. 未来的硬件栈，也将为Transformer进行优化。比如英伟达的GB200，对Transformer Engine就有特殊的支持。

随着像Sohu这样的ASIC进入市场，将会带来一种不可逆的趋势。

也就是说，作为「Transformer Killer」的模型需要在GPU上，运行得比Sohu上的Transformer更快。

而但凡出现这种情况，创始人表示，他们也会为此构建一款全新的ASIC！

图片

Sohu支持多重推测解码，可以实时生成新内容

Sohu来了！

Sohu是世界上第一个Transformer ASIC。

通过专门化，Sohu获得了前所未有的性能。一台8xSohu服务器每秒可以处理超过50万个Llama 70B token，等效于160块H100 GPU。

Sohu仅支持Transformer推理，并支持当今所有的模型（Google、Meta、Microsoft、OpenAI、Anthropic等），以及处理未来模型的调整。

无论是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、还是Stability AI的Stable Diffusion 3等等，都可以。

由于Sohu只能运行一种算法，因此绝大多数的控制流逻辑可以被移除，从而允许其拥有更多的数学模块。

结果就是，Sohu的FLOPS利用率高达90%以上；相比之下，使用TRT-LLM的GPU仅为为30%左右。

如何实现比GPU更多的FLOPS？

目前最先进的算力——英伟达H200，在没有稀疏处理的情况下具有989 TFLOPS的FP16/BF16算力。（超过了Google的新Trillium芯片之一）

而2025年推出的GB200，将会在算力上增加25%（每个芯片1250 TFLOPS）。

由于GPU的大部分面积都用于可编程性，因此专注于Transformer可以容纳更多的算力。

从基本原理上来看，这一点可以很容易被证明：

制造一个FP16/BF16/FP8乘法加法电路（所有矩阵数学的基础构件）需要10,000个晶体管。H100 SXM有528个张量核心，每个核心有4×8×16个FMA电路。通过计算可以得到，H100有27亿个晶体管专用于张量核心。

实际上，H100拥有800亿个晶体管！这意味着在H100 GPU上的晶体管中，仅有3.3%用于矩阵乘法！

但问题是，如果想要为各种模型（CNN、LSTM、SSM等）都提供支持，就不得不采取这样的设计。

这时，如果选择只运行Transformer，就可以在芯片上容纳更多的FLOPS，且无需依赖更低的精度或稀疏处理。

推理的瓶颈是内存带宽，而非计算？

事实上，对于像Llama-3这样的现代模型，并非如此！

使用英伟达和AMD的标准基准测试——2048个输入token和128个输出token，大多数AI产品的输入都要比输出长得多（即使是新的Claude聊天，系统提示也有1000多个token）。

在GPU和Sohu上，推理是以批次运行的。每个批次都会加载一次所有的模型权重，并在批次中的每个token上重复使用它们。

通常，LLM的输入是计算密集的，而LLM的输出是内存密集的。所以，当我们将输入和输出token与连续批处理结合时，工作负载就会变得非常「计算密集」。

下图的示例中，就展示了连续批处理LLM的过程。

这个过程中，会运行带有四个输入token和四个输出token的序列；每种颜色代表一个不同的序列。

图片

同样的技巧，就可以扩展到2048个输入token和128个输出token的Llama-3-70B上。

要让每个batch，都包含一个序列的2048个输入token，和127个不同序列的127个输出token。

如果这样做的话，每个batch将需要大约（2048+127）×70B参数×每个参数2字节=304 TFLOPs，同时只需要加载70B参数×每个参数2字节=140 GB的模型权重，以及大约127× 64×8×128×（2048+127）×2×2=72GB的KV缓存权重。

这需要的计算，就远超过内存带宽的需求，因为一个H200需要6.8PFLOPS的计算能力，才能最大化其内存带宽。

而且，这是在100%利用率的情况下——如果利用率是30%，需要的计算能力还要多出3倍。

由于Sohu有极高的计算能力和高利用率，我们就可以在不受内存带宽限制的情况下，运行巨大的吞吐量。

注：在现实世界中，batch通常更大，输入长度各不相同，并且请求会以泊松分布到达。在这种情况下，Sohu的效果会更好。在这里之所以使用2048/128基准作为例子，是因为英伟达和AMD都在使用。

只需编写Transformer软件即可

无论在GPU和还是TPU上，软件都是一场噩梦。

处理任意的CUDA和PyTorch代码，需要的编译器极其复杂。

为此，AMD、英特尔、AWS这些第三方AI芯片，都在软件上投入了数十亿，但效果依然不佳。

这里，Sohu的好处就体现出来了——因为它只运行Transformer模型，所以我们只需要为Transformer模型编写软件！

大多数运行开源或内部模型的公司，都会使用特定的Transformer推理库，如TensorRT-LLM、vLLM或HuggingFace的TGI。

这些框架往往很死板，虽然我们可以调节模型的超参数，但并不支持更改底层的模型代码。

但是，没有关系！所有的Transformer模型都非常相似（即使是文本、图像、视频模型），调节超参数就足够了。

这样，就足以支持95%的AI公司了，不过，最大的AI实验室，仍然会进行定制化开发。

工程师团队会手动调优GPU内核，以挤出更多的利用率，并进行逆向工程，比如哪些寄存器对每个张量核心的延迟最低。

而创始人声称，有了Etched，我们就不再需要逆向工程了！

从驱动程序到内核再到服务框架，Etched的所有软件都会是开源的。

如果我们想实现一个自定义的Transformer层，内核专家完全可以自由地去做。

Etched已经破纪录，将成历史第一

现在看起来，Etced的决定很疯狂。

但更疯狂的是，他们是在2022年做出这项决定的——那时ChatGPT甚至还不存在！

当时，图像和视频生成模型还是U-Net模型，自动驾驶汽车是由卷积神经网络（CNNs）驱动的，Transformer架构还远未普及。

而现在，形势显然对他们非常有利。如今从语言到视觉，每个领域的顶尖模型都是Transformer。

这种趋同验证了Etced的前瞻性，更使Sohu成为十年来最重要的硬件项目。

种种迹象表明，公司正走在史上最快芯片发布的进程中——

- 顶尖的AI研究人员和硬件工程师纷纷离职原团队，加入Etced；

- Etced会直接和台积电合作开发4nm工艺，并且获得了足够的HBM和服务器，第一年的产量可以快速提升；

- Etced的早期客户，已经预订了数千万美元的硬件

「如果我们是对的，Sohu将改变世界」

如果AI模型在一夜之间，速度飙升20倍，且成本降低20倍，会发生什么？

目前，Gemini需要60多秒才能回答一个与视频相关的问题。

编码智能体的成本，比软件工程师更高，而且需要数小时才能完成任务。

视频模型每秒只能生成一帧，甚至ChatGPT注册用户达到1000万时（仅占全球用户的0.15%），就耗尽了OpenAI的GPU容量。

即便是持续以每两年2.5倍的速度增加GPU的容量，也得需要10年时间，才能实现「实时」视频生成。

而现在有了Sohu，这一切将瞬时完成。

网友表示，「AI的未来是定制硬件，实时视频模型即将现世」！

图片

如果当实时视频、通话、AI智能体和搜索功能终于能够顺畅运行时，会发生什么呢？

很快，你就能知道了。

三位哈佛辍学生，挑战AI芯片霸主英伟达

成立于2022年，这家35人团队的初创公司Etched，坚信一定能够击败英伟达。

到底是什么样的背景，能让三位哈佛辍学生，敢于挑战芯片行业目前最炙手可热的赛道呢？

图片

Robert Wachen、Gavin Uberti、Chris Zhu

创始人兼CEO Gavin Uberti自2020入学哈佛攻读数学专业，随后在2022年攻读硕士学位，专业是计算机。

不过，这两段上学经历，都以辍学告终。

图片

在创办Etched之前，Gavin Uberti曾在另外两家公司分别有过一段全职和简直经历，担任了算法和后端工程师，以及软件工程师。

图片

在进入大学之前，他参与了美国最著名的青少年科技创新大赛FIRST Tech Challenge，团队获得了Top 10奖项。团队开发的自动驾驶软件排在600个参赛团队第二名。

他还曾在2019年，拿过美式数学竞赛的冠军。

图片

另一位创始人Chris Zhu，也是在哈佛就读时就在校外疯狂实习，甚至还没有从哈佛毕业，就已经成为兼职教员。

图片

他个人的工作经历更为丰富些，不仅在高校MIT担任研究员、哈佛兼职教学研究员，还曾在亚马逊等公司做过实习。

图片

最后一位联创兼COO Robert Wachen是一个多领域的创业者，曾创办了4家公司。

图片

接下来，就看看他们会如何去缔造一个新的硅谷神话。

参考资料：https://www.etched.com/announcing-etched