PyTorch灵魂人物出走，被Ilya奥特曼抢破头！放弃大厂offer，却选择了ChatGPT之母-51CTO.COM

PyTorch大牛Horace He突然官宣，加盟Thinking Machines。

「在Meta，离职时发布一张工牌照片是一种传统。遗憾的是，我找不到我的正式工牌了，所以只能用临时工牌代替」

毕业后，在Meta的PyTorch工作4年后，Horace He终于决定换一种职业，探索一些新的事物。

在最新博客文章中，他解释了关于离职PyTorch，以及加盟TM的两大原因：

为什么在PyTorch待了4年？
为什么Thinking Machines对其如此有吸引力？

全文链接：https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to

前OpenAI CTO，Thinking Machines创始人Mira Murati第一时间发文，很激动能够一起共事。

斯坦福AI实验室教授表示，「Horace He的离职对Meta来说，是一个巨大的损失」。

PyTorch之父Soumith Chintala更是给予了高度评价：

你对PyTorch的贡献，以及间接对AI世界的影响，将永远被低估，甚至可能在几年后就被抹去（就像历史记录常常会发生的那样）。

所以，我想郑重地说：这对PyTorch项目来说是一个巨大的损失。如果没有你，PyTorch过渡到编译模式，以及在生成式AI浪潮中保持竞争力将会难上无数倍。

那么，如此厉害的大牛，为何离职加盟Thinking Machines？

OpenAI、SSI硅谷大厂为他争破头

坦白说，这件事不太好开口。

在PyTorch工作了大约4年后，我决定离开PyTorch，加入Thinking Machines担任创始团队工程师。

这里，我想特别强调的是「加入Thinking Machines担任创始团队工程师」，而不是「离开PyTorch」。因为我一直（并将继续）很享受在PyTorch的工作，并且我也很乐意再待上4年。

在过去几年里，有几次当我跟人聊天时，对方都对我仍在PyTorch工作表示惊讶。

这不是要自夸，但这也绝对不是因为缺少机会——我曾收到OpenAI、Anthropic的职位邀请，也被xAI、SSI、Adept、Inflection等公司招募为创始工程师，还拿到许多其他你可能熟知的初创公司的职位邀请。

现在回头看，这些机会中的许多本可能带来更丰厚的报酬，但我从未后悔留在PyTorch。

接下来，我想分享为什么我享受在PyTorch工作的这4年，以及是什么促使我决定加入Thinking Machines。

PyTorch这四年，很享受

与PyTorch的缘分

我觉得，称自己为AI的「忠实信徒」，应该很恰当。

自从高中时看到AlphaGo比赛，并读了WaitButWhy关于AI的文章（虽然十年后再看未必经得起推敲），我就坚信AI将是我一生中最重要的技术。

相应地，从2016年进入大学起，我所做的大部分事情都与AI相关。

选修机器学习课程、创建一个本科生机器学习研究社团、发表论文，甚至连女朋友（现在已经是未婚妻）也是在一起做机器学习研究时认识的。

然而，单纯做机器学习研究，有几点让我感到不尽如人意。

首先，虽然我发表了论文等成果，但即使在当时，我也不太确定我所做的研究是否真的「有意义」。

研究中一个令人沮丧的现实是，回顾历史，99%的论文最终都不会成为真正推动AI进步「主流发展方向」上的一部分。

从悲观角度看，任何花时间研究n-gram模型的博士基本上都是在浪费时间——他们的论文和论著最终都被历史所遗忘。

虽然即使不在主流方向上的论文仍然可能有价值（比如展示现有方法的局限性，为新方法提供可超越的基准），但这个疑虑一直萦绕在我心头。

其次，我从未能很好地适应机器学习中那种「实验驱动」的工作模式——我的工作风格比较不规律，时而深度思考，时而集中编码。

而成为一名优秀的机器学习实验者需要极强的自律性——这是一个不断循环的过程：提出假设=>运行实验=>获取上一个实验的结果=>提出新的假设，通常还要同时管理多个实验阶段。

在机器学习研究中，你面临着物理资源限制（GPU），要成为一个好的研究者，你必须学会充分利用GPU资源进行实验。

总的来说，我最终更倾向于「系统」领域。这不仅是一个我认为能发挥自己优势的方向，我也一直很欣赏系统工作的影响力。

与其直接产生影响，不如通过提升成千上万甚至数百万人5%的工作效率来间接创造更大的价值！

就这样，我找到了自己的职业定位——不是直接投身于推动机器学习技术的发展，而是专注于构建基础架构，帮助其他人加速机器学习领域的创新。

当然，中间经历了不少波折，但这就是我最终与PyTorch结缘的故事。

PyTorch对行业的影响力

随着这个领域（还有资金）在过去10年的爆炸式增长，我觉得人们很容易忽略PyTorch究竟产生了多么深远的影响。

或许追踪这个领域资金流向最直观的指标就是英伟达的股价了，它主要受服务器GPU销售增长的推动。

我认为可以合理推测，至少75%的这些GPU都在运行某种形式的PyTorch代码。

这简直令人难以置信。英伟达增长了约3万亿美元的市值，而PyTorch在这一成就中功不可没。

不仅如此，在整个机器学习社区中，PyTorch依然是大家的「通用语言」。

Papers With Code追踪的研究论文中有59%使用PyTorch（另有29%不使用任何机器学习框架），Huggingface平台上绝大多数模型（超过90%？）都构建在PyTorch之上，最受欢迎的推理服务器如vllm和sglang也都是基于PyTorch开发的。

即使在顶尖AI实验室中，几乎所有使用GPU的公司都在用PyTorch。OpenAI、Mistral、Deepseek和Meta主要使用PyTorch（和GPU）。Anthropic也主要在GPU上使用PyTorch，而xAI（虽然在GPU训练上使用Jax）也通过sglang使用PyTorch进行推理！

在高中时期，我最担心的事情之一就是自己会花上10年时间投入某个项目，最后却发现我浪费了大好时光去完善一个无人问津的东西。

而在PyTorch工作的最大幸运之一，就是我确信自己绝对没有做这样的无用功。

PyTorch对我的影响

我的整个职业生涯（到目前为止）都在PyTorch度过，所以，除了PyTorch的整体影响外，我想聊聊为什么我如此享受这里的日常工作。

· 目标共识

创业公司最棒的事情之一是「目标共识」。因为你的大部分薪酬都与股票升值挂钩，所以「我的同事大获成功」和「我们所有人都大获成功」其实是一回事。

而在大型科技公司，人们的薪酬主要与个人绩效评分（和晋升）挂钩。因此，如果你开始研究一种方法，而其他人提出了一种不同的、非常成功的方法（并取代了你的方法），你的绩效评分很可能会下滑，晋升机会也会随之渺茫。

然而在PyTorch，项目中的许多人都有着共同的使命感 ——他们真心在乎PyTorch的整体成功及其对机器学习生态系统的影响。

我当然不会说团队中100%的人都是如此，但已经足够多（尤其是在资深人士中），这让工作体验变得更加愉快。

· 真正致力于开源

Soumith（和其他领导层）在PyTorch营造重视开源的文化氛围方面做得非常出色。

还有许多其他恰好是开源的项目，但你通常只能通过优先考虑内部项目来获得晋升和影响力。

在PyTorch不是这样，我可以说我在这里的全部时间主要专注于开源影响力，而且我在评级和晋升方面都很成功。（当然，也有其他主要关注内部影响的同事同样非常成功）。

在其他方面，重视开源也会让整个项目更加健康。

· 不可操控的影响力

在大型科技公司中，我不太喜欢的一种现象是我称之为「规划导向的采用模式」。这是指两位经理/主管/副总裁聚在一起，同意应该使用X项目（可能会淘汰Y项目），然后项目的采用被列入几个团队的规划路线中。

虽然这当然有其优势（在某些情况下甚至是完全必要的），但我发现以这种方式采用的项目往往差强人意。

此外，这些项目的成功常常是一种虚假繁荣 - 只要有某位副总裁赞助项目，它们就会继续存在，但最终人们会厌倦它，副总裁会在内部博弈中失势，或者副总裁只是改变了主意。基本上，在规划导向的开发中，最重要的环节是说服一些「关键决策者」采用你的项目。

另一方面，开源世界是真正的自由市场。开源用户根本不在乎扎克伯格是否全力支持某个项目。

开源用户只关心两点：1. 你是否解决了他们面临的问题，2. 他们是否喜欢使用你的软件。

Mike Schroepfer（Meta前首席技术官）也表达了类似的观点。我甚至无法想象作为一名首席技术官获得「真实」反馈有多难，因为你交谈的每个人都知道你可以单独决定他们的晋升或奖金。

而开源世界提供的是一种令人耳目一新的、不可操纵的真实反馈。

· 有趣的技术工作

许多工程师的一个担忧是他们无法解决有趣的技术问题——在PyTorch上这方面绝不缺乏。

有些项目实现了用于机器学习的Python字节码解释器JIT（如TorchDynamo），有些项目致力于达到矩阵乘法的光速性能，有些项目需要你经常深入研究PTX文档，有些项目全是关于符号形状的推理（sympy、z3等），还有很多很多。

这里要解决的问题还有很多。这里，大家可以考虑加入PyTorch团队。

加入Thinking Machines，这4点足矣

既然我刚刚写了太多关于我为什么喜欢在PyTorch工作的内容，那么为什么我会加入Thinking Machines？

更重要的是，为什么Thinking Machines是那个最终说服我的机会？

一群我非常想与之共事的人

众所周知，没有优秀的人才，创业公司什么都不是。而Thinking Machines确实拥有一些非常优秀的人才！

比如，有当初发布「研究预览版」的研究员John Schulman、Barrett Zoph、Luke Metz，有在Meta、OpenAI、Character.AI等公司领导预训练工作的专家，还有在OpenAI/Mistral领导多模态工作的人才，以及有极其出色的基础设施工程师。

当然还有世界上最大AI公司OpenAI前CTO（以及短暂担任过CEO的）Mira Murati。

然而，或许比团队的实力更让我印象深刻的是，团队的友好氛围。

一个惊人，且不对称的机会

作为一家创业公司的创始工程师，一个不公平的优势是，机会成本的不对称性。

例如，如果我以创始工程师的身份加入Thinking Machines，然后一年后发现自己判断失误，转去另一个实验室，我的职业角色可能不会有太大变化！

我仍然可以加入一家已经成立的公司，而且职位可能与今天相当相似。

然而，如果我现在拒绝但一年后再加入Thinking Machines，我的角色将会大不相同。

当然，不只是薪酬的变化，但更重要的是，我的话语权和影响力将会大打折扣。一家公司的文化和方向主要由创始团队确定，而这是我在OpenAI或Anthropic没有机会获得的。

一种与我产生共鸣的积极AI成果的方法

然而，也许最重要的是，Thinking Machines追求积极AI成果的方法——研究与产品共同设计以及开放科学——与我产生了共鸣。

如上所述，自高中以来，我就确信AI将是我们这一生中最重要的技术。然而，这并不等同于说它必然会带来最大的益处。

总的来说，我认为自己是一个技术乐观派。

也就是说，我相信人类的生活在过去1000年里有了极大的改善，而这主要是由技术创新推动的。

在很多方面，AI是世界上有史以来最具技术加速主义特性的技术——一项有潜力解决我们面临的所有其他技术挑战的单一技术。

正因如此，AI的潜在积极影响值得我们去追求。

当然，不良后果也是可能发生的，而且由于AI的潜在影响，不良后果似乎比其他技术带来的风险更为严重。

总的来说，我将AI的不良后果分为以下几类：

滥用：坏人利用AI做坏事
错位：好人使用AI，但AI本身最终做了坏事
社会影响：人是好的，AI是好的，但我们最终还是得到了不好的结果（最担忧的一点）

这样认为的主要原因是，社会自然对错位和滥用有强烈的「免疫反应」。当涉及到潜在有害的技术时，社会有一个明确的应对方案——如果发生了坏事，就增加限制（比如监管GPU）或法规（比如强制进行更多的安全监督）。

当然，AI不是一种普通的技术，但具体来说，我认为在真正灾难性的滥用或错位发生之前，会有很多警告信号。

即使AI在错位之前隐忍不发（例如，欺骗性错位或背叛性转变），我认为第一个这样做的AI系统不太可能成功——它需要比人类和其他AI强大得多。

另一方面，负面社会影响似乎更加直接可信。即使现在，顶级AI实验室的保密性确实让我感到不舒服（虽然我理解为什么要这样做）——我实在受不了那些故弄玄虚、含糊其辞的言论了。

此外，AI知识在意识形态和地理上的集中似乎并不理想——随着AI专业知识变得越来越受欢迎，绝大多数AI秘密都集中在旧金山周围50英里的半径内，这导致了权力不平衡和单一文化。

如果我们需要使AI与人类价值观保持一致，那么所有这些人都应该住在旧金山吗？

为什么我被Thinking Machines的使命所吸引

广义上讲，Thinking Machines的使命有两个主要方面吸引了我。

1. 专注于产品和广泛的AI扩散

在我看来，更广泛的社会稳定性的最重要方面之一是社会向使用AI系统过渡的平稳程度。与结果同样重要的是人们如何感受我们达到这个结果的过程。

例如，ChatGPT并没有真正让许多机器学习研究人员感到震惊——他们已经见过GPT-3，他们已经见过GPT-3提示词能做什么，ChatGPT只是一个便利功能。

然而，ChatGPT绝对让社会其他人感到震惊。这是更广泛的社会第一次意识到最先进的大语言模型可以做的所有事情，社会对此感到震惊。然而，自那以后，ChatGPT在更广泛的社会中变得更加常态化——人们有点像经历了「享乐适应」（人们对新事物的兴奋感会随时间逐渐减弱）。

但是，还有更多可以做的事情。即使在今天，第一次接触ChatGPT的普通人与那些已经将AI深度整合到工作流程中的人之间仍然存在巨大差距。

此外，我相信构建能够协助人们合作而非完全自主的AI智能体的产品有很大潜力。我想到的一个有趣的方式是「最大化劳动力而非资本的价值」。

2. 开放科学和系统

如上所述，对社会来说，这些AI系统的构建知识如此保密似乎并不是好事。这不仅会引起人们对这些AI实验室的不满，还会使社会更难在这些AI系统的基础上进行创新和发展！

例如，Deepseek最近发布的论文和代码帮助更广泛的社区更好地理解未来什么技术会有用（比如Online RL）。

就我个人而言，这也是我当初投身PyTorch项目的重要动力之一。优质的开源系统有助于整个生态系统的发展，能让更多人参与到AI系统的构建中来。

我还想指出，虽然开放科学/系统当然是一个很好的理想，但现实中也存在经济因素的考量。

在我看来，这正是专注于产品开发的价值所在。像Meta或谷歌这样的公司不需要对他们使用的实际技术高度保密——基本上，他们的大多数核心系统和方法社区都已经广泛了解。另一方面，如果你的产品仅仅是一个输入token和输出token的API接口，那么你唯一的优势就是你的模型的具体能力。

公司的文化和默认做法也极其重要。这些AI实验室有很多东西可以开源而不影响他们的竞争优势——他们之所以不这样做，只是因为他们的默认做法是闭源，而要改变这一点，他们需要论证为什么某些东西应该开放。

相比之下，PyTorch在这方面采取了相反的做法。我们所有的代码都是开源的，我们的路线图是公开的，我们的一些设计会议也是公开的。因此，如果你不希望某样东西是开放的，你必须论证为什么它应该是闭源的。

正如奥特曼所言，他认为OpenAI应该开源更多东西。然而，这不是当前最高优先级。

关于积极AI结果的总体思考

总的来说，我认为Thinking Machines关于广泛AI扩散和协作开放科学的使命，是一个很有说服力的策略，能够有效应对AI带来的社会影响问题。

当然，还有其他必要的方法（比如政策制定），但Thinking Machines的使命与我个人价值观高度契合，也是我认为自己能够做出贡献的领域。

最终想法

作为创始工程师加入Thinking Machines的机会几乎满足了我所有的期待条件。

一个实力雄厚的团队，既有我之前就很享受共事的伙伴，也有其他我认为会愉快合作的人才。
能够从一开始就参与并对一家极具发展潜力的公司的方向和文化发表意见。
一个对我来说独特且富有吸引力的使命（产品专注+开放科学），有望带来更好的AI发展成果。
最后，从感性角度来说，开放科学和系统这一方面让我能够继续做我在PyTorch工作中最喜欢的事情——与人们讨论AI系统并通过开源代码产生广泛影响。

我之前遇到的机会几乎没有一个能同时满足这些条件中的两个，更不用说全部四个了。

当考虑这个机会时，我清楚地记得自己想，「如果连这个机会都不能让我离开PyTorch，那我可能会永远在PyTorch工作下去」。

尽管这是一个非常艰难的决定，但我非常期待能在Thinking Machines构建一些很酷的项目！