马斯克称得上是个“魔鬼老板”这事儿,已经出了名了。
现在,他的老部下卡帕西(Andrej Karpathy)又在最新访谈中“锤”了他一把(doge):
我不得不恳求他允许我招人。
他(马斯克)总是默认要裁掉员工。
喜欢裁人之外,在这场红杉组织的AI Ascent活动上,卡帕西还揭秘了更多马斯克管理公司的细节:
痛恨开会、拒绝躺平、比起跟VP更喜欢直接和工程师们聊工作……
另外,他也聊了不少大家伙关心的大模型话题,包括:
- LLM OS
- 规模重要吗?
- 年轻的初创公司要如何与OpenAI竞争?
更多细节,以下奉上文字版分享~
(Claude 3亦有贡献)
大语言模型是新时代的CPU
Q:安德烈,非常感谢你今天加入我们。OpenAI最初的办公室就在我们旧金山办公室的对面,当时你们很多人都挤在一起。
除了在一家巧克力工厂楼上工作,实现了威利·旺卡的梦想,在这里工作还有哪些令你难忘的时刻?
卡帕西:是的,OpenAI最初的办公室就在那里,如果不算Greg的公寓的话。
我们在那里待了大概两年,楼下就是巧克力工厂,味道一直很香。那时团队大概有10-20多人。
我们在那里度过了一段非常有趣的时光。老黄在GTC大会上提到的,他把第一台DGX超级计算机送到OpenAI的事,就发生在那里。
Q:安德烈其实是不需要介绍的,不过我还是想提一下他的背景。他师从Geoffrey Hinton和李飞飞,最早因为在斯坦福大学开设的深度学习课程成名。
2015年他联合创办了OpenAI。2017年,他被马斯克挖走了。
大家可能不太记得当时的情况了:特斯拉经历了6任Autopilot负责人,每个人都只做了6个月。我记得安德烈接手这个职位时,我还祝他好运来着。
没过多久,他就回到了OpenAI。而现在他拥有完全的自由,可以想做什么就做什么。所以我们很期待听他今天分享的见解。
我最欣赏安德烈的地方在于,他是一位令人着迷的未来主义思想家,他是坚定的乐观主义者,同时他也是非常务实的建设者。今天他会和我们分享一些关于这些方面的见解。
首先,即便在7年前,AGI看起来也是一个在我们有生之年几乎不可能实现的目标。而现在它似乎已经在望了。你对未来10年有什么看法?
卡帕西:你说的没错。几年前,AGI的路径还很不明朗,还处于非常学术化的探讨阶段。但现在已经很清晰了,大家都在努力填补这片空白。
优化工作正在如火如荼地进行。大致来说,每个人都在努力构建“大模型操作系统(LLM OS)”。
我喜欢把它比作一个操作系统。你要准备好各种外围设备,然后把它们连接到一个新的CPU上。这些外围设备包括文本、图像、音频等各种模态。CPU就是语言模型本身。它还要与我们已经构建的所有Software 1.0基础设施相连。
我认为大家都在努力构建这样一个东西,然后把它定制成适用于各个经济领域的产品。
总的来说,发展方向就是我们可以调整这些相对独立的agent,给它们分配高层次的任务,让它们专门从事各种工作。这将非常有趣和令人兴奋。而且不止一个agent,会有很多agent。想象一下那会是什么样子?
Q:如果未来真的如你所说,那我们现在应该如何调整自己的生活方式?
卡帕西:我不知道。我想我们必须努力去构建它,去影响它,确保它是正向的。总之就是尽量让结果变好。
Q:既然你现在是一个自由人,我想提一个显著的问题,那就是OpenAI正在主导整个生态。
今天在座的大多数人都是创业者,他们试图开辟一些小众市场,并祈祷OpenAI不会在一夜之间把他们打垮。
你认为其中还有机会吗?OpenAI会在哪些领域继续占据主导地位?
卡帕西:我的总体印象是,OpenAI正在努力构建LLM操作系统。正如我们今天早些时候听到的,OpenAI正试图开发一个平台。在此基础上,你可以在不同的垂直领域建立不同的公司。
操作系统的类比其实很有意思,因为像Windows这样的操作系统,也自带一些默认的应用程序,比如浏览器。
所以我认为,OpenAI或其他公司可能也会推出一些默认的应用,但这并不意味着你不能在其上面运行不同的浏览器,你可以在他们的基础之上运行不同的agent。
会有一些默认应用,但也可能会有一个充满活力的生态系统,有各种各样的应用,针对具体场景进行了微调。
我很喜欢用早期的iPhone应用来类比。这些应用一开始都有点像开玩笑,需要时间来发展。我想我们现在正在经历同样的事情。人们正在努力弄清楚这个东西擅长什么?不擅长什么?我如何使用它?如何编程?如何调试?如何让它执行实际任务?需要什么样的监督?因为它相当自主,但不完全自主的。所以监督应该是什么样的?评估应该是什么样的?有很多事情需要思考,需要理解。我认为需要一些时间来弄清楚如何与这种新的基础设施合作。所以我认为在未来几年我们会看到这一点。
Q:现在大语言模型的竞赛正在如火如荼地进行,有OpenAI、Anthropic、Mistral、Llama、Gemini,还有整个开源模型生态系统,以及大量的小模型。你如何预见生态系统未来的发展?
卡帕西:是的,所以我再次强调,操作系统的类比很有意思。我们有Windows、macOS这样闭源的系统,也有开源的Linux。我认为大模型可能也会是这样的格局。
我们称呼这些模型的时候也要小心,你列举的很多模型,比如Llama、Mistral等,我不认为它们是真正的开源。这就像是把一个操作系统的二进制文件扔出来,你可以使用它,但不是完全有用。确实有一些我认为是完全开源的语言模型,它们完整地发布了编译“操作系统”所需的全部基础设施,从数据采集到模型训练。这比只拿到模型权重肯定要好得多,因为你可以微调模型。
但我认为有一个微妙的问题,就是你不能完全微调模型,因为你微调得越多,它在其他所有任务上的表现就会越差。
所以如果你想增加某种能力而不影响其他能力,实际上可能需要混合之前的数据集分布和新的数据集分布来进行训练。如果只给你模型权重,你其实做不到这一点。你需要训练循环,需要数据集等。所以你在使用这些模型时实际上是受限的。
它们肯定是有帮助的,但我们可能需要更好的术语对其进行描述。开放权重模型、开源模型,还有专有模型,生态系统可能会是这样的。而且很可能会与我们今天的生态系统非常相似。
规模是最主要决定因素
Q:我想问的另一个问题,就是规模。简单来说,规模似乎是最重要的。数据规模、算力规模。因此,大型研究实验室、大型科技巨头今天拥有巨大的优势。你对此有何看法?规模就是一切吗?如果不是,还有什么重要的?
卡帕西:我认为规模绝对是第一位的。
其中有一些细节确实需要处理好。我认为数据集的准备工作也很重要,要让数据非常好、非常干净,这可以使计算效率提升。
但我认为规模将是主要的决定因素,是第一主成分,当然你还需要把其他很多事情做好。
如果没有规模,那你从根本上就无法训练这些大模型。如果你只做微调之类的工作,可能不需要那么大的规模,但我们还没有真正看到这一点完全实现。
Q:你能详细说说除了规模之外,你认为还有哪些重要因素吗,可能优先级低一些?
卡帕西:首先,你不能只训练这些模型。如果你只是提供资金和规模,实际上训练这些模型仍然非常困难。
部分原因是基础设施太新了,还在开发中,还不完善。但在这种规模上训练模型是极其困难的,是一个非常复杂的分布式优化问题。这方面的人才目前其实相当稀缺。这基本上是一个疯狂的事情,模型在成千上万个GPU上运行,在不同的时间点随机失败。监控这个过程,让它工作起来,实际上是极其困难的挑战。
直到最近,GPU才像预期的那样能处理1万个GPU的工作负载。所以我认为很多基础设施在这种压力下都在吱吱作响,我们需要解决这个问题。
现在,如果你只是给某人一大笔钱或大量的GPU,我不确定他们是否能直接生产出大模型,这就是为什么不仅仅是规模的问题。你实际上需要大量的专业知识,包括基础设施方面、算法方面,以及数据方面,要非常谨慎。
Q:生态系统发展得如此之快,一年前我们认为存在的一些挑战,现在也越来越多地得到解决。幻觉、上下文窗口、多模态能力、推理速度越来越快、成本越来越低。现在还有哪些语言模型研究的挑战让你夜不能寐?你认为有哪些问题足够紧迫,但也是可以解决的?
卡帕西:我认为在算法方面,我想了很多的一个问题是扩散模型和自回归模型之间的明显区别。它们都是表示概率分布的方法。事实证明,不同的模态显然适合其中之一。我认为可能有一些空间来统一它们,或者以某种方式将它们联系起来。
我想指出的另一件事是,运行大模型的基础设施的内在效率。我的大脑功耗大概是20瓦。老黄在GTC上刚刚谈到了他们要建造的大型超级计算机,数字都是兆瓦级的。所以也许你不需要那么多能量来运行一个大脑。我不知道具体需要多少,但我认为可以肯定地说,在运行这些模型的效率方面,我们还可以1000倍到100万倍地提升。
我认为部分原因是当前的计算机根本不适合这个工作负载。英伟达的GPU朝着这个方向迈出了很好的一步,因为你需要极高的并行性。我们实际上并不关心以某种方式依赖数据的顺序计算。我们只是需要在许多不同的数组元素上执行相同的算法。所以我认为第一是调整计算机架构以适应新的数据工作流,第二是推动一些我们目前看到有改进的东西。
第一个可能是精度。我们看到精度从最初的64位双精度下降到现在的4、5、6位,甚至根据你阅读的论文不同,可能是1.5到8位。所以我认为精度是控制这个问题的一个很大的杠杆。
第二个当然是稀疏性。事实上,大模型中的很多参数都是零,或者接近零。所以如果你能以某种方式利用这一点,比如说让稀疏矩阵乘法变得更有效率,那就太好了。这方面有一些有前景的研究。
此外还有一些有趣的想法,比如奇异值分解(SVD),看看是否可以将其分解成更小的矩阵,然后重新组合。比如只计算前向传播,不做反向传播,训练一个较小的模型来预测较大模型的输出。
所以我认为,从根本上讲,要解决两个问题:
一个是构建更合适的硬件。另一个是找到更好的算法,在保持性能的同时提高效率。
我认为这两个方面都还有很大的探索空间。从能效的角度来看,如果我们能缩小与大脑的差距,那将是一个巨大的进步。这可能意味着我们每个人都可以负担得起一个模型,或在我们的设备上运行一个模型,而不需要连接到云端。
马斯克“在管理世界上最大的创业公司”
Q:好的,我们换个话题。你曾与这个时代的许多伟人并肩工作过,OpenAI的Sam、Greg及其他团队成员,还有马斯克。
在座有多少人听过关于美国赛艇队和日本赛艇队的笑话?这是个有趣的故事。马斯克分享过这个笑话,我认为它反映了他在打造企业文化和团队方面的很多理念。故事中有两支队伍,日本队有4名划手和1名舵手,美国队有4名舵手和1名划手。有人猜得出当美国队输了后他们会怎么做吗?大声说出来。完全正确,他们会开除那个划手。
马斯克分享这个例子,我认为是在阐述他对于雇佣合适的人才、打造合适团队的看法。通过与这些不可思议的领导者的密切合作,你学到了什么?
卡帕西:我想说马斯克管理公司的方式非常独特。我觉得人们并没有真正意识到它有多特别。即便是听别人讲,你也很难完全理解。我觉得这很难用语言描述。我甚至都不知道从何说起。但这确实是一种非常独特、与众不同的方式。
用我的话说,他在管理全球最大的创业公司。我觉得我现在也很难描述清楚,这可能需要更长时间来思考和总结。
不过首先,他喜欢由实力强大且技术含量高的小团队来组成公司。
在其他公司,发展的过程中团队规模往往会变大。而马斯克则总是反对团队过度扩张。为了招募员工,我不得不做很多努力。我必须恳求他允许我招人。
另外,大公司通常很难摆脱绩效不佳的员工。而马斯克则更愿意主动裁人。
事实上,为了留住一些员工,我不得不据理力争,因为他总是默认要裁掉他们。
所以第一点就是,保持一支实力强劲、技术过硬的小团队。绝对不要有那种非技术型的中层管理。这是最重要的一点。
第二点则是他如何营造工作氛围,以及当他走进办公室时给人的感觉。
他希望工作环境充满活力。人们四处走动,思考问题,专注于令人兴奋的事物。他们或是在白板上写写画画,或是在电脑前敲代码。他不喜欢一潭死水,不喜欢办公室里没有生机。
他也不喜欢冗长的会议,总是鼓励人们在会议毫无意义时果断离场。你真的能看到,如果你对会议毫无贡献也没有收获,那就可以直接走人,他非常支持这一点。我想这在其他公司是很难见到的。
所以我认为营造积极向上的工作氛围是他灌输的第二个重要理念。也许这其中还包括,当公司变大后,往往会过度呵护员工。而在他的公司不会如此。公司的文化就是你要拿出百分之百的专业能力,工作节奏和强度都很高。
我想最后一点或许是最独特、最有趣也最不寻常的,就是他与团队如此紧密地联系在一起。
通常一个公司的CEO是一个遥不可及的人,管理着5层下属,只和副总裁沟通,副总裁再和他们的下属主管沟通,主管再和经理层沟通,你只能和直属上司对话。但马斯克经营公司的方式完全不同。他会亲自来到办公室,直接与工程师交谈。
我们开会时,会议室里经常是50个人和马斯克面对面,他直接跟工程师对话。他不想只是和副总裁、主管们说话。
通常一个CEO会把99%的时间花在和副总裁沟通上,而他可能有50%的时间在和工程师交流。所以如果团队规模小且高效,那么工程师和代码就是最可信的信息源。他们掌握第一手的真相。马斯克要直接和工程师交流,以了解实际情况,讨论如何改进。
所以我想说,他与团队联系紧密,而不是遥不可及,这一点非常独特。
此外,他在公司内部行使权力的方式也不同寻常。比如如果他与工程师交谈,了解到一些阻碍项目进展的问题。比如工程师说,“我没有足够的GPU来运行程序”,他会记在心里。如果他两次听到类似的抱怨,他就会说:“好,这是个问题。那现在的时间表是什么?什么时候能解决?”
如果得不到满意的答复,他会说,“我要和GPU集群的负责人谈谈”,然后有人就会打电话给那个负责人,他会直截了当地说:“现在就把集群容量翻一倍。从明天开始每天向我汇报进展,直到集群规模扩大一倍。”
对方可能会推脱说还要经过采购流程,需要6个月时间之类的。这时马斯克就会皱起眉头,说:“好,我要和黄仁勋谈谈。”然后他就会直接铲除项目障碍。
所以我认为大家并没有真正意识到他是如何深度参与各项工作,扫清障碍,施加影响力的。
老实说,离开这样的环境去一家普通公司,你真的会想念这些独特的地方。