OpenAI喜提姚班学霸姚顺雨：思维树作者，普林斯顿博士，还是个Rapper-51CTO.COM

清华姚班学霸姚顺雨，官宣加入了OpenAI。

而就是这么一则简短的消息，却引来了圈内众人的围观和祝福，来感受一下这个feel：

其中不乏像OpenAI前沿研究主管、美国IOI教练Mark Chen，以及AI领域的教授、投资人等等。

那么这位姚顺雨，到底为何能够引来如此关注？

从他过往的履历来看，我们可以提炼出这样几个关键词：

清华姚班
姚班联席会主席
清华大学学生说唱社联合创始人
普林斯顿计算机博士

△姚顺雨，图源：个人主页

但除了较为亮点的履历之外，真正让姚顺雨步入公众的视野，还是因为他的多项科研成果：

思维树（Tree of Thoughts）：让LLM反复思考，大幅提高推理能力。
SWE-bench：一个大模型能力评估数据集。
SWE-agent：一个开源AI程序员。

毫不夸张的说，几乎每项研究都在圈里产生了不小的涟漪；并且非常明显的一点是，它们都是深深围绕着大模型而展开。

这或许也正应了姚顺雨此次官宣里的一句话：

是时候将研究愿景转变为现实了。

至于这个“研究愿景”，我们继续深入了解一下。

研究关键词：Language Agents

如果纵观姚顺雨的主页，尤其是论文研究部分，就不难发现有一个出镜频率极高的词组——Language Agents。

包括在他X主页中的简介，第一句话上来也是Language Agents：

而这，也正是他博士毕业论文的题目：Language Agents: From Next-Token Prediction to Digital Automation。

Language Agents，即语言智能体，是姚顺雨提出来了一种新的智能体类别。

和传统智能体不同的是，这种方法是将语言模型用于智能体的推理和行动，主打一个让它们实现数字自动化（Digital Automation）。

至于具体的实现方法，则有三个关键技术（均有独立的论文），它们分别是：

ReAct：一种将推理和行动相结合的方法，通过语言模型生成推理轨迹和行动，来解决各种语言推理和决策任务。
思维树：一种基于树搜索的方法，通过生成和评估多个思维路径来解决复杂问题，提高语言模型的推理能力。
CoALA：一个概念框架，用于组织和设计语言代理，包括内存、行动空间和决策制定等方面。

以ReAct为例，研究是将语言模型的动作空间扩充为动作集和语言空间的并集。

语言空间中的动作（即思维或推理轨迹）不影响外部环境，但能通过对当前上下文的推理来更新上下文，可以支持未来的推理或行动。

例如在下图展示的对话中，采用ReAct的方法，可以引导智能体把“产生想法→采取行动→观察结果”这个过程进行循环。

如此一来，便可以结合推理的轨迹和操作，允许模型进行动态的推理，让智能体的决策和最终结果变得更优。

若是把ReAct的方法归结为让智能体“reason to act”，那么下一个方法，即思维树，则重在让智能体“reason to plan”。

思维树是把问题表示为在树结构上的搜索，每个节点是一个状态，代表部分解决方案，分支对应于修改状态的操作。

它主要涉及四个问题：

思维分解：将复杂问题分解为一系列中间步骤，每个步骤都可以看作是树的一个节点。
思维生成：利用语言模型生成每个节点的潜在思维，这些思维是解决问题的中间步骤或策略。
状态评估：通过语言模型对每个节点的状态进行评估，判断其在解决问题中的进展和潜力。
搜索算法：采用不同的搜索算法（如广度优先搜索 BFS 或深度优先搜索 DFS）来探索思维树，找到最优的解决方案。

将思维树应用到“24点”游戏中，与此前的思维链（CoT）相比，准确率有了明显提高。

至于Language Agents中的最后一个关键技术，即CoALA，则是一种用于组织和设计语言智能体的概念框架。

从下面的结构图来看，它大致分为信息存储、行动空间和决策制定三大模块。

信息存储是指语言智能体将信息存储在多个内存模块中，包括短期工作记忆和长期记忆（如语义记忆、情景记忆和程序记忆）。

这些内存模块用于存储不同类型的信息，如感知输入、知识、经验等，并在智能体的决策过程中发挥作用。

除此之外，CoALA 将智能体的行动空间分为外部行动和内部行动；外部行动涉及与外部环境的交互，如控制机器人、与人类交流或在数字环境中执行操作。

内部行动则与智能体的内部状态和记忆交互，包括推理、检索和学习等操作。

最终，语言智能体会通过决策制定过程选择要执行的行动；而这个过程也是会根据各种因素、反馈，从中找出最优解。

除此之外，还有像开源AI程序员的工作SWE-agent等，也在圈里广泛传播。

但我们从姚顺雨众多的科研课题中，除了Language Agents之外，还能看到他所追求的另一个关键词——计算的思维。

而这一点，其实在他念本科的时候便已经有所透露。

在即将奔赴普林斯顿大学攻读计算机博士学位前，作为2015级学长，姚顺雨曾在清华2019年各类型自主选拔复试的开营仪式上向复试考生分享了本人在清华的学习成长经历。

相关内容记录在他自己写的名为“你在清华姚班学到了什么？姚顺雨：足以改变世界”的文章中。

当时他从理论和实践两方面重点分享了计算的思维，并透露觉得四年下来，最大的收获就是计算的思维：

从理论上我们现在看到很多不可能做到的事情。所谓理论指导实践，我觉得更多的是说，我们得从一个高度理解一个系统的能力极限和事情难易，然后再选择能做的、有意义的事情去做。

和阳光开朗大男孩tag锁死，姚顺雨还分享了因清华南方浸润计划项目，前往阿根廷的经历：

我遇到了一群阿根廷的孩子……英语并不是世界通用的，阿根廷人说西班牙语。我曾经试图学西班牙语，但是我放弃了，因为我学计算机，我拿出了谷歌翻译。我跟他们说北京的故宫和长城……

△来源：清华招生公众号

在他看来，这个时代，计算能和任何学科相结合，而世界很大，在清华可以做你想做的事。

说完姚顺雨，姚班还有哪些人在搞大模型？

爆火的大模型，姚班还有谁在搞？

不得不提的有马腾宇和陈丹琦。

俩人当年是同班同学，清华姚班2008级校友，并且之后都拿了具有“诺奖风向标”之称的斯隆奖。

马腾宇博士就读于普林斯顿大学，导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。

博士毕业后，MIT、哈佛、斯坦福等顶尖高校都给了他助理教授的Offer，马腾宇最终选择了斯坦福。

去年年底，马腾宇还正式宣布大模型创业了——创立Voyage AI，透露将带队打造目前最好的嵌入模型，还会提供专注于某个领域或企业的定制化模型。

斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授担任Voyage AI的学术顾问。

陈丹琦这边，清华姚班完成本科学业后，2018年又在斯坦福大学拿下博士学位，主攻NLP，最终成为普林斯顿大学计算机科学系助理教授、普林斯顿语言与智能项目副主任，共同领导普林斯顿NLP小组。

其个人主页显示，“这些天主要被开发大模型吸引”，正在研究主题包括：

检索如何在下一代模型中发挥重要作用，提高真实性、适应性、可解释性和可信度。
大模型的低成本训练和部署，改进训练方法、数据管理、模型压缩和下游任务适应优化。
还对真正增进对当前大模型功能和局限性理解的工作感兴趣，无论在经验上还是理论上。

陈丹琦团队的大模型工作，量子位也有持续关注。

比如，提出的大模型降本大法——数据选择算法LESS，只筛选出与任务最相关5%数据来进行指令微调，效果比用整个数据集还要好。

而指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。

提出爆火的“羊驼剪毛”大法——LLM-Shearing大模型剪枝法，只用3%的计算量、5%的成本取得SOTA，统治了1B-3B规模的开源大模型。

除了这两位，业界、学术界姚班校友在搞大模型的还有很多。

之前火爆全网的大模型原生应用《完蛋！我被大模型包围了》及其续作《我把大模型玩坏了》，就是由姚班学霸带队开发的。

游戏作者范浩强，旷视6号员工。当年以IOI金牌、保送清华姚班、高二实习等传奇事迹被誉为天才少年。如今他已是旷视科技研究总经理，谷歌学术h-index 32的行业大佬。

马斯克xAI首个研究成果——Tensor Programs VI，共同一作中也有姚班校友的身影。

Tensor Programs VI是xAI创始成员、丘成桐弟子杨格（Greg Yang）之前Tensor Programs系列工作的延续，论文重点探讨了“如何训练无限深度网络”。

据说Tensor Programs相关成果，在GPT-4中已有应用。为解读论文，杨格本人当时还专门在X上进行了一场直播分享。

共同一作Dingli Yu，本科毕业于清华姚班，目前Dingli Yu也快要在普林斯顿计算机科学系博士毕业了。

还有很多很多…………

说回这次姚顺雨被挖到OpenAI，OpenAI这边的招聘动作还在继续。

OpenAI工程师Karina Nguyen发布最新招聘帖：

OpenAI模型行为团队招人啦！这是一个集设计工程与训练后研究于一体的梦想职位，也是世界上最稀有的工作❤️
我们使用诸如RLHF/RLAIF等对齐方法定义模型核心行为，以体现基本价值观并提升AGI的创造性智能。通过这些成果，我们与产品+模型设计及工程团队共同开创AI界面和交互新模式，这将影响数百万用户……