一大早,全世界都被这个消息震惊了:OpenAI的领导班子动摇了一大片?
根据外媒Information的曝料,首先是OpenAI联创John Schulman官宣离职,转投OpenAI劲敌Anthropic。
此外,另一位联创Greg Brockman(经常出镜那位)正在进行长期休假;而去年才加入的产品负责人Peter Deng也已离职。
根据Observer今年7月的统计,OpenAI的11人创始团队,当时只剩下Sam Altman、Greg Brockman、John Schulman和Wojciech Zaremba四人。
图片
马库斯本人对此点评:OpenAI正在上演一场「权利的游戏」。
图片
图片
OpenAI再失创始元老
刚刚,领导「后训练」团队的AI科学家John Schulman官宣——自己已经做出离开OpenAI的艰难决定。
而现在,他正式入职劲敌Anthropic,专注于AI对齐研究,扎入实际的技术工作。
Schulman在长文中表示,自己并不是因为OpenAI缺乏对对齐研究的支持,才做出离职的决定。
图片
离开OpenAI的选择,是因为自己更加希望专注于AI对齐研究,希望能够重新从实际技术工作,开始自己职业生涯新篇章。
接下来,我决定在Anthropic实现这一目标,在这里我相信可以获得新的视角,并与对自己最感兴趣的话题有深入研究的人一起工作。
需要明确的是,我并不是因为OpenAI缺乏对对齐研究的支持而离开。相反,公司领导在这个领域投入了很多精力。我的决定是个人的,基于我在职业生涯下一阶段中希望如何集中精力。
我感谢Sam和Greg在最初招募我,以及Mira和Bob对我的信任,带来了很多机会,并帮助我成功应对了各种挑战。我为我们在OpenAI共同取得的成就感到自豪:建立了一家具有公共利益使命的独特且前所未有的公司。
我相信OpenAI以及我曾参与的团队在没有我的情况下仍会继续繁荣发展。后训练由一支拥有出色人才的团队负责。
我在ChatGPT上得到了过多的赞誉——Barret在将团队建设成现在这样高效运作上做了出色的工作,还有Liam、Luke和其他人。我很高兴看到对齐团队正在一些有前途的项目上逐步成型。在Mia、Boaz等人的领导下,我相信这个团队非常有能力。
我非常感激能够参与到这样一个重要的历史阶段,并为我们共同取得的成就感到自豪。即使在其他地方工作,我仍会为你们加油。
几个月前,OpenAI超级对齐团队负责人Jan Leike也加盟了Anthropic。Jan Leike激动地表示,「又能在一起工作了」!
图片
Sam Altman发文对Schulman在OpenAI期间做出的贡献表示了感谢。
图片
你是一位杰出的研究者,对产品和社会有着深刻见解,最重要的是,你是我们所有人的挚友。我们会非常怀念你,会继续努力让你为OpenAI感到自豪。
(2015年,我第一次在伯克利一家咖啡馆见到了Schulman。他大概说了这么一句话:「一方面,现在谈论AGI似乎很荒谬,但另一方面,我认为这是非常合理的,这里是为什么以及为什么我认为谈论它很重要」,然后他的阐述了构成了OpenAI初始战略的重要部分。这大约花了15分钟,然后我们又尬聊了45分钟。)
OpenAI研究副总裁Bob MacGrew几乎在第一时间回复了Schulman的推特,对他的离职表示惋惜。
图片
还有已经离职OpenAI的研究员,对Schulman未来研究感到兴奋。
图片
网友们也纷纷在评论中玩起了梗。
图片
图片
图片
ChatGPT架构师,PPO一作
Schulman与OpenAI的结缘,是在研究生学业完成后,以创始人身份正式加入OpenAI。
至今,他已在OpenAI供职9年。值得一提的是,这是Schulman除实习之外,唯一工作的公司。
之前,他负责的是对齐团队,随后他开始主要领导「后训练」团队,对部署在ChatGPT和OpenAI API中的模型进行微调。
John Schulman本科在加州理工学院学习物理学,之后到加州大学伯克利分校攻读神经科学方向的博士。
当时,他对人工智能也有点兴趣,但在其中并没有看到类似神经科学的可遵循的道路。
直到参与伯克利的实验室轮换项目时,他与Pieter Abbeel共同进行了直升机和机器人方面的工作,由此决定转到EECS(电子工程和计算机科学)。
图片
Schulman与OpenAI结缘已久。作为ChatGPT架构师,早在2015年还在读博士学位时,他就加入OpenAI成为联合创始人之一。
图片
在一次采访中,Schulman解释了自己加入OpenAI的原因:
「我想做人工智能方面的研究,我认为OpenAI这家公司的使命雄心勃勃,并且致力打造通用人工智能。」
「尽管,在当时谈论AGI似乎有些疯狂,但我认为开始考虑它是合理的,我希望在一个地方谈论AGI是可以接受的。」
另外,据Schulman透露,OpenAI将人类反馈强化学习(RLHF)引入ChatGPT的想法可以追溯到2017年,当时Jan Leike和Dario Amodei等人发表的一篇论文提到了这个方法。
图片
论文地址:https://arxiv.org/abs/1706.03741
此外,2017年,Schulman在OpenAI任职期间也和团队首次提出了近端策略优化(PPO)算法,其变体PPO-Clip成为了OpenAI使用的主要算法。
图片
论文地址:https://arxiv.org/abs/1707.06347
OpenAI安全团队之所以致力于这项工作,是因为想让模型符合人类的偏好,真正倾听人类意见,并试图做人类想做的事情。
在GPT-3完成训练时,Schulman看到了整个研究方向的潜力并决定加入这股潮流,
在很多次采访中,Schulman都表达了对于人工智能下一前沿领域的看法:AI在更艰难的任务上不断进步的同时,人类应该做些什么?在哪些任务中,人类可以在大模型帮助下有更大影响力,做更多的工作。
此外,指路Schulman在个人博客上发布的机器学习研究指南,最初是在2017年为OpenAI研究员计划编写的。干货满满,值得一观。
图片