Sora核心作者掌舵，谷歌世界模型新团队全球招募：百万底薪起步-51CTO.COM

最新消息，Sora核心作者，将领导谷歌世界模型团队！

Tim Brooks——带队Sora研究的两位负责人之一，也是DALL-E 3作者之一，刚刚发布了一条热情四溢的推特，广纳天下英才：

DeepMind有雄心勃勃的计划，要制作大量世界模型。
向着这个使命，我开始招募一个新团队。快来加入我们吧！

Brooks是AI圈子里十分耀眼的新秀，2023年刚刚从UC博客里博士毕业。

2023年1月起，Brooks开始带队研究Sora；2024年2月，Sora初亮相。

但在去年10月，Brooks突然官宣离开OpenAI，跳槽谷歌DeepMind。

当时，谷歌DeepMind的CEO Demis Hassabis就在该推文下回复表示，Brooks将帮助“将世界模拟器这一长期梦想变为现实”。

现在，Brooks真的要带队谷歌的世界模型团队了，并且是从头开始一手招募筹建。

并且，有人抓住了官宣推文中的华点：

Models，这意味着谷歌要制作的世界模型不是一个，而是很多个！

而官宣推文下面，几乎都是网友的祝福之语：

谷歌组建世界模型新团队

目前，Tim Brooks的领英和推特自我简介都显示为：

- video gen + world sim at DeepMind
- ex-OpenAI Sora Lead

关于“video gen”，Brooks加入谷歌DeepMind的时间，在广受好评的Veo 2.0发布之前。

a16z的投资人曾对着Veo 2.0惊叹，难以置信不到一年的时间里，视频模型进展如此神速。

目前，Veo 2已经登录VideoFX，预计明年它将进军YouTube Shorts等平台，为内容创作者开启全新的可能性。

而“world sim”，应该就是目前正在招募的新团队的肩上重担了。

根据Brooks链接的招聘页面，新团队会和谷歌旗下Gemini、Veo和Genie等团队合作，并在此基础上解决关键的新问题，将世界模型扩展到最高计算水平。

团队将致力于在构建的世界模型之上开发“实时交互生成”工具；并研究如何将世界模型们与现有的多模态模型，如Gemini等集成。

官方显示，谷歌世界模型团队主要招纳两种人才，均要求硕士或博士学位：

研究科学家：（美国）全职底薪范围在136,000美元～245,000美元之间，加奖金、股权和福利。
研究工程师：（美国）全职底薪范围在136,000美元～245,000美元之间，加奖金、股权和福利。

（注：申请岗位时可附上目标地点的具体薪资范围）

△科学家要求（左图）和工程师要求（右图）

谷歌还表示，他们相信，在视频和多模态数据上扩展预训练（划重点）是实现AGI的关键路径。

而世界模型将推动众多领域，如视觉推理和模拟、具身智能体的规划以及实时交互娱乐。

谷歌对世界模型的（现阶段）理解是什么？

看看去年年底发布的Genie 2，或许可以管窥一二。

24年12月5日，谷歌发布了Genie 2，它是一种自回归潜空间扩散模型，在大型视频数据集上训练。

Genie 2可以实现一张图生成无限多样的3D游戏世界，生成的3D世界可响应键鼠操作，可玩、可控制。

与此前研究相比，Genie 2拥有长期记忆，即使玩家把视角转开，再回来时也可稳定渲染世界中已存在的部分；游戏世界中还可以有其他AI NPC存在，与玩家控制的角色进行复杂交互。

但最重要的目标，不是拿来玩——

Genie 2可用于训练和评估具身智能体，通过创建丰富多样的环境，可以生成AI在训练期间没见过的评估任务。

尽管这项研究仍处于早期阶段，在智能体和环境生成能力方面仍有大量改进空间，但谷歌表示：

我们相信Genie 2是解决在安全训练具身智能体的同时，满足实现通往AGI所需的广度和通用性要求。

△Genie 2能通过prompt训练Agent打开正确的门

世界模型，下一个角逐赛点？

2024年，AI技术在多元方向持续突破，视频生成、世界模型、具身智能和空间智能等技术推动了人类对AGI的探索。

尤其在世界模型领域，许多初创公司和大型科技公司正在追逐世界模型。

也难怪乎网友在看到Tim Brooks广发英雄贴后，在reddit上发出这样的感慨：

令人惊讶的是，如果这条新闻出现在五年前，我们会惊掉下巴。
但现在，我们就像对待一个普通的星期二一样对待它。

事实上，世界模型反映了长久以来许多AI研究人员对model-based RL工作的无奈和期待：

模型不够准确，那么完全在模型里训练的强化学习效果就不好。

如果能获得准确的世界模型，就能在世界模型中反复试错，找到现实的最优决策。

据量子位智库《2024年度AI十大趋势报告》，在世界模型领域，研究者们致力于开发能够模拟和理解真实世界的模型，核心在于通过学习大量数据，使模型能够自然涌现新的行为和决策能力。

Techcrunch则盘点到，在追逐世界模型的诸多玩家中，除了谷歌这样的科技巨头，还有不少耀眼的初创玩家。

譬如李飞飞的World Labs（虽然现在大家更多将它的目标定位于空间智能），以及Decart、 Odyssey等公司。

该领域普遍认为，世界模型可能能用来创建交互式媒体，如视频游戏和电影；以及运行现实模拟，如机器人/具身智能的训练环境。

目前，除了技术尚未达到心目中的理想水平，还有几道坎摆在世界模型前进之路上。

一个是版权，一些世界模型似乎是在游戏游玩剪辑片段上训练的。

那咱就不得不提谷歌世界模型新团队的最大优势了——是谁拥有Youtube里上亿小时的游戏视频数据，我不说。

另一个是相关内容创作从业者的反对。

不过值得一提的是，其中一些初创玩家，如Odyssey，承诺将与3D内容领域的创意从业者合作作，而非取代他们。

暂不知道谷歌会怎么做。

One More Thing

最后，提一个网友们从谷歌世界模型新团队JD细则里发现的华点。

谷歌DeepMind写道：

We believe scaling pretraining on video and multimodal data is on the critical path to artificial general intelligence.

划重点， scaling pretraining。

而早些时候，在NeurIPS上，Ilya公开宣判：

预训练时代即将终结！

虽然也可以理解为，Ilya特指的是大语言模型的预训练时代，谷歌DeepMind特指的是世界模型的预训练。

但……谁知道呢，你说是不（手动狗头）。

参考链接：
[1]https://techcrunch.com/2025/01/06/google-is-forming-a-new-team-to-build-ai-that-can-simulate-the-physical-world/
[2]https://techcrunch.com/2024/10/03/a-co-lead-on-sora-openais-video-generator-has-left-for-google/
[3]https://www.linkedin.com/in/timothyebrooks/
[4]https://x.com/_tim_brooks/status/1876327325916447140
[5]https://www.reddit.com/r/singularity/comments/1hvbzyp/google_is_forming_a_new_team_to_build_ai_that_can/。