刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手

原创 精选
人工智能
一觉醒来,OpenAI宣布了未来12天的直播活动,而老对手谷歌直接发布了Genie 2,宣布在世界模型方面又迈出重要一步!

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

AI公司年底要冲业绩了!

一觉醒来,OpenAI宣布了未来12天的直播活动,而老对手谷歌直接发布了Genie 2,宣布在世界模型方面又迈出重要一步!

图片图片

但,至少今天是谷歌更胜一筹——Genie 2是在太令人印象深刻了!用Google DeepMind首席执行官Demis Hassabis话来说:“世界模型正在成形。”

图片图片

给 Genie 2 一张照片,它给你一个可以交互的世界!

无论是创造一个飞船上的游戏世界,还是想变身行走在未来世界的机器人,都立马能安排,想玩什么自己点!

Genie 2 即时生成新内容的时间也大幅扩展了,足足给了一分钟!

图片图片

可以看到,Genie 2生成的虚拟世界交互逻辑非常丝滑。

不仅如此,人类和AI Agents(DeepMind推出的游戏代理SIMA)都可以参与,以后不愁具身智能没有地方训练了。

“Genie 2 能够让未来的 Agents 在无限制的新颖世界课程中进行训练和评估。这项研究也为原型化互动体验的新型创意工作流程铺平了道路,”Google DeepMind在其博客文章中写到。

Genie 2 不只让我们看到了“大模型没有撞墙”一个有力论据,也看到了谷歌抢先一个身位通向AGI的可能!

1.世界模型正在成形

在前版Genie 1的基础上,Genie 2从2D环境的扩展到了3D。Genie 2基于大规模视频数据集训练,采用自回归潜在扩散技术,根据用户动作逐帧生成画面。

Genie 2全新的交互让我们看到了世界模型的雏形:模拟物理交互、建模复杂动画、创建具有真实物理特性、光照效果和物体交互的环境。

比起AI视频所展示的,我们会感觉到Genie 2更懂这个世界了。来点案例看看:

枪响之后,油罐桶会爆炸:

模型对于重力的领悟,汽车是会坠落悬崖的:

汽车驶入水路段,轮胎后被激起的水花:


还有各种场景下的烟雾、光照、屋里镜子的反光随着视角的变化,都能感受到Genie 2的突破!

2.Genie 2的世界:人类和 AI 都能参与

我们在3月份介绍过,来自DeepMind的游戏“搭子”SIMA,一个从多个3D游戏中训练的AI Agent。

能完成600项基本游戏操作的SIMA,也在Genie 2中挑战了一把,再次展现了高水平的泛化能力。

领导Genie 2项目的 Jack Parker-Holder 说, 他们使用了Genie 2创建了一个神秘“三拱门”场景,然后使用Prompt控制AI进入哪个通道,然后取得了成功!

图片图片

也就是说,SIMA证明了,AI在这个虚拟世界,是能够遵循语言指令,进行各种训练的!

Genie 2生成的无限世界,多样性和复杂性可以拉满,Agents缺少培训场景的问题大大解决了。而且Genie 2本身也可以使用真实照片做场景,工厂、农田、矿场等等场地都可以一键生成,让AI为迎接现实世界的复杂性做足准备。

值得一提的是,Genie 2 人类和AI都能操作的模式,可能会在未来实现共同的操作和交互。甚至能彻底改变我们测试和完善人工智能系统的方式,将人类的创造力与人工智能解决问题的可能性在虚拟世界中进行融合。

3.Genie 2的两位领导者

领导Genie 2项目的 Jack Parker-Holder,在谷歌已经工作了两年半的时间。

图片图片

他非常看重Genie 2在具身智能训练上的潜力。

这也和他写在简介中的目标高度一致:“我的目标是设计出永不停止生产新的有趣事物的系统......也许甚至是 AGI:)”。

图片图片

Genie 2的技术 leader是Stephen Spencer。Spencer 于 2018 年 6 月加入 DeepMind 担任研究科学家,22年合作发表的重要论文《通过算法蒸馏进行上下文强化学习》,被引用超百次。

图片图片

4.写在最后:OpenAI如何应战?

OpenAI能否截胡成功?

还是很有可能!毕竟是12天活动的狂轰乱炸!

而且大家纷纷猜测Sora是不是要广泛可用了,也算我们这一整年度的期待有了一个尾声。

毕竟,作为实验室的Deepmind,所发布的Genie 2还远远不是一个产品形态。如果OpenAI能给用户更多开箱即用的魔法,势必会在这个年尾获得更多的关注。

网友对Genie 2的评价:虽然这令人印象深刻,但看起来仍像是一个非常早期的原型。从整体上看,它似乎并不是一个独立的产品,而是面向通用代理的更广泛研发项目的一部分...... 我甚至怀疑他们是否已经为这个项目建立了任何生产化的建模管道,而且可以肯定的是,我们不会在短期内获得开放的访问权限。

图片图片

那么,OpenAI可能发布什么呢?

GPT-5、Sora、o1-full是呼声最高的系列了。

在评论区有人一本正经的在做推测,而有人直接把画风切换到了2045年。

图片图片

图片图片

12天的活动,营销鬼才奥特曼到底能给我们带来多少干货,值得拭目以待!

永远面向未来的奥特曼,已经在做明年的剧透了,他对《纽约时报》说:2025年的AI系统将让我们惊掉下巴。

图片图片

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/


责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2020-12-29 10:34:10

运营商KPI考核通信行业

2024-05-17 08:33:33

视觉语言模型

2024-08-14 14:21:00

2024-12-10 08:59:05

2023-11-23 19:50:08

OpenAIAltman

2024-12-05 08:42:39

2024-12-19 15:08:58

2024-12-05 10:54:19

2023-04-18 15:03:24

模型数据

2024-11-01 16:37:02

Oasis大模型AI

2024-12-10 09:56:00

2024-02-27 09:19:13

谷歌AI

2011-09-21 14:41:26

点心

2024-09-18 13:30:00

2016-03-15 14:00:10

2024-10-10 17:46:48

2024-02-22 15:19:36

SoraOpenAI

2024-02-19 07:58:01

OpenAI模型GPT

2011-11-24 17:11:13

点赞
收藏

51CTO技术栈公众号