被Luma刷屏了!零成本上手做大片的时代已至!惊奇发现:背后的技术与Sora大有不同!

原创 精选
人工智能
“一个新世代已经开始。我们在科技浪潮中重生并发展。我们展望未来,不耽念过去,并不断向前。”不同衣着风格的女生四处透露出福音战士的日系动画风格,面容却出奇得保持一致,场景构思十分前瞻新奇。网友惊呼:创作的进入门槛正在被彻底打破!

出品 | 51CTO技术栈(微信号:blog51cto)

短视频赛道的战火已经彻底卷起来了,今天,一款让全球网友兴奋到刷屏的视频生成器上线了!

Dream Machine,这款可以根据文本和图像生成AI视频的工具向公众开放,免费,免费,免费!关键还在于,跟传说中的Sora技术路线大不相同,2分钟内就能生成!

话不多说,在解读技术之前,先看效果(什么才是真正的饕餮盛宴)!

1.大片预告—Justin

有人抢先体验了DreamMachine的人甚至生成了非常震撼预告片,战争、歌唱家、魔法师、骑士、海盗船长、骑手被处理的浑然天成。

这位体验者Justin赞叹道:你以为LumaLabsAI只是关于酷炫的3D物体。错了!事实证明,数千个高斯条纹可以轻松变成强大的视频生成模型。

2.新世纪渴望——Kaku Drop

“一个新世代已经开始。我们在科技浪潮中重生并发展。我们展望未来,不耽念过去,并不断向前。”不同衣着风格的女生四处透露出福音战士的日系动画风格,面容却出奇得保持一致,场景构思十分前瞻新奇。网友惊呼:创作的进入门槛正在被彻底打破!

3. U WREE MINE —Next on Now

这里就不得不惊叹Luma最新模型太厉害了!电视机屏幕里的画面一致性做得非常棒,而且镜头拉伸、角度的变换、人物动作的处理几乎处理得堪称完美。

4.奇幻生物—Curious Reuge

再体验之后,创作者Curious大吃一惊,这个视频主要是通过图像转视频的功能声生成的。海底的白鲸、雨林的变色龙、非洲草原上猎豹……似乎到了这里全都披上了一层梦幻的笼纱,让人误以为进入到了堪比“猛兽侠”的火种时代。

以上更多是图生视频,文生视频的能力如何?

小编也第一时间进行了测试。

提示词:小米汽车,行驶在跨江大桥上。

提示词:牛顿坐在苹果树下,一颗红苹果砸到了他的头。

提示词:Newton was sitting under an apple tree when a red apple hit him on the head.

小编看到牛顿竟然会被苹果这样“砸”,实在是怀疑自己的提示词出了问题,哭笑不得,这一颗接一颗的苹果掉下来,即便没有砸到头,砸到手,不也得砸出事情来!

一、怎么做到的?

根据图像生成的短片为什么这么逼真?

相信大家都知道《珍珠耳环的少女》这幅画作,Dream Machine可以做到分钟内生成3D版并按照提示生成相应的动作和镜头切换,大家可以看下面的视频,非常惊艳。

对比之前的鬼畜gif,是不是瞬间高大上了起来,相信之后的动态表情包有了更加无敌的生成器了!

想到这里,小编果断想到能不能让齐白石老先生的“虾”活过来!效果非常丝滑,镜头感也是拉满了,虾腿游弋的动作清晰可见!

二、不同于Sora的技术:三维重建术

小编从技术交流群中了解到,一位技术专家跟Luma的技术团队做了交流,Dream Machine的实现原理跟类Sora技术并不相同,很多工作都是从一项名叫NeRF的技术做的,即:先根据提示词生成3D场景,然后在渲染。

所以对于3D场景,效果就会不错,而对于较难3D重建的场景,比如“吃面”,效果就不一定好。

图片图片

NeRF技术,全称Neural Radiance Fields,即神经辐射场,是一种使用神经网络来隐式表达3D场景的技术,是Luma AI构建3D内容的核心。这一套最初由UC Berkeley和Google发布的深度学习系统,可以基于少量的2D图像,对3D场景的几何形状和外观进行建模。

这项技术应用非常广泛,包括但不限于3D建模、自动驾驶、导航系统等领域。

除此之外,Luma AI增长负责人Barkley Dai还表示,基于NeRF和Gaussian Splatting 3D重建技术,Luma AI可以基于2D图像数据快速构建高质量3D数据,用于机器学习和算法训练。

减少生成高质量3D内容所需的算力资源和时间,则是AI 3D生成技术落地的关键。自今年以来,Text to 3D所耗时长已经从小时级,缩减到了分钟级。

值得注意的是,去年11月,Luma AI在Discord上发布了了Text to 3D工具Genie,则将Text to 3D所耗时长缩减到秒级。基于大量3D形状、结构和场景数据进行深度神经网络训练,Genie建立了对语义和3D空间几何对应关系的理解能力。

三、Luma核心团队

成立于2021年,Luma AI是美国加州旧金山湾区的初创企业,该公司聚焦于3D内容生成技术,提供3D内容生成和3D内容重建技术解决方案。

Luma AI的核心团队,拥有海外头部大厂和高校的履历。创始人兼CEO Amit Jain出身苹果 AR/VR 部门,在3D计算机视觉、深度技术产品等方面有丰富经验。

图片图片

创始人兼CTO Alex Yu毕业于UC Berkeley,曾与人工智能研究实验室教授Angjoo Kanazawa共同进行NeRF(Neural Radiance Fields,神经辐射场)相关的3D计算机视觉研究。

图片图片

首席科学家Jiaming Song,曾就读于清华大学计算机科学与技术系,获得了斯坦福大学博士学位,在 Stefano Ermon 教授的指导下学习机器学习和生成模型。在加入 Luma 之前,他曾参与 NVIDIA AI Foundations 的图像/视频/3D 生成模型的开发。

Jiaming目前正在研究生成 3D 内容的基础模型。他参与了 DDIM(第一个快速扩散模型采样器)和 SDEdit(扩散模型中第一个图像到图像的转换方法)的开发。

图片图片

首席科学顾问金泽安珠(Angjoo Kanazawa)是加州大学伯克利分校 EECS 系的助理教授。她的研究领域是计算机视觉、计算机图形学和机器学习的交叉领域,专注于日常照片和视频背后的动态 3D 世界的视觉感知。她对重建世界上的一切感到兴奋!她是斯隆研究员 (2023),热衷于创造有用的事物。她在马里兰大学帕克分校获得博士学位。

图片图片

这里,给大家一个传送门:

https://lumalabs.ai/dream-machine/

赶紧开启自己的大片之旅吧!

对了,据隔壁桌爱玩文生视频的同事反映,她最爱的还是国产快手的“可灵”,吸引她的有三点:国产自研的,中国人更懂中国人;第二点是,大幅度的合理运动也可以生成;第三点就是时长可以高达2分钟,而且支持自由的宽高比。当然,据悉,可灵也采用了类Sora的技术架构。【对话OpenAI,Sora你还不对外开放?】

话说回来,大家更喜欢哪款?

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2010-05-13 09:24:39

2017-09-19 12:17:53

共享医疗邵逸夫医疗

2024-04-15 08:53:07

OpenAISoraGIF动画

2024-03-12 12:16:54

AI模型

2022-10-28 12:00:03

前端开源

2024-04-29 13:10:00

Sora人工特效OpenAI

2024-03-27 13:03:27

AI技术论坛

2024-06-03 08:48:16

2020-08-18 10:58:36

PC电脑智能手机电脑密码

2023-11-27 18:03:41

Python

2018-11-23 10:48:04

云计算开源云服务

2009-06-18 11:12:49

IP通信

2020-02-25 08:38:13

AI 数据人工智能

2018-07-25 09:06:18

数据中心机房容灾

2017-03-22 16:18:51

大数据运营商倒下

2011-05-04 14:24:04

iPad打印机

2015-02-11 11:21:54

数梦工场王巍

2019-10-28 09:59:26

区块链技术智能

2009-04-15 09:36:21

运维
点赞
收藏

51CTO技术栈公众号