被Luma刷屏了！零成本上手做大片的时代已至！惊奇发现：背后的技术与Sora大有不同！-51CTO.COM

出品 | 51CTO技术栈（微信号：blog51cto）

短视频赛道的战火已经彻底卷起来了，今天，一款让全球网友兴奋到刷屏的视频生成器上线了！

Dream Machine，这款可以根据文本和图像生成AI视频的工具向公众开放，免费，免费，免费！关键还在于，跟传说中的Sora技术路线大不相同，2分钟内就能生成！

话不多说，在解读技术之前，先看效果（什么才是真正的饕餮盛宴）！

1.大片预告—Justin

有人抢先体验了DreamMachine的人甚至生成了非常震撼预告片，战争、歌唱家、魔法师、骑士、海盗船长、骑手被处理的浑然天成。

这位体验者Justin赞叹道：你以为LumaLabsAI只是关于酷炫的3D物体。错了！事实证明，数千个高斯条纹可以轻松变成强大的视频生成模型。

2.新世纪渴望——Kaku Drop

“一个新世代已经开始。我们在科技浪潮中重生并发展。我们展望未来，不耽念过去，并不断向前。”不同衣着风格的女生四处透露出福音战士的日系动画风格，面容却出奇得保持一致，场景构思十分前瞻新奇。网友惊呼：创作的进入门槛正在被彻底打破！

3. U WREE MINE —Next on Now

这里就不得不惊叹Luma最新模型太厉害了！电视机屏幕里的画面一致性做得非常棒，而且镜头拉伸、角度的变换、人物动作的处理几乎处理得堪称完美。

4.奇幻生物—Curious Reuge

再体验之后，创作者Curious大吃一惊，这个视频主要是通过图像转视频的功能声生成的。海底的白鲸、雨林的变色龙、非洲草原上猎豹……似乎到了这里全都披上了一层梦幻的笼纱，让人误以为进入到了堪比“猛兽侠”的火种时代。

以上更多是图生视频，文生视频的能力如何？

小编也第一时间进行了测试。

提示词：小米汽车，行驶在跨江大桥上。

提示词：牛顿坐在苹果树下，一颗红苹果砸到了他的头。

提示词：Newton was sitting under an apple tree when a red apple hit him on the head.

小编看到牛顿竟然会被苹果这样“砸”，实在是怀疑自己的提示词出了问题，哭笑不得，这一颗接一颗的苹果掉下来，即便没有砸到头，砸到手，不也得砸出事情来！

一、怎么做到的？

根据图像生成的短片为什么这么逼真？

相信大家都知道《珍珠耳环的少女》这幅画作，Dream Machine可以做到分钟内生成3D版并按照提示生成相应的动作和镜头切换，大家可以看下面的视频，非常惊艳。

对比之前的鬼畜gif，是不是瞬间高大上了起来，相信之后的动态表情包有了更加无敌的生成器了！

想到这里，小编果断想到能不能让齐白石老先生的“虾”活过来！效果非常丝滑，镜头感也是拉满了，虾腿游弋的动作清晰可见！

二、不同于Sora的技术：三维重建术

小编从技术交流群中了解到，一位技术专家跟Luma的技术团队做了交流，Dream Machine的实现原理跟类Sora技术并不相同，很多工作都是从一项名叫NeRF的技术做的，即：先根据提示词生成3D场景，然后在渲染。

所以对于3D场景，效果就会不错，而对于较难3D重建的场景，比如“吃面”，效果就不一定好。

图片

NeRF技术，全称Neural Radiance Fields，即神经辐射场，是一种使用神经网络来隐式表达3D场景的技术，是Luma AI构建3D内容的核心。这一套最初由UC Berkeley和Google发布的深度学习系统，可以基于少量的2D图像，对3D场景的几何形状和外观进行建模。

这项技术应用非常广泛，包括但不限于3D建模、自动驾驶、导航系统等领域。

除此之外，Luma AI增长负责人Barkley Dai还表示，基于NeRF和Gaussian Splatting 3D重建技术，Luma AI可以基于2D图像数据快速构建高质量3D数据，用于机器学习和算法训练。

减少生成高质量3D内容所需的算力资源和时间，则是AI 3D生成技术落地的关键。自今年以来，Text to 3D所耗时长已经从小时级，缩减到了分钟级。

值得注意的是，去年11月，Luma AI在Discord上发布了了Text to 3D工具Genie，则将Text to 3D所耗时长缩减到秒级。基于大量3D形状、结构和场景数据进行深度神经网络训练，Genie建立了对语义和3D空间几何对应关系的理解能力。

三、Luma核心团队

成立于2021年，Luma AI是美国加州旧金山湾区的初创企业，该公司聚焦于3D内容生成技术，提供3D内容生成和3D内容重建技术解决方案。

Luma AI的核心团队，拥有海外头部大厂和高校的履历。创始人兼CEO Amit Jain出身苹果 AR/VR 部门，在3D计算机视觉、深度技术产品等方面有丰富经验。

图片

创始人兼CTO Alex Yu毕业于UC Berkeley，曾与人工智能研究实验室教授Angjoo Kanazawa共同进行NeRF（Neural Radiance Fields，神经辐射场）相关的3D计算机视觉研究。

图片

首席科学家Jiaming Song，曾就读于清华大学计算机科学与技术系，获得了斯坦福大学博士学位，在 Stefano Ermon 教授的指导下学习机器学习和生成模型。在加入 Luma 之前，他曾参与 NVIDIA AI Foundations 的图像/视频/3D 生成模型的开发。

Jiaming目前正在研究生成 3D 内容的基础模型。他参与了 DDIM（第一个快速扩散模型采样器）和 SDEdit（扩散模型中第一个图像到图像的转换方法）的开发。

图片

首席科学顾问金泽安珠（Angjoo Kanazawa）是加州大学伯克利分校 EECS 系的助理教授。她的研究领域是计算机视觉、计算机图形学和机器学习的交叉领域，专注于日常照片和视频背后的动态 3D 世界的视觉感知。她对重建世界上的一切感到兴奋！她是斯隆研究员 (2023)，热衷于创造有用的事物。她在马里兰大学帕克分校获得博士学位。

图片

这里，给大家一个传送门：

https://lumalabs.ai/dream-machine/

赶紧开启自己的大片之旅吧！

对了，据隔壁桌爱玩文生视频的同事反映，她最爱的还是国产快手的“可灵”，吸引她的有三点：国产自研的，中国人更懂中国人；第二点是，大幅度的合理运动也可以生成；第三点就是时长可以高达2分钟，而且支持自由的宽高比。当然，据悉，可灵也采用了类Sora的技术架构。【对话OpenAI，Sora你还不对外开放？】

话说回来，大家更喜欢哪款？

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/