潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证

奥特曼说，Sora代表了视频生成大模型的GPT-1时刻。

从开年到现在，国内外、初创独角兽到互联网大厂，都纷纷投入视频生成领域，带来一个个新鲜模型的同时，视频、影视行业也随之发生巨变。

不可否认，当下的视频生成模型还遇到诸多问题，比如对空间、对物理规律的理解，我们都期待着视频生成的GPT-3.5/4时刻到来。

在国内，有这样一家从加速训练出发的初创公司，正在为此努力。

它就是潞晨科技，创始人尤洋博士毕业于UC伯克利，后赴新加坡国立大学担任校长青年教授。

今年潞晨科技在加速计算领域之外，开发视频生成模型VideoOcean，为行业带来更具性价比的选择。

在MEET 2025现场，尤洋博士也向我们分享这一年对于视频生成领域的理解与认知。

MEET 2025智能未来大会是由量子位主办的行业峰会，20余位产业代表与会讨论。线下参会观众1000+，线上直播观众320万+，获得了主流媒体的广泛关注与报道。

核心观点梳理

视频生成模型应该实现精细化文本控制、任意机位/任意角度、角色一致性、风格定制化
3年后或许就能迎来视频生成的GPT-3.5/GPT-4时刻
视频生成大模型的一个直接应用价值就是突破现实的限制，极大降低真实场景复现难度。

（为更好呈现尤洋的观点，量子位在不改变原意的基础上做了如下梳理）

3年后或是视频大模型的GPT-3.5时刻

今天非常开心来到量子位大会，非常开心和大家交流，今天讲一下我们在视频大模型领域做的一些工作。

首先是我和我的创业公司潞晨科技的介绍。我从UC伯克利毕业到新加坡国立大学任教，很荣幸创办了潞晨科技。

我们之前是做算力优化的。2018年谷歌打造了世界上第一个千卡集群TPU Pod，当时世界上最大的模型还是BERT。我们帮助谷歌，将（当时）世界上最大模型的训练时间从3天压缩到76分钟。

也很荣幸，去年华为盘古大模型的一个工作也是我们一起来做的，并获得了ACL最佳论文。我们的技术帮助华为盘古大模型在训练中更高效。微软、英伟达等公司团队也使用了我们的技术做一些分布式训练，我们希望让大模型训练更快、成本更低。

步入今天的话题，来重点介绍一下视频生成大模型。

我们打造了一个产品叫Video Ocean，现在正处在测试阶段。先来介绍一下产品，后面再探讨我觉得视频大模型将会如何发展。

首先，我觉得视频大模型第一个重要的方面是，它应该能够实现精细化的文本控制。

其实我们今天都在用AI去生成大模型了，我们肯定希望它能够精准反映出想要的东西。但很遗憾，比如现在用文生图APP去生成图片时，还是会发现很多图片内容无法做到精准控制，所以我认为这方面还有很大的发展空间。

在Video Ocean模型训练过程中，我们做了一些初步探索。一个比较好的例子，我们能够精准地提供一些描述，戴着墨镜，长的胡茬的欧洲男人。显而易见这个视频里面确实是我们想要的那个感觉，蓝天、海岸、沙滩、背光、单手持相机、黑色T恤，也有对着镜头说话。

我认为AI视频大模型未来3年可能最重要的还是实现视频大模型的Scaling Law。

这个过程不需要非常炫酷的产品能力，最重要的是把它的模型与现实世界的连接能力做到极致。我觉得最终形态就是人们说一段话、给一段描述，它能精准地把描述以视频的方式展示出来。

所以我觉得未来3年，AI视频大模型就像山姆·奥特曼说的那样，今天是Video的GPT-1时刻，可能3年后到视频大模型的GPT-3.5、GPT-4时刻。

这里展示一下Video Ocean的Demo，目前我们做到了这样的水平。

第二点是未来视频大模型怎样能够实现任意机位、任意角度。

现在拍电影、拍纪录片可以拿着手机、摄像机不断地晃，想怎么晃就怎么晃，这样是对镜头有真实控制的。未来AI视频大模型，首先应该做到这一点，同样的描述，换一下角度、换一个镜头，它的形象是不应该改变的，它就是同样一个物体。

更进一步讲，未来AI视频大模型还能颠覆很多行业。比如现在看足球、看篮球赛，我们看到的镜头是现场编导给我们看的镜头。他给我们看远景、近景。

未来能不能依靠AI视频大模型，人来控制镜头，决定想要看哪，相当于在体育场里可以瞬间移动，移动到教练席、最后一排、第一排。任意机位、任意角度的控制。我觉得未来AI视频大模型在这方面也是非常关键的，当然当然Video Ocean现在做了一些尝试，初步效果还是不错的。

我觉得第三点重要的是角色一致性。

因为做出AI视频大模型，最终肯定是需要产生营收、实现变现的。谁会愿意为这个付费，比如广告工作室、广告商、电商博主、影视行业。如果深入这些行业的话，一个关键点是角色一致性。

比如一个产品的广告，肯定从头到尾这个视频中的衣服、鞋、车，样貌不能有太大变化，物体角色保持一致性。

拍一部电影，从开头到结尾，主演的样貌、关键配角的样貌肯定也不能变化，在这方面Video Ocean也做一些很好的探索。

再一个是风格的定制化。我们知道现在演员人工成本是非常贵的，道具成本也很高。

未来3年之内，如果AI视频大模型正常发展，我感觉会有一种需求，比如一个导演可以让一个演员在游泳池里拍一段戏，然后拿到素材通过AI将它转成泰坦尼克场景下的游泳，转成阿凡达场景下的游泳，这种能力反而是AI最擅长的。赋予电影感、艺术感的画面。

总之大模型一个直接的应用价值就是突破现实的限制，能够极大降低真实场景复现的难度。

可能之前大家听过一个段子，好莱坞导演想制造一个爆炸镜头，他算了一下预算，第一种方案是盖一个城堡把它炸掉，第二个方案是用计算机模拟这个画面。成本算下来之后，发现这两种方案的成本都很高，当时用计算机模拟的成本更高，现在AI就是要大幅降低大模型对于生成电影的成本。

如果这一点实现后，我们可以不受场地、天气等外部因素的限制，并减少对真实演员的依赖。这倒不是抢演员的饭碗，因为一些关键镜头是非常危险的，比如演员跳飞机、跳楼，演员去解救即将引爆的炸弹之类，这种镜头未来只需要演员的身份和肖像权，AI可以把这样的镜头做好，所以对电影行业能够极大做到降本增效。

正如昆仑万维方汉老师刚才说的，虽然我们的计算资源有限，但是我们发现通过更好的算法优化确实能够训出更好的效果，比如Meta使用6000多个GPU训练30B的模型，最近我们会在一个月内发一个10B版的模型，我们仅用了256卡。

Video Ocean前身是我们团队先打造了一个Open-Sora的开源产品，这个开源产品是完全免费的，在Github上，效果非常不错，比如美国独角兽Lambda labs做了一个火爆的应用数字乐高，其实这个数字乐高就是基于Open-Sora做的。

今年年初Sora出来之后，各种短视频巨头都对视频大模型这一块比较重视，比如中国的快手、抖音，美国就是Instagram、TikTok、SnapChat，这可以看到SnapChat的视频模型也在早些时候发布了，叫Snap Video，这是它的官方论文，他们就引用了我们训练视频大模型的技术，所以说这些技术也帮助一些巨头真正把视频大模型训得更快，精度更高，智能程度更高。

谢谢大家！

点击[阅读原文]或https://video.luchentech.com可体验Video Ocean更多详细能力

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

核心观点梳理

3年后或是视频大模型的GPT-3.5时刻