通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致-51CTO.COM

视频生成模型评测权威榜单VBench，突遭“屠榜”。

这个突然杀出来的模型，就是中国电信人工智能研究院（TeleAI）刚刚发布的视频大模型（VBench上的代号为TeleAI-VAST）。

而且16项子指标有9项都是第一，大幅领先第二名。

其中更是有5项得分超过99%，并在物体分类和人体动作两项拿了满分100%。

来看一段样片：

这段短片中，四位女主角为寻找宝石，分别踏上了各自的冒险之旅。

具体细节不展开太多，但关键之处在于，每个人物在各自的分镜中，形象都和开头的合影保持了一致。

要知道对于视频生成来说，保持单个人物的前后一致就已经不是一件容易的事，TeleAI视频生成大模型却一下处理了四个。

人物动作精准控制，还有音画同步

除了开头三分钟的宣传片，TeleAI展示了另外几段作品。

第一段视频中，女主角先后出现在公交车、马路、酒吧吧台和座位四个不同的场景。

在这四个场景中，人物的外貌、发型、衣着全都保持了一致，画面整体的色调风格也很统一。

这说明，TeleAI视频生成大模型已经实现了不同的场景变化下主体的时空一致性。

接下来的这段画面里，两只猴王展开了一场近距离对战，期间的人物动作、镜头跟随，都已经呈现出了电影级的水准。

如果细节再继续打磨优化，拿来拍电影指日可待。

人物特征、时空一致性和动作精准性都有了，还能再做些什么呢？

目前的视频生成模型大多生成的都是默片，这次TeleAI把声音也加进来了。

先看视频：

从视频中可以看到，TeleAI视频生成大模型生成的声音，不是单纯地来上一段音乐那么简单。

仔细听会发现，舰船的鸣笛声、飞机起飞的轰鸣声、潜水艇的水声，以及最后火箭冲出水面的声音，都与画面中看到的内容做到了同步。

也就是说，TeleAI视频生成大模型作品中体现的一致性，已经跨越模态了。

不仅效果和成绩优秀，TeleAI视频生成大模型的技术架构也十分独特。

它没有采用传统的路径，而是全自研了一个“二阶段视频生成技术”——VAST（Video As Storyboard from Text）。

TeleAI团队没有选择一步到位，而是将视频的生成分解成了两个过程。

在第一阶段，采用多模态大型模型根据文本输入生成中间素材，包括姿势、分割图和深度信息。

TeleAI团队把这些中间表示称作“故事板”，是模型能够体现场景语义和结构本质的关键。

第二阶段，才是真正的视频生成。

利用基于DiT架构的扩散模型，TeleAI以这些表示为条件，结合目标对象的文本描述和外观信息，生成最终的视频。

这种分段式的方式，使得生成视频时能够精确控制主体的位置、运动和视觉外观。

而且，TeleAI视频生成大模型不仅能在模型上分“阶段”，还可以把视频按场景分成“片段”。

当创作者想要生成一段长视频时，视频生成工具可以先设计具体的分镜头，开头3分钟的视频就是用这种方法创作出来的。

针对每一个分镜，生成具有一致性的生成中间素材，这些中间素材不仅作用于模型内部，对创作者也是可见的，甚至还能进行调整修改。

因为对片段进行了划分，所以，只要在每个片段中都能保持人物一致性，可以生成的视频长度将是无限长。

中国电信介绍，本次发布的视频生成大模型将于明年开启公测，可以期待一波新鲜的AI大片了。

此次亮相的视频生成大模型，是TeleAI整个大模型布局中的一个环节。

此前，TeleAI已经自主了研发覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。

星辰大模型在央企中唯一开源，还完成首个全国产化万卡万参大模型训练，并打造业界首个支持40种方言自由混说的语音识别大模型。

基础模型之外，TeleAI还面向工业、教育等领域推出50多个场景大模型，并构建了“星海”数据智能中台，形成了9万亿Tokens高质量数据集。

在使用方式上也另辟蹊径，甚至推出了发短信和大模型对话的功能。

除了模态、场景、数据和使用方式，TeleAI也全新推出了大模型智能体平台，与视频生成大模型一同登上TeleAI开发者大会。