字节视频生成新突破!Phantom搞定多人物/主体一致性

人工智能 新闻
Phantom在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。

视频生成模型当中已经不缺强者了,但保持多主体一致性依然是一项重大挑战。

字节智能创作团队专门针对这个问题,推出了主体一致性视频生成模型Phantom(“幻影”)。

Phantom在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。

图片

无论是人物、物品、服装、动物,还是充满奇幻色彩的虚拟角色,它都能精准抓取其关键特征,并自然地融入生成的视频中。

比如下面这段视频当中,“幻影”就结合了场景、服装、配饰等要素,原创出了“歌剧魅影”的片段:

精准抓取关键特征,视频融合更自然

身份保持视频生成

借助面部参考图像,Phantom生成的视频不仅能严格锁定主体的身份特征,还能依据丰富多样的提示词,演绎出各种精彩内容。

例如,上传一张人物照片,模型会以此为蓝本,生成该人物在不同场景下说话、行动的视频。

人物的面部轮廓、五官细节以及独特的表情神态,都能被高度还原,仿佛照片中的人物“活”了过来,在屏幕上真实地演绎着各种故事。

单参考主体视频生成

只需一张参考图像,无论是可爱小动物的萌态瞬间,还是时尚服装的独特魅力,亦或是神秘虚拟角色的奇幻冒险,Phantom都能精准捕捉主体的细节,将其生动地呈现在视频中。

还有下面的小狗照片,Phantom可以呈现它在温馨的房间里欢快奔跑的可爱模样,柔软的毛发、灵动的眼神和俏皮的神态,都被细腻地刻画出来,让人仿佛能感受到活泼与快乐。

多参考主体视频生成

Phantom支持同时上传多张参考图像,这一强大功能使得复杂交互场景的视频生成成为可能。

在群体场景创作中,只需上传多个人物的照片,就能让他们在视频中自然地聊天。

在一些产品展示的场景,结合产品图片和相关场景图片,Phantom能生成非常具有吸引力的产品展示视频,将产品的特点和优势完美呈现,为产品推广注入强大动力。

虚拟试穿场景,只需上传服装和人物照片,就能看到人物身着该服装的动态效果,这有望为电商行业带来全新的营销模式,让消费者的购物体验更加直观和有趣。

总之,Phantom在和一众领先的商业化工具对比中,从视频质量,文本响应,主体一致性等多个维度处于优势,尤其在人脸ID一致性方面的评估领先。

图片

图片

基于主体的DiT视频生成方案

目前,基础视频生成模型主要集中在两个主要任务——文本生成视频(Text-to-Video,T2V)和图像生成视频(Image-to-Video,I2V)。

视频生成T2V利用语言模型来理解输入文本指令,并生成描述预期角色、动作和背景的视觉内容。

尽管它允许创造性和富有想象力的内容组合,但由于固有的随机性,往往难以生成一直符合预期的结果。

另一方面,I2V通常是提供图像的首帧以及可选的文本描述,以将静态图像转化为动态视频。

虽然更具可控性,但内容的丰富度往往受到首帧“复制粘贴”性质的限制。通过从图像中捕捉主体并根据文本提示灵活生成视频。

Phantom是一个基于DiT的视频生成框架,它的主要意图是实现主体到视频的生成(Subject-to-video,S2V)。

其本质在于平衡文本和图像这两种模式的提示,要求模型同时对齐文本指令和参考图像内容。

从而既满足T2V所发挥创造性的优势,又不像I2V生成的视频限制为输入图的延展。

图片

具体来说,数据层面Phantom通过构建文本-图片-视频三元组数据,让模型学习不同模态之间的对齐。

为了缓解类似I2V生成视频“复制粘贴”输入图的问题,通过匹配不同视频中的主体元素,并过滤掉具有高度视觉相似性的对象来构建交叉配对数据。

交叉配对数据可以来自同一长视频的不同片段,也可以来自数据库中检索参考对象。这些主体元素主要包括人、动物、物体、背景等等。

此外,多个元素之间的交互可以进一步对场景进行分类,例如多人交互、人与宠物交互、人与物体交互。

模型层面,Phantom继承自MMDiT的架构。

在输入头部分,视频编码器和文本编码器分别继承自基模权重,将输入视频和文本prompt分别编码得到相应的latent feature。

为了不影响MMDiT本身的结构,参考图被特定视觉编码器编码,然后分别与视频特征和文本特征拼接,并分别输入到MMDiT的vision branch和text branch进行计算。

团队简介

智能创作团队是字节跳动AI&多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、即梦等公司内众多产品线;

同时通过火山引擎为外部ToB合作伙伴提供业界最前沿的智能创作能力与行业解决方案。

文中示例仅为展示模型效果。如有侵权或冒犯,请联系论文作者,将及时删除。
E-mail:libingchuan@bytedance.com

论文链接:
https://arxiv.org/abs/2502.11079项目网站:
https://phantom-video.github.io/Phantom/
代码网址:
https://github.com/Phantom-video/Phantom

责任编辑:张燕妮 来源: 量子位
相关推荐

2024-01-22 08:59:00

AI

2017-07-25 14:38:56

数据库一致性非锁定读一致性锁定读

2024-11-26 17:56:38

2022-12-14 08:23:30

2021-02-05 08:00:48

哈希算法​机器

2021-02-02 12:40:50

哈希算法数据

2024-09-24 15:51:02

2024-12-05 14:20:00

模型AI

2020-11-24 09:03:41

一致性MySQLMVCC

2020-05-12 10:43:22

Redis缓存数据库

2022-03-22 09:54:22

Hash算法

2021-06-30 21:13:49

CPUCache数据

2022-10-19 12:22:53

并发扣款一致性

2021-02-04 06:30:26

Python编程语言

2020-03-16 11:55:28

PaxosRaft协议

2017-05-19 15:00:05

session架构web-server

2017-07-02 16:28:06

MySQL数据库集群

2022-11-10 07:49:09

hash算法代码

2020-07-20 08:30:37

算法哈希分布式系统
点赞
收藏

51CTO技术栈公众号