字节最新单图视频驱动成果X-Portrait 2:一键生成相同表情神态,效果逼真

开发
字节跳动智能创作团队近期推出最新单图视频驱动技术X-Portrait 2,基于前一代的X-Portrait研究成果,将人像驱动的表现力提升到了一个全新的高度。

单图视频驱动技术为创作富有表现力、逼真的角色动画和视频片段提供了一种成本极低且高效的方法:只需一张静态照片和一段驱动视频即可生成高质量、电影级的视频。

字节跳动智能创作团队近期推出最新单图视频驱动技术X-Portrait 2,基于前一代的X-Portrait研究成果,将人像驱动的表现力提升到了一个全新的高度。

该模型不仅能保留原图的ID,还能准确捕捉并逼真迁移从细微到夸张的表情和情绪,呈现高度真实的效果,大幅简化了现有动作捕捉、角色动画和内容创作流程。

项目网页:https://byteaigc.github.io/X-Portrait2/

整体方案

不同于以往依赖人脸关键点检测的单图驱动方法,X-Portrait 2构建了一个最先进的表情编码器模型,通过一种创新的端到端自监督训练框架,能够从大量人像视频中自学习ID无关的运动隐式表征。

进一步将这个编码器与强大的生成式扩散模型相结合,即可生成流畅且富有表现力的视频。

经过在大规模高质量表情视频上的训练,X-Portrait 2在运动表现力和ID保持性方面显著优于先前技术。

算法能够从驱动视频中提取不同颗粒度的表情特征(如挑眉、咬唇、吐舌、皱眉),并有效迁移到扩散模型,实现精准的表情动作控制,进而能实现驱动视频中人物情感的高保真迁移。

外观与运动解耦

在训练表情编码器时,为了让编码器关注驱动视频中与表情相关的信息,X-Portrait 2较好地实现了外观和运动的解耦。

通过为模型设计过滤层,编码器能有效过滤运动表征中的ID相关信号,使得即使ID图片与驱动视频中的形象和风格差异较大,模型仍可实现跨ID、跨风格的动作迁移,涵盖写实人像和卡通图像。

这使得X-Portrait 2能高度适应各种各样的应用场景,包括现实世界中的叙事创作、角色动画、虚拟形象以及视觉特效等。

技术对比

与前一代X-Portrait以及最近发布的 Runyway Act-One 等业界领先的方法相比,X-Portrait 2能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感,这些方面对于高质量的内容创作(比如动画和电影制作)至关重要。

安全说明

此工作仅以学术研究为目的,会严格规范模型的应用,防止恶意利用。文中使用的图片/视频,如有侵权,请联系作者及时删除。

责任编辑:庞桂玉 来源: 字节跳动技术团队
相关推荐

2023-02-09 15:37:04

AI技术

2024-04-16 07:10:46

大模型AI自动生成视频

2020-01-08 08:50:33

AI 数据人工智能

2024-09-12 14:00:00

AI训练

2024-01-11 12:45:12

AI训练

2024-06-18 12:31:34

模型生成

2023-04-10 15:44:06

AI图像

2019-10-11 11:00:53

Nginx神器前端

2024-07-15 12:27:08

2022-08-02 14:27:01

HDF驱动框架驱动开发

2024-03-15 14:34:12

Oracle数据库一键巡检

2023-04-03 10:04:44

开源模型

2011-06-28 16:01:15

Discuz! X2

2015-02-09 15:25:52

换肤

2023-05-19 13:15:15

视频分割

2024-01-08 13:49:00

2022-05-13 15:15:18

服务器OAuth2控制台

2023-12-19 15:45:07

Linux工具

2020-05-11 09:40:47

IDEA代码神器

2019-10-30 15:05:44

AI 数据人工智能
点赞
收藏

51CTO技术栈公众号