EchoMimic V2:AI 数字人的新里程碑!首次实现身体动作口型全同步!

人工智能
如果你对 AI 数字人、AI配音、AI动画等制作感兴趣,那么EchoMimic V2绝对是一个不容错过的工具!

EchoMimic V2是阿里达摩院开源的一款基于音频驱动的肖像动画生成工具。

这一工具不仅能让虚拟形象开口说话,实现口型同步,还能在音频驱动下添加头部和身体动作,将数字形象的表现力提升到一个全新的高度。

如果你对AI数字人、AI配音、AI动画等制作感兴趣,那么EchoMimic V2绝对是一个不容错过的工具!

主要特点

(1) 音频驱动的半身人物动画

  • 支持通过音频驱动生成逼真的半身人物动画效果,适用于多种应用场景,如数字人直播、虚拟主播、视频编辑、AI配音等。
  • 实现音频驱动的人物说话、表情和肢体动作的协调一致。

(2) 引人注目的动作表现力

通过新颖的音频姿势动态协调策略,包括姿势采样和音频扩散,增强半身细节、面部和手势表现力。

(3) 简化的生成流程:

减少条件冗余,简化生成流程,提高模型的实用性和灵活性。

实现策略

(1) Audio-Pose Dynamic Harmonization策略:

  • Pose Sampling:通过姿态采样技术,增强半身细节和面部及手势的表现力。
  • Audio Diffusion:利用音频扩散技术,进一步提升动画的自然性和连贯性。

(2) Head Partial Attention:

为了弥补半身数据的稀缺,使用头部部分注意力机制,将头像数据无缝集成到训练框架中。在推理阶段,这一部分可以被省略,从而提供一个“免费午餐”给动画生成。

(3) Phase-specific Denoising Loss:

设计了特定阶段的去噪损失函数,分别指导动画在不同阶段的运动、细节和低层次质量。

核心亮点

(1) 数字人全方位进化

相比 V1 仅支持数字人,V2 将动画范围扩展到自定义人物,提供从头部到身体的完整动画表现:

  • 表情与嘴型同步:输入一段音频,即可让虚拟角色匹配语音内容精准“开口说话”。通过音频驱动,实现口型与语音内容的高度同步,使虚拟角色的对话更加自然和真实。
  • 头部与手势动作:通过参考手势视频生成连贯自然的动作效果。不仅限于面部表情,还包括头部和手势动作,打造更具沉浸感的数字人。动作流畅、自然,增强了虚拟角色的表现力和互动性。

(2) 简单易用

只需提供以下三项内容,即可轻松生成高质量动画:

  • 参考图像:用户上传任意照片作为虚拟角色的基础。参考图像可以是任意人物的照片,系统会根据该图像生成相应的虚拟角色。
  • 音频剪辑:用于驱动嘴型和表情动画。输入的音频内容将直接影响虚拟角色的口型和表情,确保动画与语音内容的高度一致。
  • 手势视频:为动画添加丰富的身体动作与动态细节。手势视频可以是任何包含手势动作的视频片段,系统会参考这些动作生成自然的身体动作。

快速上手

(1) 硬件要求

  • 英伟达显卡:建议使用16GB显存,较小的显卡也能运行,但是性能会有所下降。
  • Python版本:需要Python 3.10及以上版本。

(2) 部署步骤

① 下载项目包:

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

② 设置python环境

  • 测试系统环境:CentOS 7.2 / Ubuntu 22.04
  • 测试GPU:A100(80G) / RTX4090D (24G) / V100(16G)
  • 测试Python版本:3.8 / 3.10 / 3.11

创建conda环境(推荐)

conda create -n echomimic python=3.10
conda activate echomimic

③ 安装依赖包

pip install pip -U
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
pip install -r requirements.txt
pip install --no-deps facenet_pytorch==2.6.0

 ④下载和配置ffmpeg-static

wget https://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar -xvf ffmpeg-release-64bit-static.tar.xz
export FFMPEG_PATH=$(pwd)/ffmpeg-4.4-amd64-static

⑤ 下载预训练权重模型

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

预训练权重目录结构

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── pose_encoder.pth
├── sd-vae-ft-mse
│   └── ...
├── sd-image-variations-diffusers
│   └── ...
└── audio_processor
    └── tiny.pt

⑥ 启动Gradio界面

python app.py

运行上述命令后,会启动一个Gradio界面。

  • 在Gradio界面上,可以上传一张参考图像(你自己的头像或任何人物照片)。
  • 上传一段音频剪辑,EchoMimic V2会根据音频制作出相应的口型同步动画。
  • 上传一段手势视频,系统会生成与音频相匹配的身体动作。
  • 系统将根据提供的参考图像、音频剪辑和手势视频生成完整的动画视频。

(3) 附录

  • GitHub仓库:https://github.com/antgroup/echomimic_v2
  • 在线Demo:https://huggingface.co/spaces/fffiloni/echomimic-v2

实例效果

责任编辑:赵宁宁 来源: 小喵学AI
相关推荐

2011-09-10 19:23:22

2011-09-09 13:42:16

2021-02-04 14:31:30

RISC-V架构GPU

2014-04-24 10:24:05

Cocos2d-xWinPhone8跨平台

2024-12-04 10:39:00

Linux内核技术性

2011-05-25 10:19:17

2016-09-29 09:46:41

JavascriptWeb前端

2022-03-21 15:23:43

AI研究抗体

2012-09-21 17:24:04

开源云平台开源云计算标准OpenStack

2021-12-30 10:46:28

AI 模型人工智能

2013-11-13 15:42:54

AndroidWPBlackBerry

2009-03-18 13:10:59

多核服务器MIPS

2024-02-19 08:04:58

网关云原生

2017-08-01 10:15:56

数据分析大数据

2012-01-13 13:50:46

博科100千兆以太网

2013-01-18 10:09:10

互联网网络发展拨号上网

2010-04-09 15:24:55

2015-12-21 16:12:06

红帽CloudForms混合云

2020-05-19 22:47:48

工业物联网IIoT技术

2013-10-21 10:38:19

Ubuntu 13.1Canonical
点赞
收藏

51CTO技术栈公众号