鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包精华

轻薄滴假象

发布于 2024-6-26 12:28

浏览

0收藏

日前，旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架，用户只需输入一张静态的肖像图片，以及一段视频（演讲、表情包、rap）文件，即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度，取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同，旷视 MegActor 将采用开源的方式，提供给开发者社区使用。MegActor 能够呈现出丝毫毕现的效果，面部细节更加丰富自然，画质更出色。

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

为了进一步展示其泛化性，MegActor 甚至可以让 VASA 里面的人物肖像和它们的视频彼此组合生成，得到表情生动的视频生成结果。

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

即使是对比阿里 EMO 的官方 Case，MegActor 也能生成近似的结果。

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

总的来说，不管是让肖像开口说话，让肖像进行唱歌 Rap，还是让肖像模仿各种搞怪的表情包，MegActor 都可以得到非常逼真的生成效果。

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

论文：https://arxiv.org/abs/2405.20851
代码地址：https://github.com/megvii-research/megactor
项目地址：https://megactor.github.io/

MegActor 是旷视研究院的最新研究成果。旷视研究院，是旷视打造的公司级研究机构。旷视研究院旨在通过基础创新突破 AI 技术边界，以工程创新实现技术到产品的快速转化。经过多年发展，旷视研究院已成为全球规模领先的人工智能研究院。

在目前的人像视频生成领域，许多工作通常使用高质量的闭源自采数据进行训练，以追求更好的效果。而旷视研究院始终坚持全面开源，确保实际效果的可复现性。MegActor 的训练数据全部来自公开可获取的开源数据集，配合开源代码，使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的效果。

为了完全复刻原始视频的表情和动作，MegActor 采用了原始图像进行驱动，这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不同，能够捕捉到细致的表情和运动信息。

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-AI.x社区

旷视科技研究总经理范浩强表示，在 AI 视频生成领域，我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号，同时生成视频相较于原肖像的保真程度也不尽如人意。通过一系列研究发现，使用原视频进行驱动，不仅将帮助用户降低控制信号的门槛，更能生成更加保真且动作一致的视频。

具体来说，MegActor 主要由两个阶段构成：

使用了一个 ReferenceNet 对参考图像进行特征提取，负责得到参考图像的外观和背景等信息；
使用了一个 PoseGuider，对输入的视频进行运动和表情信息提取，负责将运动和表情信息迁移到参考图像上。

尽管相较于使用音频或 landmark 等表示方式，使用原始视频进行驱动能带来更加丰富的表情细节和运动信息。然而，使用原始视频进行驱动依然存在两大核心技术挑战：一是 ID 泄露问题；二是原始视频中的背景和人物皱纹等无关信息会干扰影响合成表现。

为此，MegActor 开创性地采用了条件扩散模型。首先，它引入了一个合成数据生成框架，用于创建具有一致动作和表情但不一致身份 ID 的视频，以减轻身份泄露的问题。其次，MegActor 分割了参考图像的前景和背景，并使用 CLIP 对背景细节进行编码。这些编码的信息随后通过文本嵌入模块集成到网络中，从而确保了背景的稳定性。

在数据训练方面，旷视研究院团队仅使用公开的数据集进行训练，处理了 VFHQ 和 CeleV 数据集进行训练，总时长超过 700 小时。同时，为了避免 ID 泄露问题，MegActor 还使用换脸和风格化方法 1:1 生成合成数据，实现表情和动作一致、但 ID 不一致的数据。此外，为了提高对大范围动作和夸张表情的模仿能力，团队使用注视检测模型对数据进行处理，获取大约 5% 的高质量数据进行 Finetune 训练。

通过采用一系列新的模型框架和训练方法，旷视研究院团队仅使用了不到 200 块 V100 显卡小时的训练时长，最终实现的具体特性包括：

可以根据输入的视频生成任意持续时间的模仿视频，同时保证角色身份的一致性
支持各种驱动视频，如演讲、唱歌、表情包等
支持不同的画风（照片、传统绘画、漫画、AI 数字人等）

与音频生成的方法相比，MegActor 生成的视频，不仅能确保表情和动作一致，更能达到同样的自然程度。

目前，MegActor 已经完全开源，供广大开发者和用户即开即用。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/xRsi-jyigd8XuykNoA4h3Q

标签

赞

收藏

回复

举报

回复

相关推荐

OpenAI首次展示音频模型Voice Engine，生成的声音太逼真了！

Aceryt • 2849浏览 • 0回复
一张照片+音频即可生成数字人

duhorse • 1885浏览 • 0回复
人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

轻薄滴假象 • 2792浏览 • 0回复
阿里巴巴AI研究团队打破视频生成技术壁垒，EasyAnimate实现高质量长视频生成

Syrupup • 3513浏览 • 0回复
长视频生成速度提升100倍！新加坡国立提出Video-Infinity：分布式长视频生成

angel • 2536浏览 • 0回复
北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式！

angel • 2115浏览 • 0回复
字节等提出人像服饰、卡通表情编辑新SOTA！

angel • 2028浏览 • 0回复
视频生成要有自己的系统！尤洋团队历时半年开源VideoSys

轻薄滴假象 • 1945浏览 • 0回复
长视频生成又有重大突破！DreamFactory：一致、连贯且引人入胜的长视频生成框架

angel • 7479浏览 • 0回复
Open-Sora 1.1 解读：完全开源的高效复现类Sora视频生成方案！

angel • 2082浏览 • 0回复
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

angel • 2110浏览 • 0回复
OpenAI 发布 Sora：最受期待的 AI 视频生成工具

Halo咯咯 • 1594浏览 • 0回复
击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天

51CTO技术栈 • 2631浏览 • 0回复
腾讯的混源视频模型HunyuanVideo：大视频生成模型训练的系统框架

Halo咯咯 • 2201浏览 • 0回复
Google 发布了用于视频生成的最先进的“Veo 2”和用于图像创建的“Improved Imagen 3”

Halo咯咯 • 1738浏览 • 0回复
LLM合集：视频生成新王炸！Step-Video-T2V，全方位碾压开源与商业模型

AIPaperDaily • 1584浏览 • 0回复
开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型

angel • 2665浏览 • 0回复
DeepSeek太给力了！自家的大模型秘方开源到底！国产大模型雄起

51CTO技术栈 • 2146浏览 • 0回复
今天的智谱，燃炸了！

51CTO技术栈 • 283浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价 2025-02-27 12:40:06发布
全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍 2025-02-21 13:20:31发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

大半精锐尽出！o1下线！满血o3之后，模型本身就是Manus，最大卖点：替代人干真活！ 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

上一篇：耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

下一篇：史上首个实时AI视频生成技术：DiT通用，速度提升10.6倍

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载