快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕原创

51CTO技术栈

发布于 2024-7-5 15:05

浏览

0收藏

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

快手开源了LivePortrait模型！

要知道，可灵的文生视频和图生视频功能不仅备受关注，还一路火到了海外。

这次开源的LivePortrait效果也十足惊艳！虽然驱动肖像生成视频的技术并不算新鲜，但还是靠效果征服了观众。

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕-AI.x社区图片

网友直呼，“太可灵了”。根据推测，这个技术很可能已经在快影接入的可灵模型里应用了一段时间了。

毫无疑问，此次开源大大降低了拥有自己数字人的门槛！

更妙的是，网友尝试用开源的代码进行部署。发现生成10秒视频竟然也只需10秒，速度快得可怕。

超快的速度意味着LivePortrait的生成能力已经无限逼近实时。未来将可能在实时应用上大展拳脚，例如视频会议、社交媒体直播和实时游戏动画等场景。

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕-AI.x社区可灵创作者群@guohunyo作品项目地址，感兴趣的朋友请移步GitHub：

https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file

论文地址：

https://arxiv.org/pdf/2407.03168

读了这篇《LivePortrait：具有缝合和重定向控制的高效肖像动画》论文后，我们发现快手在LivePortrait模型上进行了许多创新和改进。

其中最引人关注的是：LivePortrait放弃了我们所熟知的扩散模型，而是采用了隐式关键点框架。

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕-AI.x社区被网友昵称为：挤眉弄眼模型

1.隐式关键点框架：不止于快的秘诀

LivePortrait的架构包括多个关键组件：外观特征提取器、规范隐式关键点检测器、头部姿势估计网络、表情变形估计网络、扭曲场估计器和生成器。

这些组件协同工作，将源图像的特征与驱动视频的运动特征结合起来，生成最终的动画。

不同于此前走红的阿里的EMO，其使用了稳定扩散方案来生成视频，通过逐步引入和去除噪声在潜在空间中生成一帧帧图像。

LivePortrait的隐式关键点框架使用一组抽象的特征来表示图像。这些特征重点捕捉了图像的重要信息，例如面部特征、轮廓等。

生成人物动作和表情时，LivePortrait更不容易“崩坏”。这是因为关键点通常对应于面部的特定部位，如眼角、嘴角、鼻子等，这些关键点的位置和变化可以驱动面部表情和头部运动。

因此，隐式关键点框架具备良好的灵活性。通过操作关键点，模型可以更精确地控制面部动画的细节，实现平滑和逼真的过渡效果。

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕-AI.x社区图片

上图：模型可以生动地对图像进行动画化，确保无缝拼接，并提供对眼睛和嘴唇运动的精确控制。

同时，关键点的方式使得模型的泛化能力也得到提升。通过学习关键点的运动模式，LivePortrait可以更好地泛化到新的、未见过的图像上。

而扩散模型通常需要更长的推理时间，因为逐步去噪的方法注定增多了生成步骤，使得生成每一帧图像的时间较长，无法达到“实时”效果。

2.训练方法和训练数据

在训练方法上LivePortrait的训练分成了两个阶段。

第一阶段，模型在没有任何预训练的权重下，从零开始全面训练，使用了8个NVIDIA A100 GPU，训练时间约为10天。使用了ConvNeXt-V2-Tiny作为主干网络，有助于减少模型的计算负担。

第二阶段，只训练缝合和重定向模块，而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间，特别是在处理多人肖像或全身图像时；而训练眼睛和嘴唇的重定向模块，以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。

在训练数据上，LivePortrait的训练数据规模扩展到了约6900万高质量的帧，训练数据包括各种姿势和表情的4K分辨率肖像视频，以及大量的头部谈话视频。

现在，训练数据的质量越来越受到重视。LivePortrait也使用了一些“巧思”确保数据的高质量。

首先，LivePortrait使用了KVQ等工具来排除低质量的视频片段。其次，在训练数据中，将长视频分割为不超过30秒的片段，确保每个片段只包含一个人，让模型更精准的学习一个人的表情活动。此外，数据十分注重身份多样性，使用的训练数据来自约18.9K个不同的身份，有效避免对特定身份的过拟合。

3.写在最后

图生视频技术正在跑步进入下一个阶段。

在此时，腾讯却突然宣布将“数字人”驱逐出视频号。腾讯计划通过修订《视频号橱窗达人“发布低质量内容”实施细则》来进一步限制使用数字人直播，将使用AI工具生成虚拟形象进行直播等行为明确列入低质量内容。

这无疑释放了一个信号：AI等技术生成内容带来的风险仍不可小觑，内容的不可控、直播“翻车”、误导消费者等等仍然是技术尚未解决的难题。

事实正在侧面印证这一观点，每当有社会新闻诞生时，就不乏好事者用当事人的图像生成煽动性的动态图像。

这很可能倒逼平台收紧生成政策，不断叠加敏感词，抱着“宁可错杀一千不能放过一个”的方式来对待用户的prompt。

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕-AI.x社区图片

技术进步并非孤立发生。本身中性的技术如果被滥用，其影响可能深远且复杂。

在这样的背景下，我们不得不深思：公众的媒介素养应该如何提升，才能追得上技术的日新月异。这不仅关乎技术生态的健康发展，更关乎文明。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

标签

快手

开源图

视频模型

相关推荐

超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 1217浏览 • 0回复
CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

轻薄滴假象 • 789浏览 • 0回复
微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

Crystalcxt • 1801浏览 • 0回复
港大开源图基础大模型OpenGraph: 强泛化能力，前向传播预测全新数据

Crystalcxt • 1360浏览 • 0回复
10 秒让 KimiChat 给你画个流程图

wsp_ping • 3934浏览 • 0回复
时间序列预测近期核心研究点总结

海因斯DK • 2645浏览 • 0回复
库里杜兰特“合舞”科目三，腾讯混元团队全新图生视频模型来了

Crystalcxt • 1389浏览 • 0回复
谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

duhorse • 1484浏览 • 0回复
北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

Crystalcxt • 1493浏览 • 0回复
单图创造虚拟世界只需10秒！斯坦福&MIT联合发布WonderWorld：高质量交互生成

angel • 1375浏览 • 0回复
时间序列预测+NLP大模型新作：为时序预测自动生成隐式Prompt

海因斯DK • 1565浏览 • 0回复
Stability.ai开源3D模型，仅需0.5秒就能快速生成

Aceryt • 1512浏览 • 0回复
视频生成更高质量，更连贯！关键帧插值创新技术——Generative Inbetweening开源

angel • 1382浏览 • 0回复
快手、北大开源，超高清10秒、24帧视频模型

Aceryt • 661浏览 • 0回复
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

angel • 926浏览 • 0回复
16帧1024×1024视频耗时仅16秒！64倍压缩助力高效视频生成：复旦&微软发布Reducio-DiT

angel • 1071浏览 • 0回复
Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

51CTO技术栈 • 1435浏览 • 0回复
文字秒变视频，附技术细节

云原生AI百宝箱 • 610浏览 • 0回复
仅128个token达到ImageNet生成SOTA性能！MAETok:有效的扩散模型的关键是什么？(卡内基梅隆&港大等)

angel • 402浏览 • 0回复

51CTO技术栈

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂