快手开源图生视频模型LivePortrait,等待生成时间仅需10秒,弃扩散改用隐式关键点框架技术,网友:强得可怕

原创 精选
人工智能
LivePortrait的架构包括多个关键组件:外观特征提取器、规范隐式关键点检测器、头部姿势估计网络、表情变形估计网络、扭曲场估计器和生成器。

编辑 | 伊风

快手开源了LivePortrait模型!

要知道,可灵的文生视频和图生视频功能不仅备受关注,还一路火到了海外。

这次开源的LivePortrait效果也十足惊艳!虽然驱动肖像生成视频的技术并不算新鲜,但还是靠效果征服了观众。

图片图片

网友直呼,“太可灵了”。根据推测,这个技术很可能已经在快影接入的可灵模型里应用了一段时间了。

毫无疑问,此次开源大大降低了拥有自己数字人的门槛!

更妙的是,网友尝试用开源的代码进行部署。发现生成10秒视频竟然也只需10秒,速度快得可怕。

超快的速度意味着LivePortrait的生成能力已经无限逼近实时。未来将可能在实时应用上大展拳脚,例如视频会议、社交媒体直播和实时游戏动画等场景。   

可灵创作者群@guohunyo作品 项目地址,感兴趣的朋友请移步GitHub:可灵创作者群@guohunyo作品 项目地址,感兴趣的朋友请移步GitHub:

https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file

论文地址:

https://arxiv.org/pdf/2407.03168

读了这篇《LivePortrait:具有缝合和重定向控制的高效肖像动画》论文后,我们发现快手在LivePortrait模型上进行了许多创新和改进。

其中最引人关注的是:LivePortrait放弃了我们所熟知的扩散模型,而是采用了隐式关键点框架。

被网友昵称为:挤眉弄眼模型被网友昵称为:挤眉弄眼模型


1.隐式关键点框架:不止于快的秘诀

LivePortrait的架构包括多个关键组件:外观特征提取器、规范隐式关键点检测器、头部姿势估计网络、表情变形估计网络、扭曲场估计器和生成器。

这些组件协同工作,将源图像的特征与驱动视频的运动特征结合起来,生成最终的动画。

不同于此前走红的阿里的EMO,其使用了稳定扩散方案来生成视频,通过逐步引入和去除噪声在潜在空间中生成一帧帧图像。

LivePortrait的隐式关键点框架使用一组抽象的特征来表示图像。这些特征重点捕捉了图像的重要信息,例如面部特征、轮廓等。   

生成人物动作和表情时,LivePortrait更不容易“崩坏”。这是因为关键点通常对应于面部的特定部位,如眼角、嘴角、鼻子等,这些关键点的位置和变化可以驱动面部表情和头部运动。

因此,隐式关键点框架具备良好的灵活性。通过操作关键点,模型可以更精确地控制面部动画的细节,实现平滑和逼真的过渡效果。

图片图片

上图:模型可以生动地对图像进行动画化,确保无缝拼接,并提供对眼睛和嘴唇运动的精确控制。

同时,关键点的方式使得模型的泛化能力也得到提升。通过学习关键点的运动模式,LivePortrait可以更好地泛化到新的、未见过的图像上。

而扩散模型通常需要更长的推理时间,因为逐步去噪的方法注定增多了生成步骤,使得生成每一帧图像的时间较长,无法达到“实时”效果。   

2.训练方法和训练数据

在训练方法上LivePortrait的训练分成了两个阶段。

第一阶段,模型在没有任何预训练的权重下,从零开始全面训练,使用了8个NVIDIA A100 GPU,训练时间约为10天。使用了ConvNeXt-V2-Tiny作为主干网络,有助于减少模型的计算负担。

第二阶段,只训练缝合和重定向模块,而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间,特别是在处理多人肖像或全身图像时;而训练眼睛和嘴唇的重定向模块,以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。

在训练数据上,LivePortrait的训练数据规模扩展到了约6900万高质量的帧,训练数据包括各种姿势和表情的4K分辨率肖像视频,以及大量的头部谈话视频。

现在,训练数据的质量越来越受到重视。LivePortrait也使用了一些“巧思”确保数据的高质量。

首先,LivePortrait使用了KVQ等工具来排除低质量的视频片段。其次,在训练数据中,将长视频分割为不超过30秒的片段,确保每个片段只包含一个人,让模型更精准的学习一个人的表情活动。此外,数据十分注重身份多样性,使用的训练数据来自约18.9K个不同的身份,有效避免对特定身份的过拟合。

3.写在最后

图生视频技术正在跑步进入下一个阶段。

在此时,腾讯却突然宣布将“数字人”驱逐出视频号。腾讯计划通过修订《视频号橱窗达人“发布低质量内容”实施细则》来进一步限制使用数字人直播,将使用AI工具生成虚拟形象进行直播等行为明确列入低质量内容。

这无疑释放了一个信号:AI等技术生成内容带来的风险仍不可小觑,内容的不可控、直播“翻车”、误导消费者等等仍然是技术尚未解决的难题。

事实正在侧面印证这一观点,每当有社会新闻诞生时,就不乏好事者用当事人的图像生成煽动性的动态图像。

这很可能倒逼平台收紧生成政策,不断叠加敏感词,抱着“宁可错杀一千不能放过一个”的方式来对待用户的prompt。

图片图片

技术进步并非孤立发生。本身中性的技术如果被滥用,其影响可能深远且复杂。

在这样的背景下,我们不得不深思:公众的媒介素养应该如何提升,才能追得上技术的日新月异。这不仅关乎技术生态的健康发展,更关乎文明。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2022-11-14 14:08:39

计算机模型

2009-09-02 15:37:26

Windows 7Windows XP操作系统

2024-03-20 12:27:48

模型训练

2023-10-11 12:32:26

模型训练

2023-12-20 14:54:29

谷歌Gen-2视频

2015-11-27 10:34:03

PHPJavaScript

2024-03-22 13:05:23

数据训练

2024-06-26 14:50:52

2023-10-29 22:25:23

模型AI

2021-05-06 09:12:29

AI 数据人工智能

2024-07-30 11:50:00

视频生成

2024-05-10 07:58:03

2024-12-10 15:30:00

AI模型

2022-08-19 14:46:16

视觉框架

2023-04-13 15:55:00

AI开源

2024-03-18 00:00:03

时间序列Prompt模型

2017-04-24 07:48:32

2023-12-27 14:06:00

模型训练

2023-12-20 15:26:13

AI谷歌
点赞
收藏

51CTO技术栈公众号