快手开源图生视频模型LivePortrait,等待生成时间仅需10秒,弃扩散改用隐式关键点框架技术,网友:强得可怕 原创
编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
快手开源了LivePortrait模型!
要知道,可灵的文生视频和图生视频功能不仅备受关注,还一路火到了海外。
这次开源的LivePortrait效果也十足惊艳!虽然驱动肖像生成视频的技术并不算新鲜,但还是靠效果征服了观众。
图片
网友直呼,“太可灵了”。根据推测,这个技术很可能已经在快影接入的可灵模型里应用了一段时间了。
毫无疑问,此次开源大大降低了拥有自己数字人的门槛!
更妙的是,网友尝试用开源的代码进行部署。发现生成10秒视频竟然也只需10秒,速度快得可怕。
超快的速度意味着LivePortrait的生成能力已经无限逼近实时。未来将可能在实时应用上大展拳脚,例如视频会议、社交媒体直播和实时游戏动画等场景。
可灵创作者群@guohunyo作品 项目地址,感兴趣的朋友请移步GitHub:
https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file
论文地址:
https://arxiv.org/pdf/2407.03168
读了这篇《LivePortrait:具有缝合和重定向控制的高效肖像动画》论文后,我们发现快手在LivePortrait模型上进行了许多创新和改进。
其中最引人关注的是:LivePortrait放弃了我们所熟知的扩散模型,而是采用了隐式关键点框架。
被网友昵称为:挤眉弄眼模型
1.隐式关键点框架:不止于快的秘诀
LivePortrait的架构包括多个关键组件:外观特征提取器、规范隐式关键点检测器、头部姿势估计网络、表情变形估计网络、扭曲场估计器和生成器。
这些组件协同工作,将源图像的特征与驱动视频的运动特征结合起来,生成最终的动画。
不同于此前走红的阿里的EMO,其使用了稳定扩散方案来生成视频,通过逐步引入和去除噪声在潜在空间中生成一帧帧图像。
LivePortrait的隐式关键点框架使用一组抽象的特征来表示图像。这些特征重点捕捉了图像的重要信息,例如面部特征、轮廓等。
生成人物动作和表情时,LivePortrait更不容易“崩坏”。这是因为关键点通常对应于面部的特定部位,如眼角、嘴角、鼻子等,这些关键点的位置和变化可以驱动面部表情和头部运动。
因此,隐式关键点框架具备良好的灵活性。通过操作关键点,模型可以更精确地控制面部动画的细节,实现平滑和逼真的过渡效果。
图片
上图:模型可以生动地对图像进行动画化,确保无缝拼接,并提供对眼睛和嘴唇运动的精确控制。
同时,关键点的方式使得模型的泛化能力也得到提升。通过学习关键点的运动模式,LivePortrait可以更好地泛化到新的、未见过的图像上。
而扩散模型通常需要更长的推理时间,因为逐步去噪的方法注定增多了生成步骤,使得生成每一帧图像的时间较长,无法达到“实时”效果。
2.训练方法和训练数据
在训练方法上LivePortrait的训练分成了两个阶段。
第一阶段,模型在没有任何预训练的权重下,从零开始全面训练,使用了8个NVIDIA A100 GPU,训练时间约为10天。使用了ConvNeXt-V2-Tiny作为主干网络,有助于减少模型的计算负担。
第二阶段,只训练缝合和重定向模块,而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间,特别是在处理多人肖像或全身图像时;而训练眼睛和嘴唇的重定向模块,以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。
在训练数据上,LivePortrait的训练数据规模扩展到了约6900万高质量的帧,训练数据包括各种姿势和表情的4K分辨率肖像视频,以及大量的头部谈话视频。
现在,训练数据的质量越来越受到重视。LivePortrait也使用了一些“巧思”确保数据的高质量。
首先,LivePortrait使用了KVQ等工具来排除低质量的视频片段。其次,在训练数据中,将长视频分割为不超过30秒的片段,确保每个片段只包含一个人,让模型更精准的学习一个人的表情活动。此外,数据十分注重身份多样性,使用的训练数据来自约18.9K个不同的身份,有效避免对特定身份的过拟合。
3.写在最后
图生视频技术正在跑步进入下一个阶段。
在此时,腾讯却突然宣布将“数字人”驱逐出视频号。腾讯计划通过修订《视频号橱窗达人“发布低质量内容”实施细则》来进一步限制使用数字人直播,将使用AI工具生成虚拟形象进行直播等行为明确列入低质量内容。
这无疑释放了一个信号:AI等技术生成内容带来的风险仍不可小觑,内容的不可控、直播“翻车”、误导消费者等等仍然是技术尚未解决的难题。
事实正在侧面印证这一观点,每当有社会新闻诞生时,就不乏好事者用当事人的图像生成煽动性的动态图像。
这很可能倒逼平台收紧生成政策,不断叠加敏感词,抱着“宁可错杀一千不能放过一个”的方式来对待用户的prompt。
图片
技术进步并非孤立发生。本身中性的技术如果被滥用,其影响可能深远且复杂。
在这样的背景下,我们不得不深思:公众的媒介素养应该如何提升,才能追得上技术的日新月异。这不仅关乎技术生态的健康发展,更关乎文明。
https://www.51cto.com/aigc/