鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星精华

发布于 2024-7-24 09:33

浏览

0收藏

离大谱！！不看视频完整版谁知道里面的美少女竟是一位大叔。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

好嘛，原来这是用了快手可灵团队的可控人像视频生成框架——LivePortrait。

LivePortrait开源即爆火，短短时间已在GitHub狂揽7.5K星标。

还引来HuggingFace首席战略官Thomas Wolf亲自体验：

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

甚至目前仍在HuggingFace全部应用里排在趋势第一：

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

所以，为啥LivePortrait能够疯狂引人关注?

还得从它让人眼前一亮的表现说起……

让表情“移花接木”

LivePortrait由快手可灵大模型团队开源，只需1张原图就能生成动态视频。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

先来看一组官方输出。

从最简单的开始，丢一张静态图像，LivePortrait可以让肖像眨眼、微笑或转头。

还可以施展“移花接木”，也就是将表情、动态等复制到其他人身上，还是不限风格（写实、油画、雕塑、3D渲染）和尺寸那种~

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

当然了，这种“魔法”不限于单人，搞个全家福也不是不行。[doge]

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

除了从静态图→视频，我们还可以让一个或多个视频实现“笑容增加术”。

比如提供一段宝宝没有表情的视频（最右侧），我们可以让宝宝按照参照视频wink或微笑。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

对了，不仅限于人物肖像，小猫小狗也能开始撒娇卖萌了。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

总之，LivePortrait可以实现人物表情精确控制，比如嘴角上扬的弧度，双眼放大程度都能开启自选。

举个栗子，下面这两个是不同参数设置下，人物眼睛大小的变化：

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

看来小说里的“三分凉薄,三分讥笑,四分漫不经心”也不是不能实现。[doge]

看完这些不知道你有没有心动，反正网友们整活儿的心是挡不住了。

比如配个灯光花式扮鬼脸，有恐怖片那味儿了:

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

再比如实时化身二刺猿：

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

看完这些例子，接下来我们挖一挖背后的技术原理。

爆火开源框架

和当前主流基于扩散模型的方法不同，LivePortrait探索和扩展了基于隐式关键点的框架的潜力。

具体而言，LivePortrait不依赖于图像中明确可见的标记或特征点，而是通过学习数据集中的模式来隐式地推断出关键点的位置。

在此基础上，LivePortrait通过两个阶段从头开始训练模型。

先说第一阶段，LivePortrait对基于隐式点的框架（如Face Vid2vid），做了一系列改进。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

这些改进包括高质量数据整理、混合图像和视频训练、升级网络架构、可扩展运动变换、地标引导的隐式关键点优化以及级联损失项的应用等。

有了这些，模型的泛化能力、表达能力和纹理质量都能进一步提升。

再说第二阶段，通过贴合模块和重定向模块的训练，模型能够更精确地处理面部表情的细节。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

贴合模块通过跨身份动作训练增强泛化性，估计表情变化并优化关键点。

眼部和嘴部重定向模块则分别处理眼部和嘴部的变形变化，通过独立的目标函数计算像素一致性和正则损失，提升模型在复杂表情处理上的灵活性和精确度。

那么，LivePortrait具体表现如何呢？

研究显示，在同身份驱动对比结果中，与已有方法相比，LivePortrait具有较好的生成质量和驱动精确度，可以捕捉驱动帧的眼部和嘴部细微表情，同时保有参考图片的纹理和身份。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

且在跨身份驱动对比结果中同样表现较好，虽然在生成质量上略弱于基于扩散模型的方法AniPortrait。但与后者相比，LivePortrait具有极快的推理效率且需要较少的FLOPs。

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

总之，在RTX 4090 GPU上，LivePortrait的生成速度达到了每帧12.8毫秒，显著高于现有的扩散模型方法。

One More Thing

补一条官方最新预告：可灵AI即将在全球范围内推出其服务。

Sora还没来，可灵这回倒是先走出去了~

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星-AI.x社区

LivePortrait体验地址：https://huggingface.co/spaces/KwaiVGI/LivePortrait
项目主页：https://liveportrait.github.io
论文：https://arxiv.org/abs/2407.03168

本文转自量子位，作者：量子位

原文链接:https://mp.weixin.qq.com/s/c1j07yctqMo8_6Pxt9MJcA

标签

赞

收藏

回复

举报

回复

相关推荐

超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

轻薄滴假象 • 2490浏览 • 0回复
GitHub突破1000星！上交、清华开源个性化联邦学习算法库PFLlib

zhangyannni • 2214浏览 • 0回复
AI大神Karpathy新项目刚上线就狂揽2.5k星

duhorse • 2088浏览 • 0回复
SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！

PaperAgent • 3323浏览 • 0回复
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

Crystalcxt • 1646浏览 • 0回复
快手「可灵」爆火：海外AI圈巨震，中国版Sora一号难求

轻薄滴假象 • 2839浏览 • 0回复
AI 视频战火：从 Sora 到快手可灵和 Luma 的新时代

wsp_ping • 2806浏览 • 0回复
口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

Crystalcxt • 1784浏览 • 0回复
快手「可灵」再进化！视频续写可达3分钟让全球网友炸锅

duhorse • 3107浏览 • 0回复
一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

Crystalcxt • 1532浏览 • 0回复
一张图生成绘画全过程，两天狂揽1.4k Star

轻薄滴假象 • 2149浏览 • 0回复
清华大学最新深度时序模型综述+5k star开源代码！

海因斯DK • 3453浏览 • 0回复
比OpenAI的Whisper快50%，最新开源语音模型

Aceryt • 1636浏览 • 0回复
最大可生成面数提升至1600，GitHub揽星1.9k项目发布V2版本

Crystalcxt • 1499浏览 • 0回复
又见神仙打架，全面超越快手可灵？智谱AI联合清华发布CogVideoX | 技术报告解析

angel • 2482浏览 • 0回复
可灵1.5模型新升级！行业首发人脸定制模型

51CTO技术栈 • 1602浏览 • 0回复
最新开源Auto-RAG：最低成本解决多跳问题

AIGC前沿技术追踪 • 2775浏览 • 0回复
10.1k高星 GitHub 库：告别JSON错误：Outlines如何提升大模型的结构化输出

凝固的雨_1 • 2650浏览 • 0回复
RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档

AI博物院 • 2221浏览 • 0回复

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

50

帖子

533

声望

5

粉丝

关注

最近发布

何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成 2025-02-26 11:59:41发布
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩 2025-02-14 13:02:21发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇： MSRA：视觉生成六大技术问题

下一篇： 30秒生成建模师级Mesh！最大可生成面数提升至1600，GitHub揽星1.9k项目发布V2版本

社区精华内容

目录

让表情“移花接木”
爆火开源框架
One More Thing

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载