谷歌发布超强AI视频编辑工具!施展魔法的VLOGGER,音频加图片就搞定唇形和手势,还把表情编辑玩出花了!

译文 精选
人工智能
毫无疑问VLOGGER的视频留下了令人印象深刻的亮点。如讲话时自然的身体姿势,增加手部运动以在一定程度上提升了视频的真实感。

编译丨伊风

出品 | 51CTO技术栈(微信号:blog51cto)

视频生成模型的脚步永不停歇!

图片图片

4月2日,谷歌刚刚发布了强到可怕的AI视频编辑工具VLOGGER。VLOGGER就像收集了很多视频生成领域的前沿AI技能,而打造出的一款百宝箱。其中也有一些亮点细节,例如通过AI编辑,将让画面中讲话者的闭眼、闭嘴、甚至“wink”。

这意味着视频编辑在细节的深入上又精进了一个level!

VLOGGER的工作原理即输入音频和图像, 由“读唇器”根据音频预测说话者的动作,而“动画器”根据说话者的照片和动作细节创建视频帧。

图片图片

要知道VLOGGER这个百宝箱里都装了什么,可以跟随以下示例来看!

1.VLOGGER的多面能力

基础的图生视频功能

将图片驱动为一段视频。

图片图片

多语种唇形切换

输入一种语言的视频和另一种语言的音频,它能根据新输入的语言调整说话者的嘴部动作!

顺便一提,OpenAI的VOICE ENGINE也在关注多语种的能力。可以根据一段音频生成一段保留原声音色及口音的外语视频,如果这些能力都能打通,那么音视频内容的出海将会畅通无阻。  

图片图片

表情细节编辑

VLOGGER使得表情编辑更进一步,例如单独控制一只眼睛等。通过使用工具,将生成新的面部表情和动作,用以提升视频的创意。 

图片图片

2.最终效果,进步了但未完全消除“恐怖谷”

图片图片

毫无疑问VLOGGER的视频留下了令人印象深刻的亮点。如讲话时自然的身体姿势,增加手部运动以在一定程度上提升了视频的真实感。然而,生成的表情和动作比起真实视频还存在机械感重、不流畅的问题,因此会存在一定的“恐怖谷”效应。

参考链接:https://twitter.com/hey_madni/status/1774832882902864327

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2024-03-20 12:27:48

模型训练

2023-08-10 08:38:57

Project IDFlutter谷歌

2024-01-16 18:13:46

开源AudacityAI 工具

2011-02-25 11:13:22

JavaScriptWebStorm

2024-02-06 10:04:21

微软视频编辑工具

2022-04-16 12:38:39

CSS前端

2020-04-11 22:56:35

秀音频编辑工具Linux操作系统

2022-09-30 13:09:32

VSLookVS Code工具

2018-06-28 15:58:04

PDF

2023-06-25 14:55:28

编辑图片鸿蒙

2023-03-08 08:22:48

虚拟人AI作画表情迁移

2022-11-14 14:53:14

架构技术编辑工具

2023-12-12 08:26:11

ClipchampAI 自动创作AI 文本转语音

2012-01-17 09:03:06

IBM云托管协作

2023-04-14 13:52:09

AI视频

2024-03-28 13:14:00

数据训练

2023-02-28 14:36:58

开源图片编辑

2019-01-17 23:12:58

快手“萌面”KmojiAI技术

2022-01-09 15:00:16

LinuxAudacity声音编辑器

2023-02-06 16:59:57

Canvas编辑器
点赞
收藏

51CTO技术栈公众号