谷歌“另辟蹊径”,展示AI视频生音频最新进展,效果惊艳!网友:但有一个缺点

原创 精选
人工智能
早前OpenAI发布会上令人惊艳的GPT-4o多模态通话功能,甚至更遥远的Sora,都没有让广泛的普通用户上手。苹果在刚刚过去的全球开发者大会中,发布的“苹果智能”被曝光分批上线,部分功能要到25年才能实现(更不用说大陆用户只会更晚)。

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

最近几周,文生视频领域正卷的风生水起。

可灵和Dream Machine相继推出。而后者充满趣味性的文生视频功能更是开启一阵续写“meme”的狂潮。

正当大家觉得文生视频的开路者Runway要一直沉寂下去的时候。

Runway突然上演了一波“王者归来”。展示了商用级别的生成视频,让人难辨是不是AI生成。

"一个悲伤的中年秃头男人变得快乐起来, 因为一顶卷发假发和太阳镜突然落在了他的头上"。"一个悲伤的中年秃头男人变得快乐起来, 因为一顶卷发假发和太阳镜突然落在了他的头上"。

画质惊艳的Runway,速度也不逊色,生成10秒钟视频才需要1分半左右的时间。

Runway重回巅峰又再次改变了文生视频的格局。

图片图片

正在大家在这边卷得不急乐乎的时候。

谷歌突然站了出来,开始给大家汇报他们的视频生音频(V2A)进展。

图片图片

谷歌的V2A已经可以为无声片段添加与场景声学相匹配的声音,为屏幕上的动作等伴奏。

干巴巴的视频片段从此有了bgm!

虽然部分案例中使用了文字辅助,但仍然相当惊艳,能看到AI对于视频内容以及场景中的感受理解得比较到位。

画面中男人穿过废弃工厂般的走廊,音乐突出了惊悚和紧张的氛围:

 给狼配上一段孤独的长啸声:

音频提示:"狼对月嚎叫"音频提示:"狼对月嚎叫"

音乐展现了落日骑马时,那种安逸与悠然的感觉:

草原上夕阳西下时 悠扬的口琴声响起草原上夕阳西下时 悠扬的口琴声响起

海洋水母自在浮沉时,海洋的声音:

水母在水下跳动 海洋生物 海洋水母在水下跳动 海洋生物 海洋

鼓声和欢呼声让人身临其境:

音乐会舞台上的鼓手 周围是闪烁的灯光和欢呼的人群"音乐会舞台上的鼓手 周围是闪烁的灯光和欢呼的人群"

谷歌的V2A的这股清流确实得到了网友的赞赏。

然而当一位网友询问,什么时候可以上手玩玩看的时候,被网友无情地回复道:等有人跳槽出来,把这个产品带出来我们就能玩啦!

图片图片

还有人说:这是谷歌,所以别再想着试一试了

图片图片

当前,观众的胃口已经越来越大。无法开箱即用的技术和产品将难以说服用户。

现在,无论OpenAI在社交平台上发布什么内容,都会收到无数用户“催更”GPT-5的消息。

但是,另一边。

早前OpenAI发布会上令人惊艳的GPT-4o多模态通话功能,甚至更遥远的Sora,都没有让广泛的普通用户上手。

苹果在刚刚过去的全球开发者大会中,发布的“苹果智能”被曝光分批上线,部分功能要到25年才能实现(更不用说大陆用户只会更晚)。

人们渴望AI的有趣与实用能够早一步的照进现实。否则,用户的期待会慢慢冷却,产品也终将沉于水中。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2023-07-17 10:21:25

TC39JavaScript

2009-09-25 09:27:33

Ubuntu 2010最新进展Lucid Lynx

2012-11-19 10:50:39

思杰CloudStack开源

2012-11-19 10:37:57

思杰OpenStack

2015-11-12 09:27:13

C++最新进展

2020-07-02 16:00:53

​Flutter桌面应用代码

2021-09-14 10:03:35

RustLinux开发工作

2021-09-16 10:15:56

Linux内核Rust

2023-04-06 07:30:02

2012-02-09 09:49:48

2009-03-23 08:44:29

Windows Ser微软操作系统

2014-06-17 09:58:15

容器Google

2023-04-19 20:30:49

Rust商标政策

2017-08-25 12:02:46

AI

2013-04-09 17:27:19

GMIC球移动互联网大会

2021-06-15 14:54:23

ReactReact 18SSR

2023-04-26 16:38:08

点赞
收藏

51CTO技术栈公众号