鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

轻薄滴假象

发布于 2024-6-18 13:28

浏览

0收藏

这几天，大洋彼岸杀疯了！

Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。（查看详情请移步：Runway 版 Sora 发布：高保真、超强一致性，Gen-3 Alpha 震撼到网友了）

更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强调，所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐，脚步声在混凝土上回响。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

黑灯瞎火的废弃仓库中，一个黑衣人犹如鬼魅般缓行，再配上诡异的音乐和脚步声，恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。（Wolf howling at the moon）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

视频 Demo 一出，评论区清一水的追问：啥时候能用？

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

还有网友寄希望于开源社区当一回赛博菩萨，复制谷歌的这一视频生成语音技术。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

其实，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 就横插一脚，开源了一个上传视频自动配音的项目，可以为视频生成合适的音效。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

链接：

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化阶段，大小厂的你追我赶将会创造更加公平的竞争环境，而一旦这些技术成熟，AI 视频领域将会有无限可能。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

AI 视频告别无声电影

众所周知，视频生成模型正以惊人的速度发展。不过，无论是年初惊艳世人的 Sora，还是近期的可灵、Luma、Gen-3 Alpha，生成的全是「无声电影」，无一例外。

而 Google DeepMind 的视频生成音频 (V2A) 技术，使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示，为屏幕上的动作生成丰富的配音。

从技术应用上来说，V2A 技术能够与 Veo 等视频生成模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

它还能为档案材料、无声电影等传统影像生成音轨，拓宽创作的可能。

音频提示: 可爱的幼年恐龙在丛林中啁啾，伴随着蛋壳的破裂声。（Cute baby dinosaur chirps, jungle ambience, egg cracking）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

音频提示: 汽车打滑声、引擎轰鸣声，伴随着天使般的电子音乐。（cars skidding, car engine throttling, angelic electronic music）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

音频提示: 日落时分，草原上响起悠扬的口琴声。（a slow mellow harmonica plays as the sun goes down on the prairie）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音，或者「负向提示」来避免不期望的声音。

这种灵活性让用户对音频输出有了更多的控制，可以快速尝试不同的音频输出，并选择最佳匹配。

音频提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星在它周围划过，高速飞行，充满科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

音频提示：天籁般的大提琴氛围（Ethereal cello atmosphere）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

音频提示：一艘宇宙飞船在广袤的太空中高速穿梭，星星在它周围飞速掠过，具有科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

背后的工作原理

研究团队尝试了自回归和扩散方法，以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果，用于同步视频和音频信息。

V2A 系统首先将视频输入编码成压缩表示，然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导，生成与提示紧密对齐的同步、逼真音频。最终，音频输出被解码成音频波形，并与视频数据结合。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

为了生成更高质量的音频并引导模型生成特定声音，研究团队在训练过程中添加了更多信息，包括 AI 生成的注释，详细描述声音和对话文本。

通过在视频、音频和额外注释上的训练，该技术学会将特定的音频事件与各种视觉场景关联起来，同时响应注释或文本中提供的信息。

谷歌方面强调，他们的技术与现有的视频到音频解决方案都不同，因为它可以理解原始像素，并且添加文本提示是可选的。此外，该系统不需要手动对生成的声音与视频进行对齐，极大地简化了创作流程。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

不过，谷歌的这一技术也并非完美，他们仍在努力解决一些 bug。例如，视频输入的质量直接影响音频输出的质量，视频中的伪影或失真可能导致音频质量下降。

同时，他们也在优化唇形同步功能。

V2A 技术尝试从输入文本中生成语音，并将其与角色的口型动作进行同步，但若视频模型未针对文本内容进行相应的调整，就可能导致口型与语音不同步。他们正改进这一技术，以提升唇形同步的自然度。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-AI.x社区

音频提示：音乐，文本转录「这只火鸡看起来好极了，我好饿。」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）

或许是由于深度伪造技术带来诸多社会问题，Google DeepMind 求生欲满满，一个劲承诺将负责任开发和部署 AI 技术，在向公众开放之前，V2A 技术将经过严格的安全评估和测试。

此外，他们还整合了 SynthID 工具包到 V2A 研究中，为所有 AI 生成的内容添加水印，以防止技术的滥用。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/0D4QGeyZ0ZnmmWYz_x-56g

标签

赞

收藏

回复

举报

回复

相关推荐

谷歌推出多模态视频模型，自动生成丰富动作视频

Aceryt • 1993浏览 • 0回复
谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

Aceryt • 2624浏览 • 0回复
一张照片+音频=超逼真数字人视频！VASA-1模型拉开「实时交互」大幕

duhorse • 1449浏览 • 0回复
TAVGBench: 文本生成语音-视频最新基准

angel • 1486浏览 • 0回复
2D头像生成3D虚拟人开视频会，谷歌新作让人难绷

轻薄滴假象 • 1038浏览 • 0回复
AI 视频战火：从 Sora 到快手可灵和 Luma 的新时代

wsp_ping • 2153浏览 • 0回复
谷歌推出V2A，可为视频大模型自动匹配语音

Aceryt • 2182浏览 • 0回复
无需定制视频数据，DeepMind让文生定制视频变得简单！

angel • 1106浏览 • 0回复
杀疯了！Meta开源SAM-2：可商用，随意分割视频、图像

Aceryt • 2245浏览 • 0回复
阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

轻薄滴假象 • 1166浏览 • 0回复
无需定制视频数据，DeepMind让文生定制视频变得简单！

angel • 780浏览 • 0回复
Open LLM集中爆发的一周，卷疯了！

PaperAgent • 929浏览 • 0回复
卷疯了！开源社区离Openai o1越来越近~

NLP前沿1 • 1013浏览 • 0回复
ChatGPT搜索杀疯了，商业模式很简单：无广告！奥特曼谈AI搜索：并非挑战谷歌，搜索引擎这个概念很无聊！

51CTO技术栈 • 687浏览 • 0回复
从频率到细节：ConsisID实现无缝身份一致的文本到视频生成

angel • 916浏览 • 0回复
从数据集到模型：视频和音频情绪分析的综合研究

xuxiangda • 992浏览 • 0回复
用AI实验室加速科研：让科学家专注于创意，告别琐碎！

sbf_2000 • 475浏览 • 0回复
让创意起飞！用户可控的电影级图像到视频生成方法！港中文&Adobe发布MotionCanvas

angel • 535浏览 • 0回复
告别800秒魔咒！硬件级STA革新视频DiT注意力，让HunyuanVideo效率提升3.5倍!

angel • 126浏览 • 0回复

轻薄滴假象

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍 1天前发布
苹果也在蒸馏大模型，给出了蒸馏Scaling Laws 8天前发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

被 DeepSeek 带火的蒸馏到底是啥 0回复

上一篇：答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思

下一篇：字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载