NVIDIA AI 推出 Fugatto:一个 25 亿参数的音频模型,可从文本和音频输入生成音乐、语音和声音 原创 精华
01、概述
在音乐和声音的世界中,创作、编辑和转换音乐和声音一直是一项技术与创意并存的挑战。当前的AI模型往往在多样性上挣扎,它们擅长于狭窄的任务或缺乏有效泛化的能力。这限制了AI辅助制作的发展,并阻碍了创意的适应性。为了让AI真正为音乐和音频制作做出贡献,它必须具备多样性、作曲能力,并能响应创意提示,让艺术家能够创造出独特的声音。显然,我们需要一个能够驾驭音频和文本交互细节、执行创意转换并提供高质量输出的通用模型。
02、NVIDIA Fugatto
NVIDIA推出了Fugatto,这是一个拥有25亿参数的AI模型,专为生成和操控音乐、声音和人声而设计。Fugatto将文本提示与先进的音频合成能力相结合,使声音输入变得高度灵活,便于创意实验——比如将钢琴线变成人声歌唱,或者让小号产生意想不到的声音。
该模型支持文本和可选音频输入,使其能够以超越传统音频生成模型的方式创造和操控声音。这种多样化的方法允许实时实验,使艺术家和开发者能够流畅地生成新类型的声音或修改现有音频。NVIDIA强调灵活性,使Fugatto在涉及复杂作曲转换的任务上表现出色,成为艺术家和音频制作人的宝贵工具。
03、技术细节
从技术角度来看,Fugatto采用了一种创新的数据生成方法,超越了传统的监督学习。它的训练不仅涉及常规数据集,还采用了专门的数据集生成技术,以创建广泛的音频和转换任务。它使用大型语言模型(LLMs)来增强指令生成,使其更好地理解和解释音频和文本提示之间的关系。这种数据集丰富策略使Fugatto能够从多样化的上下文中学习,为多任务学习打下了坚实的基础。
一个关键的创新是可组合音频表示转换(ComposableART),这是一种在推理时开发的技术,旨在将无分类器指导扩展到作曲指令。这使得Fugatto能够平滑地组合、插值或否定不同的音频生成指令,为声音创造开辟了新的可能性。ComposableART提供了对合成的高级控制,允许用户精确地导航Fugatto的声音调色板,混合不同的声音并生成独特的声音现象。
Fugatto的架构利用了经过特定修改的Transformer模型,如自适应层归一化,这有助于在多样化的输入中保持一致性,并比现有模型更好地支持作曲指令。这意味着Fugatto能够执行如歌唱合成、声音转换和效果操控等任务,使其适用于广泛的音频应用。
04、Fugatto的多样性
Fugatto的多样性在于其能够在创意和技术的交汇点上执行任务。传统的专业模型通常需要手动干预或狭窄定义的任务,往往缺乏创意实验所需的灵活性。然而,Fugatto可以适应多种用途,这使其在音频创作领域的实用性脱颖而出。Fugatto的早期测试表明,它在常见基准测试中与其他专业模型表现相当,但其真正的优势在于新兴能力。
Fugatto的评估表明,与专业模型相比,其在音频合成和转换方面的性能具有竞争力或更优越。当任务是合成新声音或遵循作曲指令时,Fugatto超越了几个基准。例如,它展示了创造新声音的能力,如合成具有不寻常特征的萨克斯管或生成与背景音景平滑融合的语音——这些任务对其他模型来说以前是具有挑战性的。
此外,Fugatto生成新兴声音——超出典型训练数据的声音现象——为创意声音设计开辟了新的可能性。其使用ComposableART进行作曲合成意味着用户可以动态合并多个属性,使其成为寻求创意控制的音频制作人的宝贵工具。
05、结语
Fugatto是音频生成AI的一个重要进步,提供了挑战传统限制和增强创意声音操控的能力。NVIDIA将大型语言模型与声音和音乐的复杂性相结合,打造出一个强大且多功能的工具。Fugatto能够处理细腻的音频任务,从简单的声动生成到复杂的作曲修改,使其成为创意AI工具未来的宝贵贡献。这一模型不仅对艺术家具有重要意义,对游戏、娱乐和教育等行业也具有重大影响,AI工具在这些领域越来越多地支持和激发人类创造力。
参考:
- https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf
- https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
本文转载自公众号Halo咯咯 作者:基咯咯