开源音频模型Stable Audio Open，文本生成47秒高清音效

Aceryt

发布于 2024-6-7 10:57

浏览

0收藏

6月6日，著名开源大模型平台Stability.ai在官网宣布，开源最新文生音频模型Stable Audio Open。

用户通过文本就能生成最多47秒，钢琴、笛子、鼓点、模拟人声等不同类型的44.1kHz音效。

值得一提的是，Stable Audio Open支持数据微调，歌手、音乐人可以让其生成基于自己的音乐数据，例如，架子鼓手可以根据自己的鼓点来进行微调。

开源地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

在线demo：https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero

开源音频模型Stable Audio Open，文本生成47秒高清音效-AI.x社区

根据Stability.ai介绍，Stable Audio Open使用了486,492个录音训练数据，其中 472,618 个来自Freesound，13874个来自免费音乐档案馆，并且所有音频文件均根据 CC0、CC BY或CC Sampling+获得了商业许可。

就是说通过Stable Audio Open生成的音效无需担心商业化问题，不会受到法律方面的追究。

「AIGC开放社区」根据其提供的在线demo体验了一下，在文本语义理解、生成音效等方面还是相当优秀。

需要注意的是，目前只支持英文提示词，其他任何语言都不行，即便你使用了识别效果也是相当的差。

在生成的过程中，用户可以对时间、扩散步数和CFG进行详细控制，以达到更好的效果。例如，一首非常舒适抒情的钢琴曲。

开源音频模型Stable Audio Open，文本生成47秒高清音效-AI.x社区

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/bz0rtEwNyUWdlz8_3b40LQ

标签

开源

音频

相关推荐

超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 1110浏览 • 0回复
TAVGBench: 文本生成语音-视频最新基准

angel • 1324浏览 • 0回复
腾讯AI新研究打破长文本生成模型限制，序列并行技术再突破

AI论文解读 • 3499浏览 • 0回复
Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

轻薄滴假象 • 1163浏览 • 0回复
浙大、蚂蚁集团推出MaPa：文本生成超真实3D模型

Aceryt • 1297浏览 • 0回复
Stable Diffusion 3中型版模型开源！

AIGC最前线 • 856浏览 • 0回复
上科大、影眸联合提出DressCode：从文本生成3D服装板片

轻薄滴假象 • 1499浏览 • 0回复
仅需1分钟，文本生成高质量3D模型—Meta 3D-Gen

Aceryt • 1488浏览 • 0回复
Midjourney大更新，细节最强文本生图片模型来啦！

Aceryt • 1021浏览 • 0回复
Stability.ai开源3D模型，仅需0.5秒就能快速生成

Aceryt • 1227浏览 • 0回复
大模型技术细节——大模型之文本生成与文档总结

AI探索时代 • 2740浏览 • 0回复
综述 | 大模型的可控文本生成

NLP工作站 • 1537浏览 • 0回复
Stable Diffusion这样的文本-图像生成模型有记忆吗？

angel • 743浏览 • 0回复
RAG新范式MemLong：用于长文本生成的记忆增强检索

PaperAgent • 1113浏览 • 0回复
快手、北大开源，超高清10秒、24帧视频模型

Aceryt • 538浏览 • 0回复
OPEN-RAG：利用开源大模型增强检索增强推理

毛毛雨_11 • 587浏览 • 0回复
你知道大模型聊天补全和文本生成的区别吗？

AI探索时代 • 694浏览 • 0回复
关于两次大模型文本生成的尝试，以及由此带来的思考

AI探索时代 • 458浏览 • 0回复
NVIDIA AI 推出 Fugatto：一个 25 亿参数的音频模型，可从文本和音频输入生成音乐、语音和声音

Halo咯咯 • 578浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

开源音频模型Stable Audio Open，文本生成47秒高清音效

目录