鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

基于Mamba架构的，状态空间音频分类模型AUM

发布于 2024-7-19 12:21

浏览

0收藏

Transformer凭借强大的自注意力机制，成为文本、音频、视频等模型的基础架构之一。但其计算复杂度随着序列长度的增加而呈指数级增长，这在处理长序列数据时会出现严重的效率问题。

韩国高等科学技术院的研究人员受最新的Mamba架构启发，开发了首个没有自注意力机制纯粹状态空间的音频分类模型Audio Mamba（下面简称“AUM”）。

状态空间是Mamba架构的核心功能之一，这是一种用于描述和预测系统状态随时间变化的数学模型，通过维护一个隐藏状态来映射输入序列到输出，可帮助模型能够以线性时间复杂度高效处理数据，无论序列多长都没有问题。

论文地址：https://arxiv.org/abs/2406.03344

基于Mamba架构的，状态空间音频分类模型AUM-AI.x社区

AUM架构简单介绍

在AUM架构中，先通过傅里叶变换方法，将原始的音频波形首先被转换成频谱图。把得到的频谱图随后被划分成一系列规则的 “patches”块。每个patch都是一个正方形矩阵，代表了音频信号的一个局部特征区域。通过这种方式，将音频信号被分解为一系列的局部特征，为后续的数据处理奠定了基础。

基于Mamba架构的，状态空间音频分类模型AUM-AI.x社区

接着，每个patch通过一个线性投影层被嵌入到一个高维空间中。在这个嵌入过程不仅将原始的音频特征转换为模型可以处理的形式，而且还通过引入一个特殊的分类标记来增强模型的分类能力。

这个分类标记被放置在嵌入序列的中间位置，将作为模型训练和推理过程中的关键元素，帮助模型集中注意力于音频数据中最重要的部分。

再从序列的末尾开始，通过反向卷积层和状态空间模型来提取特征，帮助AUM模型能从不同的角度理解音频数据，增强了模型对音频信号全局上下文的理解能力。

基于Mamba架构的，状态空间音频分类模型AUM-AI.x社区

此外，AUM还采用了一种现代化的硬件优化扫描方法，能够从输入序列的开始到结束进行单向扫描，同时更新模型的隐藏状态。不仅提高了模型的处理效率，还使得模型能够选择性地更新其隐藏状态，从而更有效地捕捉输入序列中的相关信息。

实验测试与数据集

为了测试AUM的性能，研究人员使用了AudioSet、VGGSound、VoxCeleb、Speech Commands V2和EPIC-SOUNDS等多个知名音频数据集进行了综合评估。

这些数据集不仅在规模上有所不同，在音频样本的多样性和复杂性上也各有特点。例如，AudioSet数据集包含了超过200万个10秒长的音频剪辑，涵盖了527个不同的标签；而VGGSound则包含了近20万个视频剪辑，每个剪辑都有10秒长，标注了309种不同的声音类别。

基于Mamba架构的，状态空间音频分类模型AUM-AI.x社区

结果显示，AuM在AudioSet上的平均精准度达到了32.43%，比知名的Audio Spectrogram Transformers（简称“AST”）模型高出3.33%；在VGGSound上，准确率提高到42.58%，比AST提升了5.33%。

在VoxCeleb、Epic-Sounds和Speech Commands V2，AuM也显示出了卓越的数据序列处理性能。

基于Mamba架构的，状态空间音频分类模型AUM-AI.x社区

除了性能优秀，AuM对计算效率和内存消耗也比AST强很多。在处理长序列音频数据时，AuM显示出了显著的内存效率，这得益于其基于状态空间模型的架构，能够在保持性能的同时减少内存使用。

此外，AuM在推理阶段的效率也比AST快，这意味着在实际应用中，AuM能够提供更快的推理响应，对于需要实时音频处理的业务场景尤为重要。

本文转自AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/r-03S5PW3l89zphf2IsbyQ

标签

赞

收藏

回复

举报

回复

相关推荐

VideoMamba：用于高效视频理解的状态空间模型

烂漫树林 • 3233浏览 • 0回复
首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

轻薄滴假象 • 2874浏览 • 0回复
原作者带队的Mamba 2来了，新架构训练效率大幅提升

轻薄滴假象 • 2161浏览 • 0回复
力压Transformer，详解Mamba和状态空间模型

小虎哦哦 • 2757浏览 • 0回复
Jamba-1.5：大规模混合Transformer-Mamba模型

sbf_2000 • 2450浏览 • 0回复
基于 AI Agent 智能体架构落地复杂问答系统的案例设计与实践

玄姐聊AGI • 3260浏览 • 0回复
FLOAT：基于流匹配的音频驱动说话者头像生成模型

angel • 1725浏览 • 0回复
基于CNN＋PyTorch实现视觉检测分类

51CTO内容精选 • 1551浏览 • 0回复
基于时频特征融合的高创新时间序列分类模型

Tang_Lan • 1688浏览 • 0回复
多模态大语言模型的空间智能探秘：突破与挑战

十一月雨_55 • 1629浏览 • 0回复
基于 Gemini AI 实现音频和视频解析

丢翅膀的鱼 • 1838浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 5155浏览 • 0回复
xLSTM：拳打Transformer，脚踢Mamba？！

鲁班模锤1 • 1348浏览 • 0回复
Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

大模型自然语言处理 • 1313浏览 • 0回复
基于1D-GRU+2D-MTF-ResNet-CBAM的分类模型

Tang_Lan • 1067浏览 • 0回复
基于LangGraph的智能文章生成Agent架构设计思路

九歌AI大模型 • 1086浏览 • 0回复
大模型除了聊天还能做什么？关于大模型的分类和应用

AI探索时代 • 1062浏览 • 0回复
MCP 架构设计演进：从 Local MCP Server 到 Remote MCP Server 开源架构设计实现

玄姐聊AGI • 1151浏览 • 0回复
腾讯Hunyuan-T1来袭：Mamba架构重塑语言模型推理能力

Halo咯咯 • 396浏览 • 0回复

LV.8

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

318

帖子

2942

声望

7

粉丝

关注

最近发布

斯坦福等开源代码定位AI Agent，极大提升开发、维护效率 18h前发布
AI Agent大变天！谷歌开源A2A，一夜改变智能体交互 18h前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点 1回复

暴论：2025年，程序员必学技能就是 MCP 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

上一篇： OpenAI发布PVG：用小模型验证大模型输出，解决“黑盒”难题

下一篇：提升5.69倍，高效RAG上下文压缩方法COCOM

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载