比OpenAI的Whisper快50%，最新开源语音模型

Aceryt

发布于 2024-8-6 10:52

浏览

0收藏

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个token，同时不会损失性能和识别准确率。

开源地址：https://github.com/aiola-lab/whisper-medusa

huggingface：https://huggingface.co/aiola/whisper-medusa-v1

比OpenAI的Whisper快50%，最新开源语音模型-AI.x社区

传统的Transformer架构在生成序列时，是遵循逐个token的顺序预测过程。这意味着在生成新序列时，模型每次只能预测下一个token，然后将这个预测的token加入到序列中，再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性，但也有一个非常明显的缺陷——极大限制了模型的推理效率。

此外，由于每次只能处理一个 token ，模型难以捕捉到数据中的长程依赖关系，可能会忽略一些重要的全局信息，从而影响模型的整体性能和准确性。

比OpenAI的Whisper快50%，最新开源语音模型-AI.x社区

而Whisper-Medusa使用了10头的多注意力机制，能各自独立地计算注意力分布并行地处理输入，然后将各自的输出通过拼接的方式组合起来，形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理，以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率，还增加了模型的表达能力，因为每个注意力头都可以专注于序列的不同子集，捕捉到更丰富的上下文信息。

比OpenAI的Whisper快50%，最新开源语音模型-AI.x社区

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行，aiOla采用了弱监督的方法，在训练过程中冻结了原Whisper模型的主要组件，使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。

使得模型即便没有大量手动人工标注数据的情况下，依然能够学习到有效的语音识别模式。

此外在训练过程中，Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面，模型需要确保预测的token序列与实际转录尽可能一致；

另一方面，通过多头注意力机制的并行预测，模型被鼓励在保证精度的前提下，尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法，确保模型在训练过程中能够稳定收敛，同时避免过拟合性。

比OpenAI的Whisper快50%，最新开源语音模型-AI.x社区

业务场景方面， Whisper-Medusa能理解100多种语言，用户可以开发音频转录、识别等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理效率将再次获得大幅度提升。

比OpenAI的Whisper快50%，最新开源语音模型-AI.x社区

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/hyl6cJxlSD8jDRi7CzFFyg

标签

模型

开源

相关推荐

50个顶级的ChatGPT学术论文指令

数师兄 • 1.8w浏览 • 0回复
TAVGBench: 文本生成语音-视频最新基准

angel • 2613浏览 • 0回复
OpenAI最新套娃嵌入模型分析：256维的MTEB效果超过1536维

PaperAgent • 4556浏览 • 0回复
最新开源数据集，让AI聊天更接近现实

Crystalcxt • 1924浏览 • 0回复
阿里新开源语音模型Qwen2-Audio ，实测优于 Gemini-1.5-pro，网友：离GPT-4o只差一步

51CTO技术栈 • 2540浏览 • 0回复
快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星

Crystalcxt • 2342浏览 • 0回复
OpenAI发布最新大模型安全对齐奖励方法——RBR

Aceryt • 2262浏览 • 0回复
ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·准·好的图像编辑方法！港大&牛津

angel • 2090浏览 • 0回复
终于来了，OpenAI测试GPT-4o高级语音模式！

Aceryt • 1913浏览 • 0回复
ECCV`24 | 比现有方法快50倍！新加坡国立开源FlashSplat：简单&全局最优3D-GS分割求解器

angel • 2973浏览 • 0回复
VideoLLaMB：创新开源框架，引领多模态长视频理解

穿越时空111 • 2050浏览 • 0回复
刚刚，OpenAI发布sCM提升50倍效率，扩散模型重大技术突破！

玄姐聊AGI • 1714浏览 • 0回复
Moonshine 语音模型：资源受限设备的语音识别超强 “芯” 动力！

穿越时空111 • 1827浏览 • 0回复
最新开源Auto-RAG：最低成本解决多跳问题

AIGC前沿技术追踪 • 3353浏览 • 0回复
阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

Halo咯咯 • 2325浏览 • 0回复
谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 • 5329浏览 • 0回复
Meta开源多模式模型，轻松混合文本和语音

Aceryt • 1368浏览 • 0回复
OpenAI凌晨发布三款语音模型，语音AI Agent时代即将到来？

AI博物院 • 912浏览 • 0回复
比DeepSeek快8倍！智谱AI开源6款模型，推理速度200 tokens/秒碾压竞品，价格仅1/30！

AI博物院 • 499浏览 • 0回复

探索AGI

LV.4

专注于大模型agent的产品落地方向

觉得TA不错？点个关注精彩不错过

帖子

442

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

比OpenAI的Whisper快50%，最新开源语音模型