一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2! 原创

发布于 2024-11-25 14:54
浏览
0收藏

编辑 |言征

小模型王座一夜易主了!冷不防,英伟达就丢出了一个新混合架构,以后不再只是Transformer的天下了。

日前,NVIDIA刚刚发布了Hymba-1.5B-Base,这是一个将Transformer注意力机制与状态空间模型(SSM)集成的小型语言模型。

这种全新的混合架构只使用1.5T的Tokens进行训练,性能、速度却全面超越了市面上主流的所有小模型!英伟达的科学家兼研究经理Pavlo Molchanov在X上宣布了这一最新发展。

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区图片

Hugging Face 的技术负责人及大型语言模型(LLMs)专家 Philipp Schmid 对此发展发表评论说:“Hymba 在仅使用1.5万亿个标记进行训练的条件下,性能超越了其他小型大型语言模型,如Meta 3.2或SmolLM v2。”

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区图片

1.双重架构、精确回忆、高效上下文

据“抱抱脸”上公开资料显示,Hymba-1.5B-Base是在今年年9月1日至2024年11月10日期间进行训练的,许可证方面则根据NVIDIA开放模型许可协议发布。

Hymba模型使用双重结构,具有精确回忆的注意力头和高效上下文总结的SSM头。

具体来讲,其特点在于采用了混合头并行架构,该架构将Transformer注意力机制与状态空间模型(SSM)相结合,以提高效率。注意力头提供高分辨率的回忆能力,而SSM头则实现高效的上下文总结。此外,模型还引入了可学习的Meta标记,这些标记被添加到提示之前,用于存储关键信息,并减轻与注意力机制相关的“被迫关注”负担。通过引入跨层键值(KV)共享和部分滑动窗口注意力,该模型得到了进一步优化,从而实现了紧凑的缓存大小。

在一项对比相同设置下不同架构的受控研究中,Hymba-1.5B-Base 展现出了显著优势。

它在所有公开可用的、参数少于20亿的模型中表现优异,并以平均准确率高出1.32%、缓存大小减少11.67倍、吞吐量提升3.49倍的成绩超越了Llama-3.2-3B。

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区

2.模型架构非常巧妙

Hymba-1.5B-Base是一款基础文本到文本的模型,可用于多种自然语言生成任务。论文《Hymba: A Hybrid-head Architecture for Small Language Models》进一步阐述了模型的思想和实验对比。

论文地址:https://arxiv.org/pdf/2411.13676

该模型采用混合架构,其中Mamba和注意力头并行运行。每个提示前都会添加一组可学习的标记(称为Meta标记),以提高模型的有效性。该模型在两层之间以及单层内的各个头之间共享键值(KV)缓存。90%的注意力层采用滑动窗口注意力机制。

Hymba-1.5B-Base的模型嵌入大小为1600,拥有25个注意力头,MLP中间维度为5504,总层数为32层,16个SSM状态,3个全注意力层,其余为滑动窗口注意力层。与标准Transformer不同,Hymba中的每个注意力层都并行结合了标准注意力头和Mamba头的混合组合。此外,它还使用了分组查询注意力(GQA)和旋转位置嵌入(RoPE)。

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区图片

概括来讲,这架构有三个值得注意的特点:

首先,在同一层内融合注意力头和SSM头,对相同输入进行并行且互补的处理;此外,还引入了元标记(meta tokens),这些标记被添加到输入序列的前面,并与所有后续标记进行交互,从而存储重要信息并减轻注意力中“必须关注”的负担;最后,还结合了跨层KV共享和全局-局部注意力,进一步提升内存和计算效率。

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区图片

3.性能超越所有主流小模型,包括Llama3.2

Hymba-1.5B-Base在所有低于20亿的公开模型中表现优异。

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区图片

研究人员从准确率、缓存大小、处理速度三个方面综合评估了现在主流的小语言模型,比如Meta的Llama3.2-1B、Apple的OpenELM-1B、微软的Phi-1.5B、抱抱脸的SmoILM2-1.7B、阿里巴巴的Qwen2.5-1.5B等。 

综合评估和消融研究表明,Hymba不仅在众多具有代表性的任务中树立了新的最优(SOTA)基准性能,而且在效率方面相比Transformer和之前的混合模型也更高。例如,在常识推理任务中,Hymba-1.5B的平均准确率比Llama-3.2-3B高出1.32%,而所需的缓存大小却小了11.67倍,速度快了3.49倍。

一夜小模型王座易主!英伟达发布超强小模型,性能、速率、缓存全面超越Llama3.2!-AI.x社区图片

NVIDIA 还提供了一个设置脚本,以简化环境配置,支持CUDA 12.1和12.4版本。

4.不过,需要小心

英伟达承认该模型是利用从互联网上原始抓取的数据进行训练的,这就意味着训练数据包含有毒语言、不安全内容和社会偏见。因此,该模型可能会放大这些偏见,并在接收到有毒提示时返回有毒的回应。

即使提示本身不包含任何明显冒犯性的内容,该模型也可能生成不准确、遗漏关键信息或包含不相关或冗余文本的答案,从而产生社会不可接受或不受欢迎的文本。

除了有毒内容方面需要注意,工程方面也需要注意:

用户应在生成期间将批处理大小设置为1,因为当前设置不完全支持带有滑动窗口注意的填充元标记。然而,任何批次大小都适用于训练和预填充。

5.本月25日公开模型权重,可商用

英伟达非常强调在创建值得信赖的人工智能方面分担责任的重要性,并为其发展制定了道德准则。建议用户负责任地使用该模型,同时注意其局限性。

“在按照我们的服务条款下载或使用时,开发者应与内部模型团队合作,确保该模型满足相关行业和使用场景的要求,并解决产品滥用等不可预见的问题。”

Molchanov 评论道:“我不确定我们是否应该为使用1.5万亿个标记的训练感到自豪。原因是我们要追求速度;在接下来的两周里,就会有人做得更好。”

不过好消息是,Hymba模型已准备好用于商业用途了,而且模型权重也即将推出,预计11月25日发布!

相信大家这两天就可以快速用上这款非常nice的小模型了。

本文转载自​​51CTO技术栈​​,作者:言征

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐