超级新星降临:Arcee AI发布SuperNova-Medius,14亿参数的小模型,大作为! 原创
01 引言
在人工智能(AI)的世界里,大型语言模型已经成为解决复杂任务、提升决策过程的重要工具。但这些模型的扩展也带来了高计算成本、低可访问性和环境影响等挑战。Arcee AI直面这些挑战,推出了SuperNova-Medius——一款旨在保持大型模型高质量输出的同时,克服其局限性的小语言模型。
02 SuperNova-Medius
SuperNova-Medius是一款14亿参数的小语言模型,它颠覆了传统AI模型中大小与性能的关系。它在保持相对较小的模型大小的同时,力求与拥有高达700亿参数的大型模型相媲美。通过整合突破性的优化技术和创新的架构设计,SuperNova-Medius为如何在确保小型组织也能利用AI潜力的同时,设计出适用于现实世界的语言模型提供了新视角。
03 技术亮点与训练过程
SuperNova-Medius基于优化的Transformer架构,结合先进的量化方法,保持了惊人的准确性和效率。其开发涉及复杂的多logits、跨架构蒸馏过程,包括以下几个关键步骤:
- 从Llama 3.1 405B的Logit蒸馏:使用离线方法蒸馏Llama 3.1 405B的logits,存储每个token的顶部K个logits,以捕获大部分概率质量,同时管理存储需求。
- 跨架构适应:使用mergekit-tokensurgeon,创建了一个使用Llama 3.1 405B词汇表的Qwen2.5-14B版本,这允许在训练基于Qwen的模型时使用Llama 3.1 405B的logits。
- 蒸馏到Qwen架构:使用存储的405B logits作为目标,训练适应后的Qwen2.5-14B模型。
- 并行Qwen蒸馏:在另一个过程中,将Qwen2-72B蒸馏成14B模型。
- 最终融合和微调:将Llama蒸馏的Qwen模型的词汇表恢复为Qwen词汇表。在重新对齐词汇表后,使用EvolKit的专业数据集进行最终融合和微调,确保SuperNova-Medius在广泛的任务中保持连贯性、流畅性和上下文理解。
04 性能表现与应用场景
尽管SuperNova-Medius模型小,但SuperNova-Medius使用多样和广泛的数据集进行了广泛的微调,涵盖了多个领域和语言。这种广泛的训练使SuperNova-Medius能够展现出对上下文的强大理解,生成连贯的响应,并有效地执行复杂的推理任务。此外,通过采用参数共享的创新和利用稀疏策略,该模型提供了与参数数量高得多的模型相当的结果。
SuperNova-Medius在指令遵循(IFEval)和复杂推理任务(BBH)方面表现出色,超越了Qwen2.5-14B和SuperNova-Lite等多个基准。这使其成为高质量生成性AI应用的强大、高效的解决方案。
05 结论
SuperNova-Medius是Arcee AI致力于推动语言模型可能性的证明,同时使高级AI更加包容和可持续。通过成功地减小模型大小而不牺牲性能,Arcee AI提供了一个解决方案,满足从初创公司和小型企业到教育机构等不同行业的需求。随着AI继续塑造我们的未来,像SuperNova-Medius这样的创新对于确保所有人均能获得先进的机器学习技术的好处至关重要,为全球AI的更公平和有影响力的应用铺平了道路。
参考:
- https://huggingface.co/arcee-ai/SuperNova-Medius
- https://blog.arcee.ai/introducing-arcee-supernova-medius-a-14b-model-that-rivals-a-70b-2/
本文转载自公众号Halo咯咯 作者:基咯咯