腾讯Hunyuan超越Llama 3,成为NLP领域新霸主

人工智能
腾讯为Hunyuan-Large模型提供了vLLM-backend推理框架。该框架在vLLM开源框架的基础上进行了适配,新增的CLA结构可以节省显存,保障超长文本场景。

腾讯最近发布了一款名为Hunyuan的先进Moe(Mixture of Experts)模型,该模型在多个基准测试中表现出色,超越了Llama 3,成为自然语言处理(NLP)领域的新领导者。地址如下:

  • github: https://github.com/Tencent/Tencent-Hunyuan-Large/blob/main/README_CN.md
  • hf: https://huggingface.co/tencent/Tencent-Hunyuan-Large

以下是Hunyuan模型的一些关键优势:

  1. 合成数据增强: Hunyuan-Large通过合成数据增强训练,能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据。
  2. KV缓存压缩: 采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐。
  3. 专家特定学习率缩放: 为不同专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献。
  4. 长上下文处理能力: 预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力。
  5. 广泛的基准测试: 在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的实际应用效果和安全性。

推理框架: 

腾讯为Hunyuan-Large模型提供了vLLM-backend推理框架。该框架在vLLM开源框架的基础上进行了适配,新增的CLA结构可以节省显存,保障超长文本场景。通过FP8量化优化,相比FP16/BF16常规量化,在最大限度保障精度的条件下,节省50%显存,吞吐提升70%。

训练框架: 

Hunyuan-Large模型已经支持huggingface格式,用户可以采用hf-deepspeed框架进行模型精调。同时,腾讯也支持利用flash-attn进行训练加速,并开放了相关的训练脚本和模型实现,方便研发者进行后续的模型训练和精调。

Benchmark评估榜单: 

在多个基准测试中,Hunyuan-Large预训练模型与具有相似激活参数大小的Dense和MoE竞争对手相比,实现了最佳的整体性能。在常识理解和推理以及经典的NLP任务,如QA和阅读理解任务方面表现出色。在数学能力方面,Hunyuan-Large在GSM8K和Math数学数据集上优于所有基线,在CMATH中文数据集上也取得了最好的成绩。同时,Hunyuan-Large在所有中文任务中实现了整体最佳的性能。

Hunyuan-Large-Instruct与具有相似激活参数的llm相比在大多数的任务上实现了一致的性能提升。在不同类别的基准测试中,Instruct模型在MMLU和MATH数据集上取得了最好的性能。值得注意的是,在MMLU数据集上,表现出了显著的提升, 相比与LLama3.1-405B模型高出2.6%。这种增强表明Hunyuan-Large-Instruct在广泛的语言理解任务中具有优越的理解和推理能力。该模型在MATH数据集上的表现进一步强调了它的实力,相比于LLama3.1-405B高出了3.6%的指标。值得注意的是,仅用520亿个激活参数就实现了精度的飞跃,证明了Hunyuan-Large-Instruct的卓越能力。

图片图片

腾讯Hunyuan模型的开源,不仅展示了其在NLP领域的技术实力,也为全球的AI研究者和开发者提供了一个强大的工具,以推动NLP技术的发展。

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。

图片图片


责任编辑:武晓燕 来源: 哎呀AIYA
相关推荐

2024-05-20 15:19:41

AI数据

2022-03-25 10:22:48

TransformeAI机器学习

2011-09-15 08:41:28

PHPPaaS云计算

2022-12-01 15:22:02

AI阿里腾讯

2012-08-22 10:21:54

2018-11-13 14:37:33

2024-04-23 07:00:00

2022-06-04 07:47:40

TypeScript开发前端

2024-03-27 13:32:00

AI数据

2021-08-26 15:16:58

鸿蒙游戏3D

2019-05-15 10:42:26

超算芯片计算机

2012-10-30 16:37:28

VMware服务器虚拟化

2012-07-13 09:02:07

2014-07-14 11:51:41

京东腾讯

2010-10-20 10:08:22

2021-09-03 00:54:31

人工智能机器人工具

2015-03-20 16:40:40

Spark大数据分析大数据

2024-07-09 12:54:57

2019-11-07 21:09:21

腾讯开源大数据

2012-12-27 10:12:22

Google微软Office
点赞
收藏

51CTO技术栈公众号