阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

Aceryt

发布于 2024-9-19 12:15

浏览

0收藏

今天凌晨，阿里巴巴官宣了史上最大规模的开源发布，推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本，包括0.5B、1.5B、3B、7B、14B、32B和72B，适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

如果不想进行繁琐的部署，阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API，帮助你快速开发或集成生成式AI功能。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

开源地址：https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github：https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo：https://huggingface.co/spaces/Qwen/Qwen2.5

API地址：https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

下面「AIGC开放社区」详细为大家介绍这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

虽然Qwen2.5只有720亿参数，但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型；全面超过了Mistral最新开源的Large-V2指令微调模型，成为目前最强大参数的开源模型之一。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

即便是没有进行指令微调的基础模型，其性能同样超过Llama-3-405B。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

阿里开放API的旗舰模型Qwen-Plus，其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

此外，Qwen2.5系列首次引入了140 亿和320亿两种新参数模型，Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct，与闭源模型GPT-4o mini相比，只有三项测试略低其他基准测试全部超过。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

自阿里发布CodeQwen1.5 以来，吸引了大量用户通过该模型完成各种编程任务，包括调试、回答编程相关的问题以及提供代码建议。

本次发布的Qwen2.5-Coder-7B指令微调版本，在众多测试基准中，击败了那些知名且有较大参数的模型。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

前不久阿里首次发布了数学模型Qwen2-Math，本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练，包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持，并通过CoT、PoT和 TIR的能力来加强其推理能力。

其中，Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

其实从上面这些测试数据不难看出，即便是参数很小的模型，在质量数据和架构的帮助下，同样可以击败高参数模型，这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

Qwen2.5系列简单介绍

Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似，Qwen2.5语言模型支持高达 128K tokens，并能生成最多 8K tokens的内容。

与Qwen-2相比，Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens，超过了Meta最新开源Llama-3.1的15万亿，成为目前训练数据最多的开源模型。

知识能力显著增强，Qwen2.5在 MMLU 基准测试中，与 Qwen2-7/72B 相比从70.3提高到74.2，从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！-AI.x社区

Qwen2.5能够生成更符合人类偏好的响应，与Qwen2-72B-Instruct相比，Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ，MT-Bench分数从9.12提高到9.35 。

数学能力获得增强，在融合了Qwen2-math的技术后，Qwen2.5的数学能力也得到了快速提升。在MATH基准上，Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外，Qwen2.5在指令跟踪、生成长文本（从1k增加到超过8K标记）、理解结构化数据（例如表格）以及生成结构化输出（尤其是JSON）方面实现了显着改进。同时对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实施和条件设置。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/3khdaUEY3TZi9BlEd3uMDw

标签

模型

开源

相关推荐

GPT-4o 的数学又双叕进步了？来 MathBench 看看新版 GPT-4o 到底强在哪！

恋恋青鸟 • 2035浏览 • 0回复
GPT-4o做Code Review可行吗？

51CTO技术栈 • 2070浏览 • 0回复
AutoCoder：性能超越GPT-4o的模型，居然只有33B，还是开源！

大语言模型论文跟踪 • 3503浏览 • 0回复
阿里 C4：通信驱动加速大规模并行训练效率

amei2000go • 4349浏览 • 0回复
GPT-4o背后可能的语音技术

鱼虫子 • 1517浏览 • 0回复
DeepSeek Coder V2开源发布，首超GPT4-Turbo代码能力

Aceryt • 5294浏览 • 0回复
Claude3.5突然发布！GPT-4o不香了

Crystalcxt • 1857浏览 • 0回复
Llama 3.1磁力链提前泄露！开源模型王座一夜易主，GPT-4o被超越

duhorse • 1066浏览 • 0回复
Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！

PaperAgent • 1832浏览 • 0回复
87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

duhorse • 950浏览 • 0回复
微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

Aceryt • 1035浏览 • 0回复
阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！

Aceryt • 1836浏览 • 0回复
阿里国际发布首个大规模商用翻译大模型Marco，效果超Google、DeepL等，全球开放！

51CTO技术栈 • 1953浏览 • 0回复
击败GPT-4o、仅次于o1！英伟达重磅开源超强大模型--Nemotron

Aceryt • 1906浏览 • 0回复
腾讯放大招，超Meta！史上参数最大，开源专家混合模型

Aceryt • 803浏览 • 0回复
超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

Aceryt • 853浏览 • 0回复
LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集

AIPaperDaily • 1177浏览 • 0回复
微软发布Phi-4，最强小模型！参数极小、超GPT-4o

Aceryt • 704浏览 • 0回复
微软开源最强小模型Phi-4，超GPT-4o、可商用

Aceryt • 826浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

目录