阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型

Aceryt

发布于 2024-11-28 09:59

浏览

0收藏

阿里巴巴重磅开源了新模型——QwQ-32B-Preview。

QwQ-32B的主要特点就是推理很强，可以给出很长的透明化推理流程，这与国内DeepSeek前不久刚发布的R1-Lite很相似。

尤其是在数学、代码以及各种复杂推理任务上，QwQ-32B可以生成数万字的推理流程，让用户深度了解模型生成内容的全过程。

阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型-AI.x社区

开源地址：https://huggingface.co/Qwen/QwQ-32B-Preview

Github：https://github.com/QwenLM/Qwen2.5

在线demo：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

根据公开的测试数据显示，QwQ-32B在GPQA，一个研究生级别的“谷歌证明”问答基准；AIME，美国邀请数学评估，它测试数学问题解决能力，涉及算术、代数、计数、几何、数论以及概率等中学数学主题。

MATH-500，一个全面测试数学问题解决能力的综合性数据集，以及LiveCodeBench现实世界编程场景中评估代码生成和问题解决能力的挑战性基准的测试中表现非常出色。

例如，QwQ-32B在GPQA的评分达到65.2，超过了o1-mini、GPT-4o和Claude3.5 Sonnet，仅次于o1- Preview。

在MATH-500测试中拿下了90.6的最高分，超过了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前开源的Qwen2.5-72B，拥有非常强的数学能力。

而在LiveCodeBench中也拿下了50的高分，仅次于o1模型，大幅度领先GPT-4o、Claude3.5 Sonnet这俩闭源模型。

阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型-AI.x社区

根据在线demo我们测试了一下QwQ-32B，例如，问个经典问题，9.11和9.9哪个大。

QwQ-32B：9.11和9.9，哪个大呢？我得想一想。首先，这两个数字都以9开头，然后有小数点，后面跟着一些数字。9.11是9点11，而9.9是9点9。我要比较它们的大小。

我知道，在小数比较中，先看整数部分，如果整数部分相同，再比较小数部分。这里，两个数字的整数部分都是9，所以需要比较小数部分。

9.11的小数部分是0.11，而9.9的小数部分是0.9。现在比较0.11和0.9哪个大。

0.11是11分之一百，而0.9是90分之一百。很明显，90大于11，所以0.9大于0.11。

因此，9.9大于9.11。

不过，我再想想， maybe我哪里错了。有时候，特别是看日期或者其它什么的时候，9.11可能是九月十一日，而9.9是九月九日。但在这里，题目是9.11和9.9哪个大，看起来像是小数比较。

或者，也许9.11是9又11分之一，但那应该是9 + 11/100 = 9.11，还是小数形式。

总之，按照小数比较规则，9.9更大。

对，我确定是9.9大于9.11。

很清晰的推理流程，并给出了准确答案。

阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型-AI.x社区

阿里表示，QwQ-32B还处于预览版状态有很多局限性，包括语言切换问题，模型可能在回答中混合使用不同语言，影响表达的连贯性。

QwQ-32B-Preview在数学和编程领域表现出色，但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动，正通过持续优化，努力提升模型的综合能力。

推理循环，在处理复杂逻辑问题时，模型偶尔会陷入递归推理模式，在相似思路中循环。

这种行为虽然反映了模型试图全面分析的努力，但可能导致冗长而不够聚焦的回答。

即便是有这些局限性，这对于开源领域来说都是一次非常大的进步。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/Me7zmiQTBZh2VnV1TZWePA

标签

模型

开源

相关推荐

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

Aceryt • 2881浏览 • 0回复
OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

Syrupup • 3960浏览 • 0回复
OpenAI o1引发的思维链思考：思维链提示启发大模型推理

angel • 4067浏览 • 0回复
被神化的o1模型，规划能力到底如何？

大语言模型论文跟踪 • 3125浏览 • 0回复
击败GPT-4o、仅次于o1！英伟达重磅开源超强大模型--Nemotron

Aceryt • 3394浏览 • 0回复
重磅开源Nemotron大模型：击败GPT-4o、仅次于o1！

51CTO技术栈 • 2321浏览 • 0回复
o1快慢思考的风又吹到了Agent！

PaperAgent • 3206浏览 • 0回复
VLM版o1超越一众开源和闭源模型！LLaVA-o1：多阶段自主推理（北大&清华&阿里等）

angel • 2885浏览 • 0回复
o1的规划能力如何？LRM是未来吗？

探索AGI • 2220浏览 • 0回复
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费

51CTO技术栈 • 3170浏览 • 0回复
阿里巴巴Qwen团队发布QwQ-32B-Preview：包含320亿参数的开放模型，专为解决高级推理任务而设计

Halo咯咯 • 5153浏览 • 0回复
小模型界o1来了：微软推出Phi-4，数学推理能力太逆天！14B模型击败GPT-4o！还印证了AI墙的一个重要推断

51CTO技术栈 • 2547浏览 • 0回复
大语言模型o1慢思考推理系统的破局之路：模仿、探索与自我提升的深度揭秘！

十一月雨_55 • 4148浏览 • 0回复
8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

轻薄滴假象 • 2244浏览 • 0回复
s1-32B 模型：超越 o1-preview，一起探索其原因

AI论文解读 • 2274浏览 • 0回复
阿里开源QwQ-32B，性能与Deepseek R1持平。一个拥有320亿参数的全新推理模型

Halo咯咯 • 2909浏览 • 0回复
阿里QwQ-32B开源引爆AI效率革命：单卡运行、成本降60倍，国产芯片突围AGI

墨风如雪小站 • 3633浏览 • 0回复
QwQ-32B 大战 DeepSeek-R1：小参数量模型能否逆袭？

Halo咯咯 • 3491浏览 • 0回复
刚刚，Qwen3强势登顶，成开源新王！国内首个混合推理模型，235B击败R1、o1!源神火力全开

51CTO技术栈 • 2162浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型

目录