阿里重磅开源QwQ-32B:自我思考、纠正,数学能力击败o1模型

发布于 2024-11-28 09:59
浏览
0收藏

阿里巴巴重磅开源了新模型——QwQ-32B-Preview。


QwQ-32B的主要特点就是推理很强,可以给出很长的透明化推理流程,这与国内DeepSeek前不久刚发布的R1-Lite很相似。


尤其是在数学、代码以及各种复杂推理任务上,QwQ-32B可以生成数万字的推理流程,让用户深度了解模型生成内容的全过程。

阿里重磅开源QwQ-32B:自我思考、纠正,数学能力击败o1模型-AI.x社区

开源地址:https://huggingface.co/Qwen/QwQ-32B-Preview

Github:https://github.com/QwenLM/Qwen2.5

在线demo:https://huggingface.co/spaces/Qwen/QwQ-32B-preview


根据公开的测试数据显示,QwQ-32B在GPQA,一个研究生级别的“谷歌证明”问答基准;AIME,美国邀请数学评估,它测试数学问题解决能力,涉及算术、代数、计数、几何、数论以及概率等中学数学主题。


MATH-500,一个全面测试数学问题解决能力的综合性数据集,以及LiveCodeBench现实世界编程场景中评估代码生成和问题解决能力的挑战性基准的测试中表现非常出色。


例如,QwQ-32B在GPQA的评分达到65.2,超过了o1-mini、GPT-4o和Claude3.5 Sonnet,仅次于o1- Preview。

在MATH-500测试中拿下了90.6的最高分,超过了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前开源的Qwen2.5-72B,拥有非常强的数学能力


而在LiveCodeBench中也拿下了50的高分,仅次于o1模型,大幅度领先GPT-4o、Claude3.5 Sonnet这俩闭源模型。

阿里重磅开源QwQ-32B:自我思考、纠正,数学能力击败o1模型-AI.x社区

根据在线demo我们测试了一下QwQ-32B,例如,问个经典问题,9.11和9.9哪个大。

QwQ-32B:9.11和9.9,哪个大呢?我得想一想。首先,这两个数字都以9开头,然后有小数点,后面跟着一些数字。9.11是9点11,而9.9是9点9。我要比较它们的大小。


我知道,在小数比较中,先看整数部分,如果整数部分相同,再比较小数部分。这里,两个数字的整数部分都是9,所以需要比较小数部分。


9.11的小数部分是0.11,而9.9的小数部分是0.9。现在比较0.11和0.9哪个大。

0.11是11分之一百,而0.9是90分之一百。很明显,90大于11,所以0.9大于0.11。

因此,9.9大于9.11。


不过,我再想想, maybe我哪里错了。有时候,特别是看日期或者其它什么的时候,9.11可能是九月十一日,而9.9是九月九日。但在这里,题目是9.11和9.9哪个大,看起来像是小数比较。


或者,也许9.11是9又11分之一,但那应该是9 + 11/100 = 9.11,还是小数形式。

总之,按照小数比较规则,9.9更大。


对,我确定是9.9大于9.11。


很清晰的推理流程,并给出了准确答案。

阿里重磅开源QwQ-32B:自我思考、纠正,数学能力击败o1模型-AI.x社区

阿里表示,QwQ-32B还处于预览版状态有很多局限性,包括语言切换问题,模型可能在回答中混合使用不同语言,影响表达的连贯性。


QwQ-32B-Preview在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动,正通过持续优化,努力提升模型的综合能力。


推理循环,在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。

这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。


即便是有这些局限性,这对于开源领域来说都是一次非常大的进步。


本文转自 AIGC开放社区  ,作者:AIGC开放社区


原文链接:​​https://mp.weixin.qq.com/s/Me7zmiQTBZh2VnV1TZWePA​

收藏
回复
举报
回复
相关推荐