
吴泳铭预告的旗舰推理模型更了!阿里重磅推出QwQ-Max预览版,Agent或成正式版王炸! 原创
编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
吴泳铭亲自预告过的,阿里旗舰推理模型,新消息来了。
刚刚,它的预览版正式发布和上线体验——就是这个QwQ-Max-Preview!
一眼看去,我愿称之为最萌的推理模型,看blog主页的名称,感觉思维链中的模型正在很努力的思考中……
图片
Qwen Chat 中已经可以体验预览版模型:https://chat.qwen.ai/
点进模型的blog,发现这里有一个隐藏彩蛋,内容是由QwQ-Max-Preview自己写的,我们可以看到AI做自我介绍时的思维链:
首先,该模型属于 Qwen 系列,是基于 Qwen2.5-Max 构建的。这是一个 预览版,所以他们可能希望强调它是在正式发布前的 抢先体验。它的主要优势包括 深度推理、数学、编程、通用领域任务,以及在 Agent 相关任务 中的出色表现。他们还提到了 未来的更新 以及 计划以 Apache 2.0 许可证开源。
图片
blog地址:https://qwenlm.github.io/blog/qwq-max-preview/
预览版已经来了,QwQ-Max正式版还会远吗?我们先来看一波预览版的抢先体验够不够精彩:
官方给的栗子1:编写一个脚本,在一个球体内模拟 100 个弹跳的黄色小球,确保正确处理碰撞检测。让球体缓慢旋转,并确保小球始终保持在球体内部。
效果已经很惊艳,如果要挑刺的话,那就是有几个小球的运动速度略显奇怪:
官方给的栗子2:做个俄罗斯方块 和 2048 结合的游戏。(PS:Grok 3发布时也测了一个类似的例子,是把俄罗斯方块和宝石迷阵相结合的。)
你别说,看上去还挺好玩,就是感觉难度有一点点大:
此外,QwQ-Max-Preview 将配备多种Agent,例如推理生图、火车票查找、代码解释器等等。
看这几个Agent的细分程度,盲猜QwQ-Max在Agent会有很大的动作,而且下图中的Tools工具似乎可以在一次询问中多选,让人对正式版的使用效果期待拉满了。
图片
官方也给了一个推理画图的例子,还顺便画了个淘宝二维码。扫了一下果然就跳转成功了:
1.一手实测:QwQ-Max-Preview回答R1热门问题,是否各有千秋?
到实测这个Part,小编觉得如果还是测一把“草莓”和“9.9>9.11”,就有点太无聊了。
毕竟DeepSeek R1之所以如此出圈,不是因为能答对这几个案例,而是真的能帮助用户解决生活中的问题,甚至解答人生中的困惑。
上图:虽说如此,但还是测了这个案例,QwQ-Max-Preview轻松通关
然后在小红书看看,用户都在使用DeepSeek R1问些什么吧。
我们就以有1w+笔记的“如何当父母才不累”,以及第二名“普通人如何利用信息差搞钱”这两个问题来横向比较下两个推理模型吧。
图片
使用如何“如何当父母才不累”这个话题进行实测,QwQ-Max-Preview能够分析用户的具体情况、深层需求,并提供实用建议,进行了完整的思考。
图片
两个模型在输出的内容上大概方向一致,QwQ-Max-Preview更注重提供建议。此外,R1在思维链中特别指出要“保持口语化”,提供的答案更有“情绪”一些也相对详细。
上图:两个模型都提到了“接受不完美”
而在第二个问题上,QwQ-Max-Preview同样能完成接地气、具有逻辑的思考。同时千问还不忘和自家的产品“梦幻联动”一把,提供了“拼多多进货,批量采购后在淘宝加价卖出”“闲鱼搜索‘倒闭库存’”等建议。
图片
在这个回答上,R1做的稍微好的一点是区分了“低门槛起步方式”“进阶变现模式”等层次,看起来更有操作性。
当然,QwQ-Max-Preview毕竟只是预览版,从实测体验上,其回答问题更加流畅丝滑。不会像R1那样需要等待才开始思考,也不会提心吊胆会弹出“服务器繁忙”。
对了,千问团队今天宣布,QwQ-Max也是要做APP的(推特消息是面向海外用户的,不知道国内是更新通义上,还是也单做APP ?)。期待正式版的QwQ-Max,能在输出问题的格式和口语化方面继续进步,继续缔造AI应用的传奇!
图片
2.旗舰推理模型的基座——Qwen2.5-Max
这里在帮朋友们回顾下QwQ-Max-Preview的基座,Qwen2.5-Max。
Qwen2.5-Max在除夕夜发布,是阿里家的超大规模MoE模型,采用超过20万亿tokens的预训练数据。
该模型在多个基准测试中超越DeepSeek V3、GPT-4o等领先AI,支持指令模型和基座模型。
也就是说QwQ-Max的推理模型,其基座是强于DeepSeek R1的基座V3的。
另外,今天推出的预览版并非阿里首个推理模型。
去年通义就有了QwQ系列,不过是一个32B小模型的预览版。
https://huggingface.co/Qwen/QwQ-32B-Preview
图片
3.写在最后
这周的大模型更新已经到了神仙打架的级别了。
从预览版来看,QwQ-Max正式版绝对值得一看,尤其是正式版后开放的Agent功能,期待能给智能体的市场带来一些颠覆性的创新。
本文转载自51CTO技术栈,作者:伊风
