阿里通义千问开源视觉推理模型 QVQ-72B-Preview:像物理学家一样思考

人工智能
阿里通义千问 Qwen 团队12 月 25 日发布博文,宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。

12 月 25 日消息,阿里通义千问 Qwen 团队今天(12 月 25 日)发布博文,宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。

阿里通义千问团队在 4 个数据集上评估 QVQ-72B-Preview,IT之家附上相关介绍如下:

  • MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。
  • MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
  • MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于 MathVista 具有更多的问题多样性和学科广度。
  • OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的 8,476 个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程。

测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

阿里通义千问 Qwen 团队也表示 QVQ-72B-Preview 是实验性研究模型,专注于增强视觉推理能力。尽管它的表现超出了预期,但仍有几个限制需要注意:

  • 语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。
  • 递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。
  • 安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。
  • 性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

参考

责任编辑:庞桂玉 来源: IT之家
相关推荐

2012-10-17 09:49:12

编程语言编程未来编程

2024-11-19 09:30:00

2011-06-20 09:15:20

面向对象算法数学

2018-03-14 11:56:37

霍金去世

2014-05-22 16:22:24

程序员上帝粒子算法

2024-12-25 09:30:00

2023-03-15 08:14:59

物理学家AI工具

2013-03-11 10:00:41

2022-04-28 21:57:13

机器人人工智能

2020-01-06 18:11:00

雪花科学人工智能

2022-02-24 11:16:38

量子计算机器学习黑洞

2024-05-11 13:41:39

AI数据

2022-01-13 09:33:32

量子芯片计算机

2023-10-04 09:43:34

诺贝尔研究

2013-10-11 15:25:43

华为存储华为

2022-03-03 14:41:41

量子谷歌时间晶体

2023-08-14 08:12:48

超导粒子

2019-04-30 14:55:32

设计师用户产品

2023-11-26 17:24:38

2016-08-04 16:30:49

华为
点赞
收藏

51CTO技术栈公众号