阿里推出“眼睛”模型QVQ:全球第一个用于视觉推理的开放权重模型

人工智能 新闻
阿里推出基于 Qwen2-VL-72B 构建的开源多模态推理模型QVQ

这可能是全球第一个用于视觉推理的开源权重模型,名为QVQ,其中的“V”代表视觉。它只需读取一张图像和一条指令,就能开始思考,在需要时进行反思,持续推理,最后得出有把握的预测!不过,该模型仍处于实验阶段

人的语言和视觉紧密交织,塑造着我们感知和理解世界的方式,QVQ的主要目标是模仿人的这一思维方式

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色

模型表现

QVQ在 4 个数据集上评估 QVQ-72B-Preview,包括:

MMMU:大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力

MathVista:数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力

MathVision:高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于MathVista具有更多的问题多样性和学科广度

OlympiadBench:奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的8,476个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程

图片

QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距

阿里展示几个QVQ解题的例子,QVQ可以展现实时思维过程

图片

图片

图片

图片

 

尽管QVQ展示了令人惊叹的能力,但它仍有一些局限性值得关注:

1. 语言混合与切换:模型可能会在不同语言间切换,影响表达的清晰度

2. 递归推理问题:在某些情况下,模型可能陷入循环逻辑,导致冗长却无结论的回答

3. 安全与伦理问题:模型需要更高的安全性保障,用户在部署时需格外谨慎

4. 性能与基准限制:在多步视觉推理中,模型可能逐渐失去对图像内容的关注,产生“幻觉”结果

试用:

HF: https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888

ModelScope: https://modelscope.cn/models/Qwen/QVQ-72B-Preview

Kaggle: https://kaggle.com/models/qwen-lm/qvq-72b-preview

责任编辑:张燕妮 来源: AI寒武纪
相关推荐

2024-03-12 13:22:00

训练数据

2020-06-30 16:50:15

RPA应用

2024-08-20 14:01:21

2011-12-29 15:18:54

开放平台

2017-10-13 15:59:24

iPhone机器学习iOS

2023-03-22 11:44:49

NVIDIAGTC

2019-10-20 09:03:18

微软阿里云应用

2024-09-05 14:25:00

训练代码

2023-01-05 09:33:37

视觉模型训练

2023-07-04 10:18:25

开源模型

2021-07-07 06:04:33

人工智能Pytorch神经网络

2023-12-18 12:52:18

2012-05-28 09:24:49

虚拟化

2024-12-03 15:51:45

2024-02-01 09:43:32

模型人工智能

2024-02-19 00:21:45

开源图片

2024-09-13 12:31:21

谷歌DataGemmaAI

2023-02-25 16:14:36

AIMeta语言模型

2023-08-18 14:34:00

研究模型

2023-11-15 14:17:23

微软语言模型AI 模型
点赞
收藏

51CTO技术栈公众号