鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

账号设置退出

阿里推出“眼睛”模型QVQ：全球第一个用于视觉推理的开放权重模型

作者：AI寒武纪 2024-12-25 09:30:00

人工智能新闻

阿里推出基于 Qwen2-VL-72B 构建的开源多模态推理模型QVQ

这可能是全球第一个用于视觉推理的开源权重模型，名为QVQ，其中的“V”代表视觉。它只需读取一张图像和一条指令，就能开始思考，在需要时进行反思，持续推理，最后得出有把握的预测！不过，该模型仍处于实验阶段

人的语言和视觉紧密交织，塑造着我们感知和理解世界的方式，QVQ的主要目标是模仿人的这一思维方式

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中，QVQ 取得了 70.3 的优异成绩，并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理，QVQ 在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色

模型表现

QVQ在 4 个数据集上评估 QVQ-72B-Preview，包括：

MMMU：大学级别的多学科多模态评测集，旨在考察模型视觉相关的综合理解和推理能力

MathVista：数学相关的视觉推理测试集，评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力

MathVision：高质量多模态数学推理测试集，来自于真实的数学竞赛，相比于MathVista具有更多的问题多样性和学科广度

OlympiadBench：奥林匹克竞赛级别的双语多模态科学基准测试集，包含来自奥林匹克数学和物理竞赛的8,476个问题，包括中国高考。每个问题都附有专家级别的注释，详细说明了逐步推理的过程

QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了 Qwen2-VL-72B-Instruct。此外，在剩下的三个专注于数学和科学问题的基准测试中，该模型表现出色，有效缩小了与领先的最先进的 o1 模型之间的差距

阿里展示几个QVQ解题的例子，QVQ可以展现实时思维过程

尽管QVQ展示了令人惊叹的能力，但它仍有一些局限性值得关注：

1. 语言混合与切换：模型可能会在不同语言间切换，影响表达的清晰度

2. 递归推理问题：在某些情况下，模型可能陷入循环逻辑，导致冗长却无结论的回答

3. 安全与伦理问题：模型需要更高的安全性保障，用户在部署时需格外谨慎

4. 性能与基准限制：在多步视觉推理中，模型可能逐渐失去对图像内容的关注，产生“幻觉”结果

试用：

HF: https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888

ModelScope: https://modelscope.cn/models/Qwen/QVQ-72B-Preview

Kaggle: https://kaggle.com/models/qwen-lm/qvq-72b-preview

责任编辑：张燕妮来源： AI寒武纪

开源模型测试

51CTO技术栈公众号

业务
速览

媒体

51CTO CIOAge HC3i

社区

51CTO博客鸿蒙开发者社区 AI.x社区

教育

51CTO学堂精培企业培训 CTO训练营