Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫

发布于 2024-11-21 14:29

3643浏览

0收藏

阿里Qwen团队推出了一些很棒的New Vision语言模型，第一个模型是Qwen 2 VL 2B，然后是8B，然后是72b。

在这三个模型中，只有2B和8B模型目前是开源的，而72b模型尚未开源，这有点令人失望，但我认为这没关系，因为我们这些凡人无论如何都无法运行它，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

72b模型可以通过API获得：https://dashscope.console.aliyun.com/

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

我给了一个这样的图片：

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

这是他的结果

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

Qwen2-VL-72B：这是一张展示图像转换前后的对比图。图片的左上角有“Ideogram”和“IMAGE TO IMAGE”的字样，表示这是一个图像转换的示例。左边的图像是“BEFORE”（转换前），右边的图像是“AFTER”（转换后）。左边的图像是一棵装饰有彩色球和星星的圣诞树，右边的图像则是一棵更加鲜艳和详细的圣诞树，周围有多个礼物盒和糖果手杖。整体上，这张图片展示了图像转换技术的效果。

它识别了原来图片的元素，比如准确的文字识别、圣诞树上的饰品，而且他知道左边树是一个装饰很多东西的圣诞树，而右边他特地说了这是一个转化的过程，把它变成更加花枝招展的圣诞树。

而实际上这张图片就是表达这种意思，就是我前面写 ldeogram AI 用到的封面图：

升级！！全新ideogram 2.0！营销海报、网页设计生成神器（击败Midjourney、Flux）

认识纳西妲？

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

他们说 Qwen 2vl

他们说它在视觉理解基准测试中取得了最先进的性能，可以理解超过 20 分钟的视频，可用于高质量的基于视频的问答对话内容创建等，它还具有多语言支持，这非常好。

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

他们还分享了基准测试：

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

72B 规模的模型在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，仅在对综合的大学题目上和 GPT-4o 还有差距，但 ... 开源视觉领域Top1。

然后 7B 模型也在许多基准测试中击败了 Gpt-4o-mini 和其他 LLMs，这也真的很不错，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

除此之外，2B 模型也相当不错，并且击败了 Min-CPM 和 Intern-VL2，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

这也相当不错，所有这些模型都可以对视频进行总结，

他们还分享了一些测试问题

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

2B 和 7B 模型属于 Apache 2 许可证，这意味着它们是完全开源的，可以免费用于个人和商业用途。

该模型的架构不同，并且尚不支持 Llama.cpp 架构，因此它还不能在 llama 上使用，我希望它能尽快添加。

72b 模型可以在 hugging face 空间上使用：https://huggingface.co/spaces/Qwen/Qwen2-VL

所以我会在这测试一下，

多模式问题集还没有，但我从 grock 的测试中收集了一些好问题，还有一些是我自己收集的，

目前我有七个问题，无论如何，让我们开始吧，

第一个问题是关于这张图片，这是一个程序的流程图，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

系统会创建一个随机数并要求用户猜一个数字，如果用户的输入和随机数匹配，则用户获胜，否则失败，所以让我们给它这个并要求它将其转换为 Python 程序，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

根据它给出的代码，运行它，工作正常，我检查了它是否产生了tru状态，它确实产生了true状态，所以它工作正常。

现在下一个问题是关于这张图片的，我会问这五片有多少卡路里，答案应该是 100，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

所以让我们发送它，看看，好的，这是答案，正如你所看到的，这是正确答案，所以让我们也让它通过。

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

现在下一个问题是关于这张表格的图片，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

我想把它转换成 CSV 表格，所以让我们发送它并检查，好的，这是答案，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

这个 CSV 表格看起来非常准确，所以这个也是通过的，

现在下一个是聊天 GPT 界面的屏幕截图，我想把它转换成类似的 HTML CSS 和基于 js 的界面，所以让我们发送它，看看它是否可以实现，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

代码先省略，这是预览，看起来很不错，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

我的意思是它不是很相似，但是如果再加一些提示和一个好的系统提示，它可以产生更好的结果，所以这个通过了，

现在下一个问题是关于这张狗奔跑的图片，这张图片非常模糊，所以我想看看它是否能理解，让我们发送它，看看好的，这是答案，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

它识别出这是一只狗，并解释了为什么它是模糊的，并且有运动模糊，这也非常酷。

现在最后一个问题是关于这张图片：这是一个简单的开源闭源模型梗图，我希望它能解释这一点，所以让我们发送它，看看是否它能理解幽默吗？

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

好吧，这就是答案，

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

这也是一个很好的解释，所以我认为这真是太棒了。

而且总体上非常好，因为它基于相同的 qwen 2 模型，我已经非常喜欢它了，我认为 7B 和 2B 模型也应该相当不错。

因为一般来说，qwen 模型在各方面都更好，只是架构上的差异使得它对我们大多数人来说非常不可用，我希望看到它得到支持ollama，这样人们就可以开始使用它了，

这些架构上的变化是好的，但是它们使许多模型无法供他们所服务的人使用，这有点糟糕。

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）-AI.x社区

但我希望它能很快得到 ollama 和 llama cpp 的支持，但这些模型真的很好，而视觉模型已经缺乏很长一段时间了，所以很高兴看到这些强大的视觉模型的出现，总的来说，这很酷。

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

视频链接

https://www.youtube.com/watch?v=EG3IFDnYQkA

参考链接：
[1] 博客：https://huggingface.co/spaces/Qwen/Qwen2-VL
[2] huggingface：https://huggingface.co/spaces/Qwen/Qwen2-VL

本文转载自 AI进修生，作者： Aitrainee

标签

Qwen2-VL

开源

视觉模型

51CTO

51CTO博客

51CTO学堂

Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

目录