Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)

发布于 2024-11-21 14:29
浏览
0收藏

阿里Qwen团队推出了一些​很棒的New Vision语言模型,第一个模型是Qwen 2 VL 2B,然后是8B,然后是72b。

在这三个模型中,只有2B和8B模型目前是开源的,而72b模型尚未开源,这有点令人失望,但我认为这没关系,因为我们这些凡人无论如何都无法运行它,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

72b模型可以通过API获得:​​https://dashscope.console.aliyun.com/​

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

我给了一个这样的图片:

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

这是他的结果

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

Qwen2-VL-72B:这是一张展示图像转换前后的对比图。图片的左上角有“Ideogram”和“IMAGE TO IMAGE”的字样,表示这是一个图像转换的示例。左边的图像是“BEFORE”(转换前),右边的图像是“AFTER”(转换后)。左边的图像是一棵装饰有彩色球和星星的圣诞树,右边的图像则是一棵更加鲜艳和详细的圣诞树,周围有多个礼物盒和糖果手杖。整体上,这张图片展示了图像转换技术的效果。

它识别了原来图片的元素,比如准确的文字识别、圣诞树上的饰品,而且他知道左边树是一个装饰很多东西的圣诞树,而右边他特地说了这是一个转化的过程,把它变成更加花枝招展的圣诞树。

而实际上这张图片就是表达这种意思,就是我前面写 ldeogram AI 用到的封面图:

​升级!!全新ideogram 2.0!营销海报、网页设计生成神器(击败Midjourney、Flux)​

认识纳西妲 ?

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

他们说 Qwen 2vl

他们说它在视觉理解基准测试中取得了最先进的性能,可以理解超过 20 分钟的视频,可用于高质量的基于视频的问答对话内容创建等,它还具有多语言支持,这非常好。

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

他们还分享了基准测试:

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,仅在对综合的大学题目上和 GPT-4o 还有差距,但 ... 开源视觉领域Top1。

然后 7B 模型也在许多基准测试中击败了 Gpt-4o-mini 和其他 LLMs,这也真的很不错,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

除此之外,2B 模型也相当不错,并且击败了 Min-CPM 和 Intern-VL2,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

这也相当不错,所有这些模型都可以对视频进行总结,

他们还分享了一些测试问题

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区


2B 和 7B 模型属于 Apache 2 许可证,这意味着它们是完全开源的,可以免费用于个人和商业用途。

该模型的架构不同,并且尚不支持 Llama.cpp 架构,因此它还不能在 llama 上使用,我希望它能尽快添加。

72b 模型可以在 hugging face 空间上使用:​​https://huggingface.co/spaces/Qwen/Qwen2-VL​

所以我会在这测试一下,

多模式问题集还没有,但我从 grock 的测试中收集了一些好问题,还有一些是我自己收集的,

目前我有七个问题,无论如何,让我们开始吧,

第一个问题是关于这张图片,这是一个程序的流程图,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

系统会创建一个随机数并要求用户猜一个数字,如果用户的输入和随机数匹配,则用户获胜,否则失败,所以让我们给它这个并要求它将其转换为 Python 程序,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

根据它给出的代码,运行它,工作正常,我检查了它是否产生了tru状态,它确实产生了true状态,所以它工作正常。

现在下一个问题是关于这张图片的,我会问这五片有多少卡路里,答案应该是 100,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

所以让我们发送它,看看,好的,这是答案,正如你所看到的,这是正确答案,所以让我们也让它通过。

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

现在下一个问题是关于这张表格的图片,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

我想把它转换成 CSV 表格,所以让我们发送它并检查,好的,这是答案,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

这个 CSV 表格看起来非常准确,所以这个也是通过的,

现在下一个是聊天 GPT 界面的屏幕截图,我想把它转换成类似的 HTML CSS 和基于 js 的界面,所以让我们发送它,看看它是否可以实现,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

代码先省略,这是预览,看起来很不错,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

我的意思是它不是很相似,但是如果再加一些提示和一个好的系统提示,它可以产生更好的结果,所以这个通过了,

现在下一个问题是关于这张狗奔跑的图片,这张图片非常模糊,所以我想看看它是否能理解,让我们发送它,看看好的,这是答案,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

它识别出这是一只狗,并解释了为什么它是模糊的,并且有运动模糊,这也非常酷。

现在最后一个问题是关于这张图片:这是一个简单的开源闭源模型梗图,我希望它能解释这一点,所以让我们发送它,看看是否它能理解幽默吗?

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

好吧,这就是答案,

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

这也是一个很好的解释,所以我认为这真是太棒了。

而且总体上非常好,因为它基于相同的 qwen 2 模型,我已经非常喜欢它了,我认为 7B 和 2B 模型也应该相当不错。

因为一般来说,qwen 模型在各方面都更好,只是架构上的差异使得它对我们大多数人来说非常不可用,我希望看到它得到支持ollama,这样人们就可以开始使用它了,

这些架构上的变化是好的,但是它们使许多模型无法供他们所服务的人使用,这有点糟糕。

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

Qwen2-VL (2B、7B、72B):迄今为止最好的开源视觉模型!!(击败 Claude 和 GPT-4o)-AI.x社区

但我希望它能很快得到 ollama 和 llama cpp 的支持,但这些模型真的很好,而视觉模型已经缺乏很长一段时间了,所以很高兴看到这些强大的视觉模型的出现,总的来说,这很酷。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

视频链接

​https://www.youtube.com/watch?v=EG3IFDnYQkA​

参考链接:
[1] 博客:https://huggingface.co/spaces/Qwen/Qwen2-VL
[2] huggingface:https://huggingface.co/spaces/Qwen/Qwen2-VL

本文转载自 AI进修生​,作者: Aitrainee

收藏
回复
举报
回复
相关推荐