
回复
大家好,我是刘聪NLP。
没错,是的,对的,很棒,千问!
QWQ之后,千问团队又开源了视觉推理大模型QVQ,是72B的呦。
圣诞快乐,如期而至!
为啥是72B,可想而知,这个QVQ就是基于前一段时间开源的Qwen2-VL-72B模型上进一步训练得来的。
有个7B的为啥没出QVQ-7B,估计是参数来太少,做o1式推理效果不行,QWQ也是32B起步的,所以模型参数量很关键。
在榜单上的效果,QVQ在MMMU是突破了70,并且整体效果相较于Qwen2-VL-72B还是好了很多,同时也是对标了闭源模型,QVQ依旧能打。
但QVQ-72B依然存在一些问题:
模型,我还在下载,测试完,再写评测文章!
用法跟Qwen2-VL-72B一样,HF代码如下:
本文转载自 NLP工作站,作者: 刘聪NLP