视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！原创

51CTO技术栈

发布于 2024-12-17 13:56

3844浏览

0收藏

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

12月13日晚，国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。这次DeepSeek视觉模型给这一领域带来了不少看新看点：

1、模型层面，视觉模型也可以使用 MoE 架构，而且可以配合动态切图

2、新增了不少生成玩法，如：视觉定位，模型可以根据提示识别出物体的边界范围，再比如梗图理解和解析。

3、图表理解：可以根据plot图逆向生成代码。

4、从OCR到故事生成：可以N张图一期喂给模型，模型直接生成强相关的故事。

先上一张图，让大家品一品，一句提示，让大模型明白图中的人物：谁是淡定姐。

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！-AI.x社区图片

当然，DeepSeek-VL2 肯定是开源的了，具体型号有3B、16B 、 27B。模型和论文均已发布：

模型下载：https://huggingface.co/deepseek-ai

GitHub主页：https://github.com/deepseek-ai/DeepSeek-VL2

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！-AI.x社区

1.模型新升级

首先看数据方面，VL2 比上一代 DeepSeek-VL 多一倍优质训练数据，引入梗图理解、视觉定位、视觉故事生成等新能力。

在模型架构上，视觉部分使用切图策略支持动态分辨率图像，语言部分采用 MoE 架构低成本高性能。

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！-AI.x社区图片

在训练方法上，继承 DeepSeek-VL 的三阶段训练流程，同时通过负载均衡适配图像切片数量不定的困难，对图像和文本数据使用不同流水并行策略，对 MoE 语言模型引入专家并行，实现高效训练。

在不少视觉理解测试中，评分结果跟GPT4o、Qwen打平，甚至更好，关键是VL2可以用更少的参数量就能达到极好的效果。DeepSeek-VL2 模型展现出了强大能力，在各项评测指标上均取得了极具优势的成绩：

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！-AI.x社区图片

具体的测评结果如下：

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！-AI.x社区图片

2.动态分辨率支持

据介绍，DeepSeek-VL2 仅使用一个 SigLIP-SO400M 作为图像编码器，通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。这一策略使得 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比，这样就可以适配更多应用场景。

视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！-AI.x社区图片