DeepSeek-VL2开源,VLM迈入MoE时代!

发布于 2024-12-16 10:44
浏览
0收藏

​DeepSeek-VL2:一个先进的大型混合专家(MoE)视觉-语言模型系列,它显著改进了其前身DeepSeek-VL。DeepSeek-VL2在多种任务上展现出卓越的能力,包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。

DeepSeek-VL2开源,VLM迈入MoE时代!-AI.x社区图片

包括三个变体:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别拥有10亿、28亿和45亿激活参数。与现有的开源密集型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了竞争性或最先进的性能。

DeepSeek-VL2开源,VLM迈入MoE时代!-AI.x社区图片

DeepSeek-VL2使用案例

视觉叙事:可以输入多张图像,让DeepSeek-VL2把它们串联起来,形成一个连续的童话故事。

DeepSeek-VL2开源,VLM迈入MoE时代!-AI.x社区

图表理解:DeepSeek-VL2 可以轻易理解各种科研图表

DeepSeek-VL2开源,VLM迈入MoE时代!-AI.x社区

Plot2Code:DeepSeek-VL2 同时具备图像理解和代码生成的功能,可以作为你逆向画图的好帮手。

DeepSeek-VL2开源,VLM迈入MoE时代!-AI.x社区

Prompt: Draw a plot similar to the image in Python.

基于情境的对话:视觉感知+语言推理让DeepSeek-VL2具有视觉语义对话能力。

如果你拿着下图问模型 “如果感觉热,你会怎么做?”,它会回答:“为了降温,你可以使用 [[166, 460, 338, 712]] 位置处的风扇,它放在桌子上”

DeepSeek-VL2开源,VLM迈入MoE时代!-AI.x社区

https://huggingface.co/deepseek-ai
https://github.com/deepseek-ai/DeepSeek-VL2

本文转载自​​PaperAgent​

收藏
回复
举报
回复
相关推荐