鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

DeepSeek-VL2开源，VLM迈入MoE时代！

发布于 2024-12-16 10:44

浏览

0收藏

DeepSeek-VL2：一个先进的大型混合专家（MoE）视觉-语言模型系列，它显著改进了其前身DeepSeek-VL。DeepSeek-VL2在多种任务上展现出卓越的能力，包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。

DeepSeek-VL2开源，VLM迈入MoE时代！-AI.x社区图片

包括三个变体：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有10亿、28亿和45亿激活参数。与现有的开源密集型和基于MoE的模型相比，DeepSeek-VL2在相似或更少的激活参数下实现了竞争性或最先进的性能。

DeepSeek-VL2开源，VLM迈入MoE时代！-AI.x社区图片

DeepSeek-VL2使用案例

视觉叙事：可以输入多张图像，让DeepSeek-VL2把它们串联起来，形成一个连续的童话故事。

DeepSeek-VL2开源，VLM迈入MoE时代！-AI.x社区

图表理解：DeepSeek-VL2 可以轻易理解各种科研图表

DeepSeek-VL2开源，VLM迈入MoE时代！-AI.x社区

Plot2Code：DeepSeek-VL2 同时具备图像理解和代码生成的功能，可以作为你逆向画图的好帮手。

DeepSeek-VL2开源，VLM迈入MoE时代！-AI.x社区

Prompt: Draw a plot similar to the image in Python.

基于情境的对话：视觉感知+语言推理让DeepSeek-VL2具有视觉语义对话能力。

如果你拿着下图问模型 “如果感觉热，你会怎么做？”，它会回答：“为了降温，你可以使用 [[166, 460, 338, 712]] 位置处的风扇，它放在桌子上”

DeepSeek-VL2开源，VLM迈入MoE时代！-AI.x社区

https://huggingface.co/deepseek-ai
https://github.com/deepseek-ai/DeepSeek-VL2

本文转载自PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

文本直接生成2分钟视频，即将开源模型StreamingT2V

Aceryt • 2634浏览 • 0回复
2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 1981浏览 • 0回复
单个4090可推理，2000亿稀疏大模型「天工MoE」开源

轻薄滴假象 • 911浏览 • 0回复
DeepSeek Coder V2开源发布，首超GPT4-Turbo代码能力

Aceryt • 3530浏览 • 0回复
ACM最新论文戳破大公司「开源」谎言，GenAI时代到底如何定义「开源模型」

duhorse • 913浏览 • 0回复
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的？

arnoldzhw • 1552浏览 • 0回复
阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！

Aceryt • 1372浏览 • 0回复
mPLUG-DocOwl2:新模型无需OCR，多页文档理解迈入新纪元

AI论文解读 • 1425浏览 • 0回复
OLMoE: 开源的MoE语言模型(预训练&效果)

sbf_2000 • 867浏览 • 0回复
Qwen2-VL全面解读！阿里开源多模态视觉语言模型，多项超越GPT4o与Claude 3.5-Sonnet

angel • 3904浏览 • 0回复
DeepSeek LLM: 通过长期主义扩展开源语言模型

AIRoobt • 1731浏览 • 0回复
VLM版o1超越一众开源和闭源模型！LLaVA-o1：多阶段自主推理（北大&清华&阿里等）

angel • 732浏览 • 0回复
Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫 • 857浏览 • 0回复
多模态RAG利器，带你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 • 811浏览 • 0回复
Ai2开源OLMo 2：数据集、训练方法、权重大放送

Aceryt • 507浏览 • 0回复
多模态RAG利器，带你跑通Qwen2-VL-7B-Instruct大模型

AI科技论谈 • 850浏览 • 0回复
视觉模型进入MoE时代！DeepSeek开源全新视觉模型VL2，逆向由图生成代码、梗图解析、几张图生成一篇童话！

51CTO技术栈 • 352浏览 • 0回复
DeepSeek AI发布DeepSeek-V2.5-1210：DeepSeek-V2.5的更新版本，模型性能显着提升

Halo咯咯 • 945浏览 • 0回复
漫画混合专家（MoE）

sulu637 • 138浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

艾伦图灵研究所最新成果：多智能体博弈中的可纠正性和一致性 5天前发布
阿里巴巴语音实验室发布新成果，多模态方法显著提升视频主题分割性能 2025-01-02 13:41:16发布

热门推荐

寻找乐子人｜ “多语言、精准定位”上海导游智能体搭建方案 2回复

人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望 0回复

谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型 0回复

生成式人工智能：2024年全面指南 0回复

ChatGPT写作指南发布：12个案例助力高效学习 0回复

上一篇：从数据集到模型：视频和音频情绪分析的综合研究

下一篇：我们一起聊聊基于快速傅里叶卷积（FFC）的故障诊断模型

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载