鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Meta刚开源llama 3.2多模态，就被打败了！

发布于 2024-9-29 13:05

1940浏览

0收藏

2个系列：

多模态：Llama 3.2 11B 和 90B，支持视觉多模态，LLama终于有了眼睛！
端侧小模型：LLama 3.2 1B 和 3B

对于新增的多模态模型，只新增了图像编码器，将其集成到预训练模型中，没有更新语言模型参数，即插即用！

对于 Llama 3.2 中的 1B 和 3B 模型，直接使用8B、70B的logits蒸馏，比较常见的蒸馏方式，就是废卡。

Meta刚开源llama 3.2多模态，就被打败了！-AI.x社区图片

虽然 LLama 系列终于有了视觉。但是，今天 allenai 开源了多模态 Molmo 72B 和 7B 模型。并且在视觉方面的表现全面超过了 3.2，太卷了~

Meta刚开源llama 3.2多模态，就被打败了！-AI.x社区

Meta刚开源llama 3.2多模态，就被打败了！-AI.x社区

下表是目前知名多模态模型的横向对比，可能存在错误（claude生成的~）

Benchmark	Molmo-72B	Molmo-7B-D	Molmo-7B-O	MolmoE-1B	Llama 3.2 11B	Llama 3.2 90B	Qwen-VL-72B	GPT-4o	Claude-3.5 Sonnet	Qwen2-VL-7B	GPT-4o-mini	InternVL2-8B	MiniCPM-V 2.6

AI2D	96.3	93.2	90.7	86.4	62.4	75.3	-	-	-	-	-	-	-
ChartQA	87.3	84.1	80.4	78.0	83.4	85.5	88.3	85.7	90.8	83.0	-	83.3	-
VQAv2	86.5	85.6	85.3	83.9	75.2	78.1	-	-	-	-	-	-	-
DocVQA	93.5	92.2	90.8	77.7	88.4	90.1	96.5	92.8	95.2	94.5	-	91.6	90.8
InfoVQA	81.9	72.6	70.0	53.9	43.2	56.8	84.5	-	-	76.5	-	74.8	-
TextVQA	83.1	81.7	80.4	78.8	73.1	73.5	85.5	-	-	84.3	-	77.4	80.1
RealWorldQA	75.2	70.7	67.5	60.4	N/A	N/A	77.8	75.4	60.1	70.1	-	64.4	-
MMMU	54.1	45.3	39.3	34.9	41.7	49.3	64.5	69.1	68.3	54.1	60.0	51.8	49.8
MathVista	58.6	51.6	44.5	34.0	51.5	57.3	70.5	63.8	67.7	58.2	52.4	58.3	60.6
OCRBench	-	-	-	-	-	-	877	736	788	845	785	794	852
MTVQA	-	-	-	-	-	-	30.9	27.8	25.7	26.3	-	-	-
VCR_un easy	-	-	-	-	-	-	91.93	91.55	63.85	89.70	83.60	-	73.88
MMBench-EN	-	-	-	-	-	-	86.5	83.4	79.7	83.0	-	81.7	-
MMStar	-	-	-	-	-	-	68.3	63.9	62.2	60.7	54.8	61.5	57.5
HallBench	-	-	-	-	-	-	58.1	55.0	49.9	50.6	46.1	45.2	48.1
Video-MME	-	-	-	-	-	-	71.2/77.8	71.9/71.2	75.0/81.3	63.3/69.0	-	54.0/56.9	60.9/63.6

本文转载自 NLP前沿，作者：热爱AI的

标签

赞

收藏

回复

举报

回复

相关推荐

新测试基准发布，最强开源Llama 3尴尬了

Crystalcxt • 2770浏览 • 0回复
在12个视频理解任务中，Mamba先打败了Transformer

轻薄滴假象 • 2967浏览 • 0回复
Meta LlaMA 3模型深度解析

51CTO内容精选 • 3683浏览 • 0回复
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的？

arnoldzhw • 2987浏览 • 0回复
Meta首个开源多模态模型Llama 3.2横空出世，能力不输GPT4o-mini；小扎：开源的拐点来了！

51CTO技术栈 • 2724浏览 • 0回复
Llama 3.2：AI视觉革新，手机也能跑大模型

sbf_2000 • 2329浏览 • 0回复
Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

NLP工作站 • 3846浏览 • 0回复
Meta发布Llama 3.2：AI大模型再升级，从云端到掌上

芝士AI吃鱼 • 2277浏览 • 0回复
Llama 3.2 强势震撼登场：从 1B 纯文本跃至 90B 多模态，成就端侧 AI 巅峰杰作

穿越时空111 • 3034浏览 • 0回复
Meta开源多模态模型——Llama 3.2

Aceryt • 2473浏览 • 0回复
Llama 3.2 Vision & Molmo：多模态开源生态系统基础

Baihai_IDP • 2227浏览 • 0回复
使用Llama 3.2-Vision大模型，搭建本地Ollama OCR应用

AI科技论谈 • 6867浏览 • 0回复
Meta AI 开源 Llama 3.3：全新 70B 多语言大语言模型 (LLM)

Halo咯咯 • 2561浏览 • 0回复
本地构建Llama 3.2-Vision多模态LLM聊天应用实战

51CTO内容精选 • 1897浏览 • 0回复
Tokenizer不存在了？Meta开源BLT算法！

NLP前沿1 • 1732浏览 • 0回复
Meta开源多模式模型，轻松混合文本和语音

Aceryt • 1363浏览 • 0回复
Llama 4 凌晨震撼发布：Meta开源最强MoE多模态模型，1000万上下文碾压行业！

AI博物院 • 829浏览 • 0回复
Llama4 刚开源就要被网友玩坏了！

PaperAgent • 717浏览 • 0回复
Meta放大招！Llama 4三大模型来袭，开源免费还超能打

Halo咯咯 • 1266浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

llama 4，开源！ 7天前发布
Deepseek-R1，论文番外篇! 2025-03-28 00:47:51发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

下一篇：卷疯了！开源社区离Openai o1越来越近~

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载