鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Pixtral Large：124B的最强开源多模态大模型原创

发布于 2024-11-27 14:45

浏览

0收藏

近日，法国著名开源大模型平台Mistral.ai，开源了一个1240亿参数的超大多模态模型：Pixtral Large，在多个开源多模态评测上超越了GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2等商业模型或开源模型，成为目前最强的开源多模态大模型。

Demo: https://chat.mistral.ai

Blog: https://mistral.ai/news/pixtral-large

Model: https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411

太长不看

第一梯队的多模态性能
在MathVista、DocVQA、VQAv2等多模态评测上达到SOTA水平
扩展了Mistral Large 2，同时不牺牲文本性能
123B的多模态transformer解码器，1B的视觉编码器
128K上下文窗口：可容纳至少30张高分辨率图像

详细解读

Pixtral Large，是基于Mistral Large 2架构构建的124B参数量级的多模态模型。该模型特别擅长处理文档、图表以及自然图像的理解任务，同时继承并提升了Mistral Large 2在纯文本理解方面的卓越性能。在遵守license条件下，开源可商用。

在诸多多模态评测上，都取得了优异的成绩，甚至干翻了GPT-4o和Claude-3.5 Sonnet在内的多个闭源商业模型，尤其是在复杂文档图表图像的推理能力上。

Pixtral Large：124B的最强开源多模态大模型-AI.x社区

Pixtral Large：124B的最强开源多模态大模型-AI.x社区

它建立在其前身，2024年夏天推出的Mistral Large 2，以及9月份发布的Mistral第一款多模态大模型Pixtral 12B的基础上。

Pixtral Large 的解码器基于 Mistral Large 2 的架构。它采用基于 Transformer 的设计，能够在文本和视觉模态间进行高级推理。解码器可无缝处理长达 128K token 的上下文，非常适合在单次推理中融合大量文本和视觉数据。

Pixtral Large：124B的最强开源多模态大模型-AI.x社区

视觉编码器视觉编码器 Pixtral-ViT 是一个拥有 10 亿参数的模块，专为处理多样化的视觉数据而设计。

Pixtral Large：124B的最强开源多模态大模型-AI.x社区

https://arxiv.org/abs/2410.07073

Pixtral 视觉编码器主要特性：

长宽比保持：与传统固定分辨率的编码器不同，Pixtral-ViT 可处理图像的原始尺寸。这减少了预处理需求，并保留了关键细节。
块对角注意力掩码（Block-Diagonal Attention Masks）：通过隔离每张图像的注意力计算，支持高效处理多张图像。
ROPE-2D 编码：相对位置编码的二维扩展，优化了图像块的空间表示，使编码器能够适应不同的分辨率和长宽比。

视觉编码器将图像转换为与多模态解码器兼容的 token 表示，实现文本与图像的统一处理。

本文转载自公众号思源数据科学作者：思源Source

原文链接：https://mp.weixin.qq.com/s/D2xwsz6GvnAy-ddou7UJFQ

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

多模态大模型

已于2024-11-27 14:46:25修改

赞

收藏

回复

举报

回复

相关推荐

最强开源大模型易主，号称超过Llama 2、Mixtral、Grok-1的DBRX是什么？

liutao988 • 3108浏览 • 0回复
7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

轻薄滴假象 • 3908浏览 • 0回复
抱抱脸团队（HF）发布多模态大模型Idefics2，8B参数

AIGC最前线 • 3149浏览 • 0回复
新测试基准发布，最强开源Llama 3尴尬了

Crystalcxt • 2770浏览 • 0回复
大模型竞技场全面测评结果出炉：Llama3 70B成开源模型中最强王者！

AIGC最前线 • 5506浏览 • 0回复
英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

duhorse • 2500浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 4090浏览 • 0回复
多模态与伪多模态大模型

AI探索时代 • 1971浏览 • 0回复
Mistral开源首个多模态大模型—Pixtral 12B

Aceryt • 2236浏览 • 0回复
Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

NLP工作站 • 3846浏览 • 0回复
Aria: 第一个多模态MoE | Pixtral 12B | AI教学新突破：DataEnvGym让模型自我进化

sbf_2000 • 1937浏览 • 0回复
实测腾讯开源的Hunyuan-Large大模型，感觉......

NLP工作站 • 1858浏览 • 0回复
最强开源多模态模型 Pixtral Large！

Aceryt • 1817浏览 • 0回复
多模态RAG利器，带你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 • 2484浏览 • 0回复
多模态RAG利器，带你跑通Qwen2-VL-7B-Instruct大模型

AI科技论谈 • 2624浏览 • 0回复
Infinigence AI 发布 Megrez-3B-Omni：3B 设备上开源多模态大语言模型 MLLM

Halo咯咯 • 1663浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 2008浏览 • 0回复
Qwen2.5-VL-32B：多模态大模型的性能与效率新标杆

Halo咯咯 • 862浏览 • 0回复
Llama 4 凌晨震撼发布：Meta开源最强MoE多模态模型，1000万上下文碾压行业！

AI博物院 • 829浏览 • 0回复

LV.2

每天分享有趣的科技论文、消息，看未来如何？

觉得TA不错？点个关注精彩不错过

13

帖子

154

声望

2

粉丝

关注

最近发布

Jina CLIP v2：为多模态RAG设计的向量模型 2024-11-27 14:50:27发布
解密o1推理过程！DeepSeek-R1-Lite预览版上线 2024-11-27 14:48:58发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： Omnivision-968M：最小多模态模型，为边缘设备而生！

下一篇：解密o1推理过程！DeepSeek-R1-Lite预览版上线

社区精华内容

目录

太长不看
详细解读
https://arxiv.org/abs/2410.07073
Pixtral 视觉编码器主要特性：

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载