鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

300亿参数！苹果推出多模态大模型MM1，能解释图像和文本数据

发布于 2024-3-27 16:46

浏览

0收藏

在过去的一年里，LLM 因其先进的 AI 能力而备受关注。值得注意的是，苹果（Apple）公司却缺席了。

目前，苹果公司正在谈判将谷歌的 Gemini 人工智能引擎植入 iPhone。而苹果一直致力于开发下一代 LLM，一种可以解释图像和文本数据的 LLM。

近日，苹果的计算机科学家和工程师团队开发了一种 LLM 模型，声称该模型可以解释图像和数据。

苹果构建了一个多模态模型系列——MM1，包括高达 30B 的 dense 变体和高达 64B 的专家混合 (MoE) 变体，它们在预训练指标中是 SOTA，并在对一系列已建立的多模态基准进行监督微调后获得具有竞争力的性能。

该研究以《MM1：多模态 LLM 预训练的方法、分析和见解》（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training）为题，发表在 arXiv 预印上，描述了他们新的 MM1 系列多模态模型和测试结果。

300亿参数！苹果推出多模态大模型MM1，能解释图像和文本数据-AI.x社区论文链接：https://arxiv.org/abs/2403.09611

多模态 AI 的工作原理是集成和处理不同类型的数据输入，例如视觉、听觉和文本信息。这种集成使人工智能能够更全面地理解复杂数据，从而比单模态人工智能系统做出更准确和上下文感知的解释。

苹果的研究团队声称，他们在 MM1 模型中使用多模态 AI 方面取得了重大进展，该模型集成了文本和图像数据，以提高图像字幕、视觉问答和查询学习的能力。他们的 MM1 是他们所描述的多模态模型系列的一部分，每个模型都包含多达 300 亿个参数。

300亿参数！苹果推出多模态大模型MM1，能解释图像和文本数据-AI.x社区图 1：在 MLLM 基准测试中与 SOTA 模型的比较。

300亿参数！苹果推出多模态大模型MM1，能解释图像和文本数据-AI.x社区图 2：MM1 凭借其大规模多模态预训练可以执行上下文预测。

研究人员指出，此类模型利用由图像捕获对、包含图像和纯文本文档的文档组成的数据集。

研究人员进一步声称，他们的多模态 LLM (MLLM) 可以计算对象、识别图像中的对象，并利用日常对象的常识为用户提供有关图像所呈现内容的有用信息。

300亿参数！苹果推出多模态大模型MM1，能解释图像和文本数据-AI.x社区图 3：MM1 可以跨图像执行指令和推理。

研究人员还声称，他们的 MLLM 能够进行情境学习，这意味着它不需要每次提出问题时都重新开始；它使用在当前对话中学到的知识。

300亿参数！苹果推出多模态大模型MM1，能解释图像和文本数据-AI.x社区图 4：研究了图像分辨率和预训练对监督微调（SFT）性能的影响。

该团队提供了模型高级功能的示例，其中包括上传一群朋友在酒吧拿着菜单的图像，并询问模型根据菜单中列出的价格为每个人购买一杯啤酒需要多少钱。

研究人员表示，“我们希望所确定的经验教训将帮助社区构建超越任何单一特定模型架构或数据策略的强大模型。”

本文转载自 AI超数据，作者： AI 前沿

原文链接：https://mp.weixin.qq.com/s/hCFcLc1NFjleDF6j5qOb3A

标签

赞

收藏

回复

举报

回复

相关推荐

2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 3265浏览 • 0回复
超越GPT-4V，苹果多模态大模型上新！

duhorse • 2169浏览 • 0回复
文本直接生成多视角3D图像，Meta推出创新模型

Aceryt • 2053浏览 • 0回复
Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

duhorse • 2284浏览 • 0回复
ChatGPT等模型疯狂训练，最快2026年消耗尽公开文本数据

Aceryt • 3494浏览 • 0回复
TextCoT：放大增强型多模态富文本图像理解

AIRoobt • 2835浏览 • 0回复
「多模态大模型」解读 | 突破单一文本模态局限

Baihai_IDP • 2717浏览 • 0回复
TextCoT：放大增强型多模态富文本图像理解

AIRoobt • 2654浏览 • 0回复
MUMU：用文本、图像引导，多模态图像生成模型

Aceryt • 2101浏览 • 0回复
Nature: 受热力学启发的人工智能解释

ceesoft • 2870浏览 • 0回复
多模态大模型数据分析与实践

zhcs333 • 3513浏览 • 0回复
超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

Aceryt • 1817浏览 • 0回复
多模态大模型数据构造方法

shizhi02 • 2224浏览 • 0回复
你知道大模型聊天补全和文本生成的区别吗？

AI探索时代 • 2602浏览 • 0回复
NVIDIA AI 推出 Fugatto：一个 25 亿参数的音频模型，可从文本和音频输入生成音乐、语音和声音

Halo咯咯 • 1888浏览 • 0回复
时序+图像+文本，多模态增强的时序预测模型

海因斯DK • 2907浏览 • 0回复
2025首篇关于多模态大模型在富文本图像理解上的全面研究综述

PaperAgent • 2376浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 1997浏览 • 0回复
Vision-R1：多模态领域的DeepSeek R1-Zero，7B参数比肩OpenAI O1

Syrupup • 1398浏览 • 0回复

AI.x社区官方账号

LV.3

AI.x社区官方账号。

觉得TA不错？点个关注精彩不错过

19

帖子

381

声望

20

粉丝

关注

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载