苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

Aceryt

发布于 2024-7-8 09:29

浏览

0收藏

苹果和瑞士洛桑联邦理工学院的研究人员联合开源了大规模多模态视觉模型——4M-21。

多数大模型通常针对特定任务或数据类型进行优化，这种专业化虽然能确保在特定领域的高性能，但也限制了模型的通用性和灵活性。

例如，开源模型Stable Difusion只能用于文生图，即便是Gemini这种多模态模型，也只能生成和解读图片。

而4M-21只有30亿参数，却可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能，基本相当于视觉模型界的“瑞士军刀”功能很全面。

开源地址：https://github.com/apple/ml-4m/

论文地址：https://arxiv.org/abs/2406.09406

在线demo：https://huggingface.co/spaces/EPFL-VILAB/4M

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务-AI.x社区

4M-21能提供如此多的功能，其关键核心技术是“离散tokens”转换技术。简单来说，就是将各种模态的数据转换为统一格式的tokens序列数据。

无论是图像类数据、神经网络特征图、向量、结构化数据（实例分割或人体姿态），还是以文本形式表示的数据，都可以转换成模型可以理解的同一数据格式。

这不仅简化了模型的训练，还将原本形态各异的数据被映射到一个共享的、易于处理的表示空间，为多模态学习和处理奠定了基础。

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务-AI.x社区

对于图像类数据，例如，边缘检测图或特征图，研究人员使用了基于Vision Transformer的变分量化自编码器进行标记化，生成一个固定大小的小网格tokens阵列。

对于那些需要高保真度重建的任务，例如，RGB图像，会采用扩散解码器来增强视觉细节的恢复。

而对于非空间模态，全局嵌入或参数化的人体姿态等，则利用Bottleneck MLP和Memcodes量化方法将其压缩成少量的离散tokens。

至于文本、边界框、颜色调色板或元数据等序列数据，则通过WordPiece分词器编码为文本tokens，利用共享的特殊tokens来标识它们的类型和值。

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务-AI.x社区

在训练阶段，4M-21通过掩码建模的方法来完成多模态学习，会随机遮盖输入序列中的部分tokens，然后基于剩余未遮盖的tokens预测被遮盖的部分。

这种方法迫使模型学习输入数据的统计结构和潜在关系，从而捕捉到不同模态间的信息共通性和交互性。

此外，掩码建模不仅提升了模型的泛化能力，还提升了生成任务的准确性，能够以迭代的方式预测缺失的tokens。

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务-AI.x社区

无论是通过自回归（逐个预测）还是逐步解码（逐步揭示遮盖部分）的方式。使得模型在解码过程中能够生成连贯的输出序列，包括生成文本、图像特征或其他模态的数据，从而支持多模态处理能力。

研究人员将4M-21在图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计以及3D人体姿态估计等测试平台中进行了综合评测。

结果显示，4M-21的多模态处理能力可以媲美当前最先进的模型。例如，在COCO数据集上，在语义和实例分割任务上表现出色，准确识别和区分图像中的多个对象；

在3DPW数据集上的3D人体姿态估计任务中也取得了显著的成绩，能够精确捕捉人体的姿态变化。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/n99lZvuCtQLhPNDlNxurZQ

标签

苹果

开源

相关推荐

谷歌推出通用AI代理：能自动执行600多种动作，游玩复杂3D游戏

Aceryt • 3535浏览 • 0回复
中科大等意外发现：大模型不看图也能正确回答视觉问题！

Crystalcxt • 2485浏览 • 0回复
苹果超强视觉预训练模型助力下游任务拿SOTA！（分类、检测、分割、深度估计）

angel • 4516浏览 • 0回复
分分钟完成Excel任务的十大AI工具

51CTO内容精选 • 5638浏览 • 0回复
微软发布Florence-2：用于处理各种视觉任务的小模型

AIGC最前线 • 4509浏览 • 0回复
Excp & FastPersist：数十倍 LLM Checkpoint 保存加速和压缩

amei2000go • 6099浏览 • 0回复
优雅谈大模型：揭开计算机视觉任务神秘面纱

鲁班模锤1 • 3130浏览 • 0回复
揭开危险的面纱：人工智能可能失控的十种方式以及如何识别

51CTO内容精选 • 2870浏览 • 1回复
谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务

Aceryt • 2738浏览 • 0回复
苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪

Aceryt • 2506浏览 • 0回复
撤出OpenAI后，苹果继续泼冷水：大模型不会推理。科技界炸锅：大模型只会检索拼凑答案

51CTO技术栈 • 2564浏览 • 0回复
微软开源视觉语言模型Florence-2的应用实战

51CTO内容精选 • 3136浏览 • 0回复
苹果重磅开源俄罗斯套娃扩散模型！MDM：多任务高分辨率生成又快又好！

angel • 2376浏览 • 0回复
支持20+视觉任务，多项SOTA！可扩展多任务视觉基础模型LaVin-DiT：融合时空VAE与DiT

angel • 2505浏览 • 0回复
“RAG界的DeepSeek”开源-企业复杂私域知识理解与推理框架PIKE-RAG

大模型自然语言处理 • 2856浏览 • 0回复
苹果开源通用视觉模型：创新训练方法，超1000颗星

Aceryt • 1938浏览 • 0回复
大型语言模型（LLMs）如何能够从长达数十年的符号 AI 项目中受益

lintoms • 1821浏览 • 0回复
数据分析神器PandasAI，帮你高效处理十项常见任务

小虎哦哦 • 2731浏览 • 0回复
这十种方法你一定要知道

Halo咯咯 • 1863浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

目录