炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事

发布于 2025-2-3 13:57

浏览

0收藏

一、Janus-Pro能做5种任务

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

Janus-Pro的核心设计原则采用自回归框架，通过解耦视觉编码，解决多模态理解和生成任务之间的冲突。
通过独立的编码方法将原始输入转换为特征，然后由统一的自回归变换器进行处理。
对于多模态理解任务，使用SigLIP编码器从图像中提取高维语义特征，并将其展平为一维序列，通过理解适配器将图像特征映射到语言模型的输入空间。
对于视觉生成任务，使用VQ标记器将图像转换为离散ID，将ID序列展平为一维后，通过生成适配器-将每个ID对应的码本嵌入映射到语言模型的输入空间。
然后将这些特征序列拼接形成多模态特征序列，输入到语言模型中进行处理。
例如，在多模态理解任务中，模型可以准确识别图像中的物体、场景和事件，并生成相应的描述。
在视觉生成任务中，模型可以根据给定的文本提示生成高质量的图像。
例如，给定提示一个在阳光下盛开的向日葵，上面有一只蜜蜂，Janus-Pro能够生成一幅展示向日葵和蜜蜂的图像，其中蜜蜂的翅膀在阳光下闪闪发光，细节丰富且具有美感。

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区

Janus-Pro 是一个统一的理解和生成 MLLM，它解耦了视觉编码，以实现多模态理解和生成。
Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。
对于多模态理解，它使用 SigLIP-Large-Patch16-384 作为视觉编码器，支持 384 x 384 图像输入，生成编码器的码本大小为16384，图像下采样因子为16。
理解适配器和生成适配器均为两层MLP。
对于图像生成，Janus-Pro 使用此处的分词器，下采样率为 16。

Janus-Pro的训练过程分为三个阶段。

在第二阶段，预训练文本到图像。
Janus-Pro去掉了ImageNet数据，增加了约9000万样本，包括图像字幕数据集（如YFCC）以及用于表格、图表和文档理解的数据（如Docmatix），使用普通文本到图像数据进行训练，提高了训练效率。
在第三阶段，监督微调。
Janus-Pro调整了不同类型数据的比例，将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10调整为5:1:4，从而在保持强大视觉生成能力的同时，提升了多模态理解性能。
在多模态理解数据中，将图像的长边调整到384像素，短边用背景颜色填充至384像素。
在视觉生成数据中，将图像的短边调整到384像素，长边裁剪至384像素。
通过序列打包技术提高训练效率，并在单个训练步骤中按照指定比例混合所有数据类型。

炸裂！Deepseek-Janus-Pro能识别图片地址、看图讲故事-AI.x社区