
解析DeepSeek Janus Pro论文:多模态AI领域的革命性突破 原创
编者按: 提到 DeepSeek,大家可能更熟悉 R1 模型 —— 这款以低成本、高性能和开源特性颠覆行业的语言模型,而今天这篇文章介绍的 DeepSeek Janus Pro,通过创新的架构设计,在性能上超越了同领域的众多顶尖专用模型(Janus-Pro 7B 在图像理解和图像生成两方面都超越了 LLaVA、Dalle 3 和 SD XL 这样的主流选手)。
本文深入解析了 Janus Pro 的技术细节,从其核心设计原则到具体的图像编码器选择,再到训练过程的三个阶段,全面展示了 Janus Pro 如何通过创新的架构设计和精细的训练策略,实现了在多模态理解和生成任务上的卓越表现。
作者 | AI Papers Academy
编译 | 岳扬
01 导言
业界仍在消化 DeepSeek 最近发布的震撼 AI 界的 DeepSeek-R1,但 R1 发布短短数日后,这家公司又祭出了另一款惊艳的开源多模态大模型 Janus Pro。这款对标国际顶尖多模态模型的新作,标志着 DeepSeek 在多模态领域的重大突破。
本文将深度解读 Janus Pro 背后的研究论文《Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling》。要理解这篇论文,我们还需要首先解析 DeepSeek 的前一篇论文《JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation》中提出的 Janus 模型基础架构。阅读本文无需任何先验知识,我们将系统阐释两代模型的演进逻辑:新论文建立在前一篇论文的基础上,本文将对这两篇论文进行全景式解析。
Janus-Pro 相关论文的标题和作者[1]
Janus-Pro 前一篇相关论文的标题和作者[2]
02 统一多模态理解与生成
两篇论文都聚焦于"统一多模态理解与生成(unified multimodal understanding and generation)"这一核心命题。在深入剖析 Janus 模型的技术细节之前,我们有必要先厘清这一概念。
2.1 图像理解任务解析
MLLM 实现的图像理解案例
大语言模型(LLM)已在诸多领域展现出卓越能力。基于此,学界发展出多模态大语言模型(MLLM)技术路线,典型代表如 LLaVA。这类模型能同时处理文本指令与视觉输入:如图所示,当用户输入"我的猫在做什么?(what is my cat doing?)"并附上猫咪图片时,模型可精准解析图文信息,得出"猫咪试图抓鱼(the cat is trying to catch a fish)"的结论。
这种技术路线在图像理解任务中成效显著。以 Janus Pro 论文展示的案例为例:当用户提供蛋糕图片并询问其相关背景信息时,Janus 不仅准确识别出蛋糕的主题元素是"猫和老鼠",更能调用其基座语言模型,延展输出该经典 IP 的背景知识。这体现了 MLLM 系统的双重优势 —— 既具备跨模态理解能力,又可继承 LLM 的通用知识储备。
图像理解任务案例展示[1]
2.2 图像生成任务解析
图像生成任务案例展示
当前主流的图像生成模型(如 Stable Diffusion、DALL-E 3 等其他模型)主要基于扩散模型及其改进架构。如图示案例所示,当输入"可爱的猫咪(a cute cat)"文本指令时,系统能够生成高质量视觉内容。
2.3 单个模型统一处理图像理解和生成任务的优势
现有技术路线中,图像理解与生成通常分别由独立的系统完成。将这些任务统一到一个模型中也有很大的好处:在实际应用场景中,单一模型可同步处理这两类任务,避免多个模型切换带来的计算资源浪费与系统复杂度提升。
Janus 模型通过对模型架构进行创新设计,将这两种任务的处理整合于统一框架中。虽然将多任务的处理统一于单一模型并非全新概念,但在后文进行技术解析时将揭示其架构设计的精妙之处。
使用 Janus 统一处理理解和生成任务
03 Janus 与 Janus Pro 架构
Janus 和 Janus Pro 架构[1]
原始 Janus 模型与 Janus Pro 的架构设计相似,我们可以通过论文中的示意图来理解。 Janus Pro 模型的核心是一个自回归 Transformer 架构的大语言模型(LLM)。
3.1 Janus Pro 的核心设计原则
其他统一处理多模态理解和生成的模型通常采用单一图像编码器。但DeepSeek 的研究人员发现,理解与生成任务对图像编码的需求存在本质差异,单一编码器会经常受到任务干扰的影响。因此 Janus 架构的核心设计原则是解耦多模态理解与生成的视觉编码,通过为不同任务类型配置专用编码器实现功能隔离。
3.2 Janus Pro 图像编码器
对于图像理解任务,Janus 采用 SigLIP 进行图像编码。SigLIP 是 OpenAI CLIP 模型的改进版本,能够从图像中提取语义表征,使其非常适合图像理解类任务。这些表征被线性映射到 LLM 的输入嵌入空间。
对于图像生成任务,Janus 使用了来自自回归图像生成模型 LlamaGen 的现有编码器。这是一个 vector quantization (VQ) tokenizer,可将图像转换为 ID 序列(译者注:类似于将一段语音信号转换为文字(语音 → 离散的文字符号),此处是将连续图像特征转换为离散的符号(ID)。),每个 ID 都与预定义向量相关联。然后通过一个训练好的模块,将这些预定义向量映射到 LLM 的输入嵌入空间。
3.3 LLM 的处理过程与输出
文本与图像的嵌入向量被拼接形成 LLM 的输入序列。对于图像理解任务,直接调用 LLM 内置的文本预测头输出结果;对于图像生成任务,则在 LLM 上添加一个图像解码头,由其处理最终的隐藏状态(Hidden State,包含输入序列的语义信息)生成图像。
3.4 Rectified Flow
逐步去除图像噪声示例[3]
图像生成过程采用 Rectified Flow 方法。 本文不深入技术细节,但可通过对比扩散模型(Diffusion Models)直观理解其优势:从一张纯噪声图像出发,通过多步骤迭代(如1000步)逐步去噪,最终生成清晰图像(如猫咪图片)。该技术通过路径优化和噪声抑制,显著减少生成清晰图像所需的步骤数量。
04 Janus Pro 训练过程
Janus 训练流程示意图(源自原始 Janus 论文)[2]
上图描述了 Janus 的训练流程,该图取自原始 Janus 论文。我们将在本文解释 Janus Pro 的不同之处。Janus 和 Janus Pro 的训练均分为三个阶段。
4.1 第一阶段 - Adaptation
本阶段目的是让新增组件与预训练好的组件有效协作。 为此,大语言模型(LLM)和图像编码器的权重被冻结,仅训练新引入的组件。这些组件包括将图像编码映射到 LLM 输入嵌入空间的映射模块,以及图像生成头(Image Generation Head)。该阶段使用 ImageNet 数据进行训练,使模型能根据图像类别生成对应图像。在 Janus Pro 模型中,本阶段在 ImageNet 上的 training steps 有所增加。
4.2 第二阶段 - Unified Pre-Training
此阶段继续训练新组件,同时解冻 LLM 及其内置的文本预测头,以增强对多模态嵌入序列的处理能力。 本阶段训练样本类型包含多模态理解任务样本、图像生成任务样本和纯文本数据。Janus Pro 与原始 Janus 的主要区别在于移除了本阶段的 ImageNet 数据。在 Janus Pro 训练中直接使用 text-to-image 数据,而原始 Janus 模型则从 ImageNet 数据起步,逐步增加 text-to-image 数据的比例。
有一处值得强调,图像编码器的表征在训练过程中与图像生成的潜在输出进行了对齐,以强化生成过程的语义一致性。
4.3 第三阶段 - Supervised Fine-Tuning
第三阶段使用指令调优数据进行监督式微调,数据包含对话样本和高质量文生图(text-to-image)样本。 此阶段开始训练图像理解编码器,该流程在 Janus 和 Janus Pro 中保持一致。
相较于 Janus,Janus Pro 的其他主要改进包括:扩大训练数据规模及模型规模。模型参数方面,使用的 LLM 从 15 亿参数扩展至 70 亿参数。
05 Janus Pro 的成果
5.1 多模态理解与生成能力的对比
Janus Pro 与顶尖多模态理解及图像生成模型的比较[1]
上图为 Janus Pro 与其他高性能模型的对比结果。
左图展示了多模态理解任务的性能,横轴为模型参数量级,纵轴为多个基准测试的平均准确率。值得注意的是,Janus-Pro-7B 的表现优于其他顶尖模型(如 LLaVA 系列)。更令人瞩目的是,这一成绩由统一模型实现(LLaVA 模型并非统一架构)。Janus Pro 还大大超越了以往的统一模型,并在参数量近乎 TokenFlow-XL 一半的情况下,准确率略微领先于该模型。
右图展示了两个基准测试的文生图性能测评结果。Janus Pro 在生成质量上超越了 DALL-E 3、SD3-Medium 等顶级专用图像生成模型,同时刷新了统一模型在图像生成领域的最高纪录(此图未完整展示相关对比)。
5.2 Janus 与 Janus Pro 的生成质量对比
Janus 与 Janus Pro 的生成质量对比[1]
图中直观展现了 Janus Pro 相较于前代模型的生成质量提升。Janus Pro 生成的图像在细节丰富度、语义一致性及视觉真实感上均有显著优化。例如,复杂场景的构图更精准,光影效果更自然,且文本描述中的隐含需求(如特定艺术风格)被更完整地实现。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
AI Papers Academy
At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.
Our goal is to save you time by breaking down complex ideas into clear, digestible insights.
END
本期互动内容 🍻
❓如果您正在开发AI应用,DeepSeek Janus Pro 的哪些特性最吸引您考虑使用?
🔗文中链接🔗
[1]https://github.com/deepseek-ai/Janus
[2]https://arxiv.org/abs/2411.07975
[3]https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/
本文经原作者授权,由 Baihai IDP 编译。 如需转载译文,请联系获取授权。
原文链接:
