文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类-51CTO.COM

自去年以来，文本到图像生成模型取得了巨大进展，模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。

Playground Research最近发布了一篇论文，详细介绍了团队最新的、基于DiT的扩散模型Playground v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。

图片

论文链接：https://arxiv.org/abs/2409.10695

数据链接：https://huggingface.co/datasets/playgroundai/CapsBench

与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同，PGv3完全集成了大型语言模型（LLMs），基于全新的深度融合（Deep-Fusion）架构，利用仅解码器（decoder-only）大型语言模型的知识，来进行文本到图像生成任务。

此外，为了提高图像描述的质量，研究人员开发了一个内部描述生成器（in-house captioner），能够生成不同详细程度的描述，丰富了文本结构的多样性，还引入了一个新的基准CapsBench来评估详细的图像描述性能。

实验结果表明，PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色；用户偏好研究表明，PGv3模型在常见的设计应用中，如表情包（stickers）、海报和logo设计，具有超越人类的图形设计能力，还能够精确控制RGB颜色和多语言理解。

PGv3模型架构

Playground v3（PGv3）是一个潜扩散模型（LDM），使用EDM公式进行训练。像DALL-E 3、Imagen 2和Stable Diffusion 3等其他模型一样，PGv3旨在执行文本到图像（t2i）生成任务。

PGv3完全集成了一个大型语言模型（Llama3-8B），以增强其在提示理解和遵循方面的能力。

文本编码器

Transformer模型中的每层捕捉到的表示不同，包含不同级别的单词级和句子级信息，标准做法是使用T5编码器或CLIP文本编码器的最后一层输出，或是结合倒数第二层的输出，不过，研究人员发现选择用于调节文本转图像模型的最佳层非常麻烦，特别是使用解码器风格的大型语言模型时，具有更复杂的内部表示。

图片

研究人员认为，信息流通过LLM每层的连续性是其生成能力的关键，而LLM中的知识横跨了所有层，而不是被某一层的输出所封装，所以PGv3在设计时，复制了LLM的所有Transformer块，可以从LLM的每个对应层中都获取隐藏嵌入输出。

这种方法可以充分利用LLM完整的「思考过程」，能够引导模型模仿LLM的推理和生成过程，所以在生成图像时，可以实现更好的提示遵循和一致性能力。

模型结构

PGv3采用了DiT风格的模型结构，图像模型中的每个Transformer块都设置得与语言模型（Llama3-8B）中的对应块相同，仅包含一个注意力层和一个前馈层，参数也相同，如隐藏维度大小、注意力头的数量和注意力头的维度，并且只训练了图像模型部分。

在扩散采样过程中，语言模型部分只需要运行一次，就可以生成所有中间隐藏嵌入。

与大多数传统的基于CNN的扩散模型不同，Transformer模型将图像特征的自注意力与图像和文本特征之间的交叉注意力分开，然后进行联合注意力操作，可以从图像和文本值的组合池中提取相关特征，并且能减少计算成本和推理时间，下面还有一些对性能提升有用的操作：

1. Transformer块之间的U-Net跳跃连接。

2. 中间层的token下采样，在32层中，在中间层将图像键和值的序列长度减少了四倍，使整个网络类似于只有一个下采样的传统卷积U-Net，略微加快了训练和推理时间，而且没有性能下降。

3. 位置嵌入，与llama3中的旋转位置嵌入（RoPE）相同，由于图像是二维的特征，所以研究人员探索了2D版本的RoPE：

「插值-PE」（interpolating-PE）方法不管序列长度如何，保持起始和结束位置ID固定后，在中间插值位置ID，不过该方法在训练分辨率上严重过拟合，并且无法泛化到未见过的纵横比。

相比之下，「扩展-PE」（expand-PE）方法按序列长度成比例增加位置ID，不使用任何技巧或归一化，性能表现良好，没有显示出分辨率过拟合的迹象。

新的VAE

潜扩散模型（LDM）的变分自编码器（VAE），对于确定模型的细粒度图像质量上限来说非常重要。

研究人员将VAE的潜通道数从4增加到16，增强了合成细节的能力，比如较小的面部和文字；除了在256×256分辨率下进行训练外，还扩展到512×512分辨率，进一步提高了重建性能。

CapsBench描述基准

图像描述评估是一个复杂的问题，目前的评估指标主要分为两类：

1. 基于参考的指标，如BLEU、CIDEr、METEOR、SPICE，使用一个真实描述或一组描述来计算相似度作为质量度量，模型得分受到参考格式的限制；

2. 无参考指标，如CLIPScore、InfoMetIC、TIGEr，使用参考图像的语义向量或图像的多个区域来计算所提出描述的相似度指标，但缺点是，对于密集图像和长而详细的描述，语义向量不具备代表性，因为包含的概念太多。

一种新型的评估方法是基于问题的指标，从描述中生成问题，并使用这些问题评估所提出的描述，有助于全面评估文本到图像模型。

受到DSG和DPG-bench的启发，研究人员提出了一种反向的图像描述评估方法，在17个图像类别中生成「是-否」问答对：通用、图像类型、文本、颜色、位置、关系、相对位置、实体、实体大小、实体形状、计数、情感、模糊、图像伪影、专有名词（世界知识）、调色板和色彩分级。

在评估过程中，使用语言模型仅基于候选描述回答问题，答案选项为「是」、「否」和「不适用」。

CapsBench包含200张图像和2471个问题，平均每张图像12个问题，覆盖电影场景、卡通场景、电影海报、邀请函、广告、休闲摄影、街头摄影、风景摄影和室内摄影。

实验结果

图片

研究人员对比了Ideogram-2（左上），PGv3（右上）和Flux-pro（左下），当以缩略图形式查看时，3个模型的图像看起来相似，定性差异很小。

当放大检查细节和纹理时，就能看出明显区别：Flux-pro生成的皮肤纹理过于平滑，类似于3D渲染的效果，不够真实；Ideogram-2提供了更真实的皮肤纹理，但在遵循提示词方面表现不好，提示词很长的情况下，就会丢失关键细节。

相比之下，PGv3在遵循提示和生成真实图像方面都表现出色，还展现出明显优于其他模型的电影质感。

指令遵循

图片

彩色文本代表模型未能捕捉到的具体细节，可以看到PGv3始终能够遵循细节。随着测试提示变长，并包含更多详细信息时，PGv3的优势变得尤为明显，研究人员将这种性能提升归功于我们集成了大型语言模型（LLM）的模型结构和先进的视觉-语言模型（VLM）图像描述系统。

文本渲染

图片

模型能够生成各种类别的图像，包括海报、logo、表情包、书籍封面和演示幻灯片，PGv3还能够复现带有定制文本的表情包，并凭借其强大的提示遵循和文本渲染能力，创造出具有无限角色和构图的全新表情包。

RGB颜色控制

PGv3在生成内容中实现了异常精细的颜色控制，超越了标准调色板，凭借其强大的提示遵循能力和专业训练，PGv3使用户能够使用精确的RGB值精确控制图像中每个对象或区域的颜色，非常适合需要精确颜色匹配的专业设计场景。

多语言能力

图片

得益于语言模型天生能够理解多种语言，并构建出良好的相关词表示，PGv3能够自然地解释各种语言的提示，并且多语言能力仅通过少量的多语言文本和图像对数据集（数万张图像）就足够了。

参考资料：

https://arxiv.org/abs/2409.10695