比Flux更强大的文生图模型来了!秘诀是“集百家之长”

人工智能 新闻
清北、牛津、普林斯顿等机构的研究者提出了⼀个全新文生图框架IterComp。

打造更强大文生图模型新思路有——

面对Flux、stable diffusion、Omost等爆火模型,有人开始主打“集各家所长”。

具体来说,清北、牛津、普林斯顿等机构的研究者提出了⼀个全新文生图框架IterComp

它能提取不同模型在各自领域的优势,同时不引入额外的复杂指令或增加计算开销。

图片

论文一经发布,即在𝕏(前推特)获得AI论文领域大V转发,吸引大量关注。

图片

那么,研究人员具体是如何实现的呢?

全新文生图框架:IterComp

⾃2022年以来,基于diffusion的文生图模型取得了快速发展,尤其在复杂组合生成(complex/compositional generation)任务上取得了显著进展。

例如,今年8月发布的Flux展现出了十分震撼的复杂场景生成能力与美学质量;

RPG通过MLLM的辅助,将复杂的组合生成任务分解为简单子任务;

InstanceDiffusion通过布局控制(layoutbased),实现了与布局分布高度一致的精确图像生成。

图片

然而,这些模型的优势仅限于某些特定的组合生成任务,且存在诸多局限

基于文本的生成方法(如SDXL、SD3、Flux等),由于其训练数据和框架的优势,在物体与场景的模拟上表现出色,特别在美学质量、属性绑定和非空间关系(non-spatial relationships)方面具有显著优势。

然而,当涉及多个物体,且存在复杂的空间关系时,这类模型往往表现出明显不足。

基于大语言模型(LLM-based)的生成方法,如RPG和Omost,通常需要对LLM进⾏额外训练或设计复杂的提示。

然而,对于LLM处理后的复杂指令,diffusion backbone并不具备精确生成的能力。

基于布局(layourbased)的生成方法,如Instancediffusion和LMD+,虽然提供了精确的控制,但在图像的美学质量和真实性上存在明显下降,并且需要人为设计布局。

因此,一个值得深⼊探讨的问题是:

能否设计出一个强大的模型,在上述多个方面都表现出⾊,同时不引入额外的复杂指令或增加计算开销?

基于此,研究人员提出一个全新的文生图框架:IterComp

图片

要充分解决这⼀问题,研究面临两大难点

1、如何提取不同模型在各自领域的优势,并引导模型进行有效学习?

针对该问题,研究人员首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。

研究人员尝试通过扩散模型对齐方法,将base diffusion model与模型库中的组合生成偏好进行对齐。

团队聚焦于compositional generation的三个关键方面:

  • 属性绑定(attribute binding)
  • 空间关系(spatial relationship)
  • ⾮空间关系(non-spatial relationship)

为此,研究人员收集了不同模型在这些方面的偏好数据,并通过人工排序,构建了⼀个面向组合生成的模型偏好数据集(composition-aware model preference dataset)。

图片

针对这三个方面,团队分别训练三个composition-aware reward models,并对base模型进行多奖励反馈优化

2、组合生成任务很难优化,如何更充分地学习到不同模型的组合偏好?

研究人员在diffusion领域创新地引入迭代式学习框架(iterative feedback learning),实现reward models与base diffusion model之间“左脚踩右脚登天”。

具体来说,在上述第一轮优化后,团队将optimized base diffusion model以及额外选择的其他模型(例如Omost等)添加进model gallery。

对新增模型进行偏好采样,与初始model gallery中的图像按照预训练的reward model构建图像对。

这些图像对被用于进⼀步优化奖励模型,随后继续用更新的奖励模型优化基础扩散模型。

具体的流程如下伪代码所示:

图片

实验

定性实验中,与其他三类compositional generation方法相比,IterComp取得了显著的组合质量的提升,并且不会引入额外的计算量。

图片

从定量结果中可以看出,IterComp在T2I-CompBench上取得了各方面的领先。

另外,针对图像真实性以及美学质量,IterComp也表现出色。

图片
图片

然而IterComp的应用潜力不限于此,其可以作为强大的backbone显著提升Omost, RPG等模型的生成能力。

图片

更多细节欢迎查阅原论文。

论文地址:https://arxiv.org/abs/2410.07171
代码地址:https://github.com/YangLing0818/IterComp
模型地址:https://huggingface.co/comin/IterComp
Civitai:https://civitai.com/models/840857

责任编辑:张燕妮 来源: 量子位
相关推荐

2017-03-23 13:07:00

小程序DCloud

2021-07-21 08:59:10

requestsPython协程

2011-08-18 17:13:58

扫描仪推荐

2012-11-09 10:16:22

ARM低功耗Intel

2010-09-07 09:11:11

服务器监控趋势分析自动化

2023-03-30 11:08:49

AI模型训练

2010-01-11 09:00:12

JVMJava 7JDK 7

2010-06-01 10:13:10

2014-08-26 14:24:09

华为HCC华为云计算大会云计算

2009-10-21 15:35:22

综合布线市场

2021-05-27 10:55:18

IEEdge浏览器

2024-10-08 09:10:03

JDK通信并发

2010-08-30 10:38:00

2011-09-15 09:40:02

网易财富

2020-07-06 14:54:17

Python 开发编程语言

2024-03-22 15:08:47

CLIP机器学习人工智能

2023-03-06 09:15:38

ChatGPT人工智能

2013-01-08 09:32:46

SaaSOracleSAP

2011-02-14 10:23:46

2009-06-15 09:43:11

Java闭包
点赞
收藏

51CTO技术栈公众号