OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

人工智能 新闻
OminiControl 使用统一的 token 方法,为跨不同任务的 Diffusion Transformers 提供参数高效的图像调节控制,无需额外的模块。

OminiControl 也开源了其可控生成模型。OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。或者实现将图片中的物品放到生成图片的指定位置。 主要有以下特点:

  • 通用控制:支持主题驱动控制和空间控制(例如边缘引导和绘画生成)的统一控制框架。
  • 极简设计:在保留原始模型结构的同时注入控制信号。仅向基础模型引入 0.1% 的额外参数。

图片

相关链接

论文:https://arxiv.org/pdf/2411.15098

模型:https://huggingface.co/Yuanshi/OminiControl

试用:https://huggingface.co/spaces/Yuanshi/OminiControl

论文阅读

图片

摘要

本文介绍了 OminiControl,这是一个高度通用且参数高效的框架,它将图像条件集成到预先训练的扩散变换器 (DiT) 模型中。OminiControl 的核心是利用参数重用机制,使 DiT 能够使用自身作为强大的主干对图像条件进行编码,并使用其灵活的多模态注意处理器对其进行处理。与现有方法不同,这些方法严重依赖具有复杂架构的附加编码器模块,OminiControl有以下特点:

  1. 有效且高效地结合了注入的图像条件,仅需 0.1% 的附加参数。
  2. 以统一的方式处理广泛的图像调节任务,包括主题驱动生成和空间对齐条件,例如边缘、深度等。

这些功能是通过对 DiT 本身生成的图像进行训练来实现的,这对主题驱动生成特别有益。广泛的评估表明,OminiControl 在主题驱动和空间对齐条件生成方面均优于现有的基于 UNet 和 DiT 的模型。此外,论文还发布了训练数据集 Subjects200K,这是一个包含超过 200,000 张身份一致图像的多样化集合,以及一条高效的数据合成管道,以推进主题一致生成的研究。

图片

方法

图片

扩散变压器 (DiT) 架构和图像调节的集成方法概述。OminiControl利用了一个参数复用机制,使DiT能够使用自身作为强大的后端来编码图像条件,并通过其灵活的多模态注意力处理器处理这些条件。与现有依赖于具有复杂架构的额外编码模块的方法不同,OminiControl以仅0.1%的额外参数有效且高效地整合了注入的图像条件,并以统一的方式解决了包括主题驱动生成和空间对齐条件(如边缘、深度等)在内的广泛图像条件控制生成任务。

两种方法整合图像条件的结果比较。与直接添加相比,多模态方法表现出更好的条件跟踪效果。

来自Subjects200K 数据集的示例。每对图像显示同一物体在不同位置、角度和光照条件下的状态。该数据集包括各种物体,例如衣服、家具、车辆和动物,共计超过 200,000张图像。该数据集以及生成管道将公开发布。

结果

主题驱动生成

图片

文字提示

  • 提示 1:此物品的近距离视图。它放在一张木桌上。背景是一个黑暗的房间,电视开着,屏幕上正在播放烹饪节目。屏幕上的文字写着“Omini Control!”。
  • 提示 2:电影风格的镜头。在月球上,这个物品驶过月球表面。上面有一面旗帜,上面写着“Omini”。背景是地球在前景中若隐若现。
  • 提示3:在一个包豪斯风格的房间里,这件物品被放置在一张闪亮的玻璃桌上,旁边放着一瓶鲜花。在午后的阳光下,百叶窗的阴影投射在墙上。
  • 提示 4:“在海滩上,一位女士坐在一把写着‘Omini’的沙滩伞下。她穿着这件衬衫,脸上挂着灿烂的笑容,身后背着冲浪板。背景是夕阳西下。天空呈现出美丽的橙色和紫色。”

试穿效果

图片

场景变化

图片

Dreambooth数据集

图片

空间对齐控制

图像修复(左:原始图像;中:蒙版图像;右:填充图像)

  • 提示:蒙娜丽莎戴着一个白色的 VR 耳机,上面写着“Omini”。

图片

  • 提示:一本黄色的书,封面上用大号字体写着“OMINI”。底部写着“for FLUX”的字样。

图片

限制

  • 由于训练中缺乏人类数据,该模型的主体驱动生成主要针对物体而不是人类主体。
  • 主题驱动的生成模型可能不太适合FLUX.1-dev。
  • 发布的型号目前仅支持512x512的分辨率。

待办事项

  • 发布更高分辨率(1024x1024)的模型。
  • 发布训练代码。

结论

OminiControl 使用统一的 token 方法,为跨不同任务的 Diffusion Transformers 提供参数高效的图像调节控制,无需额外的模块。该方法优于传统方法,而新的 Subjects200K 数据集(包含超过 200,000 张高质量、主题一致的图像)支持主题一致生成的进步。结果证实了 OminiControl 在扩散模型中的可扩展性和有效性。

责任编辑:张燕妮 来源: AIGC Studio
相关推荐

2021-07-09 13:54:31

零信任网络安全网络攻击

2010-04-20 13:54:24

Oracle强制访问

2020-06-23 10:03:33

版本控制项目

2023-12-16 13:22:00

JaVers控制框架

2011-07-07 16:14:37

Cocoa MVC 模型

2024-03-19 13:12:36

自动驾驶模型

2021-08-09 07:29:54

PythonCasbinPython基础

2024-09-27 09:48:28

2024-05-24 12:53:06

AI训练

2023-01-02 13:12:07

模型图像

2022-06-26 00:00:01

Namespace控制器API

2022-01-07 07:29:08

Rbac权限模型

2023-05-12 13:56:12

2009-06-12 18:53:35

Django控制层Django表现层

2023-12-01 11:10:13

CMS开源

2025-01-08 08:48:57

2022-08-03 10:43:42

安全风险影子IT

2020-07-27 08:31:45

控制流通用结构

2009-07-22 07:49:00

Scala控制结构

2013-08-20 10:19:38

点赞
收藏

51CTO技术栈公众号