多模态图像生成模型Qwen2vl-Flux,利用Qwen2VL视觉语言能力增强FLUX,可集成ControlNet

人工智能 新闻
该模型将 Qwen2VL 的视觉语言功能集成到 FLUX 框架中,从而实现更精确、更具情境感知的图像生成。

本文经AIGC Studio公众号授权转载,转载请联系出处。

Qwen2vl-Flux 是一种先进的多模态图像生成模型,它利用 Qwen2VL 的视觉语言理解能力增强了 FLUX。该模型擅长根据文本提示和视觉参考生成高质量图像,提供卓越的多模态理解和控制。让 FLUX 的多模态图像理解和提示词理解变得很强。

Qwen2vl-Flux有以下特点:

  • 无文本图像直接基于图像生成图像;
  • 类似 IPA 将图片和文字结合生成对应风格的图片;
  • GridDot控制面板,细致的风格提取;
  • ControlNet 集成,支持 Depth 和 canny

图片

相关链接

  • 代码:https://github.com/erwold/qwen2vl-flux
  • 模型:https://huggingface.co/Djrango/Qwen2vl-Flux

模型架构

图片

该模型将 Qwen2VL 的视觉语言功能集成到 FLUX 框架中,从而实现更精确、更具情境感知的图像生成。关键组件包括:

  • 视觉语言理解模块(Qwen2VL)
  • 增强型 FLUX 主干
  • 多模式生成管道
  • 结构控制集成

特征

  • 增强视觉语言理解:利用 Qwen2VL 实现卓越的多模式理解
  • 多种生成模式:支持变异、img2img、修复和控制网引导生成
  • 结构控制:集成深度估计和线路检测,实现精确的结构引导
  • 灵活的注意力机制:通过空间注意力控制支持焦点生成
  • 高分辨率输出:支持高达 1536x1024 的各种宽高比

生成示例

图像变化

在保持原始图像本质的同时,创造出多样化的变化:

图片图片图片

图像混合

通过智能风格转换无缝融合多幅图像:

图片图片

文本引导的图像混合

通过文本提示控制图像生成:

图片图片

基于网格的风格迁移

应用网格注意力的细粒度样式控制:

图片图片

责任编辑:张燕妮 来源: AIGC Studio
相关推荐

2024-08-30 15:19:22

2024-09-26 07:54:45

阿里视觉语言模型

2024-08-30 14:35:00

2024-12-25 09:30:00

2024-12-18 14:50:00

AI训练数据

2024-12-25 20:13:35

2024-11-27 16:06:12

2023-12-01 13:36:01

阿里云通义千问

2024-12-17 13:55:21

2018-02-09 05:02:48

数据中心网络架构VL2

2024-12-13 14:30:00

AI模型数据

2024-07-08 13:11:39

2024-11-22 08:22:58

2023-08-04 13:22:46

AI开源

2021-06-24 08:25:38

flux2GitOps 云原生

2024-01-26 13:19:00

模型数据

2014-06-11 16:13:28

U2VL数据中心

2024-06-07 12:46:11

2024-11-13 09:39:13

2024-07-23 10:34:57

点赞
收藏

51CTO技术栈公众号