南开提出1Prompt1Story,无需训练,可通过单个连接提示实现一致的文本到图像生成

人工智能 新闻
论文出了一种无需训练的方法1Prompt1Story,通过单个连接提示实现一致的文本到图像生成。

(1Prompt1Story)是一种无训练的文本到图像生成方法,通过整合多个提示为一个长句子,并结合奇异值重加权(SVR)和身份保持交叉注意力(IPCA)技术,解决了生成图像中身份不一致的问题,同时保持了文本描述的精准对齐。

图片

相关链接

  • 论文:https://arxiv.org/abs/2501.13554
  • 代码:https://github.com/byliutao/1Prompt1Story
  • 主页:https://byliutao.github.io/1Prompt1Story.github.io/

论文介绍

论文出了一种无需训练的方法1Prompt1Story,通过单个连接提示实现一致的文本到图像生成。我们的方法可以应用于所有基于文本嵌入的文本到图像模型。此外,它还支持多字符生成、ControlNet 引导生成和个性化生成逼真的图像。

图片

方法

图片

(a):1Prompt1Story 的整体流程。将身份提示和框架提示合并为一个提示,然后应用奇异值重加权 (SVR) 和身份保留交叉注意力 (IPCA) 来生成身份一致的图像。(b):在SVR期间,首先增强表达集X_exp的语义信息(红色箭头),然后迭代地削弱抑制集X_sup的语义(蓝色箭头)。(c):在IPCA中将 K_tilde 与 K_bar 连接,将 V_tilde 与 V_bar 连接,以提高身份一致性。

图片

(左):1Prompt1Story 可以与 ControlNet 集成,以实现空间控制,从而实现一致的角色生成。(右):此外,提出的方法还可以与其他方法(例如 PhotoMaker)结合使用,以实现真实图像个性化,同时提高身份一致性。

结果展示

图片

现有方法(上)在 T2I 生成一致性方面面临挑战。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的图像之间经常表现出明显的身份不一致。尽管包括 IP-Adapter 和 ConsiStory 在内的最新方法已经提高了身份一致性,但它们失去了生成的图像与相应输入提示之间的一致性。提出的方法的其他结果(下)展示了卓越的一致性,同时不损害文本和图像之间的一致性。

图片

对帧提示顺序的鲁棒性。使用同一组帧提示但不同的顺序,提出的方法 1Prompt1Story 可以一致地生成具有统一标识的图像。

图片

多主题故事生成。通过在身份提示中定义多个主题,提出的方法生成具有多个角色的图像,每个图像都保持良好的身份一致性。

图片

与不同的基础模型相结合。

责任编辑:张燕妮 来源: AIGC Studio
相关推荐

2025-02-24 13:40:00

模型生成训练

2025-01-15 09:28:42

训练模型图像生成

2022-05-12 13:39:48

AI研究模型

2025-01-07 11:00:00

AI生成

2013-01-24 11:09:57

索尼存储NFC

2025-02-06 10:45:00

2025-03-11 10:15:00

模型视频生成

2024-04-08 12:18:57

训练AI

2023-08-03 07:24:40

MetaAI 语言模型

2024-01-16 12:10:10

2025-01-20 10:36:00

训练模型AI

2023-06-08 14:09:00

研究训练

2025-01-24 12:11:21

AI图像生成模型

2023-08-29 09:00:00

人工智能img2prompt

2023-10-23 08:01:10

Redis同步全量复制

2023-01-02 13:12:07

模型图像

2025-01-03 10:30:00

2023-09-28 11:01:24

AI摔倒检测

2020-11-24 09:03:41

一致性MySQLMVCC

2025-02-10 08:40:00

训练数据模型
点赞
收藏

51CTO技术栈公众号