能量驱动注意力:提升文本到图像扩散模型的语义对齐新范式

人工智能
当前的文本到图像扩散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高质量图像方面取得了巨大成功。

一眼概览

该论文提出了一种基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 机制,以解决文本到图像扩散模型中的语义不对齐(semantic misalignment)问题。通过建模上下文向量的后验分布,该方法能够自适应地调整语义上下文,实现更精准的文本引导图像生成,无需额外训练,并在 多概念生成、文本引导修复、图像编辑任务上取得了优异表现。

核心问题

当前的 文本到图像扩散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高质量图像方面取得了巨大成功。然而,语义不对齐问题依然突出:

• 生成的图像可能忽略文本中的某些概念(概念忽略问题)。

• 在多概念合成任务中,不同概念可能无法正确绑定(属性绑定问题)。

• 在文本引导修复(Inpainting)任务中,模型可能无法准确填充缺失区域。

为解决这些问题,该研究引入了一种新的 贝叶斯框架,通过最小化层次化的能量函数,实现上下文语义的动态更新。

技术亮点

1. 能量驱动的上下文更新(Energy-Based Context Update, EBCU)

• 通过 能量函数 计算 上下文向量的最大后验概率(MAP)估计,从而优化跨注意力机制。

• 通过梯度优化动态调整文本与图像的语义匹配,提高文本到图像的精准度。

2. 能量驱动的查询组合(Energy-Based Composition of Queries, EBCQ)

• 通过多个上下文向量的 能量函数线性组合,实现 零样本可组合生成(Zero-shot Compositional Generation)。

• 允许在无需训练的情况下,以自然方式合成多个文本概念。

3. 无需额外训练,即插即用

• 该方法可以直接应用于 Stable Diffusion 等主流扩散模型,无需额外训练或微调,计算开销几乎为零。

方法框架

图片图片

EBCA 框架的核心思路:

1. 构建能量函数

• 在扩散模型的 跨注意力层 中,定义查询(Query, Q)和键(Key, K)的 能量函数,并以此建模上下文向量的后验分布:[p(\text{context} | \text{representations})]

• 通过 梯度下降 最小化能量函数,实现自适应的上下文优化。

2. 动态更新跨注意力层的上下文向量

   • 计算 最大后验估计(MAP),并将 更新后的上下文向量 级联传递到后续的跨注意力层,逐步调整语义对齐。

3. 实现可组合生成

    • 采用 能量组合策略,允许对不同的文本概念进行自然合成,实现更灵活的文本控制。

实验结果速览

图片图片

论文在多个文本到图像任务上验证了 EBCA 的有效性:

✅ 多概念生成(Multi-Concept Generation)

• 解决了 概念忽略 和 属性绑定 问题,使多个文本概念能够共存于生成图像中。

• 例如,在 "A cat wearing a shirt"(一只穿着衬衫的猫)任务中,该方法确保猫和衬衫同时出现,而非忽略某一部分。

✅ 文本引导修复(Text-Guided Inpainting)

• 在 Stable Diffusion Inpaint 和 Stable Repaint 基础上,应用 EBCU 显著提升修复质量,无需额外微调。

• 例如,在修复 被遮挡的泰迪熊 任务中,该方法能够精准填充缺失部分,并与上下文保持一致。

✅ 图像编辑(Compositional Image Editing)

• 可用于 真实和合成图像编辑,支持可控编辑(如修改图像风格、添加或删除特定元素)。

• 例如,在 "A castle next to a river (+ Monet, Boat)" 任务中,该方法能够自然地合成莫奈风格的河边城堡,并额外添加船只。

量化评估:

• CLIP 相似度(CLIP Accuracy):相比基线方法,EBCA 在文本-图像匹配精度上更高。

• DINO-ViT 结构距离(Structure Distance):该方法在保持图像原始结构的同时,实现更精准的编辑。

实用价值与应用

📌 AI 生成艺术:可用于生成更加精准的 AI 艺术作品,使风格融合更自然。

📌 内容创作:适用于 游戏、美术、广告 等创意内容生成,提升多概念融合能力。

📌 自动驾驶 & 监控:可用于增强计算机视觉模型的理解能力,提高对复杂场景的精准度。

📌 医疗影像:该方法可扩展至 医学图像分析,改善不确定性估计和视觉可解释性。

开放问题

🤔 如何适配更大规模的模型?EBCA 目前主要应用于 Stable Diffusion,未来如何扩展到 DALLE、Imagen 甚至 3D 生成模型?

🤔 如何实现更细粒度的文本控制?目前的 EBCU 方法优化了上下文向量,但仍有改进空间,能否实现更加细粒度的文本到图像映射?

🤔 能否扩展到视频生成?EBCA 通过逐层传递优化的上下文向量,如果将其应用到 扩散视频生成,是否能改进时序一致性?


责任编辑:武晓燕 来源: 萍哥学AI
相关推荐

2017-10-15 21:43:36

2023-12-11 14:21:00

模型训练

2022-05-25 10:28:35

模型AI

2024-12-17 14:39:16

2023-01-02 13:12:07

模型图像

2022-03-25 11:29:04

视觉算法美团

2024-06-28 08:04:43

语言模型应用

2023-06-09 07:29:03

模型文本document

2024-09-19 10:07:41

2023-05-05 13:11:16

2023-09-04 12:59:03

AI数据

2024-12-09 00:00:10

2018-08-26 22:25:36

自注意力机制神经网络算法

2018-05-03 16:27:29

RNN神经网络ResNet

2024-11-04 10:40:00

AI模型

2025-01-15 09:28:42

训练模型图像生成

2024-12-05 16:19:14

2024-06-06 09:18:48

2024-04-03 14:31:08

大型语言模型PytorchGQA

2011-07-07 13:12:58

移动设备端设计注意力
点赞
收藏

51CTO技术栈公众号