如何正确使用Stable Diffusion?文本到图像扩散模型中记忆化实用分析(浙大) 精华
论文链接:https://arxiv.org/pdf/2405.05846
过去几年见证了由扩散模型驱动的文本引导图像生成领域的重大进展。然而,已经显示出文本到图像扩散模型容易受到训练图像记忆的影响,引发了对版权侵犯和隐私侵犯的担忧。在这项工作中,本文对文本到图像扩散模型中的记忆化进行了实际分析。针对需要保护的一组图像,本文对它们进行了量化分析,而无需收集任何prompt。具体而言,本文首先正式定义了图像的记忆化,并确定了记忆化的三个必要条件,分别是相似性、存在性和概率性。然后,本文揭示了模型预测误差与图像复制之间的相关性。基于这种相关性,本文提出利用反演技术来验证目标图像对记忆化的安全性,并测量它们被记忆化的程度。模型开发人员可以利用本文的分析方法发现被记忆化的图像,或可靠地宣称对抗记忆化的安全性。对流行的开源文本到图像扩散模型 Stable Diffusion 进行了大量实验,证明了本文分析方法的有效性。
介绍
扩散概率模型在图像生成、视频、3D 点云等方面展现了令人印象深刻的能力。这些技术为商业系统或社区奠定了基础,如 Stable Diffusion、Midjourney、DALL·E 2/3 和 Imagen,吸引了数百万活跃用户。扩散模型的普及可以归因于分层去噪过程,该过程在数十亿数据上训练时提供了高稳定性,并且具备了对多模态条件生成的可扩展性。
用于训练最先进的文本到图像生成模型的大规模数据集,例如开源图像描述数据集 LAION-5B,被广泛认为包含可能引起版权和隐私担忧的内容。例如,据报道,LAION-5B可能未经授权地涉及摄影师的作品,其中还发现了私人医疗照片。由于未经筛选的训练数据,扩散模型可能生成侵犯创作者版权或暴露个人信息的内容。
在这项工作中,本文专注于文本到图像扩散模型中的记忆化问题,这是对训练数据误用的最坏情况。文本到图像扩散模型中的记忆化是一种生成失败,当输入一定的prompt但不同的随机种子时,模型总是刚性地生成与其训练集中相同的数据。这种类型的生成被视为失败,因为概率生成模型应该生成新颖和多样化的图像。
下图1展示了 Stable Diffusion 中记忆化的两个例子。文本到图像扩散模型中的记忆化不仅是一种类似于生成对抗网络(GAN)中的mode collapse的技术问题,而且也是对图像所有者利益的偏见。在版权保护方面,即使模型开发者被授权使用受版权保护的图像训练他们的模型,图像所有者也不会希望他们的图像被复制给任意用户,因为这将导致无法控制的传播。
在过去的几年中,文本到图像模型因生成模仿艺术家风格的衍生图像而面临诉讼。然而,与法律地位尚未确定的衍生生成相比,对受版权保护的图像的精确复制是毫无争议地不可容忍的。为了保护隐私,一系列研究提出使用合成数据代替真实数据以防止共享私人信息。为了实现这一目标,潜在的记忆化也应该被谨慎地回避。Carlini等人和Somepalli等人首次证明了文本到图像模型中的记忆化的存在。他们研究了最流行的开源文本到图像扩散模型 Stable Diffusion,并发现了触发模型生成训练图像的prompt。
虽然已发现文本到图像扩散模型容易受到记忆化的影响,但实际分析方法仍然是一个具有挑战性的问题。首先,现有的分析方法都是基于prompt的:它们首先使用原始训练集中的标题生成大量候选图像,然后检测低多样性的风险生成,搜索与训练图像高度相似的生成图像,或检测预测误差较高的prompt。
基于prompt的分析方法无法确定任意图像是否被记忆化。事实上,只有在发现了记忆化后,它们才能意识到哪些图像可能被记忆化。此外,对于那些训练标题似乎不触发记忆化现象的其他图像,它们对记忆化的安全性仍然不确定,并且很难通过现有方法进行分析,因为不可能对所有prompt进行穷尽测试。因此,实际分析方法希望是基于图像而不是基于prompt的。其次,实际分析方法需要量化记忆化。
先前的工作重点是发现被记忆化的图像,而缺乏对每个实例的记忆化的准确描述。对记忆化的量化测量不仅为记忆化图像的安全风险提供了有力的证据,而且允许模型开发者负责地向图像所有者声明对正常图像的安全性。
为了应对这些挑战,本文考虑了一个实际场景,在这个场景中,模型开发者预先定义了一组受版权保护或保护隐私的目标图像。他们的目标是对目标图像进行安全分析,以决定模型是否记忆了它们,并量化它们被记忆的程度。基于这项分析,开发者能够向数据提供者声明目标图像对记忆化的安全性,或者提前发现被记忆的图像并修复这一漏洞。
为了执行安全分析,本文首先正式定义了扩散模型中的图像记忆化,并确定了说一个图像被记忆化的三个条件,分别命名为相似性、存在性和概率性。
相似性条件意味着生成的图像应该与目标图像完全相同。正如之前提到的,这个条件反映了训练数据最坏情况下的误用,并构成了重大的安全威胁。本文不是计算生成图像和目标图像之间的相似度,而是利用模型的预测误差作为度量标准来识别图像的复制。 这个度量标准与以前的度量标准在识别图像复制方面同样有效。它还使本文能够反转模型以找到导致复制的输入,基于这个输入本文对其他两个条件进行分析。
存在性条件要求存在一个prompt来触发目标图像的复制。本文提出了一个prompt反演算法来分析这个条件,并通过矛盾验证了这种prompt的存在性。
概率性条件在采样时频繁地复制目标图像。本文提出通过比较模型在目标图像上的预测误差与一个安全模型的预测误差来衡量这个条件。如果目标图像以高概率被复制,那么可以观察到一个明显的分布偏移,远离安全模型的误差分布。
本文通过矛盾验证了大规模数据上训练的无条件扩散模型是安全的,因此可以作为安全模型。本文对 Stable Diffusion 进行了全面的实验,以展示本文的分析方法的有效性。
总的来说,本文的贡献如下:
- 对文本到图像扩散模型中的记忆化进行了更实用的分析。本文的分析方法是基于图像的,不需要收集大量prompt,比基于prompt的分析方法更可靠。
- 提供了文本到图像扩散模型中记忆化的正式定义,并确定了它的三个条件。然后,本文提出了有效的度量标准和算法来衡量每个条件,最终量化了目标图像被记忆的程度。
- 通过对 Stable Diffusion 的详细实验,本文证明了本文分析方法的可行性,揭示了文本到图像扩散模型中记忆化的内在特性。
背景
Diffusion Model
条件 Diffusion Model
扩散模型可以扩展为条件变体,以在某些输入条件的指导下生成图像,例如对象类别、文本prompt等。文本到图像模型是一种条件扩散模型,允许用户输入一些prompt来指示生成图像的期望内容。主要有两种类型的引导,即分类器引导和无分类器引导。
其中,较大的超参数 𝛾 导致生成的图像与输入条件更一致。
Text-To-Image Diffusion Model
记忆化的定义
首先本文先正式定义记忆化,然后再与现有的定义进行比较:
定义: 如果在采样时存在一个prompt,在该prompt的指导下,模型生成的样本与训练样本 𝑥 几乎完全相同的概率显著,则称训练样本 𝑥 被记忆化。所谓几乎完全相同并不意味着字面上完全相同或在文件系统中逐字节匹配。它仍然是在感知级别上,但排除了甚至是微小的转换,如视角变化和组件重组。
确切地说,训练样本 𝑥、存在prompt和显著概率是判断训练样本是否被记忆化的三个条件。为了简洁起见,本文称它们为相似性、存在性和概率条件。现有的研究以不同程度涵盖了这三个条件。
Carlini 等人提供了一个严格的记忆化定义,即如果一个训练图像在训练集中最多出现 𝑘 次,并且可以通过一些prompt从模型中提取出来,那么它就是重现的记忆化的。如果生成的样本与训练样本完全相同或重现的(下图 2a),本文都将其视为记忆化。
其他的研究没有给出正式的定义,并讨论了记忆化的更广泛范围,以衍生生成的形式,比如部分复制和类似风格的复制(上图 2b)。将记忆化限制在最极端的情况“完全相同”上具有几个优点。
首先,在图像生成模型中对衍生行为的诉讼仍处于非常早期的阶段。要对其合法性做出决定需要时间。相比之下,“完全相同”的记忆化如果相关图像受版权或隐私保护,则绝对不被允许。其次,从技术角度来看,扩散模型固有地经过训练以逐像素地复制训练样本,就像方程 4 中所示。因此,“完全相同”的记忆化不仅在问题级别上定义,而且可能在模型本身中找到证据。这使本文能够利用模型的内部统计数据来衡量其记忆化问题,而不是依赖外部模型来匹配训练图像并生成图像,后者由于潜在的风险,如对抗性攻击,可靠性较低。
存在性条件并不是以前的研究关注的问题,因为它们以基于prompt的方式分析记忆化,因此该条件总是满足的。对于本文的基于图像的分析,存在性条件很重要,以便能够揭示现实风险,稍后将讨论。
至于概率条件,Carlini 等人在其定义中没有明确涉及概率条件,但在他们设计的成员推断攻击中涉及了概率条件,用于检测异常prompt,这激发了本文在本文的定义中加入概率条件。其他的研究并没有强调概率。概率条件对于分析记忆化至关重要;正如本文稍后将展示的那样,扩散模型中可以提取任何样本,但并非所有样本都被记忆化。
图像复制的识别
方法论
实验设置
结果
条件 1:相似性。Z0预测误差符合相似性条件。本文直接利用扩散模型的内部预测误差作为生成图像和目标图像之间相似性的指标。本文相信,基于模型自身的功能进行比较比使用粗略的度量 [8] 或外部独立训练的模型 [40, 41] 更可靠。
触发记忆
识别图像复制工作在扩散模型部署后起到作用,以防止可能的训练图像泄露。图像生成模型的开发者在开发模型过程中对一组敏感图像进行安全性分析也有很强的动机。这对抗记忆化起到了积极的防御作用。安全性分析的主要目标是确定目标图像是否被记忆,并量化它们被记忆的程度。作为一种直接的方法,搜索容易生成目标图像的prompt并不可行,因为这是随机且费力的。相反,本文提出了一种基于反演的分析方法,无需访问任何prompt。
对抗记忆化的安全性分析分为两个步骤。首先,针对每个目标图像,本文尝试反演一个输入prompt,触发模型对其进行记忆的行为。本文通过反证验证,如果一个图像是安全的,那么不可能反演出一个触发其记忆的prompt。其次,本文对无条件扩散模型进行分析,发现在大规模数据上训练的无条件扩散模型不会发生记忆化。因此,它可以作为衡量条件文本到图像模型安全性的一种防护。
在这一节中,本文详细阐述了如何触发图像的记忆化。记忆化的测量将在下一节中描述。
方法论
为了回答目标图像是否可以被记忆化的问题,本文尝试搜索一个可以触发生成目标图像的prompt。这可以通过最小化关于输入token embedding 𝑒的条件预测误差的期望来完成。
其中 𝜆 是一个超参数,用于控制正则化项的权重。
实验设置
本文使用了78张记忆图像和100张来自LAION的随机采样正常图像作为目标图像集。在所有实验中,本文不访问目标图像的训练标题。本文使用Adam优化器,初始学习率为0.01,不进行衰减。𝑙2-范数正则化由Adam的内部权重衰减实现。𝜆 设置为0.01。本文使用批量大小为16,并进行500次迭代的优化。每个图像被调整大小并中心裁剪为512×512,不进行增强。
结果
请注意,一个prompt 𝑒 由 𝑁 个token embedding组成,每个 embedding代表一个token。稳定扩散的文本编码器默认使用最大长度为 77 个token,其中第一个和最后一个token是填充token,表示prompt的开始和结束。其余的 75 个token可自由优化。
通过将要优化的token数量从 1 调整到 75,本文发现在 Webster(46)发现的 78 个记忆图像中,有 66 个图像的记忆可以通过仅优化 1 个token来触发,有 2 个图像可以通过优化 2 个token来触发,其他 10 个图像是部分记忆图像,无论优化多少token,如下图 6 所示。
相比之下,普通图像的记忆不能通过正则化来触发。下图 7 显示了记忆图像和普通图像的训练统计数据,可以看到,对于记忆图像,预测误差和正则化项可以同时优化到较小的值。相比之下,对于普通图像,只有token embedding的 𝑙2-范数被最小化,而普通图像的预测误差仍然很高。这表明,对于普通(未记忆)图像来说,减小预测误差和将学习的token与预训练的token对齐之间的矛盾是无法解决的。因此,对于要保护的目标图像,如果本文不能优化遵循预训练token embedding分布以减小预测误差的token embedding,那么本文可以声明这些图像没有被记忆。
对于成功触发某些图像记忆的有效token embedding,学习到的连续token embedding与离散token之间仍然存在差距。简单的正则化器,例如本文使用的 𝑙2-范数正则化器,并不保证学习到的连续token embedding可以投影到现实token。这是具有挑战性的,因为连续 embedding空间中有无限多个点,其中的一个子集比可能的硬prompt具有更低的误差。
token embedding可能被过度优化到产生较低误差但不对应于任何token prompt的区域。此外,基于贪婪算法的现有硬prompt调整方法不适用于搜索触发目标图像记忆的prompt,因为本文观察到触发记忆的prompt并不一定具有贪婪性质。
为了解决这个问题,本文提出了一种简单但有效的算法来优化触发记忆的硬prompt,如算法 1 所示。算法 1 在 𝑁 个集合的笛卡尔积中执行暴力搜索,每个集合包含与学习到的token embedding距离最小的 𝑘 个候选token。最优prompt是具有最小预测误差的prompt。该算法的有效性在很大程度上取决于初始化,这是硬prompt调整中的一个常见问题。本文对不同的初始化重复执行算法 1 最多 20 次。本文将本文的算法与两种硬prompt调整算法 AUTOPROMPT 和 PEZ 进行了比较。要优化的token数量设置为 3。对于 20 个倒置prompt,本文选择预测误差最低的一个进行说明。图 8 展示了 2 个成功的倒置示例。
本文的硬prompt倒置算法成功地倒置了一个触发记忆的prompt。这反映出记忆只由几个关键token决定(在示例中为 3 个token)。它还反映出导致训练图像复制的prompt并不是唯一的。关键token的位置可能不同。如示例所示,三个词 "limits"、"business" 和 "podcast" 分别是第 3、4 和 6 个。将它们移到prompt的开头并不会产生影响,就像本文所倒置的那样。然而,token的顺序并不总是没有影响的。将prompt排列为 "businesses limits podcast" 将无法触发记忆。这解释了为什么硬prompt倒置对初始化状态敏感。仅仅通过梯度下降来约束倒置token的位置是困难的。
相比之下,AUTOPROMPT 和 PEZ 在记忆的prompt倒置方面不起作用。这表明,与它们最初的应用相比,在记忆的prompt倒置方面比语义理解任务更困难。本文观察到触发记忆的prompt并没有贪婪可解的属性,因此它们无法被 AUTOPROMPT 和 PEZ 找到。具体地,本文将prompt初始化为 "limits business",然后对 AUTOPROMPT 和 PEZ 进行运行,搜索第三个token "podcast"。如果它是贪婪可解的,AUTOPROMPT 和 PEZ 将保持前两个词不变,并找到最后一个词 "podcast"。然而,它们逐渐改变了前两个词,并没有收敛。
由于这个困境,连续的token embedding在后续的测量中被采用。虽然连续的token embedding并不严格满足潜在记忆图像的存在条件,但本文希望澄清,出于两个原因,将它们用于测量是合理的。首先,对于潜在的记忆图像,通过正则化反转的连续token embedding足以表明记忆已经发生。其次,对于普通图像,反转硬prompt对它们来说是没有意义的。无论如何将优化的token embedding投影到硬prompt中都会引入额外的误差到测量中。
测量记忆力
无条件 Model
无条件模型是文本到图像模型的一部分,并在采样时用作惩罚(参见前文)。它之所以可能不受记忆影响,有以下几个原因。首先,无条件模型是训练来最大化数据分布的可能性,没有任何外部指导(在 Stable Diffusion 中为空字符串)。只有在无条件模型频繁生成特定图像时,即表现空间崩溃的形式,记忆才会发生。然而,扩散模型的一个优点是在训练中的稳定性,没有发现任何崩溃。其次,在观察到记忆是由于对图像-prompt对的过度拟合引起的的情况下,无条件模型没有过拟合的机会,因为其训练数据由图像-空对组成,形成了多对一的对应关系。最后,Somepalli 等人发现,当训练数据的数量足够大时,无条件扩散模型不会复制训练图像,而只会生成类似的图像。
对于无条件模型,本文使用方程 10 进行噪声倒置,有或没有 KL 散度正则化项。结果可以在下图 11 和下图 12 中找到。
测量
结果。 下图 14 展示了记忆图像和普通图像的预测误差分布的示例。记忆图像的条件误差分布与无条件误差分布之间存在明显的间隙。然而,普通图像的条件误差分布与其无条件误差分布纠缠在一起。下图 15 展示了所有测试图像的 Wasserstein 距离分布。与普通图像相比,记忆图像呈现出明显更大的 Wasserstein 距离。
回顾一下,测试集中存在部分记忆图像。本文发现,与其他完全记忆图像相比,这些图像对应的距离较低,如下图 16 所示。这表明本文的测量方法能够量化图像被记忆的程度,而不仅仅是简单地区分记忆图像和普通图像。
相关工作
图像生成模型中的记忆化
以前,在图像生成模型中,例如 GAN 和 VAE,记忆化曾经引起了关注,主要集中在无条件生成类型上。已经有研究关于训练算法和评估指标,以提高 GAN 的泛化能力,摆脱对训练数据的简单复制。已经表明,小数据量或训练时间过长可能导致 GAN 中的记忆化。 Van der Burg 等人测量 VAE 中的记忆化,方法是移除训练集中的一个样本后观察概率的变化。
对于扩散模型,Vyas 等人提出了一种版权保护方法,以防止复制敏感的训练图像。该模型被训练以匹配一个不使用敏感数据进行训练的安全模型。Carlini 等人和 Somepalli 等人表明,记忆化也发生在文本到图像的扩散模型中。通过成员推断攻击或使用图像检索模型搜索最相似的训练图像,从众多生成的样本中发现了记忆图像。Webster提供了从文本到图像模型中提取训练图像的更有效的攻击方法。随后,Wen 等人关注触发生成训练图像的异常prompt的检测。与这些工作相比,本文对训练图像的记忆化进行了实际分析,无需访问任何prompt。本文的分析不仅能够找到记忆图像,还提供了定量的测量,并允许开发者对普通图像进行安全声明。
扩散模型中的反演技术
扩散模型中的反演技术主要用于图像编辑。通过反演,源图像中包含的对象、风格和概念可以被压缩到潜在的噪声或输入token embedding中。然后,利用反演的潜在噪声或输入token embedding生成保留所需内容的新图像。
本文利用类似的反演技术来分析扩散模型中的训练图像记忆化。与实用性不同,本文更注重反演信号的规律性,这对于识别记忆图像至关重要。在这个意义上,记忆图像是一个“自然”可反演的类别。
讨论和总结
在这项工作中,本文对文本到图像扩散模型中的记忆化进行了实际分析。本文的分析针对一组图像,测量它们被记忆的程度,无需收集大量prompt。本文首先提供了训练图像记忆化的正式定义,并确定了说一个图像被记忆的三个条件。本文展示了模型内部的预测误差是训练图像复制的一个强有力指标。基于此,分析触发记忆的prompt的存在通过反转一系列token embedding进行。本文强调了反演验证中正则化的重要性。此外,本文提出了一种正则化的噪声反演方法,以验证在大规模数据上训练的无条件扩散模型是否安全免受记忆化的影响。基于验证,测量图像被记忆的程度是通过无条件误差和条件误差之间的分布转移来衡量的。在实践中,文本到图像扩散模型的开发者可以利用本文的分析方法对一组敏感的训练图像进行安全性分析。
本文的方法使开发者能够发现潜在的记忆化风险,并及时修复,或者负责地向数据提供者声明对记忆化的安全性。本文从记忆化的角度研究了扩散模型中训练数据的安全性。未来,还需要对更广泛范围的情况进行分析。
防御不安全的衍生生成。 扩散模型生成的大多数图像都不仅仅是训练图像的副本,这被称为衍生生成。其中,已经发现了相当多的伦理威胁,包括偏见、色情、暴力等。通过编辑方法和几幅图像,扩散模型也可以用于生成个人人类照片的变体和模仿艺术家的作品。过去,大部分的防止不安全生成的努力都集中在训练数据清洗和有毒内容检测上。尽管如此,仍然可能通过视觉同义词或看似无害的prompt来引导它们的产生。为了更可靠地防御不安全的衍生生成,提高扩散模型潜在空间的可解释性将是有益的。本文尚未完全理解扩散模型潜在空间的语义结构。设计训练算法,将人类的伦理观念与扩散模型潜在空间对齐,将是一个有趣的方向。
限制。 本文的工作有两个限制。首先,尽管本文的hard prompt反演算法在分析记忆化方面比现有的hard prompt调整方法更有效,但并不适用于所有的记忆化图像,特别是那些需要更多关键token才能触发的图像。在实践中,如果有一个示例的hard prompt可用,那将提供更强的证据。本文希望能够设计更稳定和有效的用于分析记忆化的hard prompt反演算法。第二,本文仅针对无条件和文本到图像扩散模型提供了安全性分析方法。还应对其他类型的条件模型以及相应的正则化方法进行更全面的调查。尽管存在这些限制,但本文相信本文的方法为开发者优化其模型提供了实用的安全性分析工具。
本文转自 AI生成未来 ,作者:Zhe Ma等