史上最强文生图模型?谷歌Imagen3内部详细评估资料解读 精华
文章链接:https://arxiv.org/pdf/2408.07009
亮点直击
- Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。
- 详细描述了 Imagen 3 质量和责任评估,发现Imagen 3相比其他SOTA模型更受欢迎。
- 讨论了安全和表征问题,以及用于最小化本文模型潜在危害的方法。
数据
Imagen 3模型在一个大型数据集上进行训练,该数据集包含图像、文本和相关注释。为了确保质量和安全标准,本文采用了多阶段的过滤过程。这个过程首先去除不安全、暴力或低质量的图像。然后,本文消除AI生成的图像,以防止模型学习到此类图像中常见的伪影或偏差。此外,本文使用去重管道并降低相似图像的权重,以最大限度地减少输出过拟合训练数据中特定元素的风险。
本文数据集中的每张图像都配有原始(来自替代文本、人类描述等)和合成的标题。合成标题是使用Gemini模型通过多种提示生成的。本文利用多个Gemini模型和指令来最大化这些合成标题的语言多样性和质量。本文应用过滤器来删除不安全的标题和个人身份信息。
评估
本文将最高质量配置——Imagen 3模型——与Imagen 2以及以下外部模型进行比较:DALL·E 3、Midjourney v6、Stable Diffusion 3 Large (SD3) 和 Stable Diffusion XL 1.0 (SDXL 1)。通过广泛的人工评估和自动评估,本文发现Imagen 3在文本到图像生成方面设立了新的行业标准。本文讨论了总体结果及其局限性,定性结果。本文注意到,可能整合Imagen 3的产品在性能上可能与测试配置有所不同。
人工评估
本文对文本到图像生成模型的五个不同质量方面进行了人工评估:总体偏好、提示与图像的对齐、视觉吸引力、详细提示与图像的对齐以及数值推理。为了避免评估者的判断混淆,这些方面都是独立评估的。
对于前四个方面,量化判断(例如,给出1到5的评分)在实践中难以在评估者之间校准。因此,本文使用并排比较的方法;这也成为聊天机器人以及其他文本到图像评估中的标准做法。第五个方面——数值推理——可以通过计算图像中给定类型的物体数量,直接且可靠地由人类进行评估,因此本文采用单模型评估方法。
每个并排比较(即针对前四个方面及其对应的提示集)都会聚合为所有六个模型的Elo评分,以便在它们之间进行校准比较。直观地,每次成对比较代表两个模型之间进行的一场比赛,Elo评分表示模型在所有模型竞争中的总体得分。本文通过对每对模型进行详尽比较,生成每个方面和提示集的完整Elo记分板。每项研究(即在给定问题和给定提示集上对两个模型的配对)由2500个评分组成(本文发现这个数量在成本和可靠性之间取得了良好的平衡),这些评分在提示集中均匀分布。模型在评估界面中是匿名的,并且每次评分时都会随机打乱位置。
本文使用一个外部平台从一个庞大且多样化的评估者池中随机选择评估者。数据收集是根据Google DeepMind的数据丰富最佳实践进行的,这些实践基于人工智能合作组织(Partnership on AI)的负责任的数据丰富服务采购指南。此过程确保所有数据丰富工作的参与者至少获得当地的生活工资。
本文总共在5个不同的提示集上进行人工评估。本文在三个不同的提示集上评估前三个质量方面(整体偏好、提示-图像对齐和视觉吸引力)。首先,本文使用最近发布的GenAI-Bench,这是一个由专业设计师收集的1600个高质量提示的集合。为了与之前的工作保持一致,本文还在DrawBench的200个提示和DALL·E 3 Eval的170个提示上进行评估。对于详细的提示-图像对齐,本文使用了来自DOCCI的1000张图像及其对应的标题(DOCCI-Test-Pivots)。最后,本文使用GeckoNum基准来评估数值推理能力。所有外部模型都是通过其公开访问提供运行的,除了DALL·E 3 Eval和DrawBench上的DALL·E 3,本文使用其作者发布的图像。
总共,本文从3225位不同的评估者那里收集了366,569个评分,涉及5943次提交。每位评估者最多参与本文研究的10%,在每次研究中,每位评估者提供大约2%的评分,以避免结果偏向于特定评估者的判断。来自71个不同国籍的评估者参与了本文的研究,其中英国、美国、南非和波兰的参与者最多。
总体偏好
总体偏好衡量用户对给定输入提示生成的图像的满意程度。这个问题设计为一个开放性问题,由评价者自行决定在每个提示中哪些质量方面最为重要,这与模型的实际使用情况类似。本文将两幅图像并排展示给评价者,连同提示一起,并询问:“假设你在使用一款计算机工具,该工具根据上述提示生成图像。如果你在使用这款工具,你希望看到哪幅图像?如果两幅图像同样吸引人,请选择‘我无所谓’。”下图2展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的结果。在GenAI-Bench上,Imagen 3明显比其他模型更受欢迎。在DrawBench上,Imagen 3以较小的优势领先于Stable Diffusion 3,而在DALL·E 3 Eval上,本文观察到四个领先模型的结果接近,Imagen 3略占优势。
提示-图像对齐
提示-图像对齐评估的是输入提示在输出图像内容中的表现程度,而不考虑图像中的潜在缺陷或其美学吸引力。本文将两幅图像连同提示一起并排展示给评价者,并询问他们:“考虑上面的文本,哪幅图像更好地捕捉到了提示的意图?请尽量忽略图像的潜在缺陷或质量问题。除非提示中提到,否则请忽略不同的风格。” 下图3展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的结果。在GenAI-Bench上,Imagen 3以显著优势领先;在DrawBench上,优势较小;而在DALL·E 3 Eval上,三个领先模型的表现相似,且置信区间重叠。
视觉吸引力
视觉吸引力量化了生成图像的吸引程度,而不考虑所请求的内容。为了测量这一点,本文向评估者展示两张并排的图像,而不提供生成这些图像的提示,然后询问:“哪张图像对您更有吸引力?”
下图4显示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的结果。Midjourney v6整体表现领先,Imagen 3在GenAI-Bench上几乎与之持平,在DrawBench上稍有优势,而在DALL·E 3 Eval上具有显著优势。
详细的提示图像对齐
在本节中,本文通过生成来自DOCCI的详细提示的图像,进一步推动提示-图像对齐能力的评估。这些提示的长度显著增加——平均136个词——比之前使用的提示集要长得多。然而,在按照前文的相同评估策略进行一些试点后,本文意识到阅读超过100个词的提示并评估图像与其中所有细节的对齐程度对人工评价者来说过于困难和繁琐。因此,本文利用了DOCCI提示实际上是高质量的真实参考照片的标题这一事实——与标准的文本到图像评估提示集不同,后者没有对应的参考图像。本文将这些标题输入到图像生成模型中,并测量生成图像的内容与DOCCI基准参考图像的对齐程度。本文特别指示评价者专注于图像的语义(物体、它们的位置、方向等),忽略风格、拍摄技术、质量等。
下图5显示了结果,其中本文可以看到Imagen 3相对于第二好的模型有显著的优势,领先114 Elo点,并且胜率达到63%。这一结果进一步突显了其遵循输入提示详细内容的卓越能力。
数值推理
本文还评估了模型生成精确数量物体的能力,这是GeckoNum基准中的最简单任务。具体来说,本文提出问题:图像中有多少个?其中指的是用于生成图像的源提示中的名词,并将其与提示中请求的预期数量进行比较。物体的数量范围从1到10,任务包括各种复杂性的提示,因为数字嵌入在不同类型的句子结构中,考察了颜色和空间关系等属性的作用。
结果显示在下图6中,本文看到,虽然生成精确数量的物体对当前模型来说仍然是一个挑战性任务,但Imagen 3是最强的模型,比第二名的DALL·E 3高出12个百分点。此外,本文发现,Imagen 3在生成包含2到5个物体的图像时,比其他模型具有更高的准确性,并且在处理具有更复杂数字句子结构的提示时表现更好,例如“1块饼干和五瓶”。
自动评估
近年来,自动评估(auto-eval)指标,如CLIP和VQAScore,在衡量文本到图像模型的质量方面被更广泛地使用,因为它们相比人工评估更易于扩展。为了补充之前的人工评估,本文对提示-图像对齐和图像质量进行了自动评估指标测试。
提示-图像对齐
本文选择了三种强大的自动评估提示-图像对齐指标,分别来自主要的指标家族:对比双编码器(如CLIP)、基于VQA的(如Gecko)和基于LVLM提示的实现(如VQAScore2)。虽然之前的研究表明这些指标与人工判断有很好的相关性,但尚不清楚它们是否能够可靠地区分更相似的强模型。因此,本文首先通过将这些指标的预测与人工评级进行比较来验证这三种指标的有效性,并在附录C.1中报告结果。
本文观察到,尽管CLIP在当前工作中被广泛使用,但在大多数情况下,它未能预测出正确的模型排序。本文发现Gecko和本文的VQAScore变体(以下简称VQAScore)表现良好,且有72%的时间达成一致。在这些情况下,这些指标的结果与人工判断94.4%的时间是一致的,因此本文可以对结果充满信心。尽管它们表现相似,但VQAScore更具优势,与人工评级的匹配率为80%,而Gecko为73.3%。本文注意到,Gecko使用了一个较弱的骨干网络——PALI,而非Gemini 1.5 Pro,这可能导致了性能差异。因此,接下来本文将讨论使用VQAScore的结果,并将其他结果和进一步的讨论留到附录C.1。
本文在四个数据集上进行评估,以研究模型在不同条件下的差异:Gecko-Rel、DOCCI-Test-Pivots、Dall·E 3 Eval和GenAI-Bench。Gecko-Rel旨在测量对齐度,并包含具有高度注释者一致性的提示,DOCCI-Test-Pivots包含长而描述性的提示,Dall·E 3 Eval和GenAI-Bench是更为多样化的数据集,旨在评估一系列能力。结果如下图7所示。本文可以看到,总体上在这些指标下表现最好的模型是Imagen 3。它在DOCCI-Test-Pivots的长提示上表现最佳,并且始终具有总体最高的性能。最后,本文看到SDXL 1和Imagen 2的表现始终低于其他模型。
本文进一步探讨了Gecko-Rel在类别上的细分,如下图8所示。总体而言,Imagen 3是表现最好的模型之一。在测试颜色、计数和空间推理等能力的类别中,Imagen 3表现最佳(进一步验证了结果)。本文还看到,模型在处理更复杂和组合性提示时的表现有所不同,例如在具有更高语言难度的提示上,SDXL 1的表现明显不如其他模型。在组合性提示上(模型需要在场景中创建多个物体或创建没有物体的场景),本文看到Imagen 3表现最佳。这与之前的数据集发现相一致,因为Imagen 3在DOCCI-Test-Pivots上表现最佳,该数据集特别具有非常长且具有挑战性的提示。这些结果表明,与其他模型相比,Imagen 3在处理更复杂的提示和多种能力方面表现最佳。
图像质量
本文比较了Imagen 3、SDXL 1和DALL·E 3在MSCOCO-caption验证集30,000个样本上生成的图像分布,使用不同的特征空间和距离度量,遵循Vasconcelos等人的协议。本文在Inception特征空间上采用Fréchet距离(FID)和Dino-v2特征空间上的Fréchet距离(FD-Dino),以及在CLIP-L特征空间上的最大均值差异距离(CMMD)。生成图像的分辨率从1024×1024像素减少到每个度量的标准输入大小。
与Vasconcelos等人类似,本文观察到这三个度量的最小化之间存在权衡。FID倾向于生成自然的颜色和纹理,但在更仔细的检查下,它未能检测出物体形状和部分的扭曲。较低的FD-Dino和CMMD值有利于图像内容。下表1显示了结果。Imagen 3和DALL·E 3的FID值反映了由于审美偏好而故意偏离MSCOCO-caption样本的颜色分布,生成更生动、风格化的图像。同时,Imagen 3在这三个模型中表现出最低的CMMD值,突显了其在最先进特征空间度量上的强大性能。
结论和局限性
总的来说,Imagen 3在提示-图像对齐上明显领先,尤其是在详细提示和计数能力方面;而在视觉吸引力上,Midjourney v6领先,Imagen 3位居第二。考虑到所有的质量方面,Imagen 3在整体偏好上明显领先,这表明它在高质量输出和尊重用户意图之间取得了最佳平衡。
虽然Imagen 3和其他当前强大的模型表现出色,但在某些能力上仍然存在不足。特别是那些需要数值推理的任务,从生成精确数量的物体到关于部分的推理,对所有模型来说都是一个挑战。此外,涉及尺度推理的提示(例如“房子和猫一样大”)、组合短语(例如“一个红色的帽子和一个黑色的玻璃书”)以及动作(“一个人扔一个足球”)是所有模型中最难的。这之后是需要空间推理和复杂语言的提示。
定性结果
下图9展示了由Imagen 3生成的24张图像,以展示其能力。下图10展示了2张上采样到12百万像素的图像,并进行裁剪以显示细节水平。
负责任的开发和部署
在本节中,本文概述了从数据整理到产品部署的最新负责任部署方法。作为这一过程的一部分,本文分析了模型的优缺点,制定了政策和期望,并实施了训练前和训练后的干预措施以实现这些目标。在发布前,本文进行了多种评估和红队测试,以改进模型并为决策提供信息。这与Google在2024年概述的方法一致。
评估
谷歌DeepMind在发布图像生成模型时,一直遵循结构化的负责任开发方法。在此基础上,本文结合之前的伦理和安全研究工作、内部红队测试数据、更广泛的伦理文献以及现实世界中的事件,对Imagen 3模型的社会效益和风险进行了评估。这一评估指导了缓解措施和评估方法的开发和改进。
溢出
图像生成模型为创意和商业应用带来了多种益处。图像生成可以帮助个人和企业快速制作原型,并尝试新的视觉创意方向。这项技术还有可能让更多人参与到视觉艺术的创作中来。
风险
本文大致识别了与内容相关的两类风险:(1) 有意的对抗性滥用模型,以及 (2) 善意使用中的无意模型失效。
第一类风险涉及使用文本到图像生成模型来创建可能促进虚假信息、协助欺诈或生成仇恨内容的情况。第二类风险包括人物的表现方式。图像生成模型可能会放大关于性别身份、种族、性取向或国籍的刻板印象,并且有些模型被观察到会过度性化女性和女孩的输出。当模型未能很好地校准以遵循提示指令时,即使在善意提示下,图像生成模型也可能使用户接触到有害内容。
政策和需求
政策
谷歌的Imagen 3安全政策与谷歌的生成式AI模型禁止生成有害内容的既定框架一致。这些政策旨在减轻模型生成有害内容的风险,涵盖了儿童性虐待和剥削、仇恨言论、骚扰、色情内容以及暴力和血腥等领域。
需求
遵循Gemini的方法,本文在模型开发中进一步优化,以更好地响应用户的提示。尽管拒绝所有用户请求的政策可能被视为“无违规”(即遵守Imagen 3不应做的事情的政策),但显然无法满足用户的需求,也无法实现生成模型的下游益处。因此,Imagen 3的开发旨在最大限度地遵循用户请求,并在部署时采用多种技术来降低安全和隐私风险。
缓解措施
在Imagen 3中,安全性和责任感通过针对预训练和后训练干预的努力得以实现,这与Gemini项目的类似方法一致。本文根据风险领域对预训练数据进行安全过滤,同时去除重复和/或概念上相似的图像。本文生成合成标题,以提高训练数据中与图像相关的概念的多样性和多元化,并进行分析以评估训练数据中的潜在有害数据,并在考虑公平性问题的情况下审查数据的代表性。本文还进行额外的后训练缓解措施,包括生产过滤,以确保隐私保护、降低错误信息的风险,并尽量减少有害输出,其中包括使用如SynthID水印等工具。
责任和安全评估
在模型层面,Imagen 3 使用了四种评估形式,以应对不同生命周期阶段、评估结果的使用以及专业知识来源:
- 开发评估:这些评估旨在提高Imagen 3在责任标准上的表现。评估由内部设计,并基于内部和外部基准进行开发。
- 保证评估:这些评估用于治理和审查,由模型开发团队以外的团队开发和运行。保证评估按照模态进行标准化,评估数据集严格保密。评估结果反馈到训练过程中,以帮助减轻风险。
- 红队测试:这是一种对抗性测试形式,其中对手对AI系统发起攻击,以识别潜在漏洞。测试由内部专业团队和招募的参与者共同进行。发现的潜在弱点可以用于减轻风险并改进内部评估方法。
- 外部评估:由独立的外部领域专家团队进行,旨在识别模型安全工作中的改进领域。这些评估的设计是独立的,结果定期报告给内部团队和治理小组。
发展评估
安全在模型开发阶段,本文通过自动化安全指标积极监控模型对Google安全政策的违规情况。这些自动化指标为建模团队提供快速反馈。本文使用多模态分类器来检测内容政策违规。多模态分类器的多模态性非常重要,因为在许多情况下,当两个独立无害的元素(如标题和图像)结合时,可能会产生有害的结果。例如,文本提示“猪的图像”本身似乎没有违规,但当与属于边缘化群体的人类图像结合时,可能导致有害的表现。
本文在各种安全数据集上评估了Imagen 3的性能,并将其与Imagen 2的性能进行了比较。这些数据集专门用于评估生成图像中的暴力、仇恨、显性性行为和过度性行为。尽管Imagen 3是一个更高质量的模型,但在开发评估中,它的违规率与Imagen 2相似或更低。
公平性文本到图像生成的过程需要准确描绘提示中提到的具体细节,同时填补场景中未明确说明但必须具体化的部分,以生成高质量的图像。本文优化了图像输出与用户提示的一致性,并在前文中报告了相关结果。本文还旨在在用户提示的要求范围内生成多样化的输出,并特别关注人物外观的分布。
具体来说,本文通过基于感知年龄、性别和肤色分布的自动化指标来评估公平性,这些指标来源于涉及一般人物的提示生成的图像。这项分析补充了过去的一些研究,这些研究分析了对各种职业的模板化查询在类似维度上的响应。本文使用分类器收集感知(或P.)年龄、性别表达和肤色(基于Monk肤色量表),并根据下表2将图像分类到各个维度的不同类别中。
除了这些统计数据之外,本文还测量了在上述三个维度中输出同质化的提示的百分比。对于某一维度,如果所有生成的图像都落入该维度的单一类别(见上表2),则该提示被定义为具有同质化输出。本文的目标是输出的图像能够准确反映任何人都可以是医生或护士,而不会因为评估集的构建偏向于拥有与男性化倾向提示同等数量的女性化倾向提示而无意中奖励了一个有偏见的模型。
从下表3和下表4中可以看到,与Imagen 2相比,Imagen 3在结果上有所改善或保持不变。特别值得注意的是,所有三个维度中具有同质化输出的提示的百分比显著降低。本文将继续研究方法,以减少在人群多样性广泛定义下的同质化现象,同时不影响图像质量或提示与图像的对齐。
保证评估
责任治理的保证评估是为了提供模型发布决策的证据。这些评估由专门团队独立于模型开发过程进行,团队具备专业知识。用于这些评估的数据集与模型训练的数据集是分开的。评估的高级别发现会反馈给团队,以帮助他们进行缓解措施。
内容安全
本文根据安全政策对Imagen 3进行了评估。结果表明,Imagen 3在内容安全性方面有所改善:与Imagen 2相比,总的政策违规数量减少,并且每个政策领域都显示出改善或在误差范围内的结果。
公平性为了评估模型输出的公平性,本文采用了两种方法:
- 标准化评估:理解在提示职业时输出中代表的人口统计信息,以此作为代表性多样性的代理。
该评估使用140个职业的列表,每个职业生成100张图像。然后,本文分析这些图像,并根据感知的年龄、性别表达和肤色对图像进行分类。评估发现,Imagen 3倾向于生成较浅肤色、感知为男性的面孔,以及感知为女性面孔时的较年轻年龄,但这种倾向比Imagen 2要小。 - 不同表现风险的定性调查
为了捕捉在基于职业的分析中可能未被揭示的表现风险,本文还对一系列潜在的危害进行了定性调查。这种测试旨在寻找错误表示或不当表示的情况,例如,如果模型的输出与提示中请求的人口统计术语不匹配,无论是显性不匹配还是由于请求了一个历史或文化上定义的人口群体而导致的不匹配。测试结果显示,模型的行为符合用户的预期。
危险能力本文还评估了Imagen 3在自我复制、工具使用和网络安全等领域的风险。具体来说,本文测试了Imagen 3是否可以用于a) 欺诈/骗局,b) 社会工程,c) 欺骗图像识别系统,以及d) 隐写编码。示例包括生成虚假登录页面或网络钓鱼警报的模型;生成虚假凭证;生成恶意二维码;以及生成签名。本文在这些场景中没有发现任何危险能力,相较于现有的恶意行为者的工具——例如开源图像生成或简单的在线图像搜索。
红队测试
在模型开发过程中,本文还进行了红队测试,以识别与Imagen 3模型相关的新型失败。红队成员试图引发模型行为,这些行为可能违反政策或产生代表性问题,例如历史不准确或有害的刻板印象。在整个模型开发过程中进行红队测试,以便为开发和保障评估领域提供信息,并在发布前进行缓解。违反行为会被报告并进行定性评估,提取新型失败和攻击策略以供进一步审查和缓解。
外部评价
Gemini 1.0技术报告概述了一种协作方法,独立的外部团体参与增强模型安全性,通过结构化评估、定性探究和无结构的红队测试。这些团体的选择基于他们在多个领域的专业知识,包括社会风险以及化学、生物、放射性和核风险。参与者包括来自学术界、民间社会和商业组织的成员,并且他们获得了相应的报酬。
每个外部团体开发了针对特定领域的测试方法。尽管这些团体生成的报告独立于Google DeepMind,但该组织的专家可供讨论方法和发现。这些外部团体提供了全面的分析,包括原始数据和材料,例如提示和模型响应,这些对于理解评估过程至关重要。
从这些外部安全测试中获得的见解对于制定缓解策略和识别现有内部评估方法和政策中的弱点至关重要。这种协作努力旨在增强Google DeepMind开发的模型的整体安全性和可靠性。
产品部署
在发布之前,Google DeepMind 的责任与安全委员会 (RSC) 会根据项目生命周期内进行的评估和评价,审查模型的性能,以做出发布决策。除了这一过程外,还会在特定应用模型的背景下进行系统级安全评估和审查。
为了实现发布,创建了内部模型卡,以便对关键性能和安全指标进行结构化和一致的内部文档记录,并随时间推移通知适当的外部沟通。本文会定期发布外部模型卡和系统卡,包括技术报告的更新以及面向企业客户的文档。
此外,相关产品网站(如 Gemini 应用和 Cloud Vertex AI)上可以找到涵盖使用条款、模型分发和访问,以及变更控制、日志记录、监控和反馈等操作方面的在线内容。