海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2
文章链接:https://arxiv.org/pdf/2407.02252
github链接(待开源):https://github.com/OPPO-Mente-Lab/GlyphDraw2
海报在营销和广告中起着至关重要的作用,通过增强视觉传播和品牌知名度,对工业设计有着显著贡献。随着可控文本到图像扩散模型的最新进展,更简洁的研究现在集中在合成图像中的文本渲染上。尽管文本渲染的准确性有所提高,端到端的海报生成领域仍然探索不足。这项复杂的任务涉及在文本渲染准确性和自动布局之间取得平衡,以生成具有可变纵横比的高分辨率图像。
为了解决这一挑战,本文提出了一种采用三重交叉注意力机制的端到端文本渲染框架,该机制根植于对齐学习,旨在在详细的上下文背景中创建精确的海报文本。此外,引入了一个分辨率超过1024像素的高分辨率数据集。本文的方法利用了SDXL架构。大量实验验证了该方法生成具有复杂和上下文丰富背景的海报图像的能力。
本文贡献如下:
- 通过微调大语言模型(LLMs)用于布局规划,提出了一种端到端的海报生成解决方案。基于对齐学习和三重交叉注意力的字形生成框架可以在保持海报视觉丰富背景的同时,将文本准确地放置在适当的位置。
- 引入了一个更高分辨率的数据集,包括中英文字形的图文对,以及高质量的海报数据。
- 定量和定性实验结果都表明,本文提出的架构在生成海报方面表现出色。
方法
模型概述
整个框架分为四部分,如下图3所示。第一个部分是融合文本编码器(Fusion Text Encoder, FTE)与字形embedding,其工作方式相对传统。其主要目标是从SD的文本编码器的角度整合两种模态的特征,从而确保生成图像中两种模态的紧密结合。本文的框架中的第二个也是更为关键的部分是引入三重交叉注意力(Triples of Cross-Attention, TCA)。这个阶段,在SD解码器部分引入了两个不同的交叉注意力层。第一个新的交叉注意力层促进了字形特征与图像中的隐藏变量之间的交互。这是基于早期的工作如IP-Adapter,增强了字形渲染的准确性。同时,第二个新的交叉注意力层则使ControlNet特征与图像中的隐藏变量之间进行交互。通过与ControlNet信息交互,该层自适应地学习内在数据,例如字形的合适布局。在第三部分中,添加了辅助对齐损失(Auxiliary Alignment Loss, AAL)的学习,以增强整体布局并丰富海报的背景信息。最后,在推理阶段,采用了微调LLM策略,自动分析用户描述并生成相应的字形和条件框架的坐标位置。这旨在满足端到端的海报生成需求。
融合文本编码器
该方法借鉴了早期工作的思想,如Blip-Diffusion、Subject-Diffusion、AnyText,并且通常被用作一种全局条件控制策略。首先,将输入的字形条件渲染为字形图像,然后传输到PP-OCR以提取相应的字形特征。按照与AnyText相同的逻辑,字形特征在与相应位置的标题融合时,将通过线性层进行特征对齐,这确保了即插即用的功能模块化,而无需对文本编码器进行微调。
三重交叉注意力
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2-AI.x社区
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2-AI.x社区
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2-AI.x社区
结合每个块现有的交叉注意力层,最终TCA输出是三层的总和如下:
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2-AI.x社区
辅助对齐损失
考虑到本文海报生成的应用背景,除了字形生成的准确性和背景的和谐性,还需要关注图像背景本身的丰富性。本文方法不可避免地引入了额外的条件注入,包括ControlNet特征的添加以及TCA策略,这导致了解码器组件数量的增加。这些条件的根本目的是确保生成图像的可控性。然而,许多文章表明,可控性通常伴随着可编辑性或文本一致性的牺牲。因此,在方法中引入了辅助对齐损失(AAL)。对齐模型采用SDXL作为其骨干,类似于ControlNet使用复制的SD编码器。然而,在本文的方法中复制了SD解码器,并在复制解码器的每个块的交叉注意力输出与TCA原始交叉注意力层的输出之间应用AAL。这一方法的主要目标是最小化为学习字形而添加的模块对整体布局和图像质量的影响。因此,语义一致性AAL损失L'可以公式化如下:
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2-AI.x社区
使用微调的大语言模型进行推理
为了确保端到端的海报生成,亟需解决的最后一个问题是消除人工干预,即预定义图像布局的过程。完全依赖用户的标题描述,并引入大语言模型(LLM)来解决这个问题。此外,为了方便调用,构建了自己的指令数据,并对开源语言模型进行了微调。
实验
实现细节
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2-AI.x社区
第二个组件是一个基于大语言模型(LLM)的布局生成模型。专门为此任务使用了Baichuan2,训练数据集只包含海报数据。由于任务涉及预测两个位置坐标,这对语言模型构成了重大挑战。为提高预测准确性,对坐标点进行了归一化,并仅专注于使用左上角和右下角点。此外,为了保持端到端生成过程的稳定性,在遇到LLM不准确的预测时,采用了一种基于规则的随机布局生成方法。这包括将随机策略整合到布局生成过程中。这些随机策略的实施比例约为5%,以在生成的布局中达到稳定性和多样性之间的平衡。布局生成的LLM模型在64个A100 GPU上训练了3万步,每个GPU的批量大小为10。
评估
评估集可以分为两部分,用于评估模型的性能。
第一部分是AnyText-Benchmark,其中包含来自LAION和Wukong的一千幅英文图像和中文图像。然而,发现AnyText-Benchmark中用于测试中文生成能力的1000幅图像与英文数据混合,因此移除了这部分数据,留下了915幅作为评估的基准。遵循AnyText的方法,从两个方面评估文本渲染质量:
- 位置词精度(PWAcc)计算特定位置生成的单词的准确性。只有当预测的文本与基准完全匹配时才被认为是正确的。
- 标准化编辑距离(NED)是衡量两个字符串之间相似性的指标。它通常用于文本比较。该方法通常涉及首先使用动态规划算法计算两个字符串之间的Levenshtein距离,然后将其除以字符串的最大长度进行归一化。
值得注意的是,在AnyText-Benchmark中,大多数英文评估集每个bbox只包含一个英文单词,导致在评估英文句子时缺乏精度。因此,有必要构建更复杂的评估集。
评估集的第二部分包括两个子集:Complex-Benchmark和Poster-Benchmark。构建的子集共形成了四个评估子集,包括双语中英文评估。Complex-Benchmark包括100个提示。在中文提示中,待渲染的字符是随机组合和排列的,而英文提示则包含具有连续重复字母的较长单词。该评估集的主要目标是评估文本渲染的准确性。此外,Poster Evaluation Set包括描述海报生成的120个提示。其目的是评估端到端海报生成的布局准确性、鲁棒性和整体美学质量。对于这些评估集,采用了三个评估指标来评估海报生成的准确性和质量:
- 准确率(Acc)计算与需要渲染的总字符数相比,生成文本中正确生成字符的比例。
- ClipScore衡量生成的图像与提供的文本提示或描述的对齐程度。
- HPSv2评估生成的图像是否符合人类偏好,并作为评估图像质量偏好的指标。
比较中,评估了各种方法,不仅包括AnyText,还包括使用了ControlNet和StableDiffusion3(SD3)的方法。由于SD3不支持中文文本的渲染,在后续分析中省略了对中文指标的计算。此外,由于NED计算通常依赖于基于文本bbox位置的anchor,也排除了SD3的NED计算。
实验结果
接下来对本文呢的方法与文本渲染和海报生成领域最先进方法的全面定量和定性结果的分析比较。
AnyText-Benchmark的比较结果。使用AnyText-Benchmark来评估模型在独立渲染中文和英文文本方面的熟练程度。为了专门评估模型的中文文本生成能力,从中文评估集中排除了所有英文文本,包括只包含单个英文文本的样本。这导致剩余915个样本用于实验评估。英文评估集保持不变。此外,采用的评估指标与AnyText中使用的指标相一致,包括词精度和NED。
为了确保公平评估,所有方法均使用了DDIM采样器,采样步长为50,CFG比例为9,并固定随机种子为100。每个提示生成一张图像,具有相同的正负线索。
定量比较结果如下表1所示。从结果可以明显看出,本文的模型在渲染中文和英文文本方面的准确性显著高于AnyText。然而,在ClipScore指标上略低于GlyphDraw2。这里的Acc指标是基于前面提到的PWAcc规则计算的。
Complex-Benchmark的比较结果。为了全面评估模型的文本渲染能力,设计了一个更复杂的评估集。具体来说,对于中文语言,从2000个常用汉字中随机组合字符作为待渲染的文本,生成了一组100个提示。行数和每行字符数也是随机确定的,确保了生成具有完整随机感的提示。设计的100个提示包括了一些具有复杂笔画和结构的汉字,例如“薯(potato)”,“寨(stockade)”,“聚(gather)”。虽然评估样本数量有限,但它们涵盖了各种常见的汉字,包括一些在训练数据集中很少出现的复杂结构字符。因此,这些提示提供了一个全面评估模型中文字符生成能力的稳健手段。对于英文文本,选择了具有连续重复字母和一些较长单词来进行渲染。这些单词容易出错,因此它们是评估英文单词渲染能力的有力指标。与AnyText-Benchmark不同的是,提供了可以渲染短语和句子而不仅仅是单词的bbox。这种方法不可避免地增加了渲染的难度。
在评估指标方面,选择了准确率来衡量生成文本的精度,ClipScore来评估图像与文本提示之间的对齐情况,以及HPSv2来捕捉人类对生成图像的偏好。除了评估文本渲染能力外,验证端到端生成的整体性能也至关重要。为了进行更全面的比较分析,本文的研究实验重点放在两个关键方面:随机生成的bbox和LLM预测的bbox的利用。这种方法允许更深入地评估和比较端到端文本生成功能。
在上面表格1中进行的实验中,所有方法在图像生成过程中都使用了预定义的规则和随机初始化的文本提示坐标。根据定量比较结果显示,本文的模型在文本生成准确性方面优于AnyText。除了在随机分配bbox坐标时稍低的中文ClipScore和HPSv2之外,该方法在所有其他指标上都优于AnyText。在复杂的英文句子级评估集中,AnyText的文本渲染准确性相当低。虽然GlyphDraw2的准确性也不高,但它明显超过了AnyText。
实验的第二部分涉及使用经过微调的LLM生成文本bbox的位置,然后根据这些bbox位置生成图像文本。根据上面表格1中的结果,LLM预测的bbox坐标导致文本渲染准确性降低,因为随机规则生成的bbox坐标倾向于包含更大的区域,与LLM预测的情况相比,性能更高。然而,与AnyText相比,该模型仍然表现出相对较高的准确性。
Poster-Benchmark的比较结果。为了评估本文海报生成模型的端到端能力,专门设计了一个用于海报评估的专用数据集,包括各种海报生成提示形式。这个全面的数据集包含了120个描述英文和中文海报的提示,能够生成包括横向、纵向和方形格式在内的各种分辨率的图像。在图像生成过程中,本文的模型利用LLM预测文本描述框的位置,实现了无需用户指定文本放置即可实现无缝端到端的海报生成。与AnyText-Benchmark不同,后者只允许在文本提示中输入英文单词,该模型可以容纳完整的英文句子,从而方便呈现所需的文本。
海报生成的定量结果如前面表1所示,同样,结果显示本文的模型在端到端海报生成场景中文本渲染方面达到了最高的准确性。然而,这里的ClipScore稍低。
LLM布局预测实验。首先,根据难度级别构建了四个任务。
- 输入:描述包含待渲染字形的图像及图像大小的标题;输出:待渲染字形和相应文本框的四个坐标点,多个相似元组对应多个位置。
- 输入:描述包含待渲染字形的图像的标题;输出:待渲染字形和相应文本框的四个标准化坐标点,多个相似元组对应多个位置。
- 输入:描述包含待渲染字形和图像大小的标题;输出:待渲染字形和相应文本框的两个坐标点(左上角和右下角),多个相似元组对应多个位置。
- 输入:描述包含待渲染字形的图像的标题;输出:待渲染字形和相应文本框的两个标准化坐标点(左上角和右下角),多个相似元组对应多个位置。
第一和第二个任务需要预测四个位置坐标,这是最具挑战性但也是最符合需求的。标准化降低了任务的难度,但在一定程度上牺牲了多样性,因为它减少了解决范围。最后两个任务降低了微调的难度,但同样牺牲了预测坐标的多样性,使得文本框坐标限制为矩形。
随机测试了1000个提示,以预测格式的正确性为基础计算准确率。尽管正确预测的格式不一定意味着真实渲染位置是正确的,但这种错误相对较小。
在比较中,选择了三个模型,分别是Qwen1.5、Baichuan2和Llama2。其中,对Qwen1.5尝试了三种模型大小,而其他两个模型各测试了两种模型大小。实验结果如下图5所示,模型名称中的数字后缀代表任务模式ID。实验首先发现,模型参数体积越大,微调效果越好。输出标准化的结果具有更高的准确率。最终,选择了Baichuan2-13B模型,采用第三个任务模式。
下图4展示了在自定义的评估集上对LLM进行微调后的结果。主要优势体现在三个方面。首先,在海报标题方面,模型倾向于预测一个相对较大面积的文本框。其次,相邻文本框中内容的连贯性提供了语境意义,使模型能够学习渲染字形所需的语义信息。最后,文本框的大小倾向于与其包含的字符或单词数量成比例。
消融实验
由于进行了大量的消融实验并希望降低训练成本,统一将每个实验的第一训练阶段设置为20,000步,第二阶段设置为10,000步,并在中文评估数据集上进行。消融研究涉及四个主要方面的考察,即: 1)TCA及其特定模块的影响;
2)AAL的影响;
3)文本编码器融合的影响;
4)ControlNet条件输入的影响。
TCA的有效性。TCA添加了两个CA层,分别对每个添加的CA层进行了消融研究。其中,CAG代表消除CA交互的消融,其中包括作为K、V的字形特征。如下表2所示,移除这一层会导致准确性略微下降,但ClipScore和偏好分数有所提升。这表明,虽然CAG提高了文本渲染的准确性,但牺牲了一定的文本语义对齐能力。
CAC代表消除自适应CA交互过程,该过程从ControlNet编码器中提取特征。在这里,两个指标都会略微下降,表明自适应特征交互确实可以增强文本渲染的准确性和文本语义对齐能力,同时也增强了偏好分数。
TCA的消融是整个TCA块的消融。类似于CAC,准确性和偏好分数都会下降,进一步说明TCA模块对文本渲染准确性和图像偏好分数具有积极影响。
AAL的有效性。如上表2所示,这种策略确实在一定程度上增强了语义对齐能力和图像质量,但也牺牲了一些文本渲染的准确性。然而,总体影响仍然是正面的。
FTE的有效性。FTE的主要目的是确保字体与背景的协调一致。上表2中可以观察到,所有指标都受到了一定影响。FTE整合了字体特征信息,增强了文本渲染的准确性。然而,图像模态的融合可能会削弱文本语义的对齐,导致ClipScore略微下降。最后,图像兼容性的增强对偏好分数具有积极影响。
ControlNet条件输入的有效性。ControlNet的条件输入(CC)主要影响字形的准确性,减少了对图像描述性标题对文本渲染的影响,并在一定程度上提高了字形的准确性。
结论与限制
到目前为止,手动标注的深度成本和有限可用性对字形生成模型的实际部署提出了重大挑战。在本研究中,首先收集了包含中英文字形的高分辨率图像,随后构建了一个自动筛选流程以构建大规模数据集。接着,建立了一个综合框架,将文本和字形语义融合在一起,利用各种层次的信息优化文本渲染的准确性和背景的丰富性。从实验中得出的经验分析表明,本文的方法在各种评估集上超越了现有模型,显示出作为增强端到端海报生成能力基础的潜力。
局限性 尽管本文的方法可以生成自由分辨率的端到端海报,但目前仍然存在一些问题。首先,对于LLM预测的字形bbox,在复杂情景下(例如用户输入的没有引号的段落文本作为bbox提示),预测准确性较低。其次,在背景生成的丰富性与文本渲染的准确性之间进行平衡仍然相对困难。在目前的方法中,优先考虑字形的准确性,因此背景的视觉吸引力可能较弱。此外,对于小字形或段落文本的生成准确性仍然需要改进。未来,可能会在文本编码器方面探索一些解决方案来解决这些问题。
本文转自 AI生成未来 ,作者:Jian Ma等