突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM
文章链接:https://arxiv.org/pdf/2409.04004
git链接:https://github.com/dailenson/One-DM
亮点直击
- 提出一种创新的扩散模型,用于生成风格化的手写文本。这一模型的显著特点是只需一个参考样本作为风格输入,便能模仿该样本的书写风格,生成任意内容的手写文本。这种方法的简化使得风格化手写文本的生成更加高效和便捷。
- 引入了参考样本中的高频成分,以增强手写风格的提取。通过采用这种风格增强模块,能够更精确地捕捉书写风格的细微模式,同时有效减少背景噪声的干扰。这种创新显著提升了生成文本的风格还原度和清晰度。
- 在英语、中文和日语等多种语言的手写数据集上进行的广泛实验表明,尽管该方法只使用一个风格参考样本,但其生成效果却超过了以往需要多达15倍样本的传统方法。这一成果表明,该研究在风格化手写文本生成领域具有显著的突破性进展。
总结速览
解决的问题:
- 现有手写文本生成方法通常需要超过十个样本作为风格参考。
- 实际应用中,用户偏好只用一个样本的生成模型以提高便利性和效率。
- 单样本生成方法面临捕捉细节和处理背景噪声的挑战,特别是在字符边缘的高频信息提取上困难重重。
提出的方案:
- 提出了“单样本扩散模仿器”(One-DM)来生成手写文本,并能模仿任何书法风格。
- 开发了一种风格增强模块,利用样本中的高频信息(如字符倾斜和字母连接)来提升风格提取效果。
- 将风格特征与文本内容融合,作为扩散模型生成手写文本的引导条件。
应用的技术:
- 风格增强模块提取并增强样本中的高频信息,以捕捉细腻的风格细节。
- 通过将风格特征和文本内容合并,指导扩散模型生成高质量的手写文本图像。
达到的效果:
- 实验表明,One-DM方法能够在仅使用一个样本的情况下,成功生成多种语言的手写文本。
- 相比需要超过十个样本的方法,One-DM在生成效果上表现更优。
方法
整体方案:
思路集中在利用风格参考图像中的高频信息来增强风格模式的提取。一种简单的实现方式是使用普通的transformer编码器来从风格图像及其对应的高频图像中提取风格特征。然而,这种简单方法面临两个主要问题:
- 缺乏有效的监督目标,使得从高频图像中准确学习作者的风格模式变得具有挑战性;
- 从原始图像中捕获的风格特征仍然保留了不需要的噪声背景,这可能对后续的图像生成性能产生负面影响。
为了解决上述问题,作者开发了一种更有效的方法,如下图3所示。
该方法包括风格增强模块、内容编码器、风格-内容融合模块和条件扩散模块。具体流程如下:
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM-AI.x社区
风格增强模块
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM-AI.x社区
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM-AI.x社区
风格-内容融合模块
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM-AI.x社区
具体来说,第一个交叉注意力模块将文本内容 E 作为查询,来识别风格参考中的最相关风格信息,从而推断每个字符对应的风格属性。例如,如果文本内容是 'a',它会优先搜索风格参考中类似于 'a'、'b'、'd'、'g' 的字符风格特征,因为这些字符具有相似的循环结构,暗示它们的风格属性更为可比。这个过程(图3中的交叉注意力)表示为:
通过简单地将 O 和 E 相加来获得内容和风格引导之间的初步融合嵌入。然后,将合并后的中间向量作为自注意力机制中的查询、键和值,以促进信息的全面交互。最后,融合后的嵌入 g 作为扩散过程的条件。第二个多头注意力(图3中的自注意力)定义为:
条件扩散模型
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM-AI.x社区
实验
结果
风格化手写文本生成:首先,评估了 One-DM 在生成风格化手写文本图像方面的表现,旨在在生成的图像中复制风格和内容。按照 [5, 27, 46] 的方法,首先计算了生成样本和真实样本之间的 FID,对于每个作者分别计算,最后取平均。与之前的工作 [5, 27, 46] 一致,在 IAM 数据集上的实验分为四种不同的场景:IV-S、IV-U、OOV-S、OOV-U。在这四种场景中,OOV-U 是最具挑战性的情况,因为目标风格和词语在训练过程中完全未见过。对于 CVL 数据集,直接报告了所有方法在测试集上的结果。
下表1中报告了 IAM 数据集上的定量结果。
可以观察到,One-DM 在所有设置中都优于所有竞争对手。特别是,它在所有场景中都显著超越了一次性方法。令人印象深刻的是,在 IV-S 和 OOV-S 设置中,One-DM 相比于使用 15 倍更多参考样本进行风格指导的少量样本方法(如 GANwriting、HWT、VATr)也具有明显优势。即使在最具挑战性的 OOV-U 场景中,One-DM 也大幅领先于第二好的方法 VATr(102.75 对 108.76),展示了One-DM 在风格化手写文本生成中的卓越性能。类似地,本文的方法在 CVL 数据集上也优于 HWT 和 VATr,达到了最低的 FID 分数,如表4所示。
下图4中提供了定性结果,以直观地解释One-DM的优势。
GANwriting 难以捕捉参考样本的风格模式,如字符倾斜,并且偶尔会产生不清晰的字符形状。HiGAN+ 更一致地生成了内容正确的字符,但生成词语中的字符间距缺乏真实性。
WordStylist 通常生成带有明显背景噪声的图像。HWT 和 VATr 在内容准确性和风格模仿方面可以生成令人满意的手写词语;然而,它们的缺点是倾向于生成更平滑的字符外观。与 HWT 和 VATr 相比,合成的样本在字符墨水颜色和笔画厚度上更为真实。然而, One-DM 生成的一些样本在墨水颜色上明显不同。下图5 中展示了本文方法与少量样本方法之间的更多定性比较。
风格无关手写文本生成:进一步评估了One-DM 在生成现实的手写文本图像时是否能够忽略风格模仿。为此计算了 IAM 测试集上的 FID 和 GS,条件与 ScrabbleGAN [13] 相同(FID: 20.72, GS: 2.56×10⁻²),能够生成具有随机样式的手写文本。具体而言,每种方法生成 25k 个随机样本以计算与 25k 个测试集样本的 FID,以及 5k 个随机样本进行 GS 计算,与 5k 个测试集样本进行比较。如前面表1所示,One-DM 在 FID 和 GS 指标上都取得了最佳结果,进一步展示了其生成更高质量手写文本图像的能力。
分析
一系列消融实验以分析One-DM。更多分析内容包括在不同风格背景下的泛化评估、通过 OCR 性能进行的生成质量评估、失败案例分析以及不同设计(如高频滤波器、风格-内容融合机制和风格输入样本长度)的效果。
拉普拉斯分支和门控机制的定量评估
在 IAM 数据集上进行了各种消融实验,以评估方法中不同组件的效果。定量结果见下表2。发现:(1) 同时引入拉普拉斯分支和门控机制提高了生成手写文本图像的质量,分别使 FID 提高了 3.92 和 2.71。(2) 将拉普拉斯分支与门控机制结合使用进一步提升了生成性能。
拉普拉斯分支和门控机制的定性评估
为了进一步分析One-DM 中的各个模块,进行了视觉消融实验。如上表2所示,可以观察到,首先,添加门控机制后,背景噪声可以得到一定程度的抑制,结果是字符背景相对干净。然后,单独添加拉普拉斯分支帮助模型学习连笔连接和其他风格模式。最后,本文的方法整合了拉普拉斯分支和门控机制,能够生成最高质量的手写文本图像。
拉普拉斯分支的讨论
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM-AI.x社区
关于从单个参考样本中学习风格的讨论
对 One-DM 仅凭一个参考样本就能超越少量样本方法的生成性能感到相当惊讶。提供了潜在原因的分析如下。首先,One-DM 学习了一个有意义的风格潜在空间,其中可以基于已见风格生成新的风格(参见下图6)。然后,通过我们的风格增强模块,One-DM 有效地从单个示例中提取风格特征,并将其映射到特征空间中接近示例写作者的位置,从而生成高质量的风格化手写文本图像。
与最先进工业方法的比较
为了突出本文方法的优势,将 One-DM 与领先的工业图像生成方法进行比较,这些方法在极大的数据集上进行训练(包括大量以文本为中心的图像),包括两种显著的文本到图像生成方法:DALL-E3和 Stable Diffusion (SD),以及两种流行的风格迁移方法:Artbreeder 和 IP-Adapter(IP-A.),在 IAM 数据集上进行比较。
如下图7(a) 所示,本文的方法在风格模仿和内容保留方面优于工业方法。IP-A. 的表现最差,常常生成失真图像。Artbreeder 能够复制风格样本中的笔触颜色,但在内容保留方面表现不佳。DALL-E3 和 SD 能够生成内容准确的字符,但通常在风格细节上与参考不匹配,如字符间距和笔触宽度,其中 SD 常常生成额外的背景。此外,还比较了 Fzshouji,一个专为中文手写生成设计的先进工业方法。如图7(b) 所示,本文的方法在复制字符细节和墨水颜色方面优于 Fzshouji。
应用到其他语言
本节评估了One-DM 是否可以用于生成除英语以外的其他语言。进一步在中文(即 ICDAR2013 竞赛数据库)和日文(即 UP_Kuchibue 数据库)数据集上进行了实验。使用 FID 评估每个作者生成样本的质量,然后取平均。
对于中文手写字符生成任务,如下表5所示,发现One-DM 显著优于第二好的方法,FID 低了 7.37。从下图8(a) 中可以观察到,One-DM 生成的字符在几何形状和字符倾斜度上与目标图像非常匹配。相比之下,HWT 和 VATr 生成的手写文字存在明显的伪影,如模糊和结构塌陷。GANwriting 经常遗漏笔画。WordStylist 有时难以准确模仿风格模式,并倾向于生成带有错误部首的字符。
上面表5 和图8(b) 进一步验证了 One-DM 在日文手写生成中的有效性。同样达到了最低的 FID 分数,生成的日文样本在内容保留和风格模仿方面都表现出色。
进一步探讨了为什么只需一个样本的基于扩散的方法(如One-DM 和 WordStylist)在生成中文和日文字符方面明显优于少量样本的基于 GAN 的方法(如 GANwriting、HWT 和 VATr)。GAN 基础方法在中文和日文字符上的较低性能可能源于其原始卷积架构在处理复杂几何的中文和日文字符时遇到困难,正如 [60] 所指出的那样。相比之下,One-DM 将中文和日文字符的生成过程分解为更简单的步骤。例如,如下表6 所示,在扩散生成过程的早期阶段,模型首先尝试生成一个粗略的中文手写字符。然后,在条件指导下继续细化书写风格(如字符形状和笔画颜色),直到合成出令人满意的手写文字。
总结展望
本文介绍了一种新颖的 One-DM 方法用于手写文本生成,只需一个风格参考即可生成逼真的手写文本图像。通过结合风格参考中的高频成分来增强风格提取。对于具有明显风格模式的高频成分,采用拉普拉斯对比学习来捕捉更具判别性的风格特征。此外,门控机制提高了参考信息的传递效果,减少了背景噪声。One-DM 在多种语言脚本的生成中优于少样本方法。未来计划探索 One-DM 在字体生成和矢量字体创建任务中的潜力。
本文转自 AI生成未来 ,作者:AI生成未来