只需微调,大幅提升人脸生成质量!上交联合OPPO发布新标准和新方法
文章链接:https://arxiv.org/pdf/2406.17100
今天和大家一起学习的是对现实生活中生成的人脸细节进行优化的工作。扩散模型(DMs)在根据文本描述生成想象力丰富的图像方面取得了显著的成功。然而,在处理现实生活中复杂细节的场景时,它们很可能会表现不佳。文本到图像生成中低质量、不真实的人脸是其中最突出的问题之一,这限制了DMs在实际应用中的广泛应用。为了解决这一问题,本文首先通过人类标注者评估了几种流行预训练DM生成的人脸质量,然后评估了现有度量方法(如ImageReward、人类偏好分数、美学评分预测器和人脸质量评估)与人类判断之间的一致性。观察到现有度量方法可能无法令人满意地量化人脸质量,开发了一种名为Face Score(FS)的新度量方法,通过在DM生成的(好、坏)人脸对数据集上便宜地应用修复流程来对ImageReward进行微调。广泛的研究表明,FS与人类评估具有较高的一致性。
另一方面,FS为改进DM生成人脸开辟了新的可能性。为了实现这一目标,在Stable Diffusion V1.5和Realistic Vision V5.1等预训练DM上引入了一个指导损失,用于在前述人脸对的去噪轨迹上进行微调。直观地说,这种损失将坏的人脸的轨迹推向好的人脸的轨迹。全面的实验验证了本文方法在提高人脸质量的同时保持了通用能力的有效性。
更多的随机人脸图像和相应的人脸得分递增。我们可以观察到这样一个趋势: 分数越高表示面部生成的质量越好:
主要贡献:
- 首次对DMs的不良人脸问题进行了调查,并系统评估了一系列图像质量度量方法来量化人脸质量。
- 提出了Face Score来更好地量化生成的人脸质量,并显示其在比现有度量方法更高的优势。
- 提出了指导损失,用于微调DMs以生成更高质量的人脸,并在SD1.5和RV5.1上验证了其有效性。
人类对生成的人脸图像的偏好
本节首先暴露现有DMs存在的不良人脸问题,并测试现有的图像度量方法在量化合成图像的人脸质量方面的效果。然后,开发了Face Score(FS)作为一种更合格的度量方法,用于评估生成的人脸图像的合理性和美学吸引力。
不良的人脸问题
DMs在生成复杂细节,尤其是逼真的人脸和手部时遇到的困难已经不再新鲜。如下图1所示,由RV5.1和SDXL生成的图像通常包含扭曲的人脸。这个问题可能源于模型训练中人脸数据的稀缺,或者是人脸区域相对于整个图像来说很小,但需要包含复杂的细节。通常情况下,为了生成带有人脸的图像,常见做法是基于无分类器引导(CFG)技术引入负面提示,以增加生成高质量人脸的可能性。
下图2显示了与此相关的结果,可以看到负面提示确实有助于提高人脸质量,但生成的人脸仍然不令人满意。实践者可以通过基于DMs的修补技术专门重新生成人脸区域,但由于现有DMs在生成人脸方面的基本问题,生成的人脸仍可能质量较低。
现有DMs的评估
接下来,对三种流行的DMs进行了详细的人脸生成质量手动评估:SD1.5,RV5.1和SDXL。采用以下流程进行评估:
- 从MS-COCO 2017 5K验证数据集中选择与人类主体相关的1k提示,其中包括室内外人物中心场景和单人/多人场景的描述;
- 对于每个提示,使用这三种DMs生成一个图像三元组(见下图3),如果任何图像中没有有效的人脸,则丢弃该三元组;
- 引入五名人类标注者,分别基于人脸质量对每个提示的图像三元组进行排名;最佳图像得分为3分,最差图像得分为1分;
- 根据多数投票整合标注结果。
为了确定五名标注者的偏好一致性并使标注结果更具说服力,研究者们计算了在五名标注者中超过三名选择相同标签的频率,以量化标注者的一致性,得到了93.3%的一致性。整合标注结果进一步有助于减少个体偏见的影响,并与人群偏好达成一致。上图3展示了一个带标注的图像三元组示例,下表1显示了对三种DMs的人类偏好统计数据。如图所示,尽管RV5.1的人脸质量还不够好(见上图2),但仍略优于体积更大的SDXL,这加强了对现有DMs不良人脸问题的关注。另一方面,SD1.5明显落后于另外两种DMs。
现有度量方法的评估
一个好的度量方法可以实现对生成物的人脸质量的自动、可扩展评估,避免人工标注的昂贵和耗时过程,并为新模型的开发铺平道路。因此,研究者们进一步调查了现有的图像度量方法在生成的人脸上与人类偏好的一致性。关注了ImageReward(IR)、Human Preference Score(HPS)、Aesthetic Score Predictor(ASP)和Face Quality Assessment(FQA),这些方法在文本到图像生成中评估人类偏好或美学质量方面非常流行。直观上,HPS和IR侧重于全局图像而非局部区域,因此它们不适合评估生成的人脸质量。因此,还开发了它们的变体,即LocalHPS和LocalIR,其中使用检测器检测局部人脸区域,并将其送入带有默认提示“一个人脸”的原始评分流程中,以进行特定人脸评估。
研究者们主要关注度量方法在不同图像上的相对关系而非绝对数值。因此,构建了一个包含大约3k个带标注的图像三元组的小数据集,每个三元组形成两个成对比较。对于度量方法的评估,计算了基于数据对比中的度量方法排名与人类排名的二元排名准确率。将结果列在下表2中。可以观察到,IR和ASP的表现不佳,可能是因为它们更加关注全局图像特征,而LocalIR表现稍好一些。FQA的表现也很差,因为它被用来评估人脸图像的识别适用性,因此在评估生成的人脸的人类偏好时可能存在偏差。HPS和LocalHPS在度量方法中表现最好。然而,高达75.31%的准确率仍然有很大的提升空间。
人工合成人脸图像的新度量指标:Face Score
根据以上发现,旨在开发一种新的度量方法,用于量化合成人脸图像的质量/人类偏好。将这种度量称为Face Score(FS),并期望它能够与生成的人脸的合理性和美学吸引力相关联。为了实现这一目标,自动化和可扩展地构建了一组关于人脸图像的偏好数据集,并基于此进行模型微调来获得FS。
数据集构建虽然开源的人类偏好数据集可以用于训练涉及度量的评估模型,但它们并非专门用于人脸。另一方面,由于标注过程既昂贵又耗时,而收集的人类标注数量有限,因此生成的数据主要用于评估而非模型训练。为了解决这些问题,本文提出了一个基于现成预训练DMs修补能力的人脸偏好数据集收集pipeline。具体而言
- 在LAION数据集中包含人脸的自然图像中,使用检测器检测人脸区域,获得人脸masks M;
- 使用图像修复pipeline对人脸区域进行重绘。
下图6的中间列中绘制了该过程。
定量比较首先,报告了FS在表2中对人类标注图像进行排名的准确率。发现与现有的度量方法相比,FS获得了最佳的准确率,因此可以作为评估合成图像中人脸的更好的度量方法在下图5展示了一些随机选择的人脸图像及其对应的FS,这表明人脸的合理性和美学吸引力与FS呈正相关。为了展示评估人脸质量的普适性,在下表中报告了不同开源和封闭源文本到图像扩散模型的FS。这些模型以与测试集相同的方式生成图像。观察到PGV2.5获得了最佳的FS。这是有道理的,因为其作者声称其图像质量优于MJ。还得出结论,模型的人脸生成质量与整体生成质量呈正相关。
改进DMs生成人脸质量的微调方法
本节详细阐述了提出的指导损失以微调DMs,以及一些关键的优化策略。
然后,最小化以下的指导损失:
除了指导损失,还提供了关于模型优化的两个关键因素的见解如下。
- 时间步长。图7中可视化了采样过程中人脸图像的演变,并注意到在采样的早期阶段,布局和颜色被渲染出来,但细节尚未显现。随着采样过程的进行,细节逐渐恢复和完善。这启示保持前向时间步t相对较小,以避免在过于嘈杂的状态上浪费优化努力。从图7中可以观察到,更细致的细节大约在推理过程中部分中期出现,因此经验性地取t∼U[1,0.5T]来微调DMs,其中U[a,b]表示区间[a,b]上的均匀分布。
自注意层。直觉上,DMs中的交叉注意力层捕捉图像和文本之间的关联,而自注意力层处理图像内部的相互依赖关系。基于此,特别优化DMs中U-Net的自注意力层参数,以提升人脸质量。
结果与分析
消融实验
之前讨论过时间步长和自注意层对于细节生成以及人脸生成的重要性。使用RV5.1和DINO特征距离度量进行了以下消融研究。
时间步长。为了证明选择相对较小时间步长进行微调的有效性,在保持其他条件不变的情况下,额外进行了从所有时间步长中随机选择的微调DMs的实验。从下表6中可以看出,在人脸质量比较中,仅考虑相对较小的时间步长更为有效。这是因为随着时间步长的减小并接近零,细节生成过程开始,专注于这些细节有助于更好地生成细节和人脸。关于时间步长的更多消融研究将包含在补充材料中。
自注意力层。理论上,自注意力层对人脸生成具有更大的影响。为了在实验中证明这一点,将Ours-DINO与全面微调进行了比较。从上表6中可以看出,具有自注意力微调的Ours-DINO优于全面微调,证明了自注意力在生成细节方面起着重要作用。自注意力不仅增强了图像质量,还促进了更精细细节的生成。
结论
本文关注了扩散模型中出现的不良人脸生成问题,并讨论了可能的原因及缓解方法。评估了流行的扩散模型在人脸生成质量上的表现,并评估了现有基于图像的度量标准在评估合成图像质量时的有效性,但在人脸评估方面遇到了不理想的结果。为了填补这一领域的空白,本文提出了一个由人类评估标注的排名数据集,以及一个大规模的(好、坏)人脸对数据集,后者是在没有标注的情况下隐式构建的。
除了数据集,还开发了一种名为Face Score的新指标,专门用于评估合成图像中人脸的合理性和美观程度,该指标是在人脸对数据集上训练的。基于这样的指标,还提出了一种通过修正轨迹实现更好人脸生成的微调方法。通过完整工作流程,帮助更好地使文本到图像生成与人类对人脸生成的偏好相一致。
尽管该方法可以推广到细节生成,但本文只关注人脸生成质量。未来的研究需要解决其他细节生成问题,如与手部质量相关的问题。此外,还可以探索更多的距离度量和指导损失的形式选择,这些将留作未来的工作。
本文转自 AI生成未来 ,作者:Zhenyi Liao等