奥巴马完变白种人？GFP-GAN达到盲人脸修复新里程碑-奥巴马人怎样

盲人脸修复（blind face restoration）是从低质量的人脸中恢复出高质量人脸的过程。这些质量较低的肖像图可能由各种原因导致退化，如低分辨率，噪音，模糊或是被压缩。

和一般的图像修复相比，人脸修复更加注重细节，如一些皱纹、酒窝等都需要恢复出来才能让人感觉这个系统不错，也就是说，这是一个粒度更细的图像修复任务。

其次，如标题中 blind 所言，照片的退化函数的类型、数量我们是无法事先获悉的。通常的图像修复都是针对一种退化场景设计的，比如，在去噪任务中，可能就只是针对某种或某几种噪声而言，而不考虑图像模糊等其他因素，因此任务相对简单。

但如果退化的种类太多，退化函数本身可能会非常复杂，即使神经网络也未必能近似出来。

之前盲人脸恢复的研究通常依赖于面部几何特征或参考之前照片细节进行恢复。但这类方法在现实场景中的适用性十分有限，低质量的输入通常无法提供准确的几何先验，也无法获得高质量的参考。

针对这个问题，腾讯PCG的应用研究中心ARC实验室提出了GFP-GAN模型，利用封装在预训练面部GAN中的丰富多样的先验信息进行盲面部修复。这种生成性面部先验模型（Generative Facial Prior, GFP）通过空间特征变换层被纳入到面部恢复过程中，这使得该方法能够实现真实性和保真度的良好平衡。

并且得益于强大的通用面部先验和精细设计，GFP-GAN只需一次前向传递即可同时修复面部细节和增强颜色，而GAN inversion方法需要在推理时进行特定图像的优化。

文章的第一作者是腾讯 ARC 实验室(深圳应用研究中心)的研究员，在香港中文大学多媒体实验室获得博士学位，并在汤晓鸥教授和Chen Change Loy教授的指导下进行研究。

于2016年获得浙江大学工程学士学位。研究兴趣包括计算机视觉和深度学习，尤其关注图像/视频恢复任务，如超分辨率。

主流的图像修复技术还是对抗生成网络GAN，但如何用好GAN是个学问。

GFP-GAN 进行真实世界盲人脸复原。面部先验知识隐含在像 StyleGAN 这样经过训练的面部 GAN 模型中。这些面部GAN模型可以生成具有各种各样的面孔，可以生成多种脸型、多种肤色、纹理特征的面部。

这里的难点涉及到将这些生成的先验纳入修复过程。在过去，研究通常使用 GAN inversion方法来恢复。在这个过程中，退化的图像首先被反转回一个预训练的 GAN隐空间的编码，之后进行缓慢的image-specific的优化重建图像。

虽然输出在视觉上是真实的，但是它们的保真度很低。

GFP-GAN 通过使用了一个巧妙的设计来解决这些问题，有助于在single forward pass中平衡真实性和保真度。

GFP-GAN 包括一个退化清除模块和一个预训练的面部 GAN 作为面部先验。这两个模块通过直接的隐编码映射和多个信道分割空间特征变换(CS-SFT)层以粗到精的方式连接。

CS-SFT 层对特征进行空间调节。左边的特征是直接通过信息保存，其中包含生成预先，同时保持高保真度。

研究人员还引入了面部部件损失（ facial component loss），使用局部判别器来增强不变的面部细节，同时通过识别保留损失（identity preserving loss）来提高保真度。

尽管在改善盲人影像复原方面取得了进展，但仍然面临很多难点，GFP-GAN 方法也不能很好地解决。按照作者的说法，尽管 GFP-GAN 在各种人口群体的大多数面孔上表现良好，但当输入的图像是灰度图像时，问题就出现了。这可能会导致输出有颜色偏差，因为输入中并不包含足够判断肤色的颜色信息。

此外，如果退化的真实图像十分严重的，修复的面部细节就完全是由 GFP-GAN 生成的了，也就是说跟原图关系不大。由于合成退化和训练数据分布不同于现实世界中的数据分布，这种方法也容易对非常大的姿势产生非自然的结果。作者认为，这种局限性可以通过使用真实数据的分布来克服，而不是仅仅依赖于合成数据。

人脸修复是一个棘手的领域，尤其是在偏见因素方面。最近发生的一个有趣的事是PULSE 算法将一张低质量的巴拉克•奥巴马(Barack Obama)照片进行了高倍放大，从而输出了一张高分辨率的白人照片。这种偏差问题在机器学习中非常普遍，因为人脸识别算法在非白人和女性面孔上的数据收集较少。

人脸盲修复已经是CV中重要研究领域，所以相关的工作也有很多，例如最近的 CVPR 2021中，有研究人员引入了渐进式语义感知风格转换框架 (progressive semantic-aware style transformation framework-GAN, PSFR-GAN)方法。该技术通过语义感知样式转换恢复低质量的人脸图像，首先建立一个多尺度输入金字塔，然后逐步从粗到精调整不同尺度的特征。

DeblurGAN 使用端到端的 GAN 进行单幅图像运动去模糊。这种方法可以提高模型的去模糊效率、灵活性和质量，是基于条件 GAN 与双尺度判别器（double-scale discriminator）。作者声称这是第一次将特征金字塔网络作为 Deblur-GAN 生成器中的核心构建模块纳入到去模糊中。

mGANprior 的方法将训练好的 GANs 作为各种图像处理任务之前的有效工具。该方法在生成器的中间层生成多个特征映射，然后根据自适应信道重要度对其进行合成，恢复输入图像。