ECCV2024|LightenDiffusion 超越现有无监督方法,引领低光图像增强新纪元!
论文链接:https://arxiv.org/pdf/2407.08939
git链接:https://github.com/JianghaiSCU/LightenDiffusion
亮点直击
- 提出了一种基于扩散的框架,LightenDiffusion,结合了Retinex理论的优势和扩散模型的生成能力,用于无监督低光图像增强。进一步提出了自我约束的一致性损失,以改善视觉质量。
- 提出了一个内容传输分解网络,在潜空间中执行分解,旨在获取富含内容的反射率图和无内容的照明图,以促进无监督恢复。
- 大量实验证明,LightenDiffusion在超越现有的无监督竞争对手的同时,与监督方法相比具有更好的泛化能力。
本文提出了一种基于扩散的无监督框架,将可解释的Retinex理论与低光图像增强的扩散模型相结合,命名为LightenDiffusion。具体而言,提出了一种内容传输分解网络,在潜空间而非图像空间中执行Retinex分解,使得未配对的低光和正常光图像的编码特征能够被分解成富含内容的反射率图和无内容的照明图。随后,将低光图像的反射率图和正常光图像的照明图作为输入,通过扩散模型进行无监督恢复,以低光特征为指导,进一步提出了自我约束的一致性损失,以消除正常光内容对恢复结果的干扰,从而提高整体视觉质量。在公开的真实世界基准数据集上进行了大量实验表明,LightenDiffusion在超越现有无监督竞争对手的同时,与监督方法相媲美,并且更具通用性,适用于各种场景。
方法
概述
内容传输分解网络
根据Retinex理论,图像I可以分解为反射率图R和照明图L,即:
在上述情况下,符号 ⊙ 表示Hadamard乘积运算。其中,R代表应在各种照明条件下保持一致的固有内容信息,而L表示应该是局部平滑的对比度和亮度信息。然而,现有方法通常在图像空间内执行分解以获取上述组件,这导致内容信息未能完全分解到反射率图中,部分保留在照明图中,如下图3(a)所示。
为了缓解这个问题,引入了一个内容传输分解网络(CTDN),它在潜空间内执行分解。通过在这个潜空间中编码内容信息,CTDN促进了生成包含丰富内容相关细节的反射率图,并保持不受内容相关影响的照明图。如下图4所示,首先按照[14]的方法估计初始的反射率和照明图为:
如上图3(b) 所示,CTDN能够生成内容丰富的反射地图,充分展示图像的内在信息,并生成只显示光照条件的光照地图。
Latent-Retinex 扩散模型
- Retinex分解不可避免地会导致信息损失;
- 恢复的图像可能会呈现出现象,因为参考正常光图像的照明图仍包含顽固的内容信息。
虽然CTDN在大多数场景中通常是有效的,但在一些挑战性情况下,估计的照明图的准确性可能会受到影响。为解决这些问题,提出了一种Latent-Retinex扩散模型(LRDM),利用扩散模型的生成能力来补偿内容损失并消除潜在的意外现象。方法遵循标准的扩散模型,进行前向扩散和反向去噪过程以生成恢复的结果。
网络训练
在第二阶段,收集了约180,000对未配对的低光/正常光图像对,用于在冻结其他模块参数的同时优化扩散模型。
实验
与现有方法的比较
将本文的方法与四类现有的低光图像增强(LLIE)方法进行比较:
- 传统方法:包括LIME、SDDLLE、BrainRetinex和CDEF。
- 监督方法:包括RetinexNet、KinD++、LCDPNet、URetinexNet、SMG、PyDiff和GSAD。这些方法在LOL训练集上进行训练。
- 半监督方法:包括DRBN和BL。
- 无监督方法:包括Zero-DCE、EnlightenGAN、RUAS、SCI、GDP、PairLIE和NeRCo。
需要注意的是,GDP和本文的方法的性能报告是五次评估的平均值。
定量比较. 首先在LOL和LSRW测试集上将本文的方法与所有比较方法进行量化比较。如下表1所示,LightenDiffusion在这两个基准上表现优于所有的无监督竞争对手。未能在LOL数据集上超过监督方法的原因是,它们通常在该数据集上进行训练,因此可以达到令人满意的性能。然而,本文的方法在LSRW数据集上超过了监督方法,在PSNR和SSIM上达到最高值,尽管在LPIPS方面稍逊色。为了进一步验证本文方法的有效性,还将提出的LightenDiffusion与比较方法在DICM、NPE和VV这三个未配对基准数据集上进行比较。如表1所示,无监督方法在这些未见过的数据集上表现出比监督方法更好的泛化能力,而本文的方法在所有三个数据集上均取得了最佳结果。这表明本文的方法能够生成视觉上令人满意的图像,并且能够很好地推广到各种场景中。
定性比较. 下图5中展示了本文的方法与竞争方法在配对数据集上的视觉比较结果。图中的第1至2行分别来自LOL和LSRW测试集。可以看到,先前的方法可能会产生曝光不足、色彩失真或噪声放大的结果,而本文的方法能够有效改善全局和局部对比度,重建更清晰的细节,并抑制噪声,从而产生视觉上令人愉悦的结果。
在下图6中,还提供了在未配对基准数据集上的结果。图中的第1至3行分别来自DICM、NPE和VV数据集。先前的方法在这些场景中往往表现出泛化能力较差,特别是第2行,在光源周围产生了伪影或者产生了过曝的结果。相比之下,本文的方法能够呈现正确的曝光和生动的颜色,证明了在泛化能力上的优势。
低光人脸检测
在DARK FACE数据集上进行实验,该数据集包含6,000张在弱光条件下拍摄的图像,并带有标注的标签用于评估,旨在研究低光图像增强(LLIE)方法作为预处理步骤在改善低光人脸检测任务中的影响。遵循文献 [12, 22, 40] 的方法,使用本文的方法以及其他10种竞争的LLIE方法来恢复图像,然后使用知名的检测器RetinaFace在IoU阈值为0.3的条件下进行评估,绘制精确度-召回率(P-R)曲线并计算平均精度(AP)。
如下图7所示,与未增强的原始图像相比,本文的方法有效地将RetinaFace的精度从20.2%提高到36.4%,并且在高召回率区域表现优于其他方法,这显示了本文方法的潜在实际价值。
消融实验
本节进行了一系列消融研究,以验证不同组件选择的影响。使用了前文中描述的实现细节进行训练,并在LOL和DICM数据集上展示了定量结果,如下表2所示。下面讨论详细的设置。
潜空间与图像空间比较:为了验证latentRetinex分解策略的有效性,进行了实验,分别在图像空间进行分解(即k=0),以及在潜空间的不同尺度进行分解(即k∈[1, 4])。如下图8(a)所示,在图像空间进行分解很难实现令人满意的分解效果,因为光照图可能会包含某些内容信息,导致恢复的图像出现伪影。相反,如下图8(b)-(d)所示,通过在潜空间进行分解可以生成仅表示光照条件的光照图,这有助于扩散模型生成视觉保真度高的恢复图像。此外,如上表2的第1-4行报告的结果显示,增加k可以提升整体性能和推理速度,但在k=4时会因特征信息丰富度大幅降低而导致轻微的性能下降,这对扩散模型的生成能力有不利影响。为了在性能和效率之间找到平衡,选择k=3作为默认设置。
Retinex分解网络。 为了验证CTDN的有效性,将其替换为三种先前基于Retinex的方法的分解网络,包括RetinexNet、URetinexNet和PairLIE,用于估计反射率和光照图。如上图8(e)-(g)所示,先前的分解网络无法获得无内容的光照图,导致恢复的结果具有模糊的细节和伪影。相比之下,本文的方法通过精心设计的CTDN网络架构,能够生成富含内容的反射率图和无内容的光照图,从而在比较中表现出显著的性能优势,如上表2所报告的结果。
结论
LightenDiffusion,这是一个基于扩散的框架,将Retinex理论与扩散模型结合,用于无监督的低光图像增强(LLIE)。技术上,提出了一个内容转移分解网络,它在潜空间内进行分解,以获取富含内容的反射率图和无内容的光照图,从而便于后续的无监督恢复过程。低光图像的反射率图和正常光图像的光照图在不同场景下作为输入用于扩散模型的训练。此外,本文提出了一个自约束一致性损失,进一步约束恢复的结果具有与低光输入相同的内在内容信息。实验结果表明,本文的方法在定量和视觉上均优于现有的竞争方法。
本文转自AI生成未来 ,作者:Hai Jiang等