一眼概览
MDMS-Diffusion 提出了一种多域多尺度扩散模型(Multi-Domain Multi-Scale Diffusion Model),通过结合空间-频率特征学习和多尺度采样策略,突破低光图像增强的现有局限,实现了无损降噪和高保真度的图像恢复,在 LOL 和 LOLv2 数据集上达到了 SOTA 级别的性能。
核心问题
在低光条件下拍摄的图像往往存在低对比度和高噪声问题,不仅影响视觉质量,还会降低下游计算机视觉任务(如目标检测、分割等)的准确性。当前的扩散模型主要在空间域建模噪声分布,而忽略了频率域信息。此外,传统的单尺度补丁采样策略容易引发严重的棋盘格伪影。本研究提出 MDMS-Diffusion 模型,以同时解决这两个问题。
技术亮点
1. 空间-频率融合学习:提出多域学习(Multi-Domain Learning, MDL)模块,结合 Fast Fourier Transform (FFT) 提取的频率域信息,以更全面地建模图像特征,提高低光图像增强的质量。
2. 多尺度采样策略:通过不同分辨率补丁的融合(64×64、96×96、128×128),平滑边界区域,避免传统单尺度方法导致的棋盘格伪影问题。
3. 亮通道先验(Bright Channel Prior, BCP)引导:基于自然图像的统计规律,为扩散过程提供额外的光照和颜色信息,引导生成更自然的增强图像。
方法框架
图片
MDMS-Diffusion 采用 U-Net 结构,并引入以下关键模块:
1. 多域学习(MDL):空间域和频率域双分支处理,分别提取局部/全局信息,并利用 IFFT 变换回到空间域,实现特征融合。
2. 多尺度采样(MSS):在采样过程中,利用不同大小的补丁提取信息,并在融合阶段合并多尺度结果,以平滑图像边界。
3. 亮通道先验(BCP):基于图像亮度通道信息提供先验引导,增强色彩和光照一致性,减少失真。
实验结果速览
图片
实验结果表明,MDMS-Diffusion 在 LOL 和 LOLv2 数据集上均达到 SOTA 性能:
• LOL 数据集:PSNR 27.12 dB,SSIM 0.882,LPIPS 0.078,相比现有最佳方法 Pydiff(27.07 dB)略有提升,尤其在 LPIPS 指标上显著降低。
• LOLv2-Real 数据集:PSNR 提升至 33.30 dB,相比 Pydiff(31.11 dB)提高 2.19 dB,表明该方法在真实低光图像上的泛化能力更强。
• 多尺度采样策略分析:相比传统单尺度方法,MSS 采样策略能够显著减少棋盘格伪影,使增强图像更平滑自然。
🔹数据呈现方式
• 表格:对比现有方法(Zero-DCE、LLFlow、Pydiff 等)的性能指标(PSNR/SSIM/LPIPS)。
• 图示:展示不同方法的增强效果,包括细节保留、光照均衡度等。
实用价值与应用
MDMS-Diffusion 可广泛应用于低光环境下的计算机视觉任务,例如:
- • 自动驾驶:提高夜间和低光环境下的视觉感知能力,增强目标检测和分割的准确性。
- • 视频监控:改善夜间监控视频的清晰度,有助于犯罪预防和证据采集。
- • 医疗成像:适用于低光医学图像增强,提高诊断准确度。
- • 机器人导航:提升机器人在弱光环境下的视觉感知能力,提高定位和避障能力。
开放问题
1. MDMS-Diffusion 在极端低光场景(如红外或夜视成像)下的适应性如何?是否需要进一步调整先验或结构?
2. 多域学习是否可以扩展到其他图像增强任务,如超分辨率或去噪?频率域特征的深度建模是否会带来进一步提升?
3. 如何在计算资源受限的环境下优化该模型,使其适用于移动端或嵌入式设备?