MDMS-Diffusion:空间-频率融合,多尺度采样,低光图像增强新突破

人工智能
在低光条件下拍摄的图像往往存在低对比度和高噪声问题,不仅影响视觉质量,还会降低下游计算机视觉任务(如目标检测、分割等)的准确性。

一眼概览

MDMS-Diffusion 提出了一种多域多尺度扩散模型(Multi-Domain Multi-Scale Diffusion Model),通过结合空间-频率特征学习和多尺度采样策略,突破低光图像增强的现有局限,实现了无损降噪和高保真度的图像恢复,在 LOL 和 LOLv2 数据集上达到了 SOTA 级别的性能。

核心问题

在低光条件下拍摄的图像往往存在低对比度和高噪声问题,不仅影响视觉质量,还会降低下游计算机视觉任务(如目标检测、分割等)的准确性。当前的扩散模型主要在空间域建模噪声分布,而忽略了频率域信息。此外,传统的单尺度补丁采样策略容易引发严重的棋盘格伪影。本研究提出 MDMS-Diffusion 模型,以同时解决这两个问题。

技术亮点

1. 空间-频率融合学习:提出多域学习(Multi-Domain Learning, MDL)模块,结合 Fast Fourier Transform (FFT) 提取的频率域信息,以更全面地建模图像特征,提高低光图像增强的质量。

2. 多尺度采样策略:通过不同分辨率补丁的融合(64×64、96×96、128×128),平滑边界区域,避免传统单尺度方法导致的棋盘格伪影问题。

3. 亮通道先验(Bright Channel Prior, BCP)引导:基于自然图像的统计规律,为扩散过程提供额外的光照和颜色信息,引导生成更自然的增强图像。

方法框架

图片图片

MDMS-Diffusion 采用 U-Net 结构,并引入以下关键模块:

1. 多域学习(MDL):空间域和频率域双分支处理,分别提取局部/全局信息,并利用 IFFT 变换回到空间域,实现特征融合。

2. 多尺度采样(MSS):在采样过程中,利用不同大小的补丁提取信息,并在融合阶段合并多尺度结果,以平滑图像边界。

3. 亮通道先验(BCP):基于图像亮度通道信息提供先验引导,增强色彩和光照一致性,减少失真。

实验结果速览

图片图片

实验结果表明,MDMS-Diffusion 在 LOL 和 LOLv2 数据集上均达到 SOTA 性能:

• LOL 数据集:PSNR 27.12 dB,SSIM 0.882,LPIPS 0.078,相比现有最佳方法 Pydiff(27.07 dB)略有提升,尤其在 LPIPS 指标上显著降低。

• LOLv2-Real 数据集:PSNR 提升至 33.30 dB,相比 Pydiff(31.11 dB)提高 2.19 dB,表明该方法在真实低光图像上的泛化能力更强。

• 多尺度采样策略分析:相比传统单尺度方法,MSS 采样策略能够显著减少棋盘格伪影,使增强图像更平滑自然。

🔹数据呈现方式

• 表格:对比现有方法(Zero-DCE、LLFlow、Pydiff 等)的性能指标(PSNR/SSIM/LPIPS)。

• 图示:展示不同方法的增强效果,包括细节保留、光照均衡度等。

实用价值与应用

MDMS-Diffusion 可广泛应用于低光环境下的计算机视觉任务,例如:

  • • 自动驾驶:提高夜间和低光环境下的视觉感知能力,增强目标检测和分割的准确性。
  • • 视频监控:改善夜间监控视频的清晰度,有助于犯罪预防和证据采集。
  • • 医疗成像:适用于低光医学图像增强,提高诊断准确度。
  • • 机器人导航:提升机器人在弱光环境下的视觉感知能力,提高定位和避障能力。

开放问题

1. MDMS-Diffusion 在极端低光场景(如红外或夜视成像)下的适应性如何?是否需要进一步调整先验或结构?

2. 多域学习是否可以扩展到其他图像增强任务,如超分辨率或去噪?频率域特征的深度建模是否会带来进一步提升?

3. 如何在计算资源受限的环境下优化该模型,使其适用于移动端或嵌入式设备?

责任编辑:武晓燕 来源: 萍哥学AI
相关推荐

2024-08-26 07:40:00

AI训练

2013-02-19 10:38:51

IBM光传感技术数据中心

2020-08-24 15:55:26

脑机接口机器人工智能

2022-12-18 19:49:45

AI

2024-08-27 10:20:00

2024-03-07 08:12:31

2024-11-04 10:40:00

AI模型

2021-01-29 09:01:25

低代码软件低代码工具

2022-10-13 10:01:12

AI模型

2022-11-14 14:08:39

计算机模型

2021-05-17 10:05:08

神经网络数据图形

2024-11-01 15:05:12

2025-02-05 12:41:21

线性新范式分辨率

2023-03-09 15:25:49

2025-01-23 10:45:52

2020-02-04 17:31:49

Python 开发编程语言

2024-10-08 15:42:45

点赞
收藏

51CTO技术栈公众号