
CVPR 2025 | 低层交互破局!GIFNet实现多模态融合通用模型,单一框架横扫多任务场景
文章链接:https://arxiv.org/pdf/2502.19854
项目链接:https://github.com/AWCXV/GIFNet
亮点直击
- 证明了低层次融合任务之间的协作训练(这一策略的重要性此前未被认识到)通过利用跨任务协同效应,能够显著提升性能。
- 引入了重建任务和基于RGB的增强联合数据集,以对齐不同融合任务的特征并解决数据支持问题。
- 本文的方法显著增强了融合系统的多功能性,消除了耗时的任务特定适配需求。
- GIFNet 率先将图像融合与单模态增强过程集成,将图像融合模型的应用范围扩展到多模态领域之外。
本文的第一作者同期还发表了其他关于图像融合的工作FusionBooster(融合通用助推器)和MMDRFuse(蒸馏实现超轻量化),分别发表在IJCV 25' 和ACM MM 24' (Oral) 上。代码仓库:
- FusionBooster: https://github.com/AWCXV/FusionBooster
- MMDRFuse: https://github.com/yanglinDeng/MMDRFuse
总结速览
解决的问题
- 高层次任务与图像融合之间的语义鸿沟:现有的高级图像融合方法通常依赖于高层次视觉任务(如目标检测、语义分割)来提供监督信号,但这些高层次任务与像素级的图像融合之间存在语义不匹配,导致需要复杂的桥接机制。
- 模型泛化能力差:由于不同融合任务需要不同的模型,导致模型在小设备(如手机)上部署困难,且难以在不同融合场景中有效泛化。
- 计算资源消耗大:现有方法依赖于计算密集型预训练模型或复杂的桥接模块,导致计算成本高,难以在资源有限的设备上运行。
提出的方案
- 低层次视觉任务驱动的融合:提出利用低层次的数字摄影融合任务(如多焦点图像融合、多曝光图像融合)来提供监督信号,避免高层次语义的干扰,增强任务共享的特征学习。
- GIFNet网络架构:设计了一个三分支网络架构(GIFNet),包括主任务分支、辅助任务分支和调和分支。主任务分支和辅助任务分支分别处理多模态和数字摄影特征,调和分支通过共享的重建任务促进通用特征表示的学习。
- 跨任务特征融合机制:引入跨融合门控机制,迭代优化每个任务特定的分支,整合多模态和数字摄影特征,生成融合结果。
- RGB联合数据集:通过数据增强技术创建基于RGB的联合数据集,减少多模态和数字摄影任务之间的数据域差距,使模型能够在统一上下文中提取一致的特征。
应用的技术
- 低层次视觉任务监督:利用数字摄影融合任务(如多焦点图像融合、多曝光图像融合)提供像素级监督信号。
- 三分支网络架构:GIFNet网络包含主任务分支、辅助任务分支和调和分支,分别处理多模态特征、数字摄影特征和共享重建任务。
- 跨融合门控机制:通过门控机制迭代优化多模态和数字摄影特征的融合。
- 数据增强与联合数据集:通过数据增强技术创建RGB联合数据集,减少多模态和数字摄影任务之间的数据域差距。
达到的效果
- 高效的特征学习:通过低层次任务监督,GIFNet能够在不依赖高层次语义的情况下,有效学习任务共享的基础特征,增强了模型的泛化能力。
- 广泛的应用场景:GIFNet能够支持多种融合任务(如多模态融合、数字摄影融合),并且在未见过的场景中也能表现出色,实现了单一模型的广泛适用性。
- 计算成本大幅降低:与现有高级图像融合方法相比,GIFNet的计算成本降低了96%以上,适合在资源有限的设备上部署。
- 单模态增强能力:GIFNet不仅支持多模态融合,还能够对单模态输入进行增强,提供了更高的应用灵活性。
提出的 GIFNet
公式化
图像融合范式通常可以定义为:
本文提出了一种新颖的方法,引入了两个创新点。第一个是跨任务交互机制,利用各种融合任务中的低层次处理操作。本文使用数字摄影图像融合任务为无监督的 IVIF 任务提供额外的任务特定特征和监督信号,从而提高融合模型的泛化能力和鲁棒性。选择多焦点图像融合(MFIF)作为数字摄影融合的代表性示例来展示GIFNet 模型,因为它在我们的交互消融实验中表现最佳。
本文方法的第二个创新点是引入了单模态图像增强能力。通过引入数字摄影融合任务(一张图像具有不同的设置),模型学会在不依赖多模态输入的情况下增强特征。通过将两个输入设置为同一张图像,模拟了一种类似融合的增强过程,专注于优化单张图像中的细节。这一推理过程公式化为:
缓解域差距和任务差异的措施
本文的多任务学习框架要求模型从输入图像中提取并学习每个任务的独特特征。如果不采取明确措施,这种多样性可能会导致模型的学习目标不一致,从而难以开发出在所有任务中都能有效执行的统一表示。
为了解决这个问题,本文采用数据增强技术从 IVIF 基准数据集生成一个以 RGB 为中心的联合数据集。这个增强数据集包括对齐的 RGB、红外、远焦和近焦图像。多焦点数据是通过部分模糊清晰的 RGB 图像获得的(详细信息见补充材料)。由于数据来自同一场景的单个数据集,域差距得到了有效减少。此外,在跨任务交互中引入了重建(REC)任务。
REC 任务通过关注对多个任务都有益的特征,促进了不同任务之间的特征对齐。这种方法确保为一个任务学习的特征在其他任务中仍然相关且兼容,从而促进任务之间更一致和有效的交互。
模型架构
当前的图像融合方法由于其单一的网络设计(多个任务依赖于单一的编码器-解码器结构),在协作学习方面常常遇到困难。为了解决这个问题,我们的框架引入了一种三分支架构(如下图 3 (a) 所示),该架构解耦了特征提取过程,并促进了低层次任务之间的交互。在我们的模型中,只有基础特征提取部分在不同任务之间共享。
通过专注于低层次任务之间的交互,我们的方法允许任务特定特征直接在网络内组合,从而无需额外的模块来桥接特征或语义差距。这种交互发生在多模态(MM)和数字摄影(DP)分支之间,其中跨任务机制交替主分支和辅助分支的角色(图 3 (d))。然后,门控模块选择性地将主分支的混合特征路由到全局解码器(G-Dec)以生成融合结果。重建(REC)分支通过提取任务无关的特征来支持这一过程。
重建分支:如图 3 (b) (II) 所示,REC 分支采用自编码器从各种图像融合任务中提取通用特征。通过针对增强数据中的共同 RGB 模态进行重建,我们确保有效提取任务共享特征。共享编码器(S-Enc)中的密集连接最大化特征利用率,使原始视觉信号能够传输到其他分支。
跨融合门控机制:在获得这些共享特征后,MM 和 DP 分支继续提取不同融合类型的任务特定特征(图 3 (b) (I))。提出的跨融合门控机制(CFGM)作为控制这些分支的核心技术,使它们能够融合任务特定特征并自适应地稳定跨任务交互。鉴于其众所周知的鲁棒全局特征提取能力及其在捕获任务感知特征方面的成功,使用高效的 SwinTransformer 模块来构建 CFGM。
在 CFGM 中,主分支和辅助分支通过交替更新一个分支并冻结另一个分支来进行训练(图 3 (c))。在每个训练步骤中:
训练与推理
如下图 4 所示,在推理过程中,与训练过程不同,单个融合任务只需要一对图像。我们首先提取共享图像特征,使用跨融合门控机制(CFGM)融合两组特定表示,最后通过全局解码器重建融合图像。
实验结果
实验设置
训练:在训练过程中,仅使用 IVIF 数据集(LLVIP的训练集)和 DP 任务对应的增强数据。评估:训练完成后,直接将模型应用于各种已见和未见的图像融合任务,无需任何适配或微调。使用的任务和数据集包括:
- IVIF 任务:LLVIP 和 TNO数据集
- MFIF 任务:Lytro 和 MFI-WHU 数据集
- 医学图像融合任务:Harvard 数据集
- 近红外和可见光图像融合任务:VIS-NIR Scene 数据集
- 多曝光图像融合任务:SCIE 数据集
- 遥感图像融合任务:Quickbird 数据集此外,还在 CIFAR100 数据集 上验证了 GIFNet 在分类任务中的有效性。
评估指标:
- 图像融合:使用两种常用的基于相关性的指标——视觉信息保真度(VIF)和相关性差异总和(SCD),以及无参考图像质量评估指标——边缘强度(EI)和平均梯度(AG)来衡量融合结果的清晰度。
- 分类任务:使用 top-1 和 top-5 准确率。
消融实验
本节在 IVIF 任务上进行了消融实验,以验证 GIFNet 的有效性。主要研究了多任务学习(MTL)策略、跨融合门控机制(CFGM)和重建分支(REC)的影响。更多消融实验将在补充材料中提供。
主要组件:如下表 1 所示,将单任务训练策略与 REC 结合(案例 (e)),所提出的模型已经取得了令人印象深刻的结果。然而,在没有引入所提出组件的情况下添加另一个任务会导致融合网络无法收敛(案例 (g))。单独引入 CFGM 或 REC 可以使网络生成有效的融合结果(案例 (h) 和 (i))。两者的结合优化了跨任务交互并增强了特征对齐,从而使 GIFNet 达到最佳性能。
任务组合:数字摄影任务的额外监督信号有助于提升融合性能。通过使用有监督的 MEIF 任务进一步验证了这一结论。关于训练数据,使用 FusionBooster中的信息探测模块分解 LLVIP 数据集中的可见光图像,以获得过曝光和欠曝光图像(示例见补充材料)。原始可见光图像被视为 GT 图像。如案例 (j) 所示,与单任务范式(设置 (d))相比,额外的有监督任务可以持续提升多模态融合的性能。然而,MEIF 任务作为辅助任务,其性能不如使用 MFIF 任务。这种现象的原因可能是生成更高清晰度的图像提供了更兼容的像素级监督,因为强制融合图像感知更高清晰度的内容与尽可能保留信息之间没有冲突。相比之下,MEIF 任务仅涉及整体曝光度的调整,并不总是与 IVIF 任务的目标一致。
CFGM 模块:如下图 5 和图 6 所示,将自适应的 CFGM 策略(通过可学习参数 控制混合比例)替换为传统的融合操作,定量和定性结果表明,我们的自适应方法在交互过程中提供了更优的控制,生成了更鲁棒的融合图像。
特征可视化
本文展示了来自不同组件的特征图可视化结果,包括共享编码器(S-Enc)、多模态分支(MM)和数字摄影分支(DP),如下图 7 所示。由图像重建目标驱动的 S-Enc 捕捉了基础图像特征,例如目标轮廓和结构细节,这些特征对于高质量图像融合至关重要。
MM 和 DP 分支的可视化结果揭示了每个分支对融合过程的不同贡献。例如,在第一个案例中,MM 特征专注于保留源输入中的显著信息(如热目标),而 DP 特征则增强了更精细的细节,捕捉了更清晰的边缘和更明确的纹理,以及地面上更清晰的阴影。在其他已见和未见的融合任务中也观察到了类似的模式。值得注意的是,数字摄影特征的额外学习通过生成视觉鲁棒输出所需的特征,持续为各种融合任务带来益处,如第三个示例(MEIF 任务)中增强的纹理细节所示。
多模态 - 已见任务
本节展示了 GIFNet 在与训练数据相关的任务(即 MFIF 和 IVIF 任务)上的融合结果。将所提出的方法与针对这两个任务的专用算法进行了比较,包括 Text-IF、CDDFuse、DDFM、LRRNet、ZMFF 和 UNIFusion。还与广义图像融合方法进行了比较,包括 MURF、MUFusion、U2Fusion 和 SDNet。
MFIF 任务:如下表 2 (a1) 和 (a2) 所示,GIFNet 在各种图像融合评估指标上取得了显著成果。例如,在 VIF 指标上表现最佳,提升了 25%,表明我们的融合结果能够有效增强源信息,如下图 8 第一行所示。
IVIF 任务:对于 IVIF 任务,如图 8 第二行所示,得益于协作训练,我们的融合结果能够更好地调整源模态的混合比例。RGB 图像中的丰富纹理细节得到了很好的保留,热辐射信息则使场景外观更加明亮。因此,在低光和普通条件下,GIFNet 在所有定量实验中普遍表现最佳(表 2 (b1) 和 (b2))。在 LLVIP 数据集上 VIF 指标相对较差的结果可以归因于 CDDFuse 和 Text-IF 中的“选择最大值”融合策略,该策略保留了输入中像素值较高的源内容。虽然这种方法确保了高视觉保真度(VIF),但融合图像往往偏向于一种输入模态,而忽略了另一种模态的信息(见 Text-IF 的可视化结果)。
多模态 - 未见过任务
本节展示了GIFNet 在未参与训练的任务上的融合结果,包括多曝光图像融合、近红外与可见光图像融合、遥感图像融合和医学图像融合任务。同样,进一步将我们的方法与专门为这四项任务设计的算法进行了比较,包括 MEF-GAN 、SPD-MEF、IID-MEF、MURF、P2Sharpen、ZeroSharpen、CoCoNet、TextFusion(在图像融合领域引入文本信息的方法)以及广义方法 IFCNN。
MEIF 任务:GIFNet 在 MEIF 任务中对曝光不良的图像表现良好。如前面图 8 第三行所示,在整体曝光度(该任务的重要标准)方面,我们的结果具有更合适的亮度,且没有严重的颜色失真(见高亮区域)。在定量评估中(表 2 (c)),与先进方法相比,我们在所有图像融合指标上均取得了更高的性能,例如 VIF(+46.7%)和 AG(+37.8%)。
NIR-VIS 任务:该任务与 IVIF 类似,但将中远红外模态替换为近红外图像。如图 8 第四行所示,现有融合方法利用 NIR 模态信息持续改善了 RGB 图像的低光条件,而我们的 GIFNet 则表现出最清晰的纹理细节。定量结果也表明,GIFNet 优于现有算法(表 2 (d))。值得注意的是,尽管 MURF 在该任务上进行了训练,但其更侧重于解决配准问题,导致性能相对较差。
遥感任务:该任务也称为全色锐化,旨在同时保持全色和多光谱图像的空间和光谱分辨率。如图 8 倒数第二行所示,与之前的任务类似,GIFNet 获得了具有更清晰边缘信息和更高成像质量的融合图像。相比之下,其他方法未能保持高分辨率全色模态中物体的形状。尽管 P2Sharpen 和 ZeroSharpen 专门为该任务设计,但在多个指标上均被我们的方法超越,如表 2 (e) 的定量结果所示。
医学任务:医学图像融合任务旨在保留磁共振成像(MRI)中的显著器官结构和正电子发射断层扫描(PET)中的清晰功能信息。如表 2 (f) 所示,尽管未专门针对该任务进行训练,GIFNet 在其融合结果中表现出强大的视觉信息保真度(VIF)并保持了与源输入的高相关性(SCD)。这一性能与图 8 最后一行的可视化结果一致,即细节增强,清楚地表明 GIFNet 的结果很好地呈现了 MRI 模态的局部结构。
单模态:分类任务
GIFNet 的多功能性涵盖了多模态图像处理和单模态任务。本实验评估了 GIFNet 通过增强图像作为输入来提升 RGB 图像分类的能力。使用原始 CIFAR100 训练集和通过不同图像融合方法获得的增强数据从头训练 ResNet56 网络。训练完成后,ResNet56 分类器用于评估在原始测试集上的性能。
如下图 9 所示,展示了原始 CIFAR100 RGB 图像以及通过不同方法生成的增强版本。GIFNet 在图像质量上表现出显著提升。例如,在第一行中,原始数据中的模糊现象得到了缓解,保留了更清晰的信息。在第二个示例中,我们的方法在边缘增强方面表现出色,优于其他技术。
定量评估结果(下表 3)表明,某些融合方法在不提高图像质量的情况下,其分类性能与原始数据集相当,例如 SDNet 和 MUFusion。需要注意的是,U2Fusion 虽然利用了更多的融合任务,但由于其顺序训练策略缺乏有效交互,导致增强效果不佳。相比之下,利用跨任务交互中的任务无关表示,GIFNet 是唯一超越原始训练设置的方法。
关键模型大小对比和与更先进方法的性能比较
结论
本文提出了一种新颖的低层次任务交互方法,用于广义图像融合,解决了该领域一个长期被忽视的问题。通过整合共享重建任务和基于 RGB 的联合数据集,我们有效减少了任务和领域差异,建立了一个协作训练框架。模型在跨融合门控机制的支持下,展示了卓越的泛化能力和鲁棒的融合性能。此外,GIFNet 率先将融合技术应用于单模态增强,代表了图像融合研究领域的重要进展。
本文转自AI生成未来 ,作者:AI生成未来
