ECCV全称为European Conference on Computer Vision,即欧洲计算机国际会议,是计算机视觉领域的三大顶级会议之一。该会议每两年在世界范围内召开一次,讨论内容涵盖了与图像或视频模式提取或识别相关的广泛主题,常见主题包括对象识别、目标检测、图像分割、图像恢复和图像增强等。今年的ECCV会议接受了来自世界各地总计5,803份有效论文投稿,经过会议主席和众多审稿人的努力,共计1,650份论文投稿被会议接收,总接收率约为28%。
本次合作论文首次提出了一种通过深度学习对输入图像自适应地生成级联的一维和三维查找表,将一个复杂的颜色变换解耦为颜色分量独立以及颜色分量耦合的两个子变换,从而对输入图像进行高效色彩增强的创新性技术。
解耦变换受启发于传统ISP中分治的思想,一维查找表负责颜色分量独立的变换(如亮度、对比度调整),三维查找表负责颜色分量耦合的变换(如色度、饱和度调整);两种子变换通过动态网络范式下的联合优化,可以优势互补,从而解决单一类型查找表变换建模能力不足或计算/存储开销较大的问题。在多个学术界公开相片美化数据集上与现有方法的对比实验表明,我们的方法可以在推理速度与现有最高效方法可比的同时取得最佳客观质量指标。
论文地址:
https://arxiv.org/abs/2207.08351
项目地址:
https://github.com/ImCharlesY/SepLUT
背景
色彩增强是图像处理的基本内容之一,是传统图像信号处理器ISP中不可或缺的关键环节,也是画质增强的重要手段。它根据待处理图像本身的内容以及增强图像所面向的应用场景,对图像中像素的颜色进行调整,增加不同像素之间的颜色对比度,提高显著区域的颜色饱和度等等,从而最终提高图像的视觉效果。
现有的研究工作和工业产品往往设计了类型多样的颜色变换来针对颜色的不同属性,如HSV模型中定义的亮度、色度、饱和度等,进行调整。在这其中,查找表(Lookup Tables,LUTs)是ISP设备中广泛用于存储和建模各类颜色变换的一种重要技术。
其本质为通过稀疏采样、预计算、缓存和插值查询等操作而实现的对一个复杂的函数变换的有损近似。具体而言,查找表通过对一个变换函数的输入空间进行稀疏采样,预先计算并以表格形式记录采样输入的对应输出,从而在实际推理过程中以廉价的查询和插值操作来避免高昂的变换函数计算开销。根据输入空间维度的不同,常用的查找表有一维查找表(1D LUT)和三维查找表(3D LUT),分别适用于一维函数和三维函数的建模。
图1 HSV颜色模型和典型ISP的流程框图
典型的ISP设备遵循分治的基本设计思想,使用若干个不同的1D和3D LUTs分别实现各类颜色变换。其中,1D LUTs适用于颜色分量独立(component-independent)的变换(如曝光补偿、伽马变换等),这类变换中不同的颜色通道/分量(如RGB)各自以一维输入的形式独立进行变换;3D LUTs则对建模颜色分量耦合(component-correlated)的变换(如色度、饱和度调整等)更具优势,具备混合不同颜色分量间或调节混合比例的能力。
工作动机
传统的查找表技术往往依赖于专业人员的人工调参,这需要大量的经验分析和人力付出,且一次调参所得的查找表模式往往较为单一,难以适配复杂多变的应用场景。近年来,得益于深度神经网络强大的数据特征提取能力,学术界一些最新的工作开始尝试结合深度学习和传统的查找表方法,来实现鲁棒高效且具备场景适应能力的自动色彩增强技术。
它们采用了动态神经网络的范式,在输入图像的低分辨率版本上利用深度网络进行图像内容理解,并自适应地预测或调节最终用于变换图像的查找表的参数。
这些方法在利用数据驱动的深度网络替代了传统查找表技术繁重的人工调参的同时,巧妙缓解了深度网络引入的较高的计算负担(网络仅在低分图像上推理),从而兼具较强的图像/场景自适应能力和较高的实时性。
然而,现有工作基本遵循了当今深度学习领域的主流趋势——即通过单一模型来统一尽可能多的图像变换,以追求模型的简洁性和泛用性。它们将类型多样的颜色变换编码到单一类型的可学习查找表中,也即试图使用单独的一维或三维查找表来统一处理ISP中不同查找表所建模的不同变换。这种做法未能有效考虑到单一类型查找表在同时建模颜色分量独立和颜色分量耦合变换这两类变换时的模型容量不足,从而限制了这些方法的色彩增强能力。
具体而言:基于一维查找表的方法缺失了交互不同颜色分量信息这一重要的建模能力;而三维查找表尽管具备同时建模两类变换的能力,但在深度学习数据驱动的训练范式下,三维查找表需要依赖较大的参数量规模以提高其对不同图像复杂多变的颜色分布的适应能力。现有工作大多采用33点甚至64点的三维查找表,而ISP设备中三维查找表的典型设置是17点甚至9点。大规模的三维查找表会造成较大的内存、储存开销和较高的模型训练难度。
例如,当面对欠曝和过曝这两种极端的具有“窄带”颜色分布的待处理图像时,如果模型缺乏类似典型ISP中必要的前置变换来将输入图像的颜色分布伸缩至一个感知均匀的颜色空间的话,相同的三维晶格需要对自己棱角处的色彩变换进行剧烈的调整以适应输入图像的颜色分布。这在大规模数据驱动的神经网络训练范式下会导致学习的不稳定。
方法介绍
▐ 核心思路
解决上述问题的思路是简单而直观的,我们提出基于可分离级联查找表的自适应色彩增强方法,即Separable Lookup Tables (SepLUT)。具体而言,我们遵循本文背景小节所阐述的概念以及典型ISP流程中分治的基本设计思想,将一个完备的颜色变换函数分解为级联的颜色分量独立和颜色分量相关的两种子变换,并分别使用一维和三维查找表来实例化它们。可分离的命名受启发于通用卷积网络中将单个大尺度卷积层分解成多个小尺度卷积的思路。
两种类型的查找表可以相辅相成——其中,三维查找表可以有效补充前置一维查找表在颜色分量混合上的建模能力缺陷,而一维查找表则可以自适应地对输入图像的颜色分布进行预调整,使得后置的三维查找表可以被更加充分的利用,从而使小规模三维查找表的使用成为可能,减少模型整体的参数和计算复杂度,降低模型训练难度。
▐ 具体框架
所提方法的整体模型框架如下图所示。我们以待增强的图像作为模型输入,使用一个轻量的直筒型卷积网络在输入图像的下采样低分辨率版本上进行图像理解,提取图像的全局特征(如亮度、对比度等信息),并将全局特征馈入后续的双分支全连接层结构,用于预测图像自适应的一维和三维查找表。所得的查找表以级联的形式对原始图像进行色彩变换,得到经过颜色增强的高质图像。最终,输出图像与经过人为美化的目标图像计算MSE重建损失,并通过梯度反向传播机制对网络参数进行更新,从而实现整个方法框架的端到端学习。
▐ 量化优化
我们方法中一维和三维查找表元素的生成是通过全连接层进行的。由于全连接层的本质是矩阵乘法,基于全连接层的查找表元素预测实际上可以等价于在全连接层中编码若干可学习的Basis LUTs,全连接层的输入则可以类比为用于线性组合这些Basis LUTs的自适应加权系数。注意到在所提框架中,模型最终输出图像上各个像素的值实质上也是所得查找表中元素的线性组合。
因此,我们方法中全连接层的可学习参数实质上是与模型的最终输出同空间、语义一致的,都属于颜色空间。由于在数字图像处理领域颜色空间是天然需要量化,因此,我们的方法还可以通过参数量化和浮点计算定点化技术进一步降低模型内存/储存开销和计算加速。相比于模型压缩领域的其它参数量化技术,我们的方法可以在训练完毕的测试阶段直接进行参数量化而不会引起显著的性能下降,这得益于模型参数空间和最终输出空间之间的语义一致性。
实验结果
我们设计了一系列的消融实验分析所提方法中部分关键设计细节的有效性。针对一维查找表,考虑到我们工作动机中对其颜色分量独立变换和颜色分布伸缩变换能力的期待,我们比较了一维查找表和经典灰度分布变换算法——直方图均衡化(Histogram Equalization,HE)的优劣。
下表结果可以看出,HE基于最大熵理论的分布均衡化机制并不能很好地适应不同的图像内容和不同的目标美化风格。而可学习的一维查找表可以通过端到端数据驱动的学习来取得更优的图像自适应的颜色分布调整策略。
我们还通过将网络对不同输入图像生成的1D和3D LUTs进行可视化,来直观地对网络行为进行分析。如下图所示,模型针对不同输入图像预测的一维查找表倾向于对输入图像的颜色分布进行预调整,使其“对齐”于目标增强图像的颜色分布(一维查找表输出图像的颜色分布直方图已经比较接近GroundTruth图像的直方图)。
后续三维查找表的变换则更多对图像的色相、饱和度进行调整(如第二行图像中天空区域前后的颜色变化)。这一观察验证了我们工作动机中分治的基本设计思想。
我们也验证了推理阶段的直接参数量化和浮点计算定点化对所提方法性能的影响。由下表结果可以看出,得益于参数空间和输出空间之间的语义一致性,直接的量化处理在可以显著减少模型参数量和提高推理速度的同时,并不会引起图像增强质量的剧烈变化。
在公开的图像增强/美化基准数据集FiveK上,所提方法以总体较低的参数量和实时推理时间在增强图像的客观评价指标上超过了现有方法,达到了先进性能。
总结
在如今基于深度学习的计算机视觉领域追求单一模型、统一变换的大趋势下,本文另辟蹊径,重新转向传统方法中经典的分治思想。我们设计实现了基于图像自适应可分离级联查找表的实时颜色增强方法,利用不同类型的查找表来分别处理一个复杂颜色变换中不同类型的子变换。所提方法的可行揭示了分治的基本设计思想在减少模型复杂度、降低模型训练难度、提高模型整体性能和效率等方面的潜力。我们相信这种基本思想并不局限于颜色增强和查找表方法,也有望在其它领域和场景下获得应用。
团队介绍
该工作主要在大淘宝技术中支持内容业务的音视频算法与基础技术团队的带领下完成,该团队依托淘宝直播、逛逛和点淘等内容业务,致力于打造行业领先的音视频技术。团队成员来自海内外知名高校,先后在MSU世界编码器大赛,NTIRE视频图像增强领域这样的领域强相关权威赛事上夺魁,并重视与学界的合作与交流。
这项工作的主要合作方为上海交通大学张文军教授领衔的图像所团队,是数字电视广播及数字媒体处理与传输领域的主要研究力量之一。面向国家战略性新兴产业,顺应网络化、融合化的发展趋势,近年来开展的重点研究领域包括智能媒体融合网络、视频智能分析处理与传输等。徐奕副教授为团队视频处理分析方向的骨干教师。