搜索图片有新招了！北大课题组提出图像检索新方法，输入草图or艺术or低分辨率

从一大堆图片中精准找图，有新招了！论文已经中了ECCV 2024。

北京大学袁粒课题组，联合南洋理工大学实验室，清华自动化所提出了一种新的通用检索任务：通用风格检索(Style-Diversified Retrieval)。

一句话，这种检索任务要求模型面对风格多样的查询条件时，依然能精准找图。

传统图片检索主要靠文本查询，查询方法单一不说，在使用其他检索方案的性能也一般。

而论文提出的新图像检索方法，能够根据多样化的查询风格（如草图、艺术画、低分辨率图像和文本等）来检索相应图像，甚至包括组合查询（草图+文本、艺术+文本等）。

同时，模型在与其他检索基线之间的性能比较中达到SOTA。（最外围蓝色）

目前，论文已在arXiv公开，相关代码和数据集也已开源。

新图像检索方法

当前，图像检索的一大痛点是：

让检索模型具备理解多样化用户查询向量的能力

通俗点说就是，不管用户用哪种方式检索查询，最后都能命中用户想要的图像。

为了实现这一点，团队进行了两项工作：

构建专有的检索数据集，包括多种类型的查询图片。
提出即插即用的框架，使传统检索模型也能快速具有通用检索能力。

数据集构建

针对多种查询风格的图片文本检索任务，团队生成并构建了细粒度检索数据集DSR（Diverse-Style Retrieval Dataset）。

展开来说，数据集包括10,000张自然图片以及对应的四种检索风格（文本、草图、低分辨率、卡通艺术）。

其中的草图标注由FSCOCO数据集提供，卡通艺术图片和低分辨率图像由AnimateDiff生成。

同时，团队也采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集。

ImageNet-X包括100万张带有各种风格标注的自然图片，相较于DSR，ImageNet-X数据集的图片更加简单，便于检索。

提出FreestyleRet框架

概括而言，FreestyleRet框架通过将图片风格提取并注入，有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。

在构建FreestyleRet框架时，团队主要考虑到两个问题：

如何有效地理解不同风格的查询向量的语义信息。
如何有效利用现有的图文检索模型，实现优秀的扩展能力。

围绕这两个核心问题，团队设计三个模块来组成FreestyleRet框架：

（1）基于格拉姆矩阵的风格提取模块用于显式提取未知查询向量的风格表征；
（2）风格空间构建模块，通过对风格表征聚类从而构建检索的风格空间，并将聚类中心作为风格的一致性表征；
（3）风格启发的提示微调模块，通过对检索模型的Transformer layer进行风格初始化的插值，实现对现有检索模型的多风格查询能力扩展。