鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

轻薄滴假象

发布于 2024-6-20 15:19

浏览

0收藏

本文作者来自于中国科学院大学LAMP实验室，其中第一作者赵毓钟是中国科学院大学的2023级博士生，共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。

简介

DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成（region-level captioning）任务，并在上述任务都取得 SOTA 性能。其中在 RefCOCOg 数据集的 region-level captioning 任务上取得了 115.7 CIDEr，显著高于 RegionGPT，GlaMM，Osprey，Alpha-CLIP 等 CVPR 2024 的方法。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

论文标题：DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
论文链接：https://arxiv.org/abs/2405.16071
论文代码：https://github.com/callsys/DynRefer

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

动机

区域级多模态任务致力于将指定的图像区域转换为符合人类偏好的语言描述。人类完成区域级多模态任务时具有一种分辨率自适应能力，即关注区域是高分辨率的，非关注区域是低分辨率的。然而，目前的区域级多模态大语言模型往往采用固定分辨率编码的方案，即对整张图像进行编码，然后通过 RoI Align 将区域特征提取出来。这种做法缺乏人类视觉认知系统中的分辨率自适应能力，对关注区域的编码效率和能力较低。为了实现高精度的区域级多模态理解，我们提出了一种动态分辨率方案来模拟人类视觉认知系统，如下图所示。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

图 1：传统的区域级多模态方法（左）与 DynRefer 方法（右）的比较。

方法

1、模拟动态分辨率的图像（Multi-view construction）。由于主流的预训练视觉语言模型（CLIP）只能接收均匀分辨率的输入，我们通过构造多个均匀分辨率的视图来模拟一幅动态分辨率图像。该图像在指代区域具有高分辨率，而在非指代区域低分辨率。具体流程如图 2 上。原始图像 x 被裁剪并调整大小为多个候选视图。裁剪区域的计算方式为

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

，其中

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

。这里的

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

表示参考区域的边界框，

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

表示整个图像的尺寸，t 表示插值系数。在训练过程中，我们从候选视图中随机选择 n 个视图，以模拟由于注视和眼球快速运动而生成的图像。这些 n 个视图对应于插值系数 t，即

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

。我们固定保留仅包含参考区域的视图（即

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

）。经实验证明该视图有助于保留区域细节，对于所有区域多模态任务都至关重要。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

图 2：DynRefer 训练（上）与推理（下）。

2、随机动态视图嵌入（Stochastic Multi-view Embedding）。具体流程如图 3 所示。采样的 n 个视图通过冻结的 CLIP 编码成空间特征，然后经过 RoI-Align 模块处理，以获取区域嵌入，即

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

。如图 3 左侧所示。由于裁剪、调整大小和 RoI-Align 引入的空间误差，这些区域嵌入在空间上并不对齐。受 deformable convolution 操作启发，我们提出了一个对齐模块，通过将

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

对齐到

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

来减少偏差，其中

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

是仅包含参考区域的视图编码的区域嵌入。对于每个区域嵌入

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

，首先将其与

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

连接，然后通过卷积层计算一个二维偏移图。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

的空间特征然后根据二维偏移重新采样。最后，对齐后的区域嵌入沿通道维度连接并通过 linear 层进行融合。输出进一步通过视觉重采样模块，即 Q-former，进行压缩，从而提取原始图像 x 的参考区域

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

的区域表示（图 3 中的

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

）。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

图 3：DynRefer 网络结构

3、视觉语言对齐 (Vision-language Alignment)。通过随机多视图嵌入模块计算得到的区域表示

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

，由三个解码器

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

解码，如图 3（右）所示，分别受三个多模态任务的监督：

i) 图像区域标签生成。我们采用基于查询的轻量级识别解码器进行区域标签生成。解码器

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

如图 3（右侧）所示。通过使用标签作为查询，

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

作为键和值，计算预定义标记的置信度来完成标记过程。我们从真值字幕中解析出标签，以监督识别解码器。ii) 区域 - 文本对比学习。类似于区域标记解码器，解码器

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

定义为基于查询的识别解码器。该解码器计算字幕与区域特征之间的相似性分数，使用 SigLIP loss 进行监督。iii) 语言建模。我们采用预训练的大语言模型

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

将区域表示

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

转换为语言描述。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

图 4：双视图（n=2）DynRefer 模型在区域级多模态任务上的表现。在不同的插值系数 t 下,

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

。视图一是固定的（

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

），视图二随机选择或固定。

4、在推理过程中，经过训练的 DynRefer 模型通过动态分辨率在图像上执行多模态任务。通过调整采样的 n 个视图的插值系数

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

，我们可以得到具有动态分辨率特性的区域表示。为了评估不同动态分辨率下的特性，我们训练了一个双视图（n=2）的 DynRefer 模型，并在四个多模态任务上进行评估。从图 4 中的曲线可以看出，对于没有上下文信息的视图（

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

），属性检测（Attribute detection）获得了更好的结果。这可以解释为这种任务通常需要详细的区域信息。而对于区域级字幕（Region-level captioning）和密集字幕生成（Dense captioning）任务，需要上下文丰富的视图（

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

），以便完整理解参考区域。需要注意的是，过多上下文的视图（

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

）会降低所有任务的性能，因为它们引入了过多与区域无关的信息。当已知任务类型时，我们可以根据任务特性采样适当的视图。当任务类型未知时，我们首先构建一组在不同插值系数 t 下的候选视图集合，

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

。从候选集中，通过贪婪搜索算法采样 n 个视图。搜索的目标函数定义为：

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

其中

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

表示第 i 个视图的插值系数，

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

表示第 i 个视图，pHASH (・) 表示感知图像哈希函数，

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

表示异或操作。为了从全局视角比较视图的信息，我们利用 "pHASH (・)" 函数将视图从空间域转换到频域，然后编码成哈希码。对于

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

这一项，我们减少上下文丰富视图的权重，以避免引入过多冗余信息。

实验

Region-level Captioning

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

在区域字幕生成任务，DynRefer 以更小的模型（4.2B v.s. 7B），在 RefCOCOg 和 VG 两个数据集上、在 METEOR 和 CIDEr 两个指标上都显著超过了 CVPR 2024 中的众多方法，如 RegionGPT，GlaMM，Alpha-CLIP 和 Osprey 等，展现出 DynRefer 巨大的性能优势。

Dense Captioning

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

在密集字幕生成任务，在 VG1.2 数据集，DynRefer 相较之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

在区域属性检测任务，DynRefer 也取得了 SOTA 的性能。

Open Vocabulary Region Recognition

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

在区域识别任务，DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy，比 ICLR 24 的 ASM 高 15.7% mAP。

消融实验

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

Line 1-6：随机动态多视图要优于固定视图。
Line 6-10：通过最大化信息选择视图优于随机选择视图。
Line 10-13：多任务训练可以学习得到更好的区域表征。

可视化

下面几张图展示了 DynRefer 的推理结果，DynRefer 可以用一个模型同时输出区域字幕、标签、属性和类别。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA-AI.x社区

本文转自机器之心，作者：机器之心

原文链接: https://mp.weixin.qq.com/s/Pb89q9qTek98ifNLRxy7hQ

标签

已于2024-6-20 15:19:46修改

赞

收藏

回复

举报

回复

相关推荐

CVPR 2024 | 通过细粒度人类反馈对齐数据，提高多模态大模型可信度

zhangyannni • 1355浏览 • 0回复
CVPR 2024 | 多模态大模型幻觉原因找到了！

zhangyannni • 2755浏览 • 0回复
超越GPT-4V，苹果多模态大模型上新！

duhorse • 826浏览 • 0回复
CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!

angel • 2804浏览 • 0回复
字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

Crystalcxt • 901浏览 • 0回复
CVPR‘24：与任务无关的多模态数据也能提升Transformer性能｜港中文&腾讯

Crystalcxt • 683浏览 • 0回复
【乘风进阶学习季】夏日初长，乘风而上，码出未来！

AI.x社区官方账号 • 52.6w浏览 • 36回复
超越人类？AI大语言模型在高阶心智理论任务上展现惊人表现

AI论文解读 • 1239浏览 • 0回复
SEED-Bench：基于生成理解的多模态大语言模型基准测试（CVPR2024）

AIRoobt • 2102浏览 • 0回复
2024年以来，学术和产业界的那些SOTA多模态大模型的架构演进之路

angel • 873浏览 • 0回复
超越文本，GPT-4在虹膜生物识别的创新应用

Aceryt • 572浏览 • 0回复
WordLlama：在消费级GPU上奔跑的“瘦子”

鲁班模锤1 • 722浏览 • 0回复
阿里开源多模态视觉语言模型，多项超越GPT4o与Claude 3.5-Sonnet

angel • 2436浏览 • 0回复
阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果

海因斯DK • 566浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

毛毛雨_11 • 381浏览 • 0回复
多模态大模型数据构造方法

shizhi02 • 511浏览 • 0回复
轻量级级表格识别算法模型-SLANet

毛毛雨_11 • 473浏览 • 0回复
一次多模态大模型表格识别解析探索小实践记录

毛毛雨_11 • 330浏览 • 0回复
支持20+视觉任务，多项SOTA！可扩展多任务视觉基础模型LaVin-DiT：融合时空VAE与DiT

angel • 305浏览 • 0回复

轻薄滴假象

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略 2024-09-19 12:23:48发布
视频生成控制提升几十倍，新一代轻量级ControlNeXt火了，贾佳亚团队正挑战Scaling Law 2024-08-29 13:29:28发布

热门推荐

AI赋能教育：人工智能在教育中的八大应用实例 0回复

2024年人工智能进展：10大开创性研究亮点 0回复

大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型 0回复

明白了！机器学习四大范式：监督学习、无监督学习、半监督学习和自监督学习 0回复

Cursor账号过期了怎么办？一文教你如何永久使用Cursor技巧！ 0回复

上一篇：字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

下一篇： ShareGPT4V作者团队又一力作！百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

社区精华内容

目录

Copyright © 2005-2024 51CTO.COM 京ICP证060544版权所有未经许可请勿转载