鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

文档截图嵌入统一多模态检索方法原理原创

大模型自然语言处理

发布于 2024-12-6 14:30

浏览

0收藏

本文单独来看看检索部分的多模态嵌入部分。

文档截图嵌入统一多模态检索方法原理-AI.x社区

（a）传统方法；（b）本文方法

局限性：现有的检索范式缺乏跨模态的统一编码过程，导致两个问题：

预处理工作繁琐：需要专门的处理来应对各种文档类型和内容模态，而这些处理往往不完美。例如，HTML文件由于其多样的结构，复杂性较高，使得单一工具难以准确解析所有信息。同样，ppt和PDF通常需要OCR模型来提取文本并分别处理其他内容类型，如表格和图表。处理这些长尾问题较为复杂。
破坏文档原始布局信息：解析过程可能导致文档布局信息丢失。文档的视觉呈现可以传达通过内容提取难以捕捉的关键信息。例如，除了文本和图像的内容外，这些元素在文档中的大小和位置可能编码了一些信息。

解决手段：提出了文档截图嵌入（Document Screenshot Embedding, DSE），将不同格式和模态的文档统一为一种形式进行直接文档编码和索引：截图。与使用各种工具从不同格式的文档中提取文本和图像不同，截图易于获取并且文档的所有信息在视觉上都得到了保留。如上图(b)所示，DSE将给定文档的截图进行embedding。

方法

文档截图嵌入统一多模态检索方法原理-AI.x社区

文档截图embedding

采用双编码器架构进行密集检索，其中文档截图和用户文本查询分别通过视觉编码器和文本编码器编码成密集向量。

文档截图嵌入统一多模态检索方法原理-AI.x社区

多模态大模型作为文档截图编码器

视觉编码器

一个文档截图D，首先由视觉编码器E_v处理，生成隐藏层表示。序列的长度由视觉编码器的图像tokenizer决定。以 clip-vit-large-patch14-336l 为例，任何给定的截图首先转换为 336 X 336 像素的图像，然后分成 24 X 24 个块（即总共 576 个块），每个块由 14 X 14 像素组成。每个块展平并通过可训练的线性投影映射到块嵌入。块嵌入由视觉编码器编码成隐藏层表示。但是，如果截图包含大量文本（例如维基百科网页），576 个块的潜在嵌入可能无法捕捉截图中的细粒度文本信息。

视觉-语言模型

文档截图嵌入统一多模态检索方法原理-AI.x社区

对比学习

query和文档之间的相似性通过embedding之间的余弦相似度计算：

文档截图嵌入统一多模态检索方法原理-AI.x社区

在训练期间，embedding模型使用InfoNCE 损失进行优化：

文档截图嵌入统一多模态检索方法原理-AI.x社区

文档截图嵌入统一多模态检索方法原理-AI.x社区

实验

文档截图嵌入统一多模态检索方法原理-AI.x社区

监督检索效果

文档截图嵌入统一多模态检索方法原理-AI.x社区

零样本检索效果

文档截图嵌入统一多模态检索方法原理-AI.x社区

补丁序列长度的影响

文档截图嵌入统一多模态检索方法原理-AI.x社区

不同数量的作物输入图像下，DSE的有效性和效率之间的权衡。推理速度是在单个H100 GPU上通过BF16精度和FlashAttention实现的

参考文献

Unifying Multimodal Retrieval via Document Screenshot Embedding，https://arxiv.org/pdf/2406.11251

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/o97T9IW6b7ikLDdDNXxBAg

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

字节跳动发布统一多模态大模型 Show-o!

AI论文解读 • 4613浏览 • 0回复
改进RAG管道检索文档质量的五种方法

51CTO内容精选 • 2826浏览 • 0回复
统一多模态大模型！PUMA:多粒度策略笑傲生成、编辑、修复、着色、条件生成和理解!

angel • 3473浏览 • 0回复
Janus 统一多模态理解和生成

kede96 • 2851浏览 • 0回复
Emu3: 统一多模态输入与生成

kede96 • 2271浏览 • 0回复
多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

大模型自然语言处理 • 3089浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

大模型自然语言处理 • 3077浏览 • 0回复
自回归和Rectified Flow完美融合统一多模态理解和生成！DeepSeek&北大等开源JanusFlow

angel • 2963浏览 • 0回复
mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝

大模型自然语言处理 • 2231浏览 • 0回复
15M数据实现颠覆性统一多模态大模型！华为诺亚提出ILLUME

angel • 3251浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 3870浏览 • 0回复
Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

大模型自然语言处理 • 2364浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 2254浏览 • 0回复
解锁多模态大语言模型：从原理到实战，一文全掌握！

Halo咯咯 • 3381浏览 • 0回复
浙大&上交等发布统一多模态视频生成框架OmniCam

angel • 1592浏览 • 0回复
单模型统一多图个性化生成！字节重磅开源UNO, FLUX版训练、推理、权重全开源！

angel • 2202浏览 • 0回复
复旦：基于强化微调的统一多模态思维链奖励模型

柏企阅文 • 761浏览 • 0回复
阿里推出 LingShu AI医生：统一多模态医学理解与推理的通用基础模型

知识图谱科技 • 1217浏览 • 0回复
图表代码生成，ChartIR；视频与文本统一多模态模型

AI研究前瞻 • 413浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架 2天前发布
用于实时工业社区问答的RAG新框架-ComRAG 3天前发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

Deepseek R1 0528实测：性能直逼顶尖，普通电脑本地运行全攻略 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇：浅看大模型用于Text2SQL的综述

下一篇： RARE: 提升LLM推理准确性和事实完整性的检索增强框架思路浅尝

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载