鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

再看多模态RAG进行文档问答的方案

大模型自然语言处理

发布于 2024-11-20 15:20

浏览

0收藏

先说结论：这篇文章的方法和前面介绍的两个多模态RAG的工作非常相似，可以看看往期介绍：

M3DOCRAG同样也指出，现有的方法要么专注于单页文档的多模态语言模型，要么依赖于基于文本的RAG方法，这些方法使用OCR等文本提取工具。然而，这些方法在实际应用中存在困难，例如问题通常需要跨不同页面或文档的信息，而MLMs无法处理长文档；并且，文档中重要的视觉元素（如图、表等）往往被文本提取工具忽略。

再看多模态RAG进行文档问答的方案-AI.x社区

M3DoCRAG和以往方法对比

注：文章代码和数据集暂未开源，但都是使用ColPali和qwen2-vl实现，笔者在前面文档也恰好实践了一个简单的RAG-ColPali，供参考：

【多模态&RAG】多模态RAG ColPali实践

方法

文档嵌入：和RAG-ColPali很相似，文档嵌入使用ColPali将所有文档页面转换为RGB图像，并从页面图像中提取视觉嵌入。（ColPali是一种基于后期交互机制的多模态检索模型，它将文本和图像输入编码为统一的向量表示，并检索最相关的图像。其原理可以看看往期对ColPali的介绍《ColPali》）

再看多模态RAG进行文档问答的方案-AI.x社区

M3DOCRAG流程

页面检索：也和RAG-ColPali使用的方法相似，也是使用MaxSim分数计算查询与页面之间的相关性，并检索与文本查询top-K个页面。
答案生成：使用多模态语言模型（MLM）对检索到的页面图像进行视觉问答，以获得最终答案。该方法使用的是qwen2-vl-7b

数据集

M3DocVQA包含3,368个PDF文档，总计41,005页，涵盖开放域和封闭域的DocVQA任务。

再看多模态RAG进行文档问答的方案-AI.x社区

M3DocVQA与现有DocVQA数据集对比

再看多模态RAG进行文档问答的方案-AI.x社区

M3DocVQA中PDF集合的示意图

实验结果

再看多模态RAG进行文档问答的方案-AI.x社区

再看多模态RAG进行文档问答的方案-AI.x社区

参考文献

https://arxiv.org/pdf/2411.04952v1

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/Fpbw_IuuTlW6g0HyAgdJJw

标签

已于2024-11-28 18:52:01修改

赞

收藏

回复

举报

回复

相关推荐

RAG技术性能提升之文档分块策略方案

AIGC观察者 • 4434浏览 • 0回复
QOQA：利用TopK文档进行查询改写，平均提升RAG 1.6% 准确率

大语言模型论文跟踪 • 2437浏览 • 0回复
RAG 的未来 - 自动文档检索

探索AGI • 1956浏览 • 0回复
多模态RAG应用开发实战演练

51CTO内容精选 • 1680浏览 • 0回复
传统RAG凉凉？多模态RAG带来工业级革命

NLP前沿1 • 2009浏览 • 0回复
一文读懂：从RAG到多模态RAG

kede96 • 3477浏览 • 0回复
多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

大模型自然语言处理 • 2179浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

大模型自然语言处理 • 2204浏览 • 0回复
先进的多文档问答（MDQA）框架HiQA：大幅降低区分度低的复杂多文档RAG的幻觉问题

AI博物院 • 2121浏览 • 0回复
【多模态&RAG】多模态RAG ColPali实践

大模型自然语言处理 • 1775浏览 • 0回复
HiQA：一种用于多文档问答的层次化上下文增强RAG

大模型自然语言处理 • 1689浏览 • 0回复
M3DocRAG：文档问答用哪个多模态大模型效果最好？

大语言模型论文跟踪 • 2214浏览 • 0回复
文档截图嵌入统一多模态检索方法原理

大模型自然语言处理 • 1684浏览 • 0回复
基于谷歌Gemini多模态模型实现PDF文档自动化处理

51CTO内容精选 • 2011浏览 • 0回复
RAG在智能问答系统中的应用

数字化助推器 • 1769浏览 • 0回复
简单有效的企业多模态RAG问答框架-MuRAR

大模型自然语言处理 • 1579浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 2008浏览 • 0回复
RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档

AI博物院 • 3543浏览 • 0回复
万字解析非结构化文档中的隐藏价值：多模态检索增强生成（RAG）的前景

柏企阅文 • 696浏览 • 0回复

数字化助推器

LV.4

致力于企业信息化解决方案，数字化转型，AI大模型赋能

觉得TA不错？点个关注精彩不错过

44

帖子

601

声望

0

粉丝

关注

最近发布

Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析 2天前发布
十大PDF解析工具在不同文档类别中的比较研究 2025-04-07 06:31:37发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：【多模态&RAG】多模态RAG ColPali实践

下一篇：轻量级级表格识别算法模型-SLANet

社区精华内容

目录

方法
数据集
实验结果
参考文献

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载