
ViDoRAG:提升视觉RAG性能10% 精华
ViDoRAG——一个专为视觉文档复杂推理设计的多智能体 RAG 框架。ViDoRAG 采用基于高斯混合模型(GMM)的混合策略,实现高效多模态检索。为进一步挖掘模型推理潜力,我们设计了一个包含探索、总结与反思的迭代智能体工作流,为研究 RAG 领域的测试时扩展提供了全新框架,超越现有方法 10%以上。
https://arxiv.org/abs/2502.18017
一、为什么需要 ViDoRAG 技术?
图片
1.1 视觉文档的复杂性
在信息爆炸的时代,视觉文档(如包含图表、表格、图像的文件)在教育、金融、法律等多个领域广泛应用。这些文档不仅包含文本信息,还通过视觉元素传递关键信息。然而,传统的检索增强生成(Retrieval-Augmented Generation, RAG)方法在处理这些视觉文档时面临巨大挑战,因为它们难以有效整合文本和视觉特征。例如,一份金融报告可能包含复杂的图表和表格,传统的 RAG 系统只能提取文本信息,而忽略了图表中的关键数据,导致信息不完整。
1.2 现有方法的局限性
现有的视觉问答(Visual Question Answering, VQA)基准主要针对单一图像或文档,无法应对大规模文档集合中的复杂推理任务。例如,传统的 VQA 数据集通常要求每个问题与特定的图像或文档配对,但在实际应用中,用户可能需要从数百个文档中检索信息。此外,传统的 OCR(光学字符识别)检索方法在处理视觉信息时表现不佳,导致检索结果不准确。例如,OCR 可能无法正确识别图表中的数字或符号,从而影响后续的推理和生成。
1.3 ViDoRAG 的诞生
为了填补这一空白,ViDoRAG 应运而生。它通过多模态检索和迭代推理代理,显著提升了视觉文档的检索和生成能力,为复杂推理任务提供了全新的解决方案。例如,ViDoRAG 在处理一份包含多个图表的学术论文时,能够同时提取文本和图表中的信息,并通过迭代推理生成准确的答案。这种创新方法不仅提高了信息检索的准确性,还增强了生成模型在处理复杂视觉文档时的推理能力。
二、ViDoRAG 技术架构
图片
2.1 多模态混合检索
ViDoRAG 的核心创新之一是多模态混合检索策略。它结合了文本和视觉两种检索管道,通过高斯混合模型(Gaussian Mixture Model, GMM)动态调整检索结果分布。这种方法能够为每个查询找到最优的检索分布,从而减少不必要的计算,提升生成效率。
在传统的检索方法中,通常会使用一个固定的参数 K 来检索最相关的 K 个图像或文本片段。然而,这种方法存在两个问题:
• 一是 K 值过小可能导致检索到的信息不足,无法准确回答问题;
• 二是 K 值过大会引入噪声,增加计算开销。
ViDoRAG 通过 GMM 模型动态调整 K 值,根据查询与文档集合的相似度分布,自动确定最佳的 K 值。
GMM 模型将相似度分布分为两个高斯分布,分别代表高相似度和低相似度的文档。通过期望最大化(Expectation-Maximization, EM)算法,GMM 模型能够估计每个模态的先验概率,从而动态调整 K 值。
这种动态调整策略不仅提高了检索的准确性,还显著减少了计算开销。实验表明,ViDoRAG 在检索任务中的表现优于传统的固定 K 值方法,尤其是在处理大规模文档集合时,能够更高效地找到相关信息。
2.2 迭代推理代理
ViDoRAG 引入了三种智能体:搜索智能体(Seeker Agent)、审查智能体(Inspector Agent)和回答智能体(Answer Agent)。这种多智能体框架通过迭代推理的方式,逐步优化答案的生成过程,减少了无关信息的干扰,提升了推理的鲁棒性。
•搜索智能体(Seeker Agent):负责快速扫描文档并选择相关图像。它根据查询和审查代理的反馈,逐步缩小检索范围,确保每次迭代都能找到更相关的信息。
•审查智能体(Inspector Agent):则对搜索代理选择的图像进行详细审查,并提供初步答案或反馈。如果当前信息不足以回答问题,审查代理会指导搜索代理进一步检索相关图像。
•回答智能体(Answer Agent):负责整合审查代理的初步答案,并生成最终的答案。
这种迭代推理的框架不仅提高了答案的准确性,还增强了模型在处理复杂查询时的鲁棒性。实验表明,ViDoRAG 在复杂推理任务中的表现显著优于传统的单步推理方法。
2.3 开源资源
ViDoRAG 的代码和数据集已在 GitHub 上开源,地址为:https://github.com/Alibaba-NLP/ViDoRAG。
图片
下图为数据集构建流程:
图片
三、ViDoRAG 的应用与效果评估
3.1 性能提升
图片
在闭源和开源模型上进行了对比,包括 GPT-4o、Qwen2.5-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Llama3.2-Vision-90B-Instruct。
• 闭源模型表现优于开源模型。
• Qwen2.5-VL-7B 在 ViDoRAG 中展示了出色的指令跟随和推理能力。
• Llama3.2-VL 需要 90B 参数才能完成相同的指令,可能与模型的预训练领域有关。
3.2 检索效率
图片
注:
Recall@K 表示在前 K 个检索结果中,系统成功检索到正确答案的比例。
MRR@K 是衡量系统检索到正确答案的平均排名的倒数。
上图各种检索器的详细性能,包括基于 OCR 和基于视觉的检索器。由于动态检索在查询之间存在不确定性,使用结果的平均长度进行分析。
动态检索可以在较短的上下文长度下实现更好的召回性能,而混合检索结合了两个管道的结果,达到了最先进的性能。
3.3 消融实验
图片
上表展示了不同检索器和生成方法对性能的影响。将动态检索分解为两个部分:动态和混合。Naive 方法指直接输入,作为基线使用。
• 动态方法指仅基于视觉管道使用 GMM 拟合最佳召回分布。
• 混合方法指直接合并视觉和文本检索结果,由于上下文较长,导致次优结果。
上述结果表明:ViDoRAG在检索和生成模块上的改进及其组合能够从多个角度全面提升端到端性能。
3.4 时间效率
3.4.1 动态检索如何平衡延迟与准确性?
在传统的 RAG 系统中,使用较小的 top-K 值可能导致遗漏关键信息,而使用较大的值则会引入噪声并增加计算开销。
ViDoRAG 根据查询与语料库之间的相似度分布动态确定要检索的文档数量,确保仅检索最相关的文档,从而减少不必要的计算并加速生成过程。
图片
如上表,比较了使用和不使用 GMM 的检索方法。实验表明,GMM 可能会由于分布偏差而降低召回率,但由于显著缩短了生成上下文,因此在端到端评估中有效提升了性能。
3.4.2 多代理生成的延迟分析
图片
由于多智能体系统的迭代性质,延迟有所增加,如上图所示。每个智能体按顺序执行特定任务,与传统直接 RAG 相比增加了少量开销。然而,尽管延迟增加,生成答案的质量提高使得在复杂 RAG 任务中这种权衡非常有益
3.5 生成的多模态与策略
图片
如上图所示,基于视觉的Pipeline 在所有类型的查询中均优于基于文本的 Pipeline。
由于模型的固有特性,LLM 的推理能力比 VLM 更强。然而,缺乏视觉信息使得模型难以识别信息之间的内在联系。这也对基于视觉丰富文档的生成提出了挑战。在获取视觉信息的同时,ViDoRAG 进一步增强了 VLM 的推理能力,在准确性和计算负载之间取得了平衡。
3.6 测试时扩展的性能
图片
上图展示了 ViDoRAG 中 Seeker 和 Inspector 之间的交互轮次。
性能较强的模型需要较少的推理迭代,而较弱的模型通常需要更多时间来处理并得出结论。
本文转载自大语言模型论文跟踪,作者:HuggingAGI
