一种支持4种多模态RAG技术的引擎：VARAG

PaperAgent

发布于 2024-9-29 16:33

浏览

0收藏

VARAG（视觉增强检索和生成）：是一种视觉优先的RAG引擎，强调基于视觉的检索技术。它通过视觉语言模型集成视觉和文本数据，增强了传统的检索增强生成 (RAG) 系统。

🚀 支持的检索技术

VARAG支持多种检索技术，针对不同用例进行了优化，包括文本、图像和多模式文档检索。以下是支持的主要技术：

简单RAG（带OCR）

简单 RAG（检索增强生成）是一种高效而直接的方法，用于从文档中提取文本并将其输入到检索管道中。VARAG通过Docling 整合了光学字符识别 (OCR)，从而可以处理和索引扫描的PDF或图像。

Docling在Markdown和JSON格式下的输出示例

一种支持4种多模态RAG技术的引擎：VARAG-AI.x社区

VARAG提取和索引文本后，可以将查询与文档中的相关段落进行匹配，为生成基于提取信息的响应提供坚实的基础。此技术非常适合文本密集的文档，例如扫描的书籍、合同和研究论文，并且可以与大型语言模型 (LLM) 配对以生成上下文感知的输出。

Docling技术报告 https://arxiv.org/pdf/2408.09869
https://github.com/DS4SD/docling

视觉RAG

Vision RAG 通过整合视觉信息检索来扩展传统的 RAG 技术，从而弥合文本和图像之间的差距。使用强大的跨模态嵌入模型（如 JinaCLIP（由 Jina AI 开发的 CLIP 的变体）），文本和图像都被编码到共享向量空间中。

jina-clip-v1的训练范式，共同优化文本-图像和文本-文本匹配

一种支持4种多模态RAG技术的引擎：VARAG-AI.x社区

这允许跨不同模态进行相似性搜索，这意味着可以同时查询图像和文本。Vision RAG 特别适用于文档分析任务，其中视觉组件（例如，图形、图表、图像）与文本内容同样重要。它对于图像字幕或生成产品描述等任务也很有效，在这些任务中，理解和关联文本与视觉元素至关重要。

ColPali RAG

ColPali RAG代表了一种尖端方法，它通过直接将文档页面嵌入为图像而不是将其转换为文本来简化传统的检索流程。

一种支持4种多模态RAG技术的引擎：VARAG-AI.x社区

该方法利用了Google团队的视觉语言模型 (VLM) PaliGemma，它将整个文档页面编码为矢量嵌入，将页面布局和视觉元素视为检索过程的一部分。ColPali RAG使用受ColBERT（Column BERT）启发的后期交互机制，通过启用用户查询和文档patches之间的token-level匹配来增强检索。这种方法确保了高检索准确性，同时还保持了合理的索引和查询速度。它对于富含视觉效果的文档特别有益，例如信息图表、表格和复杂布局，而传统的基于文本的检索方法很难处理这些文档。

ColPali论文: https://arxiv.org/abs/2407.01449
ColPali博客: https://huggingface.co/blog/manu/colpali
ColPali实战: https://github.com/weaviate/recipes/blob/main/weaviate-features/named-vectors/NamedVectors-ColPali-POC.ipynb

混合ColPali RAG

混合ColPali RAG 结合了图像嵌入和ColPali的后期交互机制的优势，进一步提高了检索性能。

系统首先使用图像嵌入（例如来自 JinaCLIP 等模型）执行粗略检索步骤，以检索前 k 个相关文档页面。
然后，在第二遍中，系统使用 ColPali 后期交互机制对这 k 个页面重新排序，以根据视觉和文本信息确定最终最相关的页面集。

当文档包含复杂的视觉效果和详细的文本时，这种混合方法特别有用，允许系统利用这两种内容类型进行高度准确的文档检索。

🚀 开始使用VARAG

每种视觉RAG技术都被构建为一个类，抽象所有组件并提供以下方法：

from varag.rag import {{RAGTechnique}}


ragTechnique = RAGTechnique()


ragTechnique.index(
  "/path_to_data_source",
  other_relevant_data
)


results = ragTechnique.search("query", top_k=5)


# These results can be passed into the LLM / VLM of your choice

为什么要抽象这么多？

VARAG最初打算快速测试和评估不同的基于视觉的 RAG（检索增强生成）系统，以确定哪一个最适合我的用例，最终演化成了一个框架或库。

这种抽象旨在简化尝试不同 RAG 范例的过程，而不会使组件之间的兼容性复杂化。为了使事情变得简单，选择 LanceDB作为向量存储，因为它易于使用且可定制性高。

https://github.com/adithya-s-k/VARAG
https://adithya-s-k.github.io/VARAG/

本文转载自PaperAgent

标签

RAG

技术

VARAG

相关推荐

LLM4CS：一种利用LLM提升多轮会话检索的效果的方案

arnoldzhw • 7421浏览 • 0回复
利用大语言模型增强网络抓取：一种现代化的方法

51CTO内容精选 • 2775浏览 • 0回复
MRAG：一种多头RAG，提升具有显著不同内容的多个文档复杂查询的检索准确性

PaperAgent • 2250浏览 • 0回复
DeepMind | 在生成的过程中进行检索：一种有潜力完全替代RAG的思路"RICHES"

arnoldzhw • 2075浏览 • 0回复
介绍一种实用的RAG技术：父文档检索（PDR）

51CTO内容精选 • 1045浏览 • 0回复
15种先进的检索增强生成（RAG）技术

玄姐聊AGI • 1265浏览 • 0回复
一种模块化大模型Agent框架全栈技术综述

PaperAgent • 2115浏览 • 0回复
Binary Block Masking：加快稀疏 Attention 的一种新方法

amei2000go • 2104浏览 • 0回复
一种将RAG、KG、VS、TF结合增强领域LLM性能的框架

PaperAgent • 1427浏览 • 0回复
COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines

AIGC最前线 • 1229浏览 • 0回复
VisRAG：清华大学&面壁智能提出了一种新的RAG思路，效果提升明显

大语言模型论文跟踪 • 1183浏览 • 0回复
15种先进的检索增强生成（RAG）技术

Halo咯咯 • 716浏览 • 0回复
表格场景RAG怎么做？TableRAG：一种增强大规模表格理解框架

大模型自然语言处理 • 941浏览 • 0回复
HiQA：一种用于多文档问答的层次化上下文增强RAG

大模型自然语言处理 • 690浏览 • 0回复
一种基于学习的电池寿命预测（Python）

步惊云_32 • 732浏览 • 0回复
来认识一下 Ivy-VL：一种仅包含 30 亿个边缘设备参数的轻量级多模态模型

Halo咯咯 • 907浏览 • 0回复
微软人工智能研究院推出 OLA-VLM：一种以视觉为中心的优化多模态大型语言模型的方法

Halo咯咯 • 872浏览 • 0回复
一篇综述：RAG复杂Query的4种优化方案

CourseAI • 709浏览 • 0回复
FlexTok-一种图像编码新方式

shizhi02 • 127浏览 • 0回复

PaperAgent

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

一种支持4种多模态RAG技术的引擎：VARAG

目录