多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索原创

发布于 2024-11-12 15:49

浏览

0收藏

前面文章提到，文档智能解析能够有效的增强RAG系统的准确性。【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路

多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索-AI.x社区

文档智能解析RAG一般流程

可以看到基于PDF的RAG，需要先对pdf进行解析，生成文本chunk，然后再基于文本建索引。这种pipline的方式，每个解析模块都需要放置对应的解析模型，存在着错误传播的问题。因此，笔者看到ColPali时，这种端到端的方案挺有意思，本文来看一看这个思路。

ColBERT

在此之前，先看一下ColBERT的架构，该架构包括：查询编码器、文档编码器和后期交互机制。

查询编码器

多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索-AI.x社区

ColBERT的架构

假设有一个查询,其标记(token)为,处理步骤如下：

将转换为 BERT 使用的 WordPiece 标记 (一种子词分词方法)。
在序列开头添加一个特殊的[Q]标记，紧随 BERT 的[CLS]标记之后，用于标识查询的开始。
如果查询长度不足预设的个标记，用[mask]标记填充；若超过则截断。
将处理后的序列输入 BERT,然后通过CNN处理，最后进行归一化。

最终输出的查询嵌入向量集合可表示为：

文档编码器

对于包含标记的文档,处理步骤类似：

在序列开头添加[D]标记，标识文档开始。
无需填充，直接输入 BERT 进行处理。

文档嵌入向量集合 Ed 可表示为：

Filter用于去除与标点符号对应的嵌入，从而提升分析速度。这里的查询填充策略(论文中称为"查询增强")确保了所有查询长度一致，有利于批量处理。而[Q]和[D]标记则帮助模型区分输入类型，提高了处理效率。

后期交互机制

“交互”是指通过比较查询和文档的向量表示来评估它们之间的相关性。“后期交互”表示这种比较发生在查询和文档已经被独立编码之后。这种方法与BERT之类的“早期交互”模型不同——早期交互中查询和文档的Embedding在较早的阶段相互作用，通常是在编码之前或期间。

ColBERT采用了一种后期交互机制，使得查询和文档的表示可以用于预计算。然后，在末尾使用简化的交互步骤来计算已编码的向量列表之间的相似性。与早期交互方法相比，后期交互可以加快检索时间和降低计算需求，适用于需要高效处理大量文档的场景。

编码器将查询和文档转换为token级别的embedding列表和。然后，后期交互阶段使用针对每个中的向量，找与其产生最大内积的中的向量(即为向量之间的相似性),并将所有分数求和的最大相似性 (MaxSim) 计算。MaxSim的计算结果就反映了查询与文档之间的相关性分数，表示为。

这种方法的独特价值在于能够对查询与文档token embedding之间进行详细、细粒度的比较，有效捕捉查询和文档中长度不同的短语或句子之间的相似性。这尤其适合需要精确匹配文本片段的应用场景，可以提高搜索或匹配过程的整体准确性。

ColPali

与 ColBERT 相比，ColPali 仍然使用文本作为查询，文档则是图像类型。在视觉encoder，也是利用多模态的视觉大模型来生成图片端的向量，但不仅仅只生成单个向量。而是利用VIT的patch embedding，来生成多个向量。直觉上确实是会有收益，因为一整页的pdf，只压缩在一个固定维度的向量中，那肯定有信息损失，而且以patch为单位生成embedding。

多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索-AI.x社区