前言本文回顾一下MHA、GQA、MQA,详细解读下MHA、GQA、MQA这三种常见注意力机制的原理。图1MHA、GQA、MQA一览selfattentionselfattention在自注意力机制中,输入通常是一个统一的输入矩阵,而这个矩阵后续会通过乘以不同的权重矩阵来转换成三个不同的向量集合:查询向量Q、键向量K和值向量V。这三组向量是通过线性变换方式生成:1.查询向量(Q):QXWQ2.键向量(K):KXWK3.值向量(V):VXWVWQ,WK和WV是可学习的权重矩阵,分别对应于查...
文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。RAG和的比较。采用可训练的Former来弥合检索器和LLM之间的语义鸿沟方法模型架构检索特征提取这样存在一个问题,这些表示不能直接使用,因为单一的表示无法捕捉到用于LLM生成的交互特征。因此,为了适应各种检索器,需要将...
AssisTRAG通过集成一个智能信息助手来提升LLMs处理复杂推理任务的能力。该框架由两个主要组件构成:一个冻结的主语言模型和一个可训练的助手语言模型。AssisTRAG与之前的RAG对比1.组件主语言模型(MainLLM):负责根据提供的信息生成答案。这个模型是固定的,不进行训练。助手语言模型(AssistantLLM):负责信息管理,包括记忆管理和知识管理。这个模型是可训练的。可以看出,相比之前的RAG,该框架主要创新点是引入一个Assist...
前期文章提到,多模态的RAG框架ColPali通过视觉语言模型(VLMs)高效地检索纯视觉特征的文档,实现视觉文档问答。【RAG&多模态】多模态RAGColPali:使用视觉语言模型实现高效的文档检索本文再来看一个类似工作,VisRAG,一种基于视觉语言模型的检索增强生成(RAG)方法,用于解决多模态文档中的信息利用问题。方法VisRAG分为VisRAGRet和VisRAGGen两个阶段。传统的基于文本的RAG(TextRAG,左)依赖于解析后的文本进行检...
前面文章提到,文档智能解析能够有效的增强RAG系统的准确性。【文档智能&RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路文档智能解析RAG一般流程可以看到基于PDF的RAG,需要先对pdf进行解析,生成文本chunk,然后再基于文本建索引。这种pipline的方式,每个解析模块都需要放置对应的解析模型,存在着错误传播的问题。因此,笔者看到ColPali时,这种端到端的方案挺有意思,本文来看一看这个思路。ColBERT在此...
前言现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以PDF格式存储,低精度的PDF解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。一、可编辑文档1.1语义分段经pdf解析...