先进的多文档问答(MDQA)框架HiQA:大幅降低区分度低的复杂多文档RAG的幻觉问题 原创
背景
检索增强生成(RAG)迅速推进了语言模型领域,特别是在问答(QA)系统。通过在响应生成阶段集成外部文档,RAG显著提高了语言模型的准确性和可靠性。这种方法提高了响应的质量,并降低了幻觉的频率,其中模型生成了错误或误导性的信息。然而,这些方法表现出有限的检索精度时,面对众多的难以区分的文件,在其实际应用中提出了显着的挑战。为了应对这些新出现的挑战,本文提出HiQA,一个先进的多文档问答(MDQA)框架,集成级联元数据到内容和多路由检索机制。
简介
大型语言模型 (LLMs) 在多个领域,包括文档问答 (QA) 得到了广泛应用。然而,使用 LLMs 进行 QA 仍面临诸如幻觉问题、及时性问题和预训练不足的挑战。检索扩增生成(RAG)是一种有前景的解决方案。普通的基于 RAG 的 QA 系统将文档表示为非结构化文本块,但在处理大量、内容相似或复杂的文档时,这种方法遇到了限制。多文档问答提出了更大的挑战,因为它需要考虑文档间的关系和差异。我们将此问题确定为“无法区分的多文档中的RAG降级”。
多文档QA场景中性能下降的实验验证。使用88个文档进行测试,每个文档包含88个问题中的一个。使用普通RAG和GPT-4设置(块大小=400,top-k=5)。查询单个文档上的每个问题时,只有一个错误答案。然而,一起查询所有88个文档会导致30个错误答案,这表明随着文档数量的增加,性能会显著下降。结果如下图所示:
数据扩充被视为可以改进响应的潜在解决方案,可增强原始文件以改善响应,如下图所示:
我们的直观想法是,在文档QA中使用RAG的关键是匹配知识的“关键块”来回答文档中的查询(Q)。这类似于射箭,其中查询充当箭头,我们需要确保关键知识在目标区域内。因此,通过将“定义”文本合并到块中,我们可以调整它们的分布,使查询嵌入更容易击中关键块。
HiQA
PDFTriage 通过提取文档的结构元素并将其转换为可检索的元数据,解决了结构化文档的多文档QA任务。PDFTriage 对元数据的使用可以被描述为一种硬分区技术。这种策略相当于在信息检索之前对子集进行剪枝和选择。这样的措施被实施以通过减小段的大小来改进检索精度。然而,在涉及复杂任务(如跨文档搜索)的场景中,在硬分区方法中,有用的知识有可能在检索之前丢失。
为了解决这一挑战,我们提出了HiQA(分层上下文增强RAG多文档QA),结合一种新的文档解析和转换方法。这种方法包括一个基于元数据的增强策略,以增强块的可扩展性,以及一个复杂的多路由检索机制。专门为多文档环境量身定制,我们的方法旨在提高知识检索的精度和相关性,克服传统的基于向量的检索系统的固有局限性。这种增强显著提高了基于RAG的系统在管理多文档问答(MDQA)的复杂需求方面的性能。我们的方法框架如下图所示:
最初,每个文档经过Markdown格式化器的处理,根据其固有的章节结构将其转换为[章节元数据:章节内容]对(称为片段),然后以Markdown格式存储。随后,我们提取片段的层次结构,并将元数据级联到每个章节中,以构建我们的数据库。最后,我们使用多路径检索方法来增强RAG。由于层次增强先于检索,因此它提供了一种可扩展的解决方案,可以无缝集成各种嵌入或检索方法。
方法
我们提出的HiQA系统由三个组件组成:Markdown格式化器(MF),分层上下文增强器(HCA)和多路径检索器(MRR)。MF模块处理源文档把它转换成一个markdown文件,一个片段序列。不是将文档分成固定大小的块,而是每个片段对应于一个自然的章节,包括章节元数据和内容。HCA模块从markdown中提取分层元数据并将其组合,形成级联元数据,从而增强每个片段的信息。MRR模块采用多路径检索方法来找到最合适的片段,然后将其作为上下文输入提供给语言模型。
Markdown格式化器
由于我们提出的方法需要获取层次结构信息,因此源文档必须经过结构解析。因此,Markdown因其出色的结构化文档格式化功能而被选中。因此,我们引入了Markdown格式转换器,将源文档转换为富含结构化元数据的Markdown文档。
Markdown Formatter使用LLM进行文档解析。使用LLM的决定是由其通过利用历史信息处理跨页面连贯上下文的能力以及其语义理解和标点符号使用的能力驱动的。这些功能可以实现精确的章节分割和有效的表格数据恢复,充分利用LLM的高级语义理解功能。
当进入长上下文时,存在精度损失、遗忘、指令弱化、幻觉等问题。为了确保输出内容的结构连贯、准确并与原始文档一致,我们采用了滑动窗口技术,窗口大小为W,步长为W,附加填充为K。
为了得到高质量的文档处理结果,使用指令进行生成markdown核心思想如下:
- 将文档中的每一章,无论其级别如何,都视为Markdown中的一级标题,并附上数字标识符。将每章视为一个知识片段,而不是固定大小的块。
- 设置正确的章节编号,后面跟着章节标题。
- 通过Markdown语法生成表格并记录表格标题。
分层上下文增强器(Hierarchical Contextual Augmentor, HCA)
使用级联文档结构在数据处理过程中进行文本增强,从Markdown文件中提取层次结构元数据,并将其级联到每个章节,形成增强的段落。具体步骤包括:
- 使用深度优先搜索遍历章节树,连接和传递元数据。
- 对文本、表格和图像等不同类型的段落进行不同的处理。
多路径检索器(Multi-Route Retriever, MRR)
我们提出了我们的多路径检索方法的QA任务,集成了各种技术,以提高精度的知识检索广泛的文档语料库。具体来说,我们使用以下三种方法实现了检索:
- 向量相似性匹配:使用Elasticsearch和BM25。
- 关键词匹配:使用预训练的关键实体检测模型提取关键词。
- 补偿向量相似性限制:结合基于频率的检索技术和关键词排名策略。
如果两个文档非常相似(比如“iPhone10”的说明书和“iPhone15”的说明书),传统的方法可能会遇到问题。因为它们主要通过计算文档之间的"向量相似性"来辨别文档的差异,但这种方法对于一些只有细微差别(例如生产日期或电池容量)的文档区分效果并不理想。
为了解决这个问题,我们引入了一个新的工具——称为Lucene索引。这个工具更多地关注每个词语(或者叫令牌)在文档中出现的频率,而不是单纯的计算整体相似度。这样就可以更有效地区分那些在大部分内容都很相似,但在某些细节上有所不同的文档。
除此之外,我们还使用了其他的策略来提升检索的准确性,比如利用命名实体识别和人类专家设置的关键词来给相关的部分赋予更大的权重。这意味着,如果搜索“iPhone15”这个关键词,那么所有包含“iPhone15”的部分会被认为更重要,因此在检索结果中的排名会更高。
验证效果
结论
我们介绍了HiQA,一种新的框架,专门设计用于解决现有的RAG在多文档问答(MDQA)环境中的局限性,特别是在处理不可区分的多文档时。HiQA采用了软分区策略,该策略利用文档的结构性元数据进行有效的块拆分和嵌入增强,并采用多路径检索机制来增强检索效率。我们广泛的实验验证了我们的方法的鲁棒性和有效性,有助于更深入地理解嵌入空间内的文档段分布的理论。
本文转载自公众号AI 博物院 作者:longyunfeigu