mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝
(a1)mR2AG带检索:这个过程包括:a)检索反思,用于确定是否需要检索;b)相关性反思,用于识别证据段落;c)对多个候选答案进行后处理。(a2)mR2AG不带检索:当不需要检索时的生成过程。(b)无反思的朴素mRAG:一种没有反思的基线方法。
在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题 ,并且依赖于可访问的知识库。文章提出的框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成答案,以及后处理多个候选答案。
方法
检索反思
用户查询可以根据输入(I,Q)分为依赖视觉的和基于知识的。为了指导模型区分不同类型的查询,定义了两个特殊标记:[Retrieval] 和 [No Retrieval],用于执行检索反思。具体步骤如下:
相关性反思
答案后处理
在一个文章中可能存在多个证据段落,导致生成多个候选答案。因此,后处理是必要的,以便得出一个最终的答案。
层级后处理:使用层级后处理来通过整合三个级别的分数对候选答案进行排序:
最后,三个级别的分数综合考虑了答案生成过程中的每一个步骤,分别在条目、段落和答案级别评估候选答案的可靠性。通过计算这三个分数的乘积来整合它们的效果,作为排序候选答案的最终标准。模型输出基于此标准得分最高的答案。
实验
参考文献
mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA,https://arxiv.org/pdf/2411.15041
本文转载自公众号大模型自然语言处理 作者:余俊晖