mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝

发布于 2024-11-26 10:43
浏览
0收藏

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

(a1)mR2AG带检索:这个过程包括:a)检索反思,用于确定是否需要检索;b)相关性反思,用于识别证据段落;c)对多个候选答案进行后处理。(a2)mR2AG不带检索:当不需要检索时的生成过程。(b)无反思的朴素mRAG:一种没有反思的基线方法。

在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题 ,并且依赖于可访问的知识库。文章提出的框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成答案,以及后处理多个候选答案。

方法

检索反思

用户查询可以根据输入(I,Q)分为依赖视觉的和基于知识的。为了指导模型区分不同类型的查询,定义了两个特殊标记:[Retrieval] 和 [No Retrieval],用于执行检索反思。具体步骤如下:

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

相关性反思

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

答案后处理

在一个文章中可能存在多个证据段落,导致生成多个候选答案。因此,后处理是必要的,以便得出一个最终的答案。

层级后处理:使用层级后处理来通过整合三个级别的分数对候选答案进行排序:

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

最后,三个级别的分数综合考虑了答案生成过程中的每一个步骤,分别在条目、段落和答案级别评估候选答案的可靠性。通过计算这三个分数的乘积来整合它们的效果,作为排序候选答案的最终标准。模型输出基于此标准得分最高的答案。

实验

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

参考文献

mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA,https://arxiv.org/pdf/2411.15041



本文转载自公众号大模型自然语言处理  作者:余俊晖

原文链接:​​https://mp.weixin.qq.com/s/TV8MV0mXdO1TWoq5uqlNkg​

已于2024-11-28 18:50:31修改
收藏
回复
举报
回复
相关推荐