鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝

大模型自然语言处理

发布于 2024-11-26 10:43

浏览

0收藏

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

（a1）mR2AG带检索：这个过程包括：a）检索反思，用于确定是否需要检索；b）相关性反思，用于识别证据段落；c）对多个候选答案进行后处理。（a2）mR2AG不带检索：当不需要检索时的生成过程。（b）无反思的朴素mRAG：一种没有反思的基线方法。

在基于知识的视觉问答（Knowledge-based VQA）任务中，输入通常是一对图像和问题，并且依赖于可访问的知识库。文章提出的框架通过两个新颖的反思操作来解耦生成过程，从而提高答案的质量。将生成过程分为三个步骤：执行检索反思（Retrieval-Reflection）以确定是否需要检索，执行相关性反思（Relevance-Reflection）以识别证据段落并生成答案，以及后处理多个候选答案。

方法

检索反思

用户查询可以根据输入(I,Q)分为依赖视觉的和基于知识的。为了指导模型区分不同类型的查询，定义了两个特殊标记：[Retrieval] 和 [No Retrieval]，用于执行检索反思。具体步骤如下：

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

相关性反思

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

答案后处理

在一个文章中可能存在多个证据段落，导致生成多个候选答案。因此，后处理是必要的，以便得出一个最终的答案。

层级后处理：使用层级后处理来通过整合三个级别的分数对候选答案进行排序：

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

最后，三个级别的分数综合考虑了答案生成过程中的每一个步骤，分别在条目、段落和答案级别评估候选答案的可靠性。通过计算这三个分数的乘积来整合它们的效果，作为排序候选答案的最终标准。模型输出基于此标准得分最高的答案。

实验

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝-AI.x社区

参考文献

mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA，https://arxiv.org/pdf/2411.15041

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/TV8MV0mXdO1TWoq5uqlNkg

标签

已于2024-11-28 18:50:31修改

赞

收藏

回复

举报

回复

相关推荐

以自组织映射算法促进高效的LLM检索增强生成

51CTO内容精选 • 2343浏览 • 0回复
通过检索增强生成(RAG) 增强LLM的实战演练

51CTO内容精选 • 2076浏览 • 0回复
面向大语言模型的检索增强生成(RAG)技术：综述

angel • 3242浏览 • 0回复
一起聊聊图检索增强生成

sbf_2000 • 1425浏览 • 0回复
15种先进的检索增强生成（RAG）技术

玄姐聊AGI • 1364浏览 • 0回复
RAG高级优化：基于问题生成的文档检索增强

恰似惊鸿 • 1316浏览 • 0回复
P-RAG: 渐进式检索增强生成方法在具身日常任务规划中的应用

芝士AI吃鱼 • 2145浏览 • 0回复
15种先进的检索增强生成（RAG）技术

Halo咯咯 • 822浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

大模型自然语言处理 • 1200浏览 • 0回复
再谈大模型检索增强生成——RAG

AI探索时代 • 805浏览 • 0回复
提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘

Halo咯咯 • 3155浏览 • 0回复
基于长期记忆的检索增强生成新范式-MemoRAG

大模型自然语言处理 • 977浏览 • 0回复
LightRAG：提升检索增强生成的效率与准确性

Halo咯咯 • 2004浏览 • 0回复
大模型超长窗口上下文与检索增强生成——RAG

AI探索时代 • 1130浏览 • 0回复
RAG检索增强生成和大模型微调的抉择

AI探索时代 • 821浏览 • 0回复
大模型检索增强生成之向量数据库的问题

AI探索时代 • 979浏览 • 0回复
九种不同类型的检索增强生成 (RAG)

Halo咯咯 • 1094浏览 • 0回复
基于AG2+ChromaDB开发多代理RAG系统

51CTO内容精选 • 720浏览 • 0回复
什么是检索增强生成 (RAG)？

Halo咯咯 • 327浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析 6天前发布
DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结 2025-02-25 09:44:50发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

DeepSeek R1 全系列模型部署指南 0回复

上一篇： OPEN-RAG：利用开源大模型增强检索增强推理

下一篇：文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载