传统RAG凉凉？多模态RAG带来工业级革命

NLP前沿1

发布于 2024-10-30 15:23

浏览

0收藏

论文笔记分享，标题Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模态VL模型很早的就进入了这个圈子，早的有LLava，近一点的gpt4o。这个内容的主要想论证一个事情，在工业界，同时包含文本和图像的RAG系统，相比于单文本的 RAG 系统会提高整体性能？

当然这个问题的结论是，会提高，所以还额外做了一些，优化多模态流程探索的工作。

首先，多模态的结合，2种模式，一种是图片保持不变，建立起图片向量库；另一种是图片会提取出摘要描述用于召回。分别对应了下图

传统RAG凉凉？多模态RAG带来工业级革命-AI.x社区

比较特别的是，这个论文用到的数据是私有的，测试数据是自己标的。语料库有8540 个片段，8377 张图片。测试数据由专业人士标注100个问答对。

考虑到，这里多模态，现有的评测框架不够用了，所以他们开发并开源了一个评测框架，具体的维度还是老几样，正确性，相关性，事实性等等。地址在：https://github.com/riedlerm/multimodal_rag_for_industry

评测结论如下图，就看下图左一，关注框框的对比把

仅仅使用图片的RAG，不管是不是摘要，效果基本都不如baseline no rag
使用text only的RAG系统已经是个非常强的baseline了

多模态的RAG有潜力，但是很难打败基于纯文本的，但是如果图片检索厉害的话，还是能起飞的（黄框）

传统RAG凉凉？多模态RAG带来工业级革命-AI.x社区

最后，在多模态RAG中，基于图片摘要向量的比图像直接做向量的，大部分指标都表现的好，受限于多模态向量的潜能，文本向量模型目前表现更好，也限制了这方面的发挥。总的来说，未来可期。

传统RAG凉凉？多模态RAG带来工业级革命-AI.x社区

本文转载自 NLP前沿，作者：热爱AI的

标签

RAG

多模态

工业级

相关推荐

谷歌多模态大模型ScreenAI：带来人机界面交互新方式

鱼虫子 • 3308浏览 • 0回复
新RAG架构范式！DSPy将革命性改变RAG系统架构方式！！

玄姐聊AGI • 4119浏览 • 0回复
微软 GraphRAG 与传统 RAG 架构设计精髓

AIGC观察者 • 5867浏览 • 0回复
RAG 企业级应用落地框架细节差异对比

玄姐聊AGI • 4875浏览 • 0回复
一种支持4种多模态RAG技术的引擎：VARAG

PaperAgent • 2915浏览 • 0回复
从传统 RAG 到图 RAG，赋予大型语言模型更强大的知识力量

NLP前沿1 • 2094浏览 • 0回复
多模态RAG应用开发实战演练

51CTO内容精选 • 1707浏览 • 0回复
一文读懂：从RAG到多模态RAG

kede96 • 3499浏览 • 0回复
多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

大模型自然语言处理 • 2193浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

大模型自然语言处理 • 2212浏览 • 0回复
【多模态&RAG】多模态RAG ColPali实践

大模型自然语言处理 • 1826浏览 • 0回复
再看多模态RAG进行文档问答的方案

大模型自然语言处理 • 1869浏览 • 0回复
RAG现有框架总结：7个GraphRAG+17个传统RAG | 推荐收藏

玄姐聊AGI • 7226浏览 • 0回复
Jina CLIP v2：为多模态RAG设计的向量模型

kede96 • 2686浏览 • 0回复
多模态RAG构建指南：为AI系统提供更多可能性

51CTO内容精选 • 1851浏览 • 0回复
简单有效的企业多模态RAG问答框架-MuRAR

大模型自然语言处理 • 1589浏览 • 0回复
GAEA：突破传统地理定位的多模态对话革命

顿数AI • 965浏览 • 0回复
深入剖析：如何利用 AI 智能体增强传统 RAG 系统

Halo咯咯 • 933浏览 • 0回复
企业级RAG如何实现权限控制？Dify 1.1.0 新版本元数据保姆级教程！

AI博物院 • 623浏览 • 0回复

NLP前沿1

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

传统RAG凉凉？多模态RAG带来工业级革命