鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

RAG生成任务：Base LLM竟然比Instruct LLM高出20%

发布于 2024-6-26 15:30

浏览

0收藏

检索增强生成（RAG）将检索阶段与生成阶段结合起来，后者通常由大型语言模型（LLMs）驱动，RAG中的当前常见实践是使用“指导”的LLMs，这真的是最优选择吗？

对RAG系统中的“instruct”模型及其模板与基础版本（base）进行了原则性评估。这些“instruct”模型通常经过监督训练来提高遵循指令的能力，并使用最先进技术与人类偏好对齐。使用了两个任务指令来评估模型，任务指令I要求模型从未提供的文档中提取答案，任务指令II要求模型提供证据来支持其答案。

在TriviaQA上的任务指令I下，基础版与指导+模板版之间的比较。该图展示了两个版本的Llama 2 7B模型生成的回答之间的比较：基础版和指导+模板版。每个版本都被赋予了基于提供文档回答同一问题的任务。基础模型正确地识别出答案为“Burgess Meredith”，而指导+模板版错误地将答案归因于“Danny DeVito”。斜体文本表示模板

RAG生成任务：Base LLM竟然比Instruct LLM高出20%-AI.x社区

在TriviaQA上的任务指令II下，基础版与指导+模板版之间的比较。这种比较展示了Llama 2 7B的基础版和指导+模板版生成的回答之间的一个例子，其中基础模型正确地识别了答案，而指导+模板版错误地将答案归因于不同的演员。尽管如此，在两种情况下，答案都与证据“一致”，因为每项证据都包含了生成的答案。斜体文本表示模板。

RAG生成任务：Base LLM竟然比Instruct LLM高出20%-AI.x社区

实验结果显示，在RAG任务中，基础模型在没有额外的指令特定微调的情况下，平均性能比“instruct”模型高出20%。这一发现挑战了关于“instruct”LLMs在RAG应用中优越性的普遍假设。进一步的调查揭示了更复杂的情况，提出了对RAG和评估程序的更广泛讨论的需求。

在NQ和TriviaQA上任务指令I的准确度。缩写C和I分别表示指导模型的聊天版和指导版。后缀T表示使用模板来构建其回答的指导模型。准确度是在不同检索文档级别的报告。除了部分例外的Mistral，所有基础模型在性能上都大幅度超过了它们的指导版本。

在NQ和TriviaQA上，需要提供证明的任务指令II的准确度。缩写C和I分别表示指导模型的聊天版和指导版。后缀T表示使用模板来构建其回答的指导模型。准确度是在不同检索文档级别的报告。在所有考虑的情况下，基础模型在性能上都大幅度超过了它们的指导版本。

RAG生成任务：Base LLM竟然比Instruct LLM高出20%-AI.x社区

尽管“instruct”模型在遵循任务指令方面更为有效，但它们在准确拒绝回答（即当检索文档中不包含答案时回答NO-RES）方面的表现不如基础模型（备注：这地方的结论貌似与实验数据不匹配，有需要小伙伴自行评测哈）。此外，当不要求模型在答案不出现在检索文档中时回答NO-RES时，基础模型仍然表现更好，这表明监督微调和对齐过程可能对模型在RAG任务中的能力产生了负面影响。

从参数化记忆中回忆 - Llama 2 7B - TriviaQA。报告的是参数化记忆回忆率，定义为模型在检索文档不包含正确答案的情况下仍能正确回答的实例数，除以答案不在上下文中出现的次数。（左）如图1所示的任务指令I；（右）无拒绝设置，即不指定在检索文档中不包含答案时回答NO-RES（如图6所示的示例）。在这种情况下，两个模型版本的参数化记忆回忆率都有所提高。

RAG生成任务：Base LLM竟然比Instruct LLM高出20%-AI.x社区

图6：在NQ上，任务指令I下的基础版与指导版，不允许拒绝回答。这张图展示了在不允许拒绝回答的设置下的回答情况，即模型不需要在检索文档中不包含答案时回答NO-RES。它比较了Falcon 7B的基础版和指导版。基础模型准确地识别出“Rocky”（洛奇）是1976年奥斯卡最佳影片奖的获奖者，而指导版错误地引用了“Network”（电视台）。

RAG生成任务：Base LLM竟然比Instruct LLM高出20%-AI.x社区

在整个RAG流程中，除了Generation，还涉及Embedding、Indexing等等，PaperAgent团队RAG专栏进行过详细的归纳总结：高级RAG之36技（术），可私信留言试看：RAG专栏。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems1.
2.
3.

本文转载自PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

LLM和RAG技术的比较探索

51CTO技术栈 • 3044浏览 • 0回复
通过检索增强生成(RAG) 增强LLM的实战演练

51CTO内容精选 • 2592浏览 • 0回复
AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成规划任务！

AIGC最前线 • 1955浏览 • 0回复
HippoRAG：协同LLM、KG与PPR的新型开源检索框架，R@5比RAPTOR提高28%

PaperAgent • 7740浏览 • 0回复
无限的场景窗口会扼杀LLM微调和RAG吗？

51CTO内容精选 • 2369浏览 • 0回复
【LLM】CRAG - 综合性RAG基准测试

sbf_2000 • 3248浏览 • 0回复
如何训练LLM自动在RAG和参数记忆之间进行选择

51CTO内容精选 • 1866浏览 • 0回复
应用程序任务驱动：详细解析LLM的评估指标

51CTO内容精选 • 2390浏览 • 0回复
LLM 合并新思路：进化算法+零训练->新任务

amei2000go • 2081浏览 • 0回复
在长上下文LLM的时代，RAG是否仍然必要？

sbf_2000 • 1591浏览 • 0回复
【学习挑战赛】任务进阶，完成就有奖品拿

AI.x社区官方账号 • 3.1w浏览 • 2回复
如何让LLM学会"试错" | LLM竟然学会了"自我反省"，它真的有自我意识吗？

sbf_2000 • 1695浏览 • 0回复
LLM-R：基于RAG和层次化Agent落地案例解析

恰似惊鸿 • 1507浏览 • 0回复
使用MCTS显著提升LLM在复杂任务的推理能力

arnoldzhw • 4828浏览 • 0回复
支持20+视觉任务，多项SOTA！可扩展多任务视觉基础模型LaVin-DiT：融合时空VAE与DiT

angel • 1332浏览 • 0回复
20大LLM安全防护机制详解：保障AI模型的安全、伦理和责任

Halo咯咯 • 2780浏览 • 0回复
MIT：LLM的思考方式竟然和大脑相似

AIGC前沿技术追踪 • 1492浏览 • 0回复
LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍

AIPaperDaily • 1224浏览 • 0回复
小红书 NoteLLM：用于笔记推荐和标签生成的 LLM

amei2000go • 3377浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

DeepSeek与Qwen组团开源了模型，冲! 5天前发布
DeepSeek-R1的风吹到了多模态，Visual-RFT发布，视觉任务性能飙升20% 2025-03-14 00:29:39发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇： RichRAG框架：为用户提供丰富全面且令人满意的回答

下一篇：文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载