ERAGent:集成5个先进组件与技术的增强型RAG Agent,显著提升3类问答任务效果
大型语言模型(LLMs)在多种任务中表现出色,但存在诸如幻觉(hallucinations)、时间错位(temporal misalignments)、上下文处理问题和微调效率低下等挑战。为了解决这些问题,研究人员通过检索增强型生成(RAG)方法,将外部知识源与LLMs结合,显著提高了复杂问题的准确回答能力。传统的RAG架构包括检索模块和阅读模块,但存在检索质量低下和生成不可靠答案的问题。
ERAGent(Enhanced RAG Agent)框架提出了几个关键改进:
ERAGent整体框架
- 增强型问题改写器(Enhanced Question Rewriter):对原始问题进行语义增强,改写为更清晰的问题,并生成基于问题的查询。这可能涉及到使用专业术语词典来转换非正式或充满术语的表达。
在临床医学领域应用增强型问题重写模块的案例研究 - 检索触发器(Retrieval Trigger):使用“流行度”作为指标来估计AI助手对特定知识掌握的程度。它通过设置相似度阈值来评估查询是否超出了当前知识范围。
- 知识检索器(Knowledge Retriever):利用API搜索引擎检索技术,如Bing Search API,来利用当前在线资源。它通过BM25算法提取高相关性的文本片段。
- 知识过滤器(Knowledge Filter):使用自然语言推理(NLI)任务来过滤检索到的知识,确保只有支持问题答案的上下文被保留。
- 个性化LLM阅读器(Personalized LLM Reader):生成准确的回答。它不仅整合了过滤后的知识与改写后的问题来形成提示,还结合了用户画像,使LLM的回答特别针对用户的偏好。
- 经验学习器(Experiential Learner):通过分析用户和AI助手之间的历史对话来扩展知识边界,并学习用户的主题兴趣、偏好和问题需求。
RAGent通过这些模块的协同操作,提供了一个先进的原型,以确保在实际场景中应用的便捷性和有效性。
通过在六个数据集和三类问答任务(单轮、单轮多跳、多会话多轮问答)上的严格评估,ERAGent在准确性、效率和个性化方面表现出色,强调了其推进RAG领域和实际系统应用的潜力。
单轮开放领域问答任务中回答准确性的评估指标
单轮多跳问答任务中回答准确性的评估指标
两个人工智能助手:没有用户画像的ERAGent(助手A)和有用户画像的ERAGent(助手B)对一个用户提出的问题“给我一个增肌的饮食建议”的回答。用户画像是从历史对话会话中总结出来的。GPT-4评价:助手B的回答更贴近用户的画像,通过特别解决用户的环保问题、饮食限制(避免牛肉和牛奶),以及个人偏好(对机器学习和环保的兴趣,以及是夜猫子)。
在多会话多轮问答(MSMTQA:Multi-Session Multi-Round QA)数据集上,助手B和助手A的回答在所有类别中的成对比较结果
响应效率和质量指标与相似性阈值 τ 的关系
- 效率与质量的平衡:ERAGent框架通过调整相似度阈值τ,展示了在回答效率和质量之间取得平衡的能力。通过实验,发现τ=0.6时,响应时间最短,同时保持了较高的回答质量。
- 时间成本(Time Cost):当τ设置为0.6时,ERAGent框架的平均响应时间最低,这意味着在此阈值下,AI能够更快地生成回答。
- 外部知识(External Knowledge):在τ=0.6的设置下,ERAGent几乎不依赖外部知识,而是利用已有的经验知识来生成回答,这有助于提高效率。
- 不相关信息(Irrelevant Knowledge):在相同的τ设置下,ERAGent还能够有效地过滤掉不相关信息,确保了回答的相关性和质量。
- 回答质量:即使在完全依赖外部知识的τ=1.0设置下,ERAGent生成的回答也有80%达到了或超过了首次回答的质量。而当τ调整为0.8时,回答质量甚至超过了τ=1.0时的结果,这表明利用高相关性的历史经验可以生成更高质量的回答。
https://arxiv.org/pdf/2405.06683
ERAGent: Enhancing Retrieval-Augmented Language Models with Improved Accuracy, Efficiency, a
本文转载自 PaperAgent,作者: PaperAgent