一文读懂大模型 RAG：检索、增强与生成的技术详解-51CTO.COM

大模型（Large Language Model，LLM）的浪潮已经席卷了几乎各行业，但当涉及到专业场景或行业细分领域时，通用大模型往往面临专业知识不足的问题。相对于成本昂贵的“Post-Training”或“Supervised Fine-Tuning”（监督微调，SFT），基于RAG的技术方案成为了一种更优选择。

本文笔者将从RAG所解决的问题及模拟场景入手，详细总结相关技术细节，与大家分享~

一、初识：RAG所解决的问题及模拟场景

1. 大模型“幻觉”问题

在探讨RAG技术的必要性之前，我们首先需要理解大模型中有名的“幻觉”问题。

所谓“幻觉”，是指大模型在试图生成内容或回答问题时，输出的结果并不完全正确，甚至会有错误，即通常所说的“一本正经地胡说八道”。因此，「这种“幻觉”可以提现在对事实的错误陈述与编造、错误的复杂推理或在复杂语境下处理能力不足等。」

而产生这种“幻觉”的主要原因是：

训练知识存在偏差：在训练大模型时输入的海量知识可能包含错误、过时，甚至带有偏见的信息。这些信息在被大模型学习后，就可能在未来的输出中被重现。
过度泛化地推理：大模型尝试通过大量的语料来学习人类语言的普遍规律与模式，这可能导致“过度泛化”的现象，即把普通的模式推理用到某些特定场景，就会产生不准确的输出。
理解存在局限性：大模型并没有真正“理解”训练知识的深层含义，也不具备人类普遍的常识与经验，因此可能会在一些需要深入理解与复杂推理的任务中出错。
缺乏特定领域的知识：通用大模型虽然掌握了大量人类通用知识且具备超强的记忆与推理能力，但可能不是某个垂直领域的专家（比如医学或者法律专家）。当面临一些复杂度较高的领域性问题或私有知识相关的问题时（比如介绍企业的某个新产品），它就可能会编造信息并将其输出。

除了“幻觉”问题，大模型还可能存在知识落后、输出难以解释、输出不确定等问题。

这也决定了大模型在大规模商业生产应用中面临着挑战：很多时候，我们不仅需要大模型具备理解力和创造力，还需要极高的准确性。例如，在金融风险评估、医疗诊断、法律咨询等领域，任何错误的输出都可能导致严重的后果。因此，解决“幻觉”问题是提升大模型实际应用价值的关键。

2. RAG如何解决“幻觉”问题？

RAG（Retrieval-Augmented Generation，检索增强生成）技术正是为了尽可能解决大模型在实际应用中面临的一些问题，特别是“幻觉”问题而诞生的。其基本思想可以简单表述如下：

将传统的生成式大模型与实时信息检索技术相结合，为大模型补充来自外部的相关数据与上下文，以帮助大模型生成更丰富、更准确、更可靠的内容。这允许大模型在生成内容时可以依赖实时与个性化的数据与知识，而不只是依赖训练知识。

换句话说，RAG给大模型增加了一个可以快速查找的知识外挂，使得它在面对特定问题时能够参考最新的、权威的信息源，从而减少错误输出和“幻觉”的发生。

为了更进一步帮助我们理解RAG的概念，举个例子。

如果把大模型比喻成一个经过大量医学知识与治疗技能训练的优秀学生，大模型响应的过程比喻成一场医学考试，那么这个学生在考试时仍然可能会对某些最新的治疗方法并不熟悉，他可能会根据自己的记忆和推理能力编造答案（即“幻觉”），导致错误。而RAG会从最新的医学文献中检索相关信息，并提供给学生作为参考。这样，学生就可以基于最新的专业知识来回答问题，避免了“幻觉”，提高了答题的准确性和可靠性。

3. 模拟简单的RAG场景

假如你需要开发一个在线的自助产品咨询工具，允许客户使用自然语言进行交互式的产品问答，比如“请介绍一下您公司这款产品与××产品的不同之处”。为了让客户有更好的体验，你决定使用大模型来构造这样的咨询功能并将其嵌入公司的官方网站。如果你直接使用通用大模型，那么结果很可能如下所示。

用户提问：

请介绍小麦公司的最新手机产品小麦Pro与iPhone有什么区别？
[引用]

不出意外，大模型显然不具备贵公司的最新手机产品知识，因此无法回答客户的问题（有时候可能会尝试编造答案）。现在，如果你使用RAG的思想，那么可以先从企业私有的知识库中「检索出下面一段相关的补充知识」：

小麦Pro手机参数简览：

系统：安卓最新版本
处理器：高性能八核处理器
显示屏：6.7英寸AMOLED全面屏，2K分辨率
后置摄像头：主摄像头6400万像素，四摄系统
前置摄像头：3200万像素，AI美颜、HDR功能
内存与存储：最高可选12GB运行内存，最高512GB存储空间
电池：5000mAh大容量电池，支持快速充电
网络：支持5G网络，Wi-Fi6，蓝牙5.2

其他特性：IP68防水防尘，面部识别和指纹识别解锁小麦Pro以其强大的性能、清晰的显示效果、出色的摄像能力以及长久续航等特点，为用户提供优质的手机体验。

你再把检索出的补充知识组装到提示词中，将其输入大模型，并要求大模型基于提供的知识来回答你的问题。大模型很聪明地“吸收”了补充的外部知识，并结合自己已经掌握的知识，成功推理并给出了答案：

RAG增强后的回答：

小麦Pro手机与iPhone12之间的主要区别可以从以下几个方面来比较：

操作系统：

小麦Pro采用安卓最新版本作为操作系统，而iPhone12运行的是苹果自家的iOS操作系统。这意味着两者的用户界面、应用生态系统、功能和定制性可能会有所不同。处理器性能：
小麦Pro配备了一款高性能的八核处理器，而iPhone12搭载了苹果自家设计的A14仿生芯片。尽管具体的性能表现可能需要进行实际测试来比较，但两者都应该能够提供流畅的用户体验。显示屏：
小麦Pro采用了6.7英寸的AMOLED全面屏，分辨率达到了2K级别，而iPhone12则配备了6.1英寸的屏幕。其他特性：
小麦Pro拥有更大的电池容量（5000mAh），支持更快的充电速度，并且具备更高的防水防尘等级（IP68）。

二、RAG基础概念

1. 什么是RAG?

「RAG（Retrieval-Augmented Generation，检索增强生成）」是一种结合了检索和生成技术的自然语言处理(NLP)模型。该模型由Facebook AI提出，旨在提升生成式模型在处理开放域问答、对话生成等任务中的性能。

RAG模型通过引入外部知识库，利用检索模块（Retriever）从大量文档中提取相关信息，并将这些信息传递给生成模块（Generator），从而生成更加准确和有用的回答或文本。

其核心思想是通过检索和生成的有机结合，弥补生成模型（如GPT-3、BERT等）在处理知识密集型任务时的不足。在传统的LLM（大语言模型）应用中，模型仅依赖训练时学到的知识来回答问题，这导致了知识更新困难、回答可能过时或不准确等问题。而RAG系统通过在生成回答前主动检索相关信息，将实时、准确的知识作为上下文提供给模型，从而显著提升了回答的质量和可靠性。

RAG本质上是一种借助“外挂”的提示工程，但绝不仅限于此。它不仅仅是简单地将外部知识拼接到提示词中，而是通过一系列优化手段，确保大模型能够更好地理解和利用这些外部知识，从而提高输出答案的质量。

2. RAG架构

RAG模型的技术架构可以分为两个主要模块：检索模块（Retriever）和生成模块（Generator）。

检索模块：负责从大规模的知识库或文档集合中，使用预训练的双塔模型（dual-encoder）进行高效的向量化检索，快速找到与查询最相关的若干个文档或段落。
生成模块：根据检索到的文档和输入查询生成最终的回答或文本。并使用强大的生成模型（如T5、BART等）对输入进行处理，确保生成的内容连贯、准确且信息丰富。

3. RAG工作流程

通过结合检索增强技术，将用户查询与外部知识库中的信息融合，利用大语言模型生成准确、可靠的回答。以下是RAG的完整工作流程：

(1) 知识准备

收集知识文档：从企业内部文档、公开数据集、专业数据库等来源收集相关知识文档。
预处理：对文档进行清洗、去重、分段等操作，确保数据质量。
索引化：将处理后的文档分割为适合检索的单元（如段落或句子），并建立索引以便快速查找。

(2) 嵌入与索引

使用嵌入模型：利用预训练的嵌入模型（如BERT、Sentence-BERT等）将文本转换为高维向量表示。
存储向量：将生成的向量存储在向量数据库（如FAISS、Elasticsearch、Pinecone等）中，构建高效的索引结构。

(3) 查询检索

用户查询向量化：将用户的自然语言查询通过嵌入模型转换为向量表示。
相似度计算：在向量数据库中计算查询向量与存储向量之间的相似度（通常使用余弦相似度或欧氏距离）。
检索结果排序：根据相似度得分，选择若干个最相关的文档或段落作为检索结果。

(4) 提示增强

组装提示词：将检索到的相关文档内容与原始用户查询组合成一个新的输入序列。

优化提示模板：根据任务需求设计提示模板，确保生成模块能够充分利用检索到的信息。例如：

用户查询：请介绍小麦Pro手机与iPhone的区别。检索结果：小麦Pro采用安卓系统，配备高性能八核处理器，6.7英寸AMOLED屏幕，5000mAh电池。增强提示：基于以下信息回答问题：“小麦Pro采用安卓系统，配备高性能八核处理器，6.7英寸AMOLED屏幕，5000mAh电池。”

(5) 生成回答

输入增强提示：将增强提示模板输入生成模块（如T5、BART、GPT等）。
生成文本：生成模块根据提示模板生成最终的回答，综合考虑检索到的知识和自身的训练知识。
后处理：对生成的回答进行格式调整、语法检查等后处理，确保输出的质量和一致性。