
DeepSeek R1与Qwen大模型,构建Agentic RAG全攻略
最近,AI社区被 DeepSeek-R1 “刷屏” 了!作为一款极具变革意义的开源推理大语言模型(LLM),大家讨论最多的是它的基础能力,却鲜有人关注其在智能体工作流程中的巨大潜力,也就是多个模型动态协作的应用场景。
今天,就带大家实操搭建一个智能体检索增强生成(RAG,Retrieval-Augmented Generation)系统。这个系统整合了:
- DeepSeek-R1(70亿参数蒸馏版):用于复杂推理,系统的 “智慧大脑”。。
- 阿里云Qwen2.5(70亿参数):主打快速对话交互,让用户交流体验更流畅。
- 轻量级智能体框架:协调前两者,保障系统高效运转。
完成搭建后,Qwen 会处理常规交互,复杂查询则交给R1。接下来动手试试!
1 设置环境
1.1 设置虚拟环境并安装依赖项
python3 -m venv .envs/agentic-ai
source .envs/agentic-ai/bin/activate
mkdir agentic-ai
cd agentic-ai
pip install langchain langchain-huggingface langchain-community pypdf langchain_chroma
pip install chromadb smolagents python-dotenv gradio sentence-transformers
pip 'install smolagents[openai]'
1.2 配置Ollama
DeepSeek的第一代推理模型性能可与OpenAI-o1媲美,其中包括基于Llama和Qwen从DeepSeek-R1蒸馏得到的6个密集模型。
Qwen 2.5模型在阿里巴巴最新的大规模数据集上进行预训练,该数据集包含多达18万亿个标记。该模型支持多达12.8万个标记,并具备多语言能力。
下载模型:
ollama pull deepseek-r1:7b
ollama pull qwen2.5:7b-instruct
增加上下文窗口:
Ollama默认的2048个标记不够用。创建自定义模型文件deepseek-r1-7b-8k.Modelfile
和qwen2.5-7b-instruct-8k.Modelfile
:
$ cat deepseek-r1-7b-8k.Modelfile
FROM deepseek-r1:7b
PARAMETER num_ctx 8192
$ cat qwen2.5-7b-instruct-8k.Modelfile
FROM qwen2.5:7b-instruct
PARAMETER num_ctx 8192
ollama create deepseek-r1-7b-8k -f ./deepseek-r1-7b-8k.Modelfile
ollama create qwen2.5:7b-instruct-8k -f ./qwen2.5-7b-instruct-8k.Modelfile
2 创建知识库
2.1 添加文档
将PDF文件放在data/
目录下,这些文件将构成知识库的基础。使用LangChain的DirectoryLoader
加载PDF文件,并使用RecursiveCharacterTextSplitter
将其拆分为较小的块,以便进行高效的索引和检索。这样能确保内容以结构化方式处理,更便于查询和管理。
from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
import os
import shutil
def load_and_process_pdfs(data_dir: str):
"""从目录加载PDF并拆分为块。"""
loader = DirectoryLoader(
data_dir,
glob="**/*.pdf",
loader_cls=PyPDFLoader
)
documents = loader.load()
# 将文档拆分为块
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
chunks = text_splitter.split_documents(documents)
return chunks
2.2 将块存储在向量存储(Chroma)中
将PDF处理并拆分为块后,存储在Chroma向量存储中,以便基于语义相似性进行高效的搜索和检索。初始化并配置ChromaDB,然后使用Hugging Face Embeddings将每个块转换为向量表示,从而实现相关信息的准确快速检索。
def create_vector_store(chunks, persist_dir: str):
"""创建并持久化Chroma向量存储。"""
# 如果存在现有向量存储,则删除
if os.path.exists(persist_dir):
print(f"正在从 {persist_dir} 删除现有向量存储")
shutil.rmtree(persist_dir)
# 初始化HuggingFace嵌入
embedding_model = HuggingFaceEmbeddings(
model_name="sentence-transformers/all-mpnet-base-v2",
model_kwargs={'device': 'cpu'}
)
# 构建并持久化新的Chroma向量存储
print("正在构建并保存新的向量存储...")
vector_db = Chroma.from_documents(
documents=chunks,
embedding=embedding_model,
persist_directory=persist_dir
)
return vector_db
2.3 完成知识库创建
块已在ChromaDB中建立索引并存储后,知识库就可以进行查询了。运行最后一个代码块,加载并处理PDF文件,创建向量存储,并基于语义相似性实现相关上下文的高效检索。
def main():
# 定义输入数据和向量数据库的路径
input_data_dir = os.path.join(os.path.dirname(__file__), "data")
vector_db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")
# 加载PDF并拆分为较小的块
print("开始处理PDF...")
document_chunks = load_and_process_pdfs(input_data_dir)
print(f"从PDF生成了 {len(document_chunks)} 个文档块")
# 构建并存储向量数据库
print("正在构建向量存储...")
vector_db = create_vector_store(document_chunks, vector_db_dir)
print(f"向量存储已成功创建并保存到 {vector_db_dir}")
if __name__ == "__main__":
main()
运行:
$ python ingest_pdfs.py
开始处理PDF...
从PDF生成了312个文档块
正在构建向量存储...
向量存储已成功创建并保存到./agentic-ai/chroma_db
$ ls chroma_db
chroma.sqlite3 d4c48cab-0467-4ca8-ad42-bafa5eb83040
$
3 构建智能体系统
3.1 定义推理模型(DeepSeek-R1)
在智能体系统里,推理模型是 “心脏”。DeepSeek-R1 作为强大的推理模型,能够处理复杂查询。它可解析自然语言,结合知识库给出连贯且切题的回答,还能理解文档并提取关键知识。将 DeepSeek-R1 和知识库融合,系统便能依据向量数据库内容解决问题、回应查询以及推理。
推理时,DeepSeek-R1 支持多步迭代,不断优化回复,直至得到满意答案,或达到预设的max_steps
限制,以此确保推理准确又高效,推动智能体系统稳定运行。
# reasoning_model.py
from smolagents import OpenAIServerModel, CodeAgent
import os
# 定义本地模型名称
reasoning_model_id = "deepseek-r1-7b-8k"# 使用DeepSeek进行推理
def get_model(model_id):
"""返回一个Ollama模型。"""
return OpenAIServerModel(
model_id=model_id,
api_base="http://localhost:11434/v1", # Ollama API端点
api_key="ollama"
)
# 使用DeepSeek创建推理模型
reasoning_model = get_model(reasoning_model_id)
# 创建推理智能体
reasoner = CodeAgent(tools=[], model=reasoning_model, add_base_tools=False, max_steps=2)
3.2 创建RAG工具
这一步创建RAG(检索增强生成)工具,该工具结合信息检索和推理来回答用户查询。该工具利用向量数据库(Chroma)通过嵌入存储和检索相关文档。当用户提出问题时,该工具会从数据库中搜索最相关的3个文档。然后,这些文档将作为上下文,促使推理模型(DeepSeek-R1)生成相关且简洁的答案。
这种方法通过将文档检索与推理相结合,提高了系统提供准确、有上下文感知答案的能力,适用于复杂或定义不明确的查询。
# rag_tool.py
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from reasoning_model import reasoner # 从reasoning_model.py导入reasoner
import os
# 初始化向量存储和嵌入
embeddings = HuggingFaceEmbeddings(
model_name="sentence-transformers/all-mpnet-base-v2",
model_kwargs={'device': 'cpu'}
)
# 向量数据库目录
db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")
# 初始化向量存储
vectordb = Chroma(persist_directory=db_dir, embedding_function=embeddings)
def rag_with_reasoner(user_query: str) -> str:
"""
在向量数据库中搜索相关上下文,并使用推理模型生成回复。
参数:
user_query:用户的问题。
"""
# 检索相关文档
docs = vectordb.similarity_search(user_query, k=3)
context = "\n\n".join(doc.page_content for doc in docs)
# 为推理模型创建提示
prompt = f"""根据以下上下文,简洁地回答用户的问题。
如果信息不足,请为RAG提出更好的查询建议。
上下文:
{context}
问题:{user_query}
答案:"""
# 使用reasoner(DeepSeek-R1)生成回复
response = reasoner.run(prompt, reset=False)
return response
3.3 配置主智能体(Qwen)
主智能体(Qwen)是系统与用户交互和处理查询的主要接口。主智能体使用Qwen模型(Qwen-2.5:7b)来解释用户输入,并调用适当的工具生成回复。
# primary_agent.py
from smolagents import OpenAIServerModel, ToolCallingAgent
from rag_tool import rag_with_reasoner # 从rag_tool.py导入工具函数
import os
def get_model(model_id):
"""返回一个Ollama模型。"""
return OpenAIServerModel(
model_id=model_id,
api_base="http://localhost:11434/v1", # Ollama API端点
api_key="ollama"
)
# 加载工具模型(Qwen-2.5:7b)
primary_model = get_model("qwen2.5:7b-instruct-8k")
# 使用Qwen创建主智能体以生成工具回复
primary_agent = ToolCallingAgent(tools=[rag_with_reasoner], model=primary_model, add_base_tools=False, max_steps=3)
# 导出智能体以供应用程序使用
def get_primary_agent():
return primary_agent
主智能体使用ToolCallingAgent
类构建,该类使模型能够利用特定工具,在本案例中即rag_with_reasoner
工具。该工具从向量数据库中检索相关文档,并将其传递给推理模型(DeepSeek-R1)以生成回复。智能体配置为最多进行3步推理,确保它根据提供的上下文迭代并完善答案。
这种设置确保主智能体能够利用RAG过程,为用户查询提供智能且上下文相关的回复,同时控制推理循环的次数。它使系统能够精确高效地处理各种问题。
4 启动Gradio用户界面
启动Gradio用户界面,使用户能够与智能体系统进行交互。Gradio为主智能体创建了一个简单易用的界面。该界面允许用户输入查询,并接收由推理和RAG工具生成的回复。这一步将后端功能与可视化界面连接起来,使系统对用户来说可访问且具有交互性。
# app.py
from primary_agent import get_primary_agent
from smolagents import GradioUI
# 从primary_agent.py获取主智能体
primary_agent = get_primary_agent()
# 启动界面的主函数
def main():
GradioUI(primary_agent).launch()
if __name__ == "__main__":
main()
运行:
$ python app.py
* 正在本地URL运行:http://127.0.0.1:7860
5 工作原理
- 用户输入:用户在Gradio界面提交问题,开启交互流程。
- Qwen决策:作为主智能体的Qwen迅速判断,简单问题直接作答;复杂问题则调用RAG工具。
- RAG工具运作:RAG工具从ChromaDB检索相关上下文,将分析任务委托给DeepSeek-R1。
- 生成回复:DeepSeek-R1生成见解,Qwen将其整合,给出最终回复。
6 改进方向
- 回退逻辑:当DeepSeek-R1置信度低时,自动触发网络搜索,补充信息。
- 多跳查询:智能体可迭代优化查询,提升复杂问题处理能力。
- LangGraph集成:构建复杂工作流程,实现高效状态管理。
7 架构优势与展望
本系统由Qwen和DeepSeek-R1协同工作,Qwen保障速度,DeepSeek-R1提供深度。这种架构带来了明显优势:
- 效率:DeepSeek-R1仅处理复杂查询,资源利用高效。
- 灵活性:可轻松更换模型,如采用Llama-3作为主模型。
- 可扩展性:便于添加网络搜索、计算器等工具。
智能体时代已经来临,快基于此架构,构建更多创新应用吧!
本文转载自 AI科技论谈,作者: AI科技论谈
