DeepSeek R1与Qwen大模型,构建Agentic RAG全攻略

发布于 2025-2-17 07:56
浏览
0收藏

最近,AI社区被 DeepSeek-R1 “刷屏” 了!作为一款极具变革意义的开源推理大语言模型(LLM),大家讨论最多的是它的基础能力,却鲜有人关注其在智能体工作流程中的巨大潜力,也就是多个模型动态协作的应用场景。

今天,就带大家实操搭建一个智能体检索增强生成(RAG,Retrieval-Augmented Generation)系统。这个系统整合了:

  • DeepSeek-R1(70亿参数蒸馏版):用于复杂推理,系统的 “智慧大脑”。。
  • 阿里云Qwen2.5(70亿参数):主打快速对话交互,让用户交流体验更流畅。
  • 轻量级智能体框架:协调前两者,保障系统高效运转。

完成搭建后,Qwen 会处理常规交互,复杂查询则交给R1。接下来动手试试!

1 设置环境

1.1 设置虚拟环境并安装依赖项

python3 -m venv .envs/agentic-ai
source .envs/agentic-ai/bin/activate
mkdir agentic-ai 
cd agentic-ai

pip install langchain langchain-huggingface langchain-community pypdf langchain_chroma
pip install chromadb smolagents python-dotenv gradio sentence-transformers
pip 'install smolagents[openai]'

1.2 配置Ollama

DeepSeek的第一代推理模型性能可与OpenAI-o1媲美,其中包括基于Llama和Qwen从DeepSeek-R1蒸馏得到的6个密集模型。

Qwen 2.5模型在阿里巴巴最新的大规模数据集上进行预训练,该数据集包含多达18万亿个标记。该模型支持多达12.8万个标记,并具备多语言能力。

下载模型:

ollama pull deepseek-r1:7b  
ollama pull qwen2.5:7b-instruct

增加上下文窗口:

Ollama默认的2048个标记不够用。创建自定义模型文件​​deepseek-r1-7b-8k.Modelfile​​​和​​qwen2.5-7b-instruct-8k.Modelfile​​:

$ cat deepseek-r1-7b-8k.Modelfile 
FROM deepseek-r1:7b 
PARAMETER num_ctx 8192

$ cat qwen2.5-7b-instruct-8k.Modelfile
FROM qwen2.5:7b-instruct  
PARAMETER num_ctx 8192

ollama create deepseek-r1-7b-8k -f ./deepseek-r1-7b-8k.Modelfile
ollama create qwen2.5:7b-instruct-8k -f ./qwen2.5-7b-instruct-8k.Modelfile

2 创建知识库

2.1 添加文档

将PDF文件放在​​data/​​​目录下,这些文件将构成知识库的基础。使用LangChain的​​DirectoryLoader​​​加载PDF文件,并使用​​RecursiveCharacterTextSplitter​​将其拆分为较小的块,以便进行高效的索引和检索。这样能确保内容以结构化方式处理,更便于查询和管理。

from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
import os
import shutil

def load_and_process_pdfs(data_dir: str):
    """从目录加载PDF并拆分为块。"""
    loader = DirectoryLoader(
        data_dir,
        glob="**/*.pdf",
        loader_cls=PyPDFLoader
    )
    documents = loader.load()

    # 将文档拆分为块
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len,
    )
    chunks = text_splitter.split_documents(documents)
    return chunks

2.2 将块存储在向量存储(Chroma)中

将PDF处理并拆分为块后,存储在Chroma向量存储中,以便基于语义相似性进行高效的搜索和检索。初始化并配置ChromaDB,然后使用Hugging Face Embeddings将每个块转换为向量表示,从而实现相关信息的准确快速检索。

def create_vector_store(chunks, persist_dir: str):
    """创建并持久化Chroma向量存储。"""
    # 如果存在现有向量存储,则删除
    if os.path.exists(persist_dir):
        print(f"正在从 {persist_dir} 删除现有向量存储")
        shutil.rmtree(persist_dir)

    # 初始化HuggingFace嵌入
    embedding_model = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-mpnet-base-v2",
        model_kwargs={'device': 'cpu'}
    )

    # 构建并持久化新的Chroma向量存储
    print("正在构建并保存新的向量存储...")
    vector_db = Chroma.from_documents(
        documents=chunks,
        embedding=embedding_model,
        persist_directory=persist_dir
    )
    return vector_db

2.3 完成知识库创建

块已在ChromaDB中建立索引并存储后,知识库就可以进行查询了。运行最后一个代码块,加载并处理PDF文件,创建向量存储,并基于语义相似性实现相关上下文的高效检索。

def main():
    # 定义输入数据和向量数据库的路径
    input_data_dir = os.path.join(os.path.dirname(__file__), "data")
    vector_db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")

    # 加载PDF并拆分为较小的块
    print("开始处理PDF...")
    document_chunks = load_and_process_pdfs(input_data_dir)
    print(f"从PDF生成了 {len(document_chunks)} 个文档块")

    # 构建并存储向量数据库
    print("正在构建向量存储...")
    vector_db = create_vector_store(document_chunks, vector_db_dir)
    print(f"向量存储已成功创建并保存到 {vector_db_dir}")

if __name__ == "__main__":
    main()

运行:

$ python ingest_pdfs.py  
开始处理PDF...
从PDF生成了312个文档块
正在构建向量存储...
向量存储已成功创建并保存到./agentic-ai/chroma_db
$ ls chroma_db 
chroma.sqlite3                       d4c48cab-0467-4ca8-ad42-bafa5eb83040
$

3 构建智能体系统

3.1 定义推理模型(DeepSeek-R1)

在智能体系统里,推理模型是 “心脏”。DeepSeek-R1 作为强大的推理模型,能够处理复杂查询。它可解析自然语言,结合知识库给出连贯且切题的回答,还能理解文档并提取关键知识。将 DeepSeek-R1 和知识库融合,系统便能依据向量数据库内容解决问题、回应查询以及推理。

推理时,DeepSeek-R1 支持多步迭代,不断优化回复,直至得到满意答案,或达到预设的​​max_steps​​限制,以此确保推理准确又高效,推动智能体系统稳定运行。

# reasoning_model.py
from smolagents import OpenAIServerModel, CodeAgent
import os

# 定义本地模型名称
reasoning_model_id = "deepseek-r1-7b-8k"# 使用DeepSeek进行推理

def get_model(model_id):
    """返回一个Ollama模型。"""
    return OpenAIServerModel(
        model_id=model_id,
        api_base="http://localhost:11434/v1",  # Ollama API端点
        api_key="ollama"
    )

# 使用DeepSeek创建推理模型
reasoning_model = get_model(reasoning_model_id)

# 创建推理智能体
reasoner = CodeAgent(tools=[], model=reasoning_model, add_base_tools=False, max_steps=2)

3.2 创建RAG工具

这一步创建RAG(检索增强生成)工具,该工具结合信息检索和推理来回答用户查询。该工具利用向量数据库(Chroma)通过嵌入存储和检索相关文档。当用户提出问题时,该工具会从数据库中搜索最相关的3个文档。然后,这些文档将作为上下文,促使推理模型(DeepSeek-R1)生成相关且简洁的答案。

这种方法通过将文档检索与推理相结合,提高了系统提供准确、有上下文感知答案的能力,适用于复杂或定义不明确的查询。

# rag_tool.py
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from reasoning_model import reasoner  # 从reasoning_model.py导入reasoner
import os

# 初始化向量存储和嵌入
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2",
    model_kwargs={'device': 'cpu'}
)

# 向量数据库目录
db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")

# 初始化向量存储
vectordb = Chroma(persist_directory=db_dir, embedding_function=embeddings)


def rag_with_reasoner(user_query: str) -> str:
    """
    在向量数据库中搜索相关上下文,并使用推理模型生成回复。

    参数:
        user_query:用户的问题。
    """
    # 检索相关文档
    docs = vectordb.similarity_search(user_query, k=3)
    context = "\n\n".join(doc.page_content for doc in docs)

    # 为推理模型创建提示
    prompt = f"""根据以下上下文,简洁地回答用户的问题。
    如果信息不足,请为RAG提出更好的查询建议。

上下文:
{context}

问题:{user_query}

答案:"""

    # 使用reasoner(DeepSeek-R1)生成回复
    response = reasoner.run(prompt, reset=False)
    return response

3.3 配置主智能体(Qwen)

主智能体(Qwen)是系统与用户交互和处理查询的主要接口。主智能体使用Qwen模型(Qwen-2.5:7b)来解释用户输入,并调用适当的工具生成回复。

# primary_agent.py
from smolagents import OpenAIServerModel, ToolCallingAgent
from rag_tool import rag_with_reasoner  # 从rag_tool.py导入工具函数
import os

def get_model(model_id):
    """返回一个Ollama模型。"""
    return OpenAIServerModel(
        model_id=model_id,
        api_base="http://localhost:11434/v1",  # Ollama API端点
        api_key="ollama"
    )

# 加载工具模型(Qwen-2.5:7b)
primary_model = get_model("qwen2.5:7b-instruct-8k")

# 使用Qwen创建主智能体以生成工具回复
primary_agent = ToolCallingAgent(tools=[rag_with_reasoner], model=primary_model, add_base_tools=False, max_steps=3)

# 导出智能体以供应用程序使用
def get_primary_agent():
    return primary_agent

主智能体使用​​ToolCallingAgent​​​类构建,该类使模型能够利用特定工具,在本案例中即​​rag_with_reasoner​​工具。该工具从向量数据库中检索相关文档,并将其传递给推理模型(DeepSeek-R1)以生成回复。智能体配置为最多进行3步推理,确保它根据提供的上下文迭代并完善答案。

这种设置确保主智能体能够利用RAG过程,为用户查询提供智能且上下文相关的回复,同时控制推理循环的次数。它使系统能够精确高效地处理各种问题。

4 启动Gradio用户界面

启动Gradio用户界面,使用户能够与智能体系统进行交互。Gradio为主智能体创建了一个简单易用的界面。该界面允许用户输入查询,并接收由推理和RAG工具生成的回复。这一步将后端功能与可视化界面连接起来,使系统对用户来说可访问且具有交互性。

# app.py
from primary_agent import get_primary_agent
from smolagents import GradioUI

# 从primary_agent.py获取主智能体
primary_agent = get_primary_agent()

# 启动界面的主函数
def main():
    GradioUI(primary_agent).launch()

if __name__ == "__main__":
    main()

运行:

$ python app.py                                                                                                  
* 正在本地URL运行:http://127.0.0.1:7860

5  工作原理

  1. 用户输入:用户在Gradio界面提交问题,开启交互流程。
  2. Qwen决策:作为主智能体的Qwen迅速判断,简单问题直接作答;复杂问题则调用RAG工具。
  3. RAG工具运作:RAG工具从ChromaDB检索相关上下文,将分析任务委托给DeepSeek-R1。
  4. 生成回复:DeepSeek-R1生成见解,Qwen将其整合,给出最终回复。

6 改进方向

  • 回退逻辑:当DeepSeek-R1置信度低时,自动触发网络搜索,补充信息。
  • 多跳查询:智能体可迭代优化查询,提升复杂问题处理能力。
  • LangGraph集成:构建复杂工作流程,实现高效状态管理。

7 架构优势与展望

本系统由Qwen和DeepSeek-R1协同工作,Qwen保障速度,DeepSeek-R1提供深度。这种架构带来了明显优势:

  • 效率:DeepSeek-R1仅处理复杂查询,资源利用高效。
  • 灵活性:可轻松更换模型,如采用Llama-3作为主模型。
  • 可扩展性:便于添加网络搜索、计算器等工具。

智能体时代已经来临,快基于此架构,构建更多创新应用吧!

本文转载自 AI科技论谈​,作者: AI科技论谈

收藏
回复
举报
回复
相关推荐