如何利用 DeepSeek-R1 本地部署强大的推理模型:从 ChatGPT 风格界面到 API 集成

人工智能
通过 Ollama 和 DeepSeek-R1,你现在可以在本地使用 GPU 加速运行强大的 AI,体验 ChatGPT 风格的聊天界面,并且通过标准的 API 将 AI 能力集成到你的应用中——这一切都在离线状态下进行,确保了隐私保护。

01、概述

随着开源推理模型如 DeepSeek-R1 的崛起,开发者可以在本地运行强大的 AI,而不再依赖于云服务。这一技术的出现引发了不小的网络热议,或许你也在好奇如何利用这一模型在本地搭建自己的 AI 系统。

本指南将带你了解两种关键的使用场景:

普通用户:创建一个 ChatGPT 风格的界面

开发者:通过 API 集成模型到应用中

在开始之前,如果你有兴趣深入了解 DeepSeek-R1 的背景,以便更好地理解接下来的过程,可以参考我的文章《DeepSeek-R1 理论简介(适合初学者)》。

02、本地部署必备工具

1. 安装 Ollama

首先,我们需要安装 Ollama,这是一个可以帮助你在本地下载并托管 DeepSeek-R1 模型的工具。无论你是 macOS M 系列、Windows 还是 Linux 用户,都可以通过以下方式安装 Ollama:

macOS 或 Windows 用户:可以访问 Ollama 官方网站 下载并安装适合你系统的版本。

Linux 用户:使用命令行安装:

curl -fsSL https://ollama.com/install.sh | sh

这会安装模型运行工具,并自动启用 GPU 加速(Apple M 系列使用 Metal,NVIDIA 显卡使用 CUDA)。

简单来说,Ollama 是一个帮助你下载并本地运行 DeepSeek-R1 模型的工具,同时它也能让其他应用能够调用该模型。

2. 下载 DeepSeek-R1 模型

根据你的硬件配置选择适合的 DeepSeek-R1 版本。你可以在 DeepSeek-R1 模型库 中查看不同版本的模型。值得注意的是,模型有精简版和完整版之分,精简版的模型保留了原版模型的大部分功能,但体积更小,运行速度更快,对硬件的要求也较低。

大部分情况下,较大的模型通常更强大,但对于本地托管而言,我们建议选择一个适合你 GPU 性能的版本。幸运的是,DeepSeek-R1 提供了一个 compact 版本 DeepSeek-R1-Distill-Qwen-1.5B,它仅使用大约 1GB 的显存,甚至可以在 8GB 内存的 M1 MacBook Air 上运行。

安装命令如下:

ollama run deepseek-r1:1.5b # 平衡速度和质量(约 1.1GB VRAM)

03、场景 1:ChatGPT 风格的聊天界面

如果你想体验 DeepSeek-R1 模型,并通过一个 ChatGPT 风格的界面与其互动,可以利用 Open WebUI 来实现。这是一个用户友好的聊天界面,适用于本地托管的 Ollama 模型。

通过以下 Docker 命令,快速部署 Open WebUI:

docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data \\
--add-host=host.docker.internal:host-gateway --name open-webui ghcr.io/open-webui/open-webui:main

部署完成后,打开浏览器访问 http://localhost:3000,创建一个账户,并从模型下拉菜单中选择 deepseek-r1:1.5b。

使用本地部署的 LLM 进行聊天具有以下几个优势:

易于访问:你可以随时试验不同的开源模型。

离线聊天:无需互联网连接,你依然可以使用类似 ChatGPT 的服务来提高工作效率。

更高的隐私保护:因为聊天数据完全保存在本地,避免了敏感信息泄露的风险。

04、场景 2:开发者的 API 集成

如果你已经将 DeepSeek-R1 在本地托管,并且是开发者,你可以通过 Ollama 提供的 OpenAI 兼容 API 轻松集成模型到应用中。API 地址为 http://localhost:11434/v1。

使用 OpenAI Python 客户端进行集成:

from openai import OpenAI

# 配置客户端,使用 Ollama 本地服务器地址
client = OpenAI(
    base_url="http://localhost:11434/v1",  # Ollama 服务器地址
    api_key="no-api-key-needed",  # Ollama 不需要 API 密钥
)

使用 LangChain 集成:

from langchain_ollama import ChatOllama

# 配置 Ollama 客户端,使用本地服务器地址
llm = ChatOllama(
    base_url="http://localhost:11434",  # Ollama 服务器地址
    model="deepseek-r1:1.5b",  # 指定你在 Ollama 本地托管的模型
)

更多相关代码和设置可以参考 GitHub 上的项目:DeepSeek-R1 本地 API 集成指南。

05、总结

通过 Ollama 和 DeepSeek-R1,你现在可以在本地使用 GPU 加速运行强大的 AI,体验 ChatGPT 风格的聊天界面,并且通过标准的 API 将 AI 能力集成到你的应用中——这一切都在离线状态下进行,确保了隐私保护。

无论你是普通用户想要快速体验 AI 聊天功能,还是开发者希望将强大的语言模型融入自己的应用中,DeepSeek-R1 都是一个非常适合的选择。

通过本地部署,你不仅能够享受到更低的延迟和更高的性能,还能避免将敏感数据暴露在云端,极大提升了安全性和效率。

参考:

  1. https://ollama.com/library/deepseek-r1
  2. https://github.com/billpku/DeepSeek-R1-local-API-in-Action?source=post_page-----9efb6206fe18--------------------------------
责任编辑:庞桂玉 来源: AI.x社区
相关推荐

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-02-08 09:44:11

DeepSeekAI模型

2025-02-06 10:18:45

2025-01-21 11:53:53

2025-02-03 15:50:44

2025-02-12 12:45:59

2025-02-08 14:03:25

2024-09-24 11:01:03

2025-02-12 13:23:47

2025-02-03 14:17:27

2025-02-08 17:47:08

2025-02-11 08:35:30

2025-02-10 09:31:29

2025-02-03 06:00:00

2021-09-30 11:14:47

服务器Web浏览器

2025-02-08 11:44:03

2025-02-11 09:20:00

LLM模型AI

2025-01-21 09:36:51

点赞
收藏

51CTO技术栈公众号