鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

AI大模型本地化方案：Xinference 本地运行大模型

发布于 2025-3-19 00:13

889浏览

0收藏

一、Xinference简介

Xorbits Inference（Xinference）是一个开源的分布式推理框架，专为大规模模型推理任务设计。它支持大语言模型（LLM）、多模态模型、语音识别模型等多种模型的推理，极大简化了这些模型的部署过程。

二、Xinference Docker部署

在部署Xinference时，选择使用Docker容器可以带来许多便利。首先，需要拉取Xinference的Docker镜像文件，但请注意，该镜像文件较大，约为17.7GB，拉取过程可能需要较长时间。拉取命令如下：

AI大模型本地化方案：Xinference 本地运行大模型-AI.x社区

拉取完成后，可以创建一个目录用于存放Xinference的缓存文件和日志文件，以便更好地管理数据。

AI大模型本地化方案：Xinference 本地运行大模型-AI.x社区

接下来，启动Xinference Docker容器。默认情况下，镜像中不包含任何模型文件，但会在容器内下载所需模型。如果已有下载好的模型，可以通过挂载宿主机目录到容器内来使用这些模型。同时，需要配置一些环境变量来指定模型下载源和存储目录。

AI大模型本地化方案：Xinference 本地运行大模型-AI.x社区

三、Xinference本地运行大模型

容器启动后，可以通过访问公网地址加上9997端口来启动大模型。例如，启动qwen2-instruct模型，并使用Xinference自带的图形化聊天界面进行测试。

此外，还可以测试其他类型的大模型，如图片生成模型和多模态模型。启动这些模型时，需要注意GPU资源的需求，并根据实际情况选择合适的GPU配置。

四、Xinference启动嵌入和重排模型

Xinference支持启动嵌入和重排模型，这些模型在后续的处理中可能会被其他系统或应用调用。例如，可以启动bge-m3嵌入模型和bge-reranker-v2-m3重排模型，并为后续调用做好准备。

AI大模型本地化方案：Xinference 本地运行大模型-AI.x社区

请注意，Xinference目前无法同时运行多个大模型（如语言模型、图片模型、语音模型），但可以同时启动多个嵌入模型和重排模型。

本文转载自军哥说AI，作者：军哥说AI

标签

赞

收藏

回复

举报

回复

相关推荐

在全面“本地化”前，所有AI PC都是“伪AI PC”？

liutao988 • 1753浏览 • 0回复
五个简单好用的本地运行大模型的方法

51CTO技术栈 • 4670浏览 • 0回复
爆火的本地知识库项目是什么？什么是RAG？本地知识库与大模型的关系

AI探索时代 • 3722浏览 • 0回复
AI技术新前沿本地LLM模型推理训练加速

AIGC观察者 • 2433浏览 • 0回复
你想在本地部署大模型吗？本地部署大模型的三种工具

AI探索时代 • 4123浏览 • 0回复
爆火的本地知识库项目是什么？什么是RAG？本地知识库与大模型的关系

AI探索时代 • 2211浏览 • 0回复
Ollama，本地运行大模型最强工具，轻松上手

小虎哦哦 • 8328浏览 • 0回复
微软提出LLM-dCache:GTP驱动本地数据缓存优化的大模型

AI论文解读 • 1720浏览 • 0回复
如何借助Cortex运行本地LLM

51CTO内容精选 • 1256浏览 • 0回复
使用Llama 3.2-Vision大模型，搭建本地Ollama OCR应用

AI科技论谈 • 5992浏览 • 0回复
本地部署Qwen2.5-Coder大模型，打造你的专属编程助手

AI科技论谈 • 4144浏览 • 0回复
大模型压缩后可在24GB显存GPU上本地运行！！

老蛀虫 • 1868浏览 • 0回复
如何在安卓手机上本地安装和运行LLM?

51CTO内容精选 • 6303浏览 • 0回复
Hugging Face 发布免费开放课程，微调本地LLMs模型

Halo咯咯 • 1365浏览 • 0回复
在趋动云上使用xinference部署大模型

一起AI技术 • 1274浏览 • 0回复
Deepseek AI模型本地部署步骤简记：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms • 1771浏览 • 0回复
4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！

玄姐聊AGI • 4740浏览 • 0回复
Deepseek AI模型本地部署步骤简记：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 • 1034浏览 • 0回复
通过LM Studio本地私有化部署DeepSeek-R1模型，无网络也能用

与辉鸿蒙 • 2596浏览 • 0回复

LV.2

这个用户很懒，还没有个人简介

13

帖子

122

声望

0

粉丝

关注

最近发布

当Qwen2.5-Omni遇见老师：教育创新的N种可能 1天前发布
教师版DeepSeek指令大全，实用指南 2025-03-07 10:34:47发布

热门推荐

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇：教师版DeepSeek指令大全，实用指南

下一篇：当Qwen2.5-Omni遇见老师：教育创新的N种可能

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载