鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

大模型部署解决方案之TorchServe+vLLM

发布于 2024-11-12 09:29

浏览

0收藏

TorchServe 是PyTorch 中将模型部署到生产环境的一个解决方案。它用HTTP 或HTTPS API 封装模型，可以处理多种任务，包括为部署模型分配workers、负责客户端和服务器之间通信等。

10月份发布的TorchServe 0.12 增加了对GenAI的支持，简化了大语言模型的部署，增加了对主流模型引擎的内置支持，如 vLLM 和 TRT-LLM。

vLLM 引擎是目前执行LLM的最佳方式之一，TorchServe为vLLM部署到生产环境中提供了必要的一些功能，比如自定义metric、模型版本控制等。并且TorchServe能够通过灵活的自定义处理程序设计，集成RAG等功能或者Llama Guard（Meta发布的大模型，集成了多种安全检测技术，能够在模型处理输入之前，对潜在的风险进行预判和拦截，从而保护模型免受恶意输入的侵害。）等保护措施。所以集成了vLLM的TorchServe可以创建用于生产环境的LLM服务。

大模型部署解决方案之TorchServe+vLLM-AI.x社区

TorchServe还引入了一种异步模式，用以提高硬件利用率。它将传入的请求直接转发到后端，供vLLM使用，而不是之前的同步模式，需要等待预定义的时间或者有足够的请求时才传到后端。这样vLLM可以自主决定何时处理哪些请求，有助于优化资源分配，实现高效的负载管理。并且在流式模式下，一旦生成首个token，结果可以立即返回并持续输出，减少用户的等待时间。

大模型部署解决方案之TorchServe+vLLM-AI.x社区

目前TorchServe实现了单节点多GPU的分布式推理，未来计划实现多节点推理，并提供预构建的Docker image以简化部署过程。

参考链接：https://pytorch.org/blog/deploying-llms-torchserve-vllm/

本文转载自公众号AI时代窗口作者：郁愈

原文链接：https://mp.weixin.qq.com/s/sdw2YVmMHuM4m_9GHIjEEA

标签

赞

收藏

回复

举报

回复

相关推荐

玩转大模型！用Replicate一键部署

开发者阿橙 • 2946浏览 • 0回复
仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

轻薄滴假象 • 1242浏览 • 0回复
斯坦福学者提出sim2real解决方案TRANSIC: 通过在线纠正学习进行模拟到真实政策转移

AIGC最前线 • 2296浏览 • 0回复
RAG技术性能提升之文档分块策略方案

AIGC观察者 • 2768浏览 • 0回复
你想在本地部署大模型吗？本地部署大模型的三种工具

AI探索时代 • 2368浏览 • 0回复
打造智能私有知识库：开源工具AnythingLLM全解析及实操指南，RAG企业级解决方案

AIGC观察者 • 4989浏览 • 1回复
RAG 开发四大痛点及解决方案

玄姐聊AGI • 1058浏览 • 0回复
从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

xuxiangda • 1543浏览 • 0回复
NL2SQL：基于LLM的解决方案是最好的吗？

大语言模型论文跟踪 • 2389浏览 • 0回复
大模型开发之算子

AI探索时代 • 3514浏览 • 0回复
微软：RAG并不是你唯一的解决方案！

PaperAgent • 1042浏览 • 0回复
Text2SQL 新一代解决方案Tool-SQL，基于LLM和Agent智能体实现，效果提升显著

水晶花雨_32 • 1282浏览 • 0回复
大模型部署调用(vLLM+LangChain)

一起AI技术 • 1138浏览 • 0回复
怎么解决大模型知识库的检索问题，RAG检索增强之ReRank(重新排序)

AI探索时代 • 656浏览 • 0回复
大模型之深入探索RAG流程

一起AI技术 • 578浏览 • 0回复
LLM合集：微软开源新一代视频token化方法VidTok，打造高性能视频Token化解决方案

AIPaperDaily • 542浏览 • 0回复
LLM解决时间序列问题之语言模型+时序模型的对齐与融合建模

海因斯DK • 532浏览 • 0回复
一文读懂Agent的治理难题与解决方案 | 4000份AI数据集大揭秘：训练数据的来源、版权与地域差异

sbf_2000 • 493浏览 • 0回复
TAG：定义自然语言查询的高效解决方案

51CTO内容精选 • 757浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

大模型训练集群的存储设计 2024-10-30 15:22:37发布
不依赖CUDA的大模型推理已经实现 2024-09-25 10:41:08发布

热门推荐

DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来 0回复

寻找乐子人｜ “多语言、精准定位”上海导游智能体搭建方案 2回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度 0回复

大模型厂商视角的AI Agent综述，Anthropic图文并茂多个案例教你构建有效智能体 0回复

上一篇：大模型训练集群的存储设计

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载