鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验原创

发布于 2024-10-24 14:51

浏览

0收藏

训练大型语言模型以及微调的教程比比皆是，但关于在生产环境中部署它们并监控其活动的资料相对稀缺。上章节提到了未来云原生的AI是趋势，然而涉及到云原生会比较偏技术。而在此之前为了解决大模型部署量产的问题，社区也一直在探索，目前已有不少工具可用于这个领域。

另一方面，选择正确的推理后端为大型语言模型（LLMs）提供服务至关重要。不同的后端提供不同的服务LLMs方式，每种方式都有独特的功能和优化技术。它不仅确保了最佳的用户体验和最快的生成速度，而且还通过高Token生成率和资源利用率提高了成本效益。

在介绍往vLLM和TGI之后，恰好BentoML工程团队在BentoCloud上对Llama 3使用vLLM、LMDeploy、MLC-LLM、TensorRT-LLM和Hugging Face TGI的服务性能进行全面的基准测试。这里所有推理后端都遵循Apache 2.0 许可证。

1.实验背景

BentoML 工程团队在BentoCloud上对Llama 3使用vLLM、LMDeploy、MLC-LLM、TensorRT-LLM和Hugging Face TGI的服务性能进行全面的基准测试。这里使用两个关键指标进行评估：

TTFT：测量从发送请求到生成第一个令牌的时间，以毫秒为单位记录。TTFT对于需要即时反馈的应用程序非常重要。更低的延迟可提高感知性能和用户满意度。<注意，这个过程为解码过程！>
TGR：评估模型在解码过程中每秒生成的Token，以每秒令牌数为单位。Token生成率是模型处理高负载能力的指标。高的数值表明该模型可以有效地管理多个请求并快速生成响应，适用于高并发环境。

本次实验是在BentoCloud上单个A100 80GB GPU实例上使用Llama 3 8B和70B的4位量化<忘记量化的请查看链接！>模型进行了基准测试，涉及三个级别的推理负载（10、50 和 100 个并发用户）。

vLLM: 0.4.2
MLC-LLM: mlc-llm-nightly-cu121 0.1.dev1251 (No stable release yet)
LMDeploy: 0.4.0
TensorRT-LLM: 0.9.0 (with Triton v24.04)
TGI: 2.0.4

2.指标解读

解读之前，小编温馨提醒，实验的结果仅供参考。毕竟这个实验是在特定的场景下实验。若配合其他的优化手段，结果可能大不一样，但是还是可以管中窥豹。先来看看Llama-3-8B的情况：

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验-AI.x社区

上面的指标TTFT数值是越低越好，而下面的指标TGR数值是越高越好

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验-AI.x社区

LMDeploy：在Token生成率方面提供最佳解码性能，100个用户每秒最多可处理4000 个Token。在10个用户中实现了一流的TTFT。尽管TTFT随着用户的增加而逐渐增加，但它的延时还是在可接受的范围。

MLC-LLM：解码性能略低，100个用户每秒约3500个令牌。然而随着时间的推进，TGR从运行基准测试5分钟后降低到每秒3100个Token。

vLLM：一流的 TTFT。但与LMDeploy和MLC-LLM相比，解码性能不太理想，每秒2300-2500个令牌类似于 TGI 和 TRT-LLM。

后面来看看Llama-3-70B 4位量化的情况：

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验-AI.x社区

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验-AI.x社区

LMDeploy：在为 100 个用户提供服务时，提供高达 700 个Token的生成率，同时在所有级别的并发用户中保持最低的TTFT。

TensorRT-LLM：在Token生成率方面表现出与LMDeploy相似的性能，并在低并发用户数量下保持低 TTFT。但是当并发用户数达到100 时，TTFT下滑厉害。

vLLM：始终表现出较低的TTFT，类似于在8B模型中观测到的。与 LMDeploy和TensorRT-LLM相比，Token生成率较低。

3.对比表格

下面对比表格从量化、模型和支持的硬件将物种大模型的服务端（运行大模型，对外提供服务）进行对比，其实也给读者提供决策的依据。在选择部署大模型的时候，可以先针对量化情况，基座模型支持度以及手头的硬件综合选择后端的服务，配合云原生进行产线部署。

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验-AI.x社区

当然除此之外还是要考虑这些服务是否有稳定版本，模型编译情况还有就是文档齐备性。

本文转载自鲁班模锤，作者：庞德公

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

已于2024-11-4 11:16:03修改

赞

收藏

回复

举报

回复

相关推荐

LLM超长上下文查询-性能评估实战

ermulong • 3263浏览 • 0回复
MLC-LLM: 具有ML编译的通用LLM部署引擎

AIGC最前线 • 5578浏览 • 0回复
LLM超长上下文查询-性能评估实战

ermulong • 3170浏览 • 0回复
EMNLP 2023 | LLM工业界快速落地之PromptMix: 一种有效的混合数据增强策略将LLM能力迁移到小模型

arnoldzhw • 3109浏览 • 0回复
编码大模型系列：Meta创新的“代码编译优化”的LLM

鲁班模锤1 • 4242浏览 • 0回复
LLM基础模型系列：Fine-Tuning总览

鲁班模锤1 • 5544浏览 • 0回复
LLM基础模型系列：Prompt-Tuning

探索AGI • 3465浏览 • 0回复
TensorRT模型推理加速实践

zhcs333 • 4570浏览 • 0回复
为什么最新的LLM使用混合专家(MoE)架构

51CTO内容精选 • 3678浏览 • 0回复
AI架构系列：去其形而留其意

鲁班模锤1 • 2382浏览 • 0回复
LLM基础模型系列：深入注意力机制

鲁班模锤1 • 3347浏览 • 0回复
一种将RAG、KG、VS、TF结合增强领域LLM性能的框架

PaperAgent • 3140浏览 • 0回复
LLM实践系列-详谈Tokenizer训练细节

NLP工作站 • 3643浏览 • 0回复
提升人工智能性能的三种关键的LLM压缩策略

51CTO内容精选 • 2351浏览 • 0回复
LLM实践系列-细聊LLM的拒绝采样

NLP工作站 • 3194浏览 • 0回复
DHelix：跨 Micro-Batch 的通信隐藏，SOTA LLM 训练性能

amei2000go • 3696浏览 • 0回复
VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？

AI论文解读 • 2.4w浏览 • 0回复
AI架构系列：picoLLM 大模型的量化魔术师

鲁班模锤1 • 1473浏览 • 0回复
1200行代码实现高效LLM推理，DeepSeek nano-vLLM的极简之道

Halo咯咯 • 794浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

ALPHAONE：从快到慢，还是从慢到快 9天前发布
Meta AI发布革命性V-JEPA 2 2025-06-15 23:41:42发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇：一文读懂OpenGVLab带来的最新视觉预训练框架

下一篇：多模态大模型：基础架构

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载