英伟达预告新版 TensorRT-LLM:推理能力飙升 5 倍、8GB 以上显卡可本地运行,支持 OpenAI 的 Chat API

人工智能
英伟达在今天 Ignite 2023 大会上,宣布更新 TensorRT-LLM,添加 OpenAI 的 Chat API 支持,并增强 DirectML 功能,改善 Llama 2 和 Stable Diffusion 等 AI 模型的性能。

11 月 16 日消息,微软 Ignite 2023 大会已于今天拉开帷幕,英伟达高管出席本次大会并宣布更新 TensorRT-LLM,添加了对 OpenAI Chat API 的支持

IT之家今年 10 月报道,英伟达面向数据中心和 Windows PC,推出 Tensor RT-LLM 开源库。最大的特点是,如果 Windows PC 配备英伟达 GeForce RTX GPU,TensorRT-LLM 可以让 LLM 在 Windows PC 上的运行速度提高四倍。

英伟达在今天 Ignite 2023 大会上,宣布更新 TensorRT-LLM,添加 OpenAI 的 Chat API 支持,并增强 DirectML 功能,改善 Llama 2 和 Stable Diffusion 等 AI 模型的性能。

TensorRT-LLM 可以通过英伟达的 AI Workbench 在本地完成,开发者可以使用这个统一、易用的工具包,在 PC 或工作站上快速创建、测试和定制预训练的生成式 AI 模型和 LLM。英伟达还为此推出了抢先体验注册页面。

英伟达将于本月晚些时候发布 TensorRT-LLM 0.6.0 版本更新,推理性能提高 5 倍,并支持 Mistral 7B 和 Nemotron-3 8B 等其它主流 LLM。

用户可以在 8GB 显存以上的  GeForce RTX 30 系列和 40 系列 GPU 上运行,一些便携式 Windows 设备也能使用快速、准确的本地 LLM 功能。

责任编辑:庞桂玉 来源: IT之家
相关推荐

2023-09-10 12:37:38

模型英伟达

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-02-04 00:00:00

Triton格式TensorRT

2024-10-22 09:17:07

2023-02-15 07:50:40

英伟达显卡RTX

2023-03-22 13:53:26

芯片英伟达

2024-10-21 10:20:00

训练模型

2024-07-29 08:19:00

服务引擎

2024-02-05 13:09:00

AI数据

2018-08-16 11:09:03

SSDTLCQLC

2023-09-11 09:37:58

开源软件套AI模型

2023-10-06 13:22:50

自动驾驶技术

2022-09-21 18:41:15

英伟达显卡

2024-08-28 13:34:13

2015-08-07 09:34:44

AMDLinux

2024-05-09 09:29:31

3D模型自动驾驶

2024-03-12 10:05:47

大型语言模型

2022-04-22 15:20:16

AI显卡芯片

2012-03-16 16:22:55

笔记本评测

2023-10-18 07:59:05

人工智能大语言模型
点赞
收藏

51CTO技术栈公众号