毋庸置疑,生成式 AI已经成为驱动千行百业创新与发展的关键技术。在 AIGC的加持下,企业正在积极探索新的商业模式,提高生产效率,为用户带来更加优质的服务体验。为了推动大模型应用的发展,进一步加速生成式AI在千行百业的落地,NIVIDA 于近日正式推出了全新 NVIDIA AI Foundry 服务和 NVIDIA NIM™ 推理微服务,与同样刚推出的 Llama 3.1 系列开源模型一起,为全球企业的生成式 AI 提供强力支持。
作为 NVIDIA 提供的一项服务,NVIDIA AI Foundry 旨在帮助企业构建、优化和部署人工智能(AI)模型。这项服务是 NVIDIA 在推动 AI 创新和普及方面的一部分,它为企业提供了一系列工具和平台,以便更快速、更高效地开发和实施 AI 解决方案。
赋能企业利用 Llama 3.1 构建“超级模型”
刚刚发布不久的Llama 3.1系列大模型,性能有了很大的提升。根据官方数据显示,在150多个基准测试集中,405B版本的表现追平甚至超越了现有SOTA模型GPT-4o和Claude 3.5 Sonnet。作为支持开源AI的模型,Llama 3.1提供高级功能,并优化训练栈和推理能力,并支持开源和广泛生态合作。
马克·扎克伯格表示,除了拥有更高的性能和更高级功能之外,全新的 Llama 3.1 模型是开源 AI 迈出极其重要的一步。
我们知道,NVIDIA AI Foundry 是由 NVIDIA DGX™ Cloud AI 平台驱动。该平台由 NVIDIA 与全球公有云共同设计,旨在为企业提供大量计算资源,所提供的计算资源可随着 AI 需求的变化轻松扩展。此次发布会的NVIDIA AI Foundry,旨在提供对刚刚发布的Llama 3.1系列大模型提供更好地支持。
全新发布的 NVIDIA AI Foundry 提供了从数据策管、合成数据生成、微调、检索、防护到评估的全方位生成式 AI 模型服务,以便部署自定义 Llama 3.1 NVIDIA NIM 微服务和新的 NVIDIA NeMo Retriever 微服务,以实现准确响应。
借助 NVIDIA AI Foundry,企业和各国现在能够使用 Llama 3.1 以及 NVIDIA 软件、计算和专业知识,为其特定领域的行业用例创建自定义“超级模型”。企业可以使用自有数据以及由 Llama 3.1 405B 和 NVIDIA Nemotron™ Reward 模型生成的合成数据,来训练这些超级模型。
“Meta 的 Llama 3.1 开源模型标志着全球企业采用生成式 AI 的关键时刻已经到来。Llama 3.1 将掀起各个企业与行业创建先进生成式 AI 应用的浪潮。” NVIDIA 黄仁勋表示:NVIDIA AI Foundry 已经在整个过程中集成了 Llama 3.1,并能够帮助企业构建和部署自定义 Llama 超级模型。
马克·扎克伯格表示,借助 NVIDIA AI Foundry,企业可以轻松创建和定制大家想要的先进的 AI 服务,并通过 NVIDIA NIM 进行部署。
利用NVIDIA NIM 微服务为 RAG 提供检索准确性
NVIDIA NIM™推理微服务是 NVIDIA 提供的一种基于云的 AI 推理服务,旨在简化和加速企业在各种应用中部署 AI 模型的过程。NIM 推理微服务通过提供一个高效、可扩展和易于管理的平台,帮助企业实现 AI 模型的快速集成和部署。
全新的 NVIDIA NeMo Retriever NIM 推理微服务实现了检索增强生成(RAG),企业可以将自定义 Llama 超级模型和 Llama NIM 微服务部署到生产中,以提高响应准确性。此外,当与适用于 Llama 3.1 405B 的 NVIDIA NIM 推理微服务结合使用时,NeMo Retriever NIM 微服务可以为 RAG 工作流中的开放和商业文本问答带来极高的检索准确性。
借助 NVIDIA AI Foundry,企业能够使用 Llama 3.1 模型和 NVIDIA NeMo 平台上的 NVIDIA Nemotron-4 340B Reward 模型创建自定义模型。之后,企业就可以构建 NVIDIA NIM 推理微服务,以便在其选择的云平台和全球服务器制造商提供的 NVIDIA 认证系统™上,使用自己选择的机器学习运维(MLOps)和人工智能运维(AIOps)平台在生产中运行这些模型。
如果企业需要更多训练数据来创建特定领域的模型,可以在创建自定义 Llama 超级模型同时使用 Llama 3.1 405B 和 Nemotron-4 340B 生成合成数据,以提高模型的准确性。另外,拥有自己的训练数据的客户可以使用 NVIDIA NeMo 对 Llama 3.1 模型进行自定义,通过领域自适应预训练(DAPT)进一步提高模型的准确性。
为合作伙伴部署 Llama 提供强力支持
Llama 3.1 多语种大语言模型(LLM)集合是一个具有 8B、70B 和 405B 三种参数规模的生成式 AI 模型集合。该集合中的模型在超过 16,000 个 NVIDIA Tensor Core GPU 上训练而成,并针对 NVIDIA 加速计算和软件(无论是在数据中心、云以及配备 NVIDIA RTX™ GPU 的本地工作站或配备 GeForce RTX GPU 的 PC 上)进行了优化。
目前,医疗、能源、金融服务、零售、交通、电信等行业的企业已在使用适用于 Llama 的 NVIDIA NIM 微服务构建大模型。Aramco、AT&T 和优步则成为首批使用面向 Llama 3.1 全新 NIM 微服务的公司。
据了解,埃森哲内部 AI 应用一直在使用 NVIDIA NIM 推理微服务。现在,借助 NVIDIA AI Foundry,埃森哲能够帮助客户快速创建和部署自定义 Llama 3.1 模型,为他们的优先业务事项提供变革性的 AI 应用。
除此之外,数百家提供企业、数据和基础设施平台的 NVIDIA NIM 合作伙伴现在能够将这些新的微服务集成到其 AI 解决方案中,从而为 NVIDIA 社区 500 多万开发者和 1.9 万家初创公司的生成式 AI 提供超强助力。
目前,企业可以通过 NVIDIA AI Enterprise 获得 Llama 3.1 NIM 和 NeMo Retriever NIM 微服务的生产支持。NVIDIA 开发者计划会员将很快能够免费访问 NIM 微服务,以在他们选择的基础设施上进行研究、开发和测试。