由于VMware与Nvidia之间的合作有了新篇章,即Project Monterey,企业现在可以在Nvidia vGPU上运行AI和机器学习工作负载等计算密集型应用程序,并使用VMware vSphere对其进行管理。
传统上来看,人工智能、深度学习(DL)和机器学习(ML)工作负载仅限于CPU,但是Nvidia虚拟计算服务器(vCS)使IT管理员可以将这些工作负载转移到GPU或虚拟GPU(vGPU),并通过vSphere管理这些工作负载。该策略旨在提高GPU利用率,加强安全性并简化管理。
Nvidia公司产品管理高级总监Raj Rao在名为《通过vSphere上的Nvidia vGPU运行ML和计算工作流的最佳做法》的会议上说:“AI、DL和 ML都是非常需要计算的工作量,并且需要大量的计算。一般的硬件不能满足这些要求。”
借助Project Monterey项目,VMware旨在最终简化vSphere环境中机器学习的开发和交付。目前,他们寻求借助vCS和vGPU来简单地加速这些环境的计算。
Nvidia GPU具有张量计算核心,可激活AI所需的大型矩阵运算。其GPU还具有先进的计算核心,可用于更多用途的多任务计算工作负载。这些GPU通常在所有流行的OEM服务器中可用;企业可以将它们部署在本地或云中。虚拟化GPU可从硬件GPU中提取功能、性能和可靠性。
研究和咨询公司Gartner的研究主管Paul Delory说:“这是面向虚拟化的硬件加速器的总体趋势的一部分,我们越来越多地将特殊功能转移到专用硬件。”
通过vSphere管理vGPU
借助通过vSphere管理vGPU的新功能,管理员可以启用多种工作负载,例如在同一主机上运行Windows和Linux VM。VMware客户越来越多地在边缘计算中使用vGPU,而5G GPU计算则是vSphere管理vGPU的新兴用例。
管理员还可以在vSphere中使用vGPU,以加速图形工作负载;编码和解码VMware Horizon工作负载;运行机器学习、深度学习和高性能计算工作负载;并开发增强现实或虚拟现实应用程序。
由vSphere管理的vGPU还可为启用vGPU的VM的vMotion等流程提高效率。管理员可以使用vSphere管理GPU和vGPU,然后以更加简化的方式使用这些GPU和vGPU管理vMotion工作负载。
VMware的高级工程师Uday Kurkure说:“机器学习训练或高性能计算工作可能需要几天的时间。
如果你要进行服务器维护,则需要停止作业并关闭服务器…再次启动服务器并重新启动作业。但是…其实你不必关闭作业并关闭服务器,你可以使用vMotion-将这些工作转移给另一台主机,从而节省了几天的时间。” 如果你要在vSphere上设置Nvidia vGPU,请在主机上安装Nvidia GPU。在运行于主机之上的管理程序上安装Nvidia vGPU Manager,以虚拟化基础GPU。然后,管理员可以运行多个具有相同操作系统(例如Windows或Linux)的VM,这些VM可以访问相同的虚拟GPU。然后,这些主机可以快速高效地运行高性能计算或机器学习工作负载。
vSphere和虚拟环境中的机器学习
通过vGPU,人们可以提供更有效的机器学习训练。管理员可以在数据中心中运行其他工作负载的同时,训练他们的机器学习应用程序,从而大大减少训练机器学习应用程序所需的时间。例如,根据Kurkure的说法,用于单词预测的复杂语言建模工作量最多可能需要56个小时来训练,而使用vGPU只需8个小时。与本地GPU相比,vGPU在训练时间方面仅为4%。但是,对于大多数企业而言,机器学习仍然处于起步阶段。
Delory说:“Project Monterey对于AI或ML工作负载的好处是使它们可以访问GPU。但是现在,你要么必须在所有主机上安装GPU(这很昂贵),要么将硬件专用于AI或ML工作负载-这既复杂又昂贵。”