如果你希望在数据中心部署AI,请仔细考虑首先要投资的硬件和基础设施。
AI涵盖一系列技术,例如机器学习和深度学习。并且AI包括广泛的业务应用,从可预测未来表现的分析,到推荐系统和图像识别。
随着越来越多的大型企业采用人工智能作为数字化转型工作的一部分,AI正在不断扩展和发展。请了解你的企业为何需要AI,这可以帮助你决定采用哪种基础架构来支持它。
配备GPU的服务器
为服务器配备GPU已成为AI最常见的基础架构方法之一。你可以使用GPU芯片的大规模并行架构来加速处理AI模型所涉及的批量浮点运算。
GPU也往往拥有广泛而成熟的软件生态系统。例如,Nvidia开发了CUDA工具包,让开发人员可以将GPU用于各种目的,包括深度学习和分析。然而,尽管GPU支持某些深度学习任务,但它们并不一定支持所有AI工作负载。
IDC公司分析师Jack Vernon说:“在AI和机器学习的背景下,有些模型不属于深度学习的类别,并且未被充分探索,因为GPU非常擅长神经网络类型的东西,但它不一定擅长某些有趣算法,以帮助人们做有趣的事情。”
在数据中心部署 AI 之前,你应该首先考虑为什么你要采用该技术,以确定GPU是否符合你的要求。然后,寻求专家建议以确定最适合你企业要求的模型类型,以了解你需要哪些其他基础架构。
其他硬件加速器
现场可编程门阵列 (FPGA) 本质上是塞满逻辑块的芯片,你可以根据需要对其进行配置和重新配置,以执行不同的功能。而ASIC在制造过程中将逻辑功能内置到芯片中。两者都可以加速硬件性能。对于拥有大量明确定义的工作负载的企业,ASIC更有意义,而FPGA需要更复杂的编程。
谷歌通过其Google Cloud Platform向客户提供其TPU,这是一种专为深度学习设计的ASIC。另外,Graphcore专门为AI工作负载设计了IPU,而Cambricon则提供围绕针对深度学习优化的指令集而设计的处理器芯片。英特尔收购的Habana Labs将可编程加速器作为单独的芯片,用于深度学习的训练和推理部分,分别称为Gaudi和Goya。
尽管GPU和类似类型的硬件加速器在AI方面备受关注,但CPU仍然与AI和机器学习的很多领域相关。例如,英特尔为其服务器CPU添加了功能,以帮助加速AI工作负载。最新的Xeon Scalable系列采用Intel Deep Learning Boost,它具有新的指令来加速推理中涉及的计算类型。这意味着这些CPU可以在不需要额外硬件的情况下加速某些AI工作负载。
针对AI的存储
在支持AI的基础设施方面,企业不应忽视存储。训练机器学习模型需要大量的样本数据,并且系统必须尽可能快地接收数据以保持性能。
Vernon称:“存储是非常大的事情,训练过程本身通常涉及反馈循环。因此,你需要在一个阶段中保存模型,在此之上运行一些处理,更新它,然后不断地调用它。大多数正在构建培训和推理基础设施的企业通常很快就会需要大量额外的存储。”
对于具有HPC基础设施的企业,通常已经拥有快速闪存存储层–以更大容量层为后端。对于大多数企业而言,这意味着以尽可能低的延迟部署NVMe SSD,并以成本较低的存储为后盾来提供容量。
专用AI系统
有些专门系统为AI工作负载提供更高的性能。Nvidia的DGX服务器是基于其GPU,其架构经过优化以保持这些GPU获取数据。存储供应商还与Nvidia合作,提供经过验证的参考架构,将高性能存储阵列与Nvidia DGX系统配对。例如,DDN优化其Accelerated, Any-Scale AI产品组合,针对用于训练AI模型的所有类型的访问模式和数据布局,并且,NetAp和Pure Storage等供应商提供类似的存储架构。
英特尔提供其OpenVINO工具包作为推理引擎,旨在优化和运行预训练模型。它具有插件架构,使其能够在一系列硬件(例如 CPU、GPU、FPGA 或三者的混合)上执行模型,从而为企业提供更大的部署灵活性。
你还可以选择在云端构建和训练你的AI模型,使用按需资源,当训练完成,就可以停止使用。