是什么造就了一个模型
对于外行来说,可能很难想象AI和支撑编程的算法如何承担如此广泛的环境或经济负担。ML的简要概述将分两个阶段描述这一过程。
首先是训练模型开发智能,并在某些类别中标记信息。例如,电子商务运营可能会将其产品和客户习惯的图像提供给模型,以允许它进一步询问这些数据点。
第二个是识别或推理,模型将使用存储的信息来理解新数据。例如,电子商务企业将能够将产品分类为类型、大小、价格、颜色和一系列其他细分,同时向客户提供个性化的推荐。
推理阶段是两个阶段中计算密集度较低的阶段,但一旦大规模部署,例如在Siri或Alexa等平台上部署,累积的计算可能会消耗大量电力,从而增加成本和碳排放。
也许推理和培训之间最刺耳的区别是用于支持它的资金。推论与销售成本有关,因此影响底线,而培训通常与研发支出有关,研发支出与实际产品或服务的预算是分开的。
因此,推理需要专门的硬件来优化成本和功耗效率,以支持可行、可扩展的业务模式-这是一种使业务利益和环境利益保持一致的解决方案,令人耳目一新。
隐性成本
第二代AI的领头羊ChatGPT是一个巨大的推理成本的鲜明例子,每天高达数百万美元(这甚至不包括它的培训成本)。
OpenAI最近发布的GPT-4的计算资源消耗估计是前一次迭代的三倍——传言在16个专家模型上运行1.8万亿个参数,据称运行在128个GPU集群上,它将吞噬过多的能量。
提示的长度加剧了高计算需求,提示需要大量能量来为响应提供支持。GPT-4的上下文长度从8000跃升到32000,这增加了推理成本,降低了GPU的效率。一成不变地,扩大AI规模的能力仅限于财力最雄厚的最大公司,而那些没有必要资源的公司无法获得,这使得它们无法利用这项技术的好处。
人工智能的力量
AIGC和大型语言模型可能会对环境造成严重影响。所需的计算能力和能源消耗导致了大量的碳排放。关于一次AI查询的碳足迹的数据有限,但一些分析师建议,它比搜索引擎查询的碳足迹高四到五倍。
一项估计将ChatGPT的用电量与17.5万人的用电量进行了比较。早在2019年,麻省理工学院发布的一项研究表明,通过训练一个大型AI模型,二氧化碳的排放量为62.6万磅,几乎是普通汽车终身排放量的五倍。
尽管有一些令人信服的研究和断言,但在AI及其碳排放方面缺乏具体数据是一个主要问题,如果我们要推动变革,就需要纠正这一问题。托管新一代AI模型的企业和数据中心也必须积极应对环境影响。通过优先考虑更节能的计算架构和可持续实践,业务要务可以与限制气候退化的支持努力保持一致。
计算机的局限性
CPU是计算机的组成部分,负责执行指令和数学运算——它每秒可以处理数百万条指令,直到不久前,它还一直是推理的首选硬件。
最近,出现了从CPU到运行繁重的深度学习处理的转变,使用连接到CPU的配套芯片作为卸载引擎-也称为深度学习加速器(DLA)。出现问题的原因是托管那些DLA的CPU试图处理进出推理服务器的大量吞吐量数据移动,以及向DLA提供输入数据的数据处理任务以及关于DLA输出数据的数据处理任务。
再一次,作为一个串行处理组件,CPU正在造成一个瓶颈,它根本不能像保持这些DLA忙碌所需的那样有效地执行。
当一家公司依靠CPU来管理深度学习模型中的推理时,无论DLA有多强大,CPU都会达到最佳阈值,然后开始在重量下弯曲。想一想,一辆车只能以发动机允许的速度行驶:如果一辆较小的车的发动机被一辆跑车的发动机取代,较小的车将与较强的发动机发挥的速度和加速能力脱节。
CPU主导的AI推理系统也是如此——一般是DLA,更具体地说是GPU,它们以惊人的速度行驶,每秒完成数万个推理任务,在有限的CPU减少其输入和输出的情况下,无法实现它们所能实现的功能。
对系统范围解决方案的需求
正如NVIDIA首席执行官Jensen Huang所说:“AI需要对计算进行一次彻底的改造。从芯片到系统。”
随着AI应用程序和专用硬件加速器(如GPU或TPU)的指数级增长,我们需要将注意力转向这些加速器周围的系统,并构建系统范围的解决方案,以支持利用这些DLA所需的数据处理的数量和速度。我们需要能够处理大规模AI应用的解决方案,以及以更低的成本和能源投入完成无缝模型迁移的解决方案。
替代以CPU为中心的AI推理服务器势在必行,以提供高效、可扩展且在财务上可行的解决方案,以维持企业对AI不断增长的需求,同时解决AI使用增长带来的环境连锁反应。
使AI民主化
目前,行业领先者提出了许多解决方案,同时降低了其成本。关注绿色能源为AI提供动力可能是一条途径;另一条途径可能是在一天中可再生能源可用的特定时间点对计算过程进行计时。
有一种观点认为,数据中心的AI驱动的能源管理系统将节省成本,并改善运营的环境凭证。除了这些策略,AI最有价值的投资之一在于硬件。这是其所有处理的支柱,并承担着能量消耗计算的重量。
一个能够以更低的财务和能源成本支持所有处理的硬件平台或AI推理服务器芯片将是变革性的。这将是我们实现AI民主化的方式,因为较小的公司可以利用不依赖大企业资源的AI模式。
ChatGPT查询机每天需要数百万美元才能运行,而另一种以低得多的功率和数量的GPU运行的片上服务器解决方案将节省资源,并减轻世界能源系统的负担,导致具有成本意识和环保的第二代AI,并可供所有人使用。