ChatGPT热潮下的冷思考：2025年AI能耗或超人类，AI计算需要提质增效-51CTO.COM

经过多年的开发，OpenAI公司推出的DALL-E和GPT-3生成式AI系统风靡全球，目前凸显了其惊人的应用潜力。然而，这种生成式AI爆发式增长存在一个问题：每当DALL-E创建一张图像或GPT-3预测出现下一个的单词时，就需要进行多次推断计算，因此占用大量的资源，并耗费更多的电力。当前的GPU和CPU架构不能有效地运行以满足迫在眉睫的计算需求，这为超大规模数据中心运营商带来巨大的挑战。

调研机构预测，数据中心成为了全球最大的能源消费者，占总用电量的比例将从2017年的3%上升到2025年的4.5%。以中国为例，2030年全国运营的数据中心用电量预计将超过4000亿度，占全国总用电量的4%。

云计算供应商也认识到他们的数据中心使用了大量电力，并采取了提高效率的方法措施，例如在北极建设和运营数据中心，以利用可再生能源和自然冷却条件。不过，这还不足以满足AI应用爆炸式增长的需求。

美国劳伦斯伯克利国家实验室在研究中发现，在过去20年，数据中心效率的提高一直在控制能耗的增长，但研究表明，现在的能效措施可能不足以满足未来数据中心的需求，因此需要采用更好的方法。

数据传输是致命瓶颈

效率的根源在于GPU和CPU的工作方式，特别是在运行AI推理模型与训练模型的时候。很多人了解“超越摩尔定律”以及在更大尺寸的芯片上封装更多晶体管的物理限制。更先进的芯片正在帮助解决这些挑战，但目前的解决方案在AI推理方面有一个关键弱点：在随机访问内存中传输数据的速度显著降低。

传统上，分离处理器和存储芯片成本更低，多年来，处理器时钟速度一直是计算机性能的关键限制因素。如今，阻碍发展的是芯片之间的互连。

美国国家标准与技术研究院（NIST）研究人员的Jeff Shainline解释说：“当内存和处理器分离时，连接两个域的通信链路就成为了系统的主要瓶颈。”美国橡树岭国家实验室研究人员Jack Dongarra教授简洁地说:“当我们审视当今计算机的性能时，发现数据传输是致命的瓶颈。”

AI推理vs.AI训练

与使用AI模型进行预测相比，AI系统在训练AI模型时使用不同类型的计算。AI训练在一个基于Transformer的模型中加载数以万计的图像或文本样本作为参考，然后开始处理。GPU中的数千个内核非常有效地处理大量丰富的数据集，例如图像或视频，如果需要更快地得到结果，可以租用更多的基于云计算的GPU。

虽然AI推理需要更少的能量来进行计算，但在数亿用户的自动补全中，需要大量的计算和预测来决定下一个单词是什么，这比长期的训练要耗费更多的能量。

比如，Facebook的AI系统每天在其数据中心观察到数万亿次推断，在过去三年，这一数字增加了一倍多。研究发现，在大型语言模型（LLM）上运行语言翻译推理所消耗的能量是初始训练的两到三倍。

需求激增考验计算效率

ChatGPT在去年年底风靡全球，GPT-4也更加令人印象深刻。如果能采用更节能的方法，就可以将AI推理扩展到更广泛的设备上，并创造出新的计算方式。

例如，微软的Hybrid Loop旨在构建动态利用云计算和边缘设备的AI体验，这允许开发人员在Azure云平台、本地客户端计算机或移动设备上运行AI推理时做出后期绑定决策，以最大限度提高效率。Facebook引入了AutoScale来帮助用户在运行时有效地决定在哪里计算推断。

为提高效率，需要克服阻碍AI发展的障碍，并找到行之有效的方法。

采样和流水线可以通过减少处理的数据量来加快深度学习。SALIENT(用于采样、切片和数据移动)是由麻省理工学院和IBM公司的研究人员开发的用于解决关键瓶颈一种新方法。这种方法可以显著地降低在包含1亿个节点和10亿条边的大型数据集上运行神经网络的需求。但它也影响了准确性和精确性——这对于选择下一个要显示的社交帖子来说是可以接受的，但如果试图近实时地识别工地上的不安全条件则不符合要求。

苹果、英伟达、英特尔和AMD等科技公司已经宣布将专用AI引擎集成到处理器中，AWS甚至正在开发新的Inferentia 2处理器。但这些解决方案仍然使用传统的冯·诺依曼处理器架构、集成SRAM和外部DRAM存储器——这些都需要更多电力来将数据移进和移出存储器。

内存内计算或成为解决之道

此外，研究人员已经发现了另一种打破“内存墙”的方法，那就是让计算更接近内存。

内存墙指的是限制数据进出内存速度的物理屏障，这是传统架构的一个基本限制。内存内计算（IMC）通过直接在内存模块中运行AI矩阵计算来解决这一挑战，避免了通过内存总线发送数据的开销。

IMC适用于AI推理，因为它涉及一个相对静态但很大的权重数据集，可以反复访问。虽然总是需要输入和输出一些数据，但是AI通过将数据保存在相同的物理单元中，可以有效地使用和重复用于多个计算，从而消除了大部分的能量传输费用和数据移动的延迟。

这种方法提高了可扩展性，因为它可以很好地用于芯片设计。通过采用新芯片，AI推断技术可以在开发人员的电脑上进行测试，然后通过数据中心部署到生产环境。数据中心可以使用一组带有许多芯片处理器的大型设备来有效地运行企业级AI模型。

随着时间的推移，预计IMC将成为AI推理用例的主导架构。当用户处理大量的数据集和数万亿次的计算时，这是非常有意义的。因为不必浪费更多资源在内存墙之间传输数据，而且这种方法可以轻松扩展以满足长期需求。

小结：

AI产业现在正处于一个令人兴奋的转折点。生成式AI、图像识别和数据分析的技术进步揭示了机器学习独特的联系和用途，但首先需要建立一个能够满足这一需求的技术解决方案。因为根据Gartner的预测，除非目前能提供更可持续的选择，否则到2025年，AI消耗的能源将超过人类活动所消耗的能源。在这种情况发生之前，需要想出更好的办法！