提升人工智能性能的三种关键的LLM压缩策略-51CTO.COM

译者 | 布加迪

审校 | 重楼

在当今快节奏的数字环境中，依赖人工智能的企业面临着新的挑战：运行人工智能模型的延迟、内存使用和计算能力成本。随着人工智能快速发展，幕后推动这些创新的模型变得越来越复杂、资源密集。虽然这些大模型在处理各种任务中取得了出色的性能，但它们通常伴随着很高的计算和内存需求。

对于威胁检测、欺诈检测、生物识别登机等实时人工智能应用，提供快速、准确的结果变得至关重要。企业加快实施人工智能的真正动机不仅在于节省基础设施和计算成本，还在于实现更高的运营效率、缩短响应时间以及提供无缝的用户体验，而这一切可以转换为实实在在的业务成果，比如提高客户满意度和减少等待时间。

面对这些挑战，我们想到了两种解决方案，但它们并非没有缺点。一种解决方案是训练较小的模型，牺牲准确性和高性能，以换取速度。另一种解决方案是购置更好的硬件（比如GPU），可以以低延迟运行复杂的高性能人工智能模型。然而，由于GPU远远供不应求，第二种解决方案会迅速抬高成本。它也无法满足人工智能模型需要在智能手机等边缘设备上运行的使用场景。

这时候模型压缩技术闪亮登场：这种方法旨在减少人工智能模型的大小以及对计算的需求，同时保持模型性能。我们在本文中将探讨一些模型压缩策略，帮助开发人员在资源极其受限的环境中部署人工智能模型。

模型压缩起到怎样的帮助？

机器学习模型应该加以压缩有几个原因。首先，较大的模型通常提供更好的准确性，但需要大量的计算资源来运行预测。许多最先进的模型既计算开销大又内存密集，比如大语言模型和深度神经网络。由于这些模型部署在实时应用领域中，比如推荐引擎或威胁检测系统，它们对高性能GPU或云基础设施的需求抬高了成本。

其次，某些应用环境的延迟需求增加了费用。许多人工智能应用依赖实时或低延迟的预测，这势必需要功能强大的硬件来保持较低的响应时间。预测工作量越大，持续运行这些模型的成本就越高。

此外，在面向消费者的服务中，大量的推理请求可能会使成本飙升。比如说，部署在机场、银行或零售等场所的解决方案将涉及每天大量的推理请求，每个请求都消耗计算资源。这种操作负载需要认真细致的延迟和成本管理，以确保扩展人工智能不会耗尽资源。

然而，模型压缩不仅仅是成本问题。较小的模型消耗较少的能量，这意味着移动设备的电池寿命更长，数据中心的功耗也更低。这不仅降低了运营成本，而且通过降低碳排放量，使人工智能发展与环境可持续发展目标保持一致。通过克服这些挑战，模型压缩技术为更加实用、具有成本效益、可广泛部署的人工智能解决方案铺平了道路。

主流的模型压缩技术

经过压缩的模型可以更快速、更高效地执行预测，从而支持各种实时应用，增强各个领域（从机场加快安检过程到实时身份验证）的用户体验。以下是一些常用的压缩人工智能模型的技术。

•模型修剪

模型修剪是一种通过去除对模型输出影响不大的参数来减小神经网络大小的技术。通过消除冗余或不重要的权重，模型的计算复杂性有所降低，从而缩短了推理时间，并降低了内存使用量。结果是模型更精简了，但依然性能良好，仅需更少的资源来运行。对于企业来说，模型修剪尤其大有助益，因为它可以在不严重牺牲准确性的情况下减少进行预测的时间和成本。经过修剪的模型可以重新训练，以恢复任何丢失的准确性。模型修剪可以以迭代方式进行，直至达到所需的模型性能、大小和速度。迭代式修剪之类的技术有助于在保持性能的同时有效地减小模型大小。

•模型量化

量化是优化机器学习模型的另一种有效方法。它降低了用于表示模型参数和计算的数字的精度，通常是从32位浮点数降低到8位整数。这大大减少了模型的内存占用量，并通过使其能够在功能较弱的硬件上运行来加快推理速度。内存和速度的提升可以高达4倍。在计算资源受限的环境中，比如边缘设备或移动电话，模型量化让企业可以更高效地部署模型。量化还削减了运行人工智能服务的能耗，从而降低了云计算或硬件成本。

通常，量化是在经过训练的人工智能模型上完成的，并使用校准数据集来最大限度地减少性能损失。在性能损失仍然超出可接受范围的情况下，量化感知训练之类的技术可以允许模型在学习过程中适应这种压缩，从而帮助保持准确性。此外，可以在模型修剪后运用模型量化，在保持性能的同时进一步改善延迟。

•知识精炼

这种技术是指训练一个较小的模型（学生）来模仿一个更大、更复杂的模型（教师）的行为。这个过程通常包括使用原始训练数据和教师的软输出（概率分布）来训练学生模型。这不仅有助于将最终决策转型小模型，还有助于将大模型的细微“推理”转移到小模型。

学生模型通过专注于数据的关键方面来学习接近教师模型的性能，从而产生一个轻量级模型，它保留了原始模型的大部分准确性，但计算需求低得多。对于企业来说，知识精炼或蒸馏便于部署更小巧、更快速的模型，以极低的推理成本提供类似的结果。它在速度和效率至关重要的实时应用环境中尤其具有价值。

学生模型可以通过运用修剪和量化技术进一步加以压缩，从而得到一个极其轻盈又快速的模型，其性能与更大的复杂模型相仿。

结语

随着企业力求扩大其人工智能业务运营，实施实时人工智能解决方案成为一个关键问题。像模型修剪、量化和知识精炼这样的技术通过优化模型以进行更快速、更便宜的预测，又不对性能造成重大损失，为克服这一挑战提供了实用的解决方案。如果采用这些策略，企业就可以减少对昂贵硬件的依赖，针对众多服务更广泛地部署模型，并确保人工智能仍然是企业运营中经济上可行的一部分。在运营效率事关企业创新能力的情况下，优化机器学习推理不仅仅是一种选项，更是一种必要。

原文标题：Here are 3 critical LLM compression strategies to supercharge AI performance，作者：Chinmay Jog