AI技术的快速发展让几乎所有企业都加大了对IT领域的投资,但这些投资的方向到底正确吗?由于运营效率方面的问题,很多企业在推理阶段就已经浪费了大量资源,导致AI项目投资回报率下降,甚至进一步妨碍了未来的AI战略。但其实,这些被浪费的资源本可用于创新、实验和新项目的推进。
只要选择更具战略性的基础设施,AI推理成本最多可降低86%!本文将以Stable Diffusion为案例,告诉大家如何通过优化基础设施来显著提升AI性能并降低成本。
延伸阅读,点击链接了解 Akamai Cloud Computing
AI推理的挑战:成本 vs. 目标
尽管早期AI技术关注的是大规模模型训练,但现实情况是:超过80%的计算需求来自推理任务。企业面临着兑现AI承诺的压力,但盲目跟风投资往往导致严重成本超支。推理过程中,又该如何在追求目标的同时保持高效?
为此需要权衡成本与预期结果,例如低延迟、快速推理、高准确率,甚至可持续性等各种目标。这就必须在AI模型生命周期内进行精细规划、优化和持续监测。
案例研究:Stable Diffusion在GPU上的推理优化
作为一个强大的图像生成模型,Stable Diffusion推理优化涉及多个因素,包括CPU、RAM、GPU、VRAM、磁盘I/O和网络性能。全面测试和强大的监测工具是发现并解决瓶颈的关键。
基准测试设置
本次我们所进行的基准测试,在推荐的Amazon云实例和Akamai Cloud类似规格的虚拟机环境中运行了Stable Diffusion XL,并对比了两者的性能。测试中生成的图像尺寸为512×512像素。测量的三个关键指标包括:
- 延迟——衡量从提交提示词到返回图像的时间,该指标会直接影响用户体验。
- 吞吐量——衡量在一定时间内可生成的图像数量。
- 迭代速度——反映单次迭代的执行时间。更高的迭代次数可生成更精细的图像,但也需要更多计算资源。
我们测试了如下的三个实例:
注意:实际价格会因部署的所在区域而异。本次测试是在2024年9月进行的,并在2024年12月进行了验证。
测试结果
延迟
在Akamai RTX4000实例上运行Stable Diffusion XL,延迟相比AWS A10g实例降低15.0%,相比AWS T4实例降低62.8%。
图1:延迟(越低越好)
吞吐量
在Akamai RTX4000实例上运行Stable Diffusion XL,吞吐量相比AWS A10g实例提升29.4%,相比AWS T4实例提升314.3%。
图2:吞吐量(越高越好)
迭代速度
Akamai RTX4000在迭代速度上同样表现优越,相比AWS A10g提升10.9%,相比AWS T4提升167.7%。
图3:迭代速度(越高越好)
成本
在Akamai RTX4000实例上运行Stable Diffusion XL,每百万张图像的成本比AWS A10g低58.4% - 75.5%,比AWS T4低76.9% - 86.4%。尽管AWS T4实例的月租成本较低,但其性能不足以抵消整体成本劣势。
图4:成本(实际价格会因部署的所在区域而异)
结论:选择适合的基础设施,这很重要
本案例研究表明,基础设施的选择会对AI性能和成本产生重大影响。Akamai RTX4000在推理任务上提供了更低的延迟、更高的吞吐量和更低的成本,使企业能够:
- 优化项目:让利于客户,通过增加迭代次数改善图像质量,或开发新功能。
- 促进创新:节省的资金可支持企业内部的新项目和实验。
除了基础设施优化,还可以通过以下方法进一步提高推理效率:
- 模型优化:量化(Quantization)、知识蒸馏(Knowledge Distillation)、稀疏化(Sparsification)等技术可减少模型大小和复杂性,从而降低计算成本。
- 持续监测与分析:监控资源利用率,发现瓶颈,优化资源分配。
- 自动化扩展与负载均衡:根据需求动态调整计算资源,提高整体效率。
整个优化过程需要结合AI应用的具体目标,找到成本、性能和质量之间的最佳平衡点。
AI技术有着巨大的潜力,但要充分释放其价值,需要战略性和充分考虑了成本意识的投资决策。企业领导者必须避免盲目跟风,通过优化推理过程,以数据驱动的方式最大化AI的投资回报率,加速创新,实现业务目标。
—————————————————————————————————————————————————
如您所在的企业也在考虑采购云服务或进行云迁移,
点击链接了解Akamai Linode的解决方案