2025 AI Infra展望:重塑基础设施的四大关键趋势
AI的第二波浪潮:推理与优化预训练模型
在AI应用的首波浪潮中,早期的探索者专注于开发与训练基础模型,为变革性的AI能力奠定了基石。然而,2025年的焦点将发生转移。我们正步入AI应用的第二波浪潮,推理与微调预训练模型将成为核心所在。企业将愈发倾向于将现有模型作为可定制的工具加以利用,而非投入大量时间与资源从零开始构建新模型。
这一趋势源自企业加速AI ROI的务实考量。预训练模型本质上属于可定制的模板,能够使企业以最小的努力将其调整至特定的应用场景。重点将聚焦于快速高效地将海量原始数据转化为可执行的洞察。针对特定领域的微调(如医疗、金融、零售等行业)将使企业更快地挖掘价值,并在大规模上推动业务成果的实现。
对于IT领导者而言,这意味着需要重新审视AI战略。AI基础设施的重点将从支持模型训练转向优化推理工作负载的基础设施。高性能、可扩展的系统,能够以低延迟处理这些AI流水线,将成为成功的关键所在。
能源即货币:以能量密度重新界定AI经济
随着AI重塑各行各业,能源已成为这一新时代的核心“货币”。训练与运行AI工作负载需要巨大的计算能力,而这又转化为庞大的能源需求。然而,全球AI数据中心的激增已超越了现有的能源供应,这为众多企业带来了关键的瓶颈。
2025年,能源效率将成为AI经济的决定性要素。能够最大化数据中心能源效率,并选择秉持可持续发展理念的云服务提供商的企业,将能够在减轻AI对电网压力的同时,实现更高的AI产出。这将推动以下领域的投资:
- 高效能硬件设计:优化能效比的硬件将变得至关重要。高效能GPU、DPU与CPU将成为AI操作的必备之选。
- 创新冷却解决方案:液冷与浸没式冷却等新兴技术将助力在保持高性能的同时,减少能耗。
- 可再生能源的整合:企业将应用可再生能源,并探索碳信用等策略,以抵消AI操作对环境的影响。
能源效率不仅是成本控制的问题,更是竞争优势的体现。那些能够高效扩展AI工作负载,并最大程度减少能源使用的企业,将在能源日益紧张的世界中占据领先地位。
迎接E级计算:未来的数据基础设施建设
E级计算(Exascale Computing)——每秒至少进行100亿亿次计算(即1 exaflop)——曾被视为难以企及的目标。然而,在2025年,这将成为现实。我们已亲历了这一转变:2024年初,我们尚未拥有任何E级计算的客户,而如今,我们以年末拥有多位客户,其中一家企业管理的数据规模已接近10EB。
尽管E级计算目前尚未普及至所有企业,但2025年将是越来越多的企业将其纳入考量的一年。步入这一未知领域的企业将面临独特的挑战,包括管理庞大的数据集,以及确保基础设施的可扩展性与可靠性。
对于IT领导者而言,为迎接E级计算时代做好准备,意味着需要在存储、计算与网络技术领域进行大胆投资。与深刻理解E级计算特性,并开发针对超大数据量和复杂性设计的解决方案的供应商建立合作关系,将是关键之举。
早期采用者的经验教训将为未来几年的广泛采用奠定坚实基础。那些勇于现在就迎接E级计算挑战的企业,将在未来数据驱动的经济中占据领先地位。
DPU的崛起:基础设施效率的变革性驱动力
2025年,DPU将成为IT基础设施的核心组件,标志着DPU发展的一个关键转折点。这些强大的处理器,例如NVIDIA的BlueField-3,旨在将网络、存储和安全等关键任务从CPU和GPU中卸载,从而使系统整体运行更为高效。
AI工作负载、云原生应用和分布式系统的迅猛增长推动了这一转变。企业为了满足对低延迟、高吞吐量的性能需求,亟需一种既能提升可扩展性又能降低能耗的解决方案,而DPU应运而生。
2025年DPU的重要性将愈发凸显,原因主要包括以下几点:
- 优化AI流水线:DPU通过处理外围任务,释放CPU和GPU资源,使其能够专注于核心的AI任务,从而确保效率最大化。
- 支撑分布式系统:随着企业部署的分布式应用日益增多,DPU提供了管理这些工作负载所需的卓越性能和可扩展性。
- 加固安全性:DPU为安全任务提供基于硬件的隔离和卸载功能,显著增强了系统的整体韧性。
对于IT领导者而言,2025年是整合DPU至基础设施中的关键一年。那些率先应用这项技术的企业,将在性能优化和能源利用方面获得显著的优势。
为2025年做好充分准备
随着这些趋势的不断演进,IT领导者需要积极主动地调整战略,以把握即将到来的机遇,并妥善应对挑战。以下是准备工作的几个关键领域:
- 优先强化AI推理能力:优化基础设施以更好地支持推理工作负载,确保能够高效利用预训练模型的价值。
- 投资于节能技术:评估数据中心的能源使用情况及其云战略,探索从创新冷却技术到可再生能源整合的多种方案,以最大化能源效率。
- 规划E级计算:即便E级计算尚未纳入企业的近期规划,也应着手为管理更大规模的数据集和扩展基础设施奠定坚实基础。
- 采用DPU执行关键任务:尝试利用DPU卸载任务,以提高AI和云原生应用的运行效率。
通过聚焦这些关键领域,企业将能够在瞬息万变的IT环境中占据有利地位,充分利用2025年的各种机遇。
结语
预测未来总是想象力与洞察力的精妙结合,尽管并非所有预测都会如期实现,但2025年的趋势已逐渐明朗。AI应用的第二波浪潮以推理为核心、能源效率成为竞争优势、E级计算的崛起以及DPU的广泛采用,这些不仅是预测,更是已经加速推进的发展轨迹。
我们致力于通过前沿的解决方案帮助企业妥善应对这些变革。我们拥有面向未来的技术进步,包括云原生架构、支持E级计算的数据平台,以及对DPU和GPU等下一代硬件的全面支持,确保企业在保持高性能和效率的同时,实现无缝扩展。紧跟这些趋势将助力企业充分释放IT投资的潜力,在日益变化、以AI为核心的世界中蓬勃发展。
----------
参考资料:Ben David, Shimon. "Shaping the AI Future: WEKA’s Top IT Predictions for 2025." WEKA, December 20, 2024. Accessed January 23, 2025. https://www.weka.io/blog/ai-ml/shaping-the-ai-future-wekas-top-it-predictions-for-2025.
本文转载自 Andy730,作者: 常华Andy