领跑未来，我们需要怎样的AI Infra？-51CTO.COM

作者 | 云昭

25个月，这对于一门新技术的成熟度周期而言，只是刚刚开始。然而对于大模型而言，过去25个月的进度却异常凶猛。

一方面，模型的能力得到了快速持续的进化。伴随2024年底OpenAI o3模型的发布，大模型的多项能力攀至新的高点，除了自然语言的生成，更是在数学和编程能力做到了媲美甚至超过了人类的硕士和博士的水平；另一方面，以多模态模型、复杂推理模型、AI开发工具的关键AI研究方向，也取得了重大进展，极大地拓展了生成式AI的应用场景和想象力。

而在用户侧，从过去一年金融、医疗、教育、游戏、文娱、社交、电商等领域AI的发展来看，用户接受和使用生成式AI功能的习惯正在逐渐形成。

模型能力的进化，用户使用AI场景的增多，无疑将促成AI Killer App的到来。微软CEO纳德拉甚至抛出了衡量未来国家或企业的增长决定公式：

任何国家或企业的成长效率将取决于“每瓦特、每美元对应的 Token 数量”。未来两年、五年甚至十年，我们会看到这种公式与 GDP 增长直接相关。

可以预见，接下来的十年里，企业中每一度电、每一块钱、每一分钟，所能生成的AI推理的token数量，将成为一家公司在AI时代成长速度的关键指标。

那么，新的增长机会已至，公司的IT基础设施准备好了吗？显然并没有。

一、未来十年，我们需要一个全新的AI Infra

AI应用时代，大规模AI推理场景背后带来了一系列全新的技术挑战，这都是我们需要重新思考的。除了更先进的模型，除了旺盛的模型推理需求，我们应该需要一个全新的AI Infra！

1.要打造领先对手的AI产品和服务体验，在原有IT设施上做AI缝补匠是行不通的

大模型时代，AI原生应用与之前web时代的App有着很大不同。除了需要频繁与大模型进行交互，还出现了一些新的特点。尤其在流量爆发时，原有架构的支撑能力更是捉襟见肘。那么，传统IT架构在AI时代如何进化？目前还没有一个很好的理念。

一些业内AI应用开发者一开始选择继续沿用现有的IT能力，结果都十分“惨烈”，因为一遇到流量高峰，系统就出现宕机情况。而为了解决宕机问题，做法也十分简单粗暴：在推理层继续加GPU卡、加算力。

可以说，这种“头痛医头”、“哪里不够补充哪里”的做法治标不治本，本身就很不AI Native，而且会浪费大量计算资源，降低产品的投入产出比。

因此，要打造领先对手的AI产品和服务体验，在原有IT设施上做AI缝补匠是行不通的。

我们需要意识到：“以CPU为中心”的架构在支撑AI原生应用方面存在着很多棘手的挑战，而且随着时间的累积/应用规模的爆发，问题会越来越严重。所以，只有真正从深层次上重新思考：用“以GPU为中心”的角度去重塑原有的基础设施，才有可能从根本上为打造极致的AI产品和服务体验，消除后顾之忧。

近日，作为“AI云原生”理念的提出者，火山引擎提出了一种“以GPU为核心、面向大规模推理”的云架构。该架构以GPU为核心重新优化计算、存储与网络架构，使得GPU可以直接访问存储和数据库，较以前的方案，读写的吞吐提升10倍，IO延迟降低为原来的1/50，同时提供了大规模的高速互联和端到端的安全保护。

划重点，这种新架构的不同之处，就在于从AI原生应用的角度出发进行深度创新，不仅实现了应用背后大模型所需算力资源的高效利用与调度，同时还考虑到了应用在复杂场景下模型所需各种上下游的配套服务。

2.大模型时代，拥有面向大规模AI推理的基础设施将成为企业实现突围的重中之重

正如前文所说，下一个十年，随着Agent时代的开启，以高频大模型推理为主要场景的大体量、强性能的AI应用将是未来产品的主流形态。据IDC报告，未来5年，国内的大模型训练和推理将分别以超过50%和190%的年复合增速发展，同时在2028年，推理算力将会超过训练算力。

因此在企业中引入适配大规模AI推理场景的基础设施，将成为AI应用爆发时代赢得先机的技术筹码，进而通过技术优势进一步转化为产品优势，带来新一轮的业务增长，实现大模型语境下的业绩突围。

那么，面向大规模的AI推理场景，一款AI应用不只是满足用户多轮对话、长文本推理那么简单，还有重重技术挑战需要攻克。比如在数据流动方面，高时延、大带宽是感受最为明显的两个难点。

由于数据需要绕行GPU而导致南北向时延过高，尤其在文生图和多模态的场景下，响应时间则更长，少则几十、上百秒，多则分钟级别的响应；又由于AI应用的系统返回的内容比较多，带宽量需求会更大。如果按照传统的方式，在服务端计算完后，再把结果返回给客户端，网络的拥塞就会非常大，东西向的带宽则很难保证。

再比如网络方面，业务潮汐波动大，网关开始承载着AI应用时代前所未有的带宽、时延、安全等要求，如何进行智能分流，也是一个值得关注的问题。

对于这些挑战，火山引擎在支撑字节跳动内外部高日活使用的过程中，打磨设计出了一系列的技术创新和方案：比如推出了支持内存零拷贝的GDKV的方案，数据无须经过CPU；再比如能够感知GPU和模型负载的AI网关等。

3.大规模AI应用的行业know-how储备，是不容忽视的关键要素

基于大模型构建的AI应用是一个新兴的领域。随着AI应用规模急速增长，企业对AI算力的规模化、质量、成本以及大模型工具链的复合型能力都提出了远高于以往的要求。因此，不管是基础设施、工程、算法层面，还是在产品打磨、流量生态层面，都将极为考验行业know-how的储备。

好的经验和架构不可复制，但可以借鉴。众所周知，字节跳动在大规模AI应用方面是名副其实的领航者。近两年，字节跳动豆包有着市场领先的用户规模和日活数据，而火山引擎作为技术底座，也在这一过程中储备了十足创新的软硬实力，不管是工程、技术层面，还是服务产品、生态的能力，都已经崭露头角。

可以预见，面向未来对AI Infra做出深度的理念和技术创新，抓住时机在推理侧抢先布局，同时储备足够的大规模AI应用行业Know-how，将会是下一个十年，企业在AI应用时代获得领先地位的有力保证。

二、大规模AI应用时代已来

在大规模AI应用迎来寒武纪爆发之际，各行业中已经出现了提前卡位的玩家。美图秀秀就是采用新一代AI Infra的提前批的一员。

近年来，美图积极投身AIGC产品的研发潮，在各类热门产品中融入自研AI大模型，在文生图、图生图、AI视频处理等多个应用场景中取得显著成果。

随着美图的终端用户对于AI功能访问需求越来越大，推理任务的数量和复杂性大幅增加，对高性能计算资源的需求也随之上升，同时访问也呈现出较大的波动性。在高性能计算资源成本控制、弹性扩展能力建设以及存储访问性能提升等方面，美图都面临着相当棘手的挑战。

美图通过与火山引擎合作，这些问题都得到了有效的解决。算力成本控制方面，美图从火山引擎获得了多类型高性能计算资源，并能够根据不同推理场景选择合适的服务资源，依托火山引擎虚拟化技术，提高算力使用效率，有效降低整体计算成本；应对访问波动性方面，美图依靠火山引擎容器服务VKE在短时间快速部署大量节点的能力，构建起及时应对流量洪峰的技术保障，同时依靠其强大的资源池实现了推理服务的高度弹性和可扩展性；存储访问方面，美图选择火山引擎的vePFS缓存服务，在数据读取场景下拥有更高且更稳定的访问带宽，确保了前端在大流量服务下的存储访问性能的严格要求。

通过这一系列的合作举措，美图不仅增强了其产品的竞争力，还为其用户带来了更加稳定和高效的服务体验。

同样，在新兴热门的端到端自动驾驶领域，构建面向未来的“以GPU为中心”的新一代AI Infra，也成为了智驾企业寻求突破同质化地带的技术驱动力。四维图新近期通过与火山引擎合作，借助火山引擎提供的高性能GPU集群、弹性调度、高性能存储、合规云、一键故障检测等方案，以及在自动驾驶领域积累的丰富的行业经验，四维图新快速抓住了窗口期，快速进入了智能驾驶的第一梯队。

未来已来。不难预料，在接下来的十年里，位列AI TOP应用榜上的玩家，会在提前布局AI Infra的一批企业中诞生。