如今的网络基础设施市场相较于过去几十年正变得更加活跃和有趣——而AI科技将推动其迈上新的高峰。
AI是数据的贪婪消费者,无论是在超大规模云端、为大语言模型(LLM)的运行提供支撑,还是在边缘由私有基础设施收集并安全地将数据传输至不同类型的目的地,乃至于多种多样的应用程序,总之市场对于网络连接的需求正在迅速增加。
AI技术的有趣之处在于,它不仅会为网络基础设施硬件与软件创造新的市场空间,而且还将凭借对数据的新兴需求而推动数据中心乃至企业等传统网络市场的发展。
所有这一切,都让几十年来习惯于市场相对静态的众多网络业务参与者莫名兴奋,并为新时代的需求做好了准备。自互联网泡沫时代以来,思科就一直主导着整个网络世界,估计在企业和数据中心网络市场占据着50%至60%的市场份额。这种缺乏竞争动力的情况也让市场变得异常沉闷。但近年来,这种情况开始发生变化,Arista Networks等竞争对手在超大规模云市场中把持着一定比例;瞻博网络与HPE的合并计划也带来转折,这对组合有望在网络领域占据第二的位置。随着瞻博网络回忆其AI网络发展路线图,其将成为HPE麾下更具战略意义的资产。与此同时,AI基础设施芯片领域的领导者英伟达也围绕AI优化构建起自己的完整网络技术栈,在超大规模模型的AI工作负载方面领先于现有网络供应商。
网络技术层面的创新也比比皆是。Arrcus和DriveNets等初创公司正在通过将硬件与云规模网络操作系统(NOS)相互剥离的方式进军AI领域。Hedgehog和Aviz Networks则选择利用开源云开放网络软件(SONiC)NOS以及Kubernetes等云工具。另外由于AI需要与更多数据建立更多连接,因此预计这波浪潮将推动多云网络的发展,其中包括Alkira、Aryaka、Aviatrix、Graphiant、Itential和Prosimo等热门初创公司。
这对市场来说无疑是件好事。网络买家拥有着比以往更多的选择,他们可以在多种方案之间灵活选择,包括AI基础设施领导者英伟达提供的完整网络技术栈、与思科及HPE/瞻博等知名厂商合作的最佳网络方案,还有各初创公司端出的创新解决方案大餐。
本文稍后会具体介绍市场竞争态势,但让我们首先分析一下AI对于网络技术的要求究竟有何区别。
AI网络为何能够支撑起一片全新市场
AI的技术应用有着多种多样的具体形式,从规模庞大的云端大模型到其他用例,包括面向特定垂直情境的私有云小语言模型(SLM)等等。AI技术可用于训练通用聊天机器人,用以协助聊天和写作,同时也能够在基于定制数据开发药物、或者优化制造业车间等用例中发挥奇效。
首先需要了解的是,AI网络与传统网络往往有着截然不同的要求。从通用计算到加速计算的转变,需要新的软件和分布式网络架构以闪电般的速度实现对数据的连接、移动和处理,期间延迟要始终保持在极低水平,且几乎不能接受数据丢失。总之,AI工作负载对网络的要求跟咖啡厅里的免费Wi-Fi绝对不是同一种概念。
构建庞大AI模型云的这波军备竞赛潮流,也刺激了市场对于专用处理器(包括SmartNIC、IPU和DPU)的需求,用以提高AI网络的传输、安全和存储功能与性能。此外还有更多领域值得关注:各网络参与方会使用多种多样的架构、软件和组件来构建起更具经济效益的基础设施来访问AI模型,而这些模型又可能部署在边缘或者云端。无论是连通超级计算机内的芯片、互连AI集群中的服务器,还是将这些集群再接入网络边缘,原有技术都必须不断发展以维持AI应用所提出的严苛性能要求。
Futuriom最近耗费几个月时间,通过一份关于AI网络的详尽报告研究了最终用户对于AI工作负载的要求。可以看到市场形态已经迎来细分,具体可划为两大类别:
1)训练。ChatGPT、Llama、Claude AI乃至Mistral等大模型都离不开训练步骤,即通过反复运行拥有数十亿个参数的对抗神经网络来构建出一套能够识别单词、图像和声音等的系统。这些大模型是AI应用的基础,而小模型也同样需要特殊的网络解决方案。
2)推理。经过微调的大模型或者小模型,能够依托于特定数据集以建立AI应用程序。由此产出的应用程序可以传递信息、解决特定问题并完成任务目标。例如,银行可以微调Claude AI,通过来自多笔交易的匿名数据运行模型,从而简化ATM端的客户服务。这通常被称为AI的“前端”,因此需要将处理和网络功能尽可能贴近客户。
训练和推理两大步骤,对于网络市场提出了迥异于传统/通用客户端-服务器网络乃至基于该范式的高性能计算(HPC)网络的功能需求。
新的需求包括:更高的传输容量(扩展至400 Gb/秒甚至800 Gb/秒)、更高的吞吐量、更低延迟、高可靠性、更快的存储访问、优化集群与更高的计算利用率等等。
新一轮竞赛已然启动!
AI科技凭借其提高生产力与发布新型数字产品的巨大潜力,持续激发着商业市场的无穷想象。人们对于AI基础设施建设的兴奋之情也随之油然而生。但由于收入和生产力增长的实现过程困难重重,整个过程往往需要经历多年、甚至是数十年的发展周期。在此期间,商业模式与架构变化也将随之展开。
据估计,AI网络市场约占AI基础设施总预算的10%到15%。尽管最初起点较低,但最终必然会达到数十亿美元。Arista Networks公司CEO Jayshree Ullal估计,明年与AI建设直接相关的网络收入将达到7.5亿美元,而且具体数字将继续保持快速增长。
到目前为止,AI网络市场一直是InfiniBand与以太网两大势力之间的较量。其中英伟达凭借GPU与网络连接方面的早期领先优势而全力支持InfiniBand技术,该阵营的特色在于特殊的低延迟与无损特性。另一方面,以太网解决方案也在快速进入市场,英伟达的Spectrum-X平台亦采用了基于以太网的技术。随着更多基于以太网的解决方案进入市场,AI网络将得到进一步扩展。小模型可以由各类垂直企业运行,并不需要大模型那过于全面的完整功能。小模型甚至可以在私有数据中心及基础设施上落地。考虑到这些场景中以太网的广泛部署和普遍熟悉,这项技术有望从唾手可得的组件与规模经济中受益。
为此,以太网也在努力适应AI网络对于低延迟和无损通信的需求——从某种意义上讲,它更像是既承接InfiniBand的优点,同时发挥以太网所固有的经济性。众多供应商联手成立了超级以太网联盟(UEC),其任务是引入以太网标准升级,使其适用于要求苛刻且规模各异的AI环境。现如今,以太网已经适应了融合以太网(RoCE)上的远程直接内存访问(RDMA)机制,在很大程度上符合AI工作负载的性能需求,而且发展的脚步一刻没有停歇。如今大多数网络供应商都支持RoCE v2,其相较于RoCE引入了更多增强功能,包括DCQCN(数据中心量化拥塞通知),这是一项结合了PFC(优先级流量控制)及ECN(显式拥塞通知)的技术,外加智能排队与缓冲区管理能力。一部分供应商还在RoCE v2中添加了AI与机器学习,用以提高其整体性能。
开放式网络也有很多值得一提的地方,客户可以选择通过混合/匹配供应商NOS和硬件来构建自己的网络。芯片制造商博通、Marvell和英特尔更是带来强大的商用芯片产品组合,帮助网络专家能够利用现成硬件与他们选定的NOS(包括开源SONiC)相匹配。
各大知名网络供应商(包括Arista、思科、博通、瞻博、HPE和诺基亚等)已纷纷加入UEC以实现这些目标。在这一领域,瞻博与HPE即将合并,由此建立的网络部门将拥有更大的规模,预计将在市场份额层面成为仅次于思科的全球第二大势力。
AI网络也给初创公司带来了更多机会。其中包括掌握基于SONiC技术的供应商,例如Aviz Networks和Hedgehog;还有专注于立足自有NOS进行横向扩展与系统拆分的初创公司,包括Arrcus和总部位于以色列的DriveNets,后者已经在为通信市场提供超大规模路由解决方案。
在这个爆发式增长的领域,还有更多供应商值得关注。例如,初创公司Enfabrica就为AI服务器提供计算到计算互连交换机,充当高带宽“NIC交叉开关”,用以增强集群内的计算、网络与内存连接。而Alkira、Aryaka、Aviatrix、Itential和Prosimo等多云网络与网络即服务(NaaS)供应商则努力帮助组织更轻松地建立起安全网络连接,用以在各AI源之间往来传输数据。
AI网络热潮还将推动光学市场的发展,因为这部分需求希望通过高速光学器件来支持传输带宽的激增。在这方面,光学设备市场领导者Ciena在相干光学领域的地位为数据中心的互连提速带来了希望。总部位于泰国的Fabrinet已经成为AI投资界的宠儿,其针对AI应用的光学元件增长强劲。同样乘上东风的还有其竞争对手Coherent和Lumentum。光纤制造商康宁公司股价近期上涨了10%,此前该公司曾发布一份盈利预告,将第二季度的销售额预期上调了约2亿美元。这在很大程度上源自数据中心在运行AI类应用程序时,内部对于光纤连接的需求超出原本预期。在这一领域,思科也继续占据着优势,其拥有自己的光学元件、能够与Silicon One芯片平台纳入同一封装。
纵观整体市场态势,我们将看到一场为了夺取AI基础设施网络领导地位而展开的规模庞大、充满奇思妙想的商业混战,相信其间也将出现许多波折。总之网络技术再次活力满满,请大家持续关注、安心吃瓜!