AI添动力,无损网络通向下一站

网络
新华三正式发布AD-DC SeerFabric无损网络解决方案。基于云边AI协同架构,通过对业界AI ECN调优算法的优化创新,结合新华三数据中心交换机的本地AI Inside能力,在保障零丢包的情况下,尽可能提升吞吐率、降低时延,保障网络业务的精确转发和网络服务质量的确定性。

网络传输可以多高效?让我们来一探“无损网络”的奥秘。

“东数西算”正热 数字经济加速发展有“新路”

随着《全国一体化大数据中心协同创新体系算力枢纽实施方案》的引发, “东数西算”、“数据中心创新性发展”成为业界高度关注的热点话题。“东数西算”是建设“全国一体化算力网络国家枢纽节点”的国家级战略工程,旨在改善我国数字基础设施不平衡的布局,让数据中心能够在数字经济的发展中发挥“扛鼎之力”。

“东数西算”工程将在未来形成以数据流为导向的新型算力网络格局。在这一背景下,我们急需可以提供承载的下一代网络,赋能数字经济的发展真正走上一条极速而又稳健的康庄大道。作为下一代网络发展代表,“无损网络”凭借正猛的创新发展势头,走入我们的视野。

什么是无损网络?

无损,顾名思义即是“零”损耗,这里的损耗指的是在网络传输过程中的协议包转发、响应时间、处理时间以及设备吞吐量等主要指标。答案很明显,无损网络就是能够实现“零丢包、低时延、高吞吐”的网络环境,其目标就是“延迟越低越好,效率越高越好“。因此,比起曾经丢包、高时延的“有损”网络环境来说,无损网络在拥塞控制、流量控制、分组转发、路由选择等方面进行了改进与创新,满足数据中心海量算力和海量数据的高效存储需求,极大提升了用户体验。

  • 关键的“两把刷子”—PFC和ECN

随着云计算、大数据、人工智能以及5G的兴起,网络数据呈现爆炸式增长,对数据的处理性能、数据中心建设都提出了更高的要求。当前,在HPC(High Performance Computing,高性能计算)、分布式存储、AI人工智能等业务场景下,采用RDMA协议来降低CPU的处理和延迟,提升应用性能,成为算力时代数据中心网络的发展方向。

其中,RDMA网络正是通过在网络中部署PFC(Priority-based Flow Control,基于优先级的流量控制)和ECN(Explicit Congestion Notification,显示拥塞通知)功能来实现无损保障。

PFC是基于队列的反压技术,保证对链路上RDMA专属队列的流量进行控制,并在交换机入口(Ingress port)出现拥塞时对上游设备流量进行反压。在单机场景下,PFC可以快速、有效的调节服务器速率来保证网络不丢包。但是在多级网络中,就会出现不公平降速、PFC风暴、PFC死锁等问题。因此,在数据中心开启PFC,需要通过对Pause帧进行严格的监控、管理,以保证网络的可靠性。

图1 :PFC流程

ECN是一种基于流的端到端流控技术,保证实现端到端的拥塞控制,在交换机出口(Egress port)拥塞时,对数据包做ECN标记,并让流量发送端降低发送速率。ECN效果上会优于PFC,但是也存在如下问题:

  • ECN需要接收端生成反压报文,反馈路径周期比较长;
  • 随机性标记,会不公平;
  • 水线设计比较复杂,需要结合网络架构和业务特点来设计;

图2: ECN流程

  • ECN与PFC怎样组成黄金搭档

从无损网络设计看,为充分发挥网络高性能转发,ECN和PFC组合配置时,需通过专家经验来调整ECN和PFC的buffer水线门限,让ECN先于PFC触发。即网络还是持续全速进行数据转发,让服务器主动降低发包速率。如果还不能解决问题,再通过PFC让上游交换机暂停报文发送。这样虽然整网吞吐性能有所下降,但是不会导致丢包。

图3:ECN+PFC组合流程

流量与速率挑战下 ECN&PFC的“远交近攻”

在 RoCE网络中,构建无损以太网要支持如下关键特性:

  • PFC:逐跳提供基于优先级的流量控制,能够实现在以太网链路上运行多种类型的流量而互不影响。
  • ECN:设备发生拥塞时,通过对报文 IP 头中 ECN 域的标识,由接收端向发送端发出降低发送速率的 CNP(Congestion Notification Packet,拥塞通知报文),实现端到端的拥塞管理,减缓拥塞扩散恶化。

其中,ECN的最大难点是水线设置比较复杂,需要结合网络架构和业务特点来设计。然而现网中的流量复杂多变,导致基于专家经验的静态ECN水线门限功能并不能覆盖所有流量场景,无法保障无损业务达到最优性能。AI ECN则是借助AI算法来实现无损队列的水线调整,通过AI训练的流量模型,可实时预测网络流量的变化趋势,动态调整ECN的水线门限,从而实现对无损队列的精确调度,保障整网的最优性能。

新华三AI ECN算法 AI添翼性能领先

在此背景下,新华三推出的AI ECN智能无损算法,能根据网络流量模型(N打1的Incast值、队列深度、大小流占比等流量特征),通过强化学习算法对流量模型进行AI训练,实时感知和预测网络流量变化趋势,自动调节出最优的ECN水线,进行队列的精确调度。在尽量避免触发网络PFC流控的同时,兼顾时延敏感小流和吞吐敏感大流的转发,进一步保障整网的最优性能。

新华三AD-DC SeerFabric方案采用的AI ECN调优算法处理流程如下:

图4: AI ECN流程

作为新华三AD-DC SeerFabric无损网络解决方案的重要一环,AI ECN算法实现了对出端口队列中ECN水线的动态调整,使网络设备在各种不同的通信网络或者实时变化的通信网络中,可以实现低传输时延以及高吞吐量,提高了网络拥塞控制的灵活性。在实际组网测试中,各项性能指标都有很大提高,很好完成了助力RDMA网络性能的目标。

三大特色引擎驱动智能无损网络加速演进

今年初,新华三正式发布AD-DC SeerFabric无损网络解决方案。基于云边AI协同架构,通过对业界AI ECN调优算法的优化创新,结合新华三数据中心交换机的本地AI Inside能力,在保障零丢包的情况下,尽可能提升吞吐率、降低时延,保障网络业务的精确转发和网络服务质量的确定性。同时,通过精细化的智能运维,实现RoCE网络的业务体验可视。

新华三AD-DC SeerFabric无损网络解决方案的核心驱动力来自三大关键智能组件:

  • 智能分析引擎:利用无损网络及联接的存储和计算资源,借助AI算法和专家经验,实现对数据中心不同流量场景的AI无损调优模型的分析和构建。通过现网流量的实时学习训练,自动适配不同业务流量模型的特点,动态生成最优网络参数,实现网络的无损转发;
  • 智能控制引擎:将智能分析引擎动态生成的调优参数自动向设备下发,实现无损网络全局最优化运行;
  • 边缘AI引擎:交换机内嵌高性能AI计算模块,借助智能分析引擎的离线AI流量模型,进行网络状态的实时监控。自动根据现网流量特征进行RDMA队列水线的本地智能调整,实现网络参数优化,保障本地网络的无损转发性能;

图5 AD-DC SeerFabric无损网络解决方案架构

步入5G、云和AI等技术驱动的智能时代,高吞吐、低时延的无损网络成为网络业务发展的普遍诉求。未来,新华三集团将基于“云智原生”和“数字大脑2021”,继续与业界伙伴一起,积极推进智能无损网络的标准化和应用落地,并提供标准、开放的产品、方案和服务,持续赋能生态,为国家新型数据中心建设贡献力量。从无损网络到无损世界,科幻电影中的种种画面即将成为现实,无损世界的更多精彩,新华三将持续与你一同发现。

责任编辑:张燕妮 来源: 51CTO
相关推荐

2020-05-26 19:31:09

人工智能AI实时服务

2013-09-25 09:58:17

虚拟化网络

2020-03-11 15:00:46

AI人工智能智能

2022-11-24 08:00:00

2015-05-29 09:56:11

慧聪电子网

2016-01-18 10:40:04

VRMR

2013-05-29 09:51:16

BYODBYOD管理IT应用

2012-02-07 09:25:43

移动市场Facebook

2010-08-11 11:40:06

云计算

2019-06-22 16:03:28

托管云计算企业

2015-08-13 10:04:13

数据中心LSO

2014-01-10 16:33:17

2020-10-27 14:16:43

AI智能人工智能

2015-07-17 16:06:59

软件定义光网络SDON

2020-07-14 13:19:31

华为技术开放日昇腾

2015-05-18 17:07:16

全联接公交公交移动互联华为

2013-11-18 09:48:07

以太网400G100G

2020-11-07 16:35:25

人工智能技术硬件

2015-07-06 10:38:20

超融合架构VM分布式存储

2023-05-11 11:41:04

点赞
收藏

51CTO技术栈公众号