广域网(WAN)已成为全球互联网的骨干与主力,作为现代在线服务的基础,其将横跨大陆和海洋的数十亿台设备彼此连接到了一起。在 COVID-19 大流行期间,无论是机器学习、视频通话、医疗保健等相关新兴负载,都对互联网带宽和可用性提出了越来越高的要求。然而现实是,动辄数百英里的光纤网络,很容易受到各种意外事件的影响而中断。
好消息是,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)和 Facebook 的科学家们,刚刚提出了一种可在光纤中断时为网络提供保护、且成本相当低廉的 ARROW 系统。
结合特殊的在线算法,ARROW 系统还可根据互联网的实时流量需求,而提前规划应对潜在的光纤网络中断。
考虑到理论计算的复杂度,研究团队提出了一种新颖的算法,本质上可视作在光纤上‘波长重配置问题’的抽象,并只将基本信息输入到‘流量工程问题’中。
然后借助‘光学恢复方法’,其能够将光路从被截断的光纤,转移到‘替代’的健康光纤,以恢复网络连接。
值得一提的是,通过对实时流量的分析考量,这套系统还能够优化以实现最大的网络吞吐量。
在大规模模拟与测试平台上,ARROW 在无需部署新光纤的情况下,即可承载 2-2.4 倍的流量,同时保持网络的高度可靠。
研究一作、MIT 博士后 Zhizhen Zhong 指出:
- ARROW 可用于提升服务的可用性,并增强互联网基础设施应对光纤截断的弹性,且革新了我们对故障和网络管理之间关系的思考方式。
- 以往的故障,特指确定性事件,意味着我们在过度配置网络之外,找不到其它应对方案。
- 不同的是,ARROW 能够消除或部分恢复一些故障,这改变了我们对网络管理和流量工程的看法。
最终为重新思考流量工程 / 风险评估系统、以及新兴应用程序,开创了一个全新的机遇。
以一个地铁系统为例,其中某些列车可能偶尔发生故障。此时控制单元希望在考虑所有可能的交通状况的同时,规划如何将旅客疏散到替代线路上。
在 ARROW 方案中,当一条光线网路发生故障时,控制单元也可向通信需求方告知最佳替代线路,以最大限度地减少数据传输所需的时间、并避免遇到网络拥塞。
最后,负责这项研究的 MIT 助理教授 Manya Ghobadi 表示,其长期目标是让大规模计算机网络变得更加高效、并最终开发出可智能适应数据和应用的新一代网络。