12月23日,由中国信息通信研究院主办的智算IP广域网产业交流会在北京成功举办。本次交流会以“打造超弹性无损智算IP广域网,加速迈向智能时代”为主题,企业、科研机构积极响应。其中,中国移动通信集团重庆有限公司计划部刘轻舟副总经理基于重庆移动打造的“存算拉远”智算创新项目做了成果分享。
刘轻舟介绍,随着新能源智能车企的快速发展,海量样本数据大模型训练成为车企发展的必需业务场景,也是智能车企发展的关键。重庆移动聚焦车企普遍关注的先传后训方式导致算力资源利用率低、敏感数据出园区导致安全担忧等痛点,携手华为推出了智算互联网络解决方案。该方案基于新一代路由器,创新性采用弹性存算拉远架构,并结合广域RDMA无损网络技术,兼顾了数据安全、海量数据传输效率及算效提升的诉求。
刘轻舟指出,考虑到业务发展初期,运营商的网络建设成本及客户大模型计算成本,重庆移动首创提出了广域RDMA+G-SRv6的无损网络融合方案,采用RDMA、深度负载分担、智能流调度和逐流反压等关键技术,同时利用客户侧已有的标准存储,确保客户数据在智算中心不落盘,通过新一代智算设备互联实现网存协同。该方案面向客户提供确定性、弹性、可信智算互联专线及智算算力租赁服务。
存算拉远架构创新:存算拉远架构将原始数据留存在客户本地,避免传输过程数据泄露对企业造成的损失。在智算中心计算时,采用边传边训的方式,极大降低了算卡空闲率,缩短训练整体总耗时时间,有利于智算算力服务的普及和推广。
智能调度技术创新:智算互联网络解决方案通过带宽有效利用率提升及时延、丢包的优化来确保高吞吐率,降低计算服务器的等待时间,提升智算中心的整体算效。同时,还基于多种IPv6+技术,实现不同网络路径的负载均衡精度控制在5%以内,带宽利用率提升到90%以上,显著提高了网络传输效果。
通过一系列的技术创新,重庆移动存算拉远项目在超长距离网络中,训练效率提升近1倍,月度迭代训练任务数提升近70%。极大解决了算力空闲等待时间长的问题,大幅降低企业使用大模型训练的成本,为高效算力服务的推广,加速普惠算力服务千行百业贡献了重要力量。
展望未来,重庆移动将持续携手产业伙伴,打通计算、网络、安全等产业,基于算存模式,推动关键技术的深度融合与创新,不断打造更高质量的智算专线,实现跨通信、计算为一体的协同运作,提高整体产业的竞争力。