昇腾大规模跨节点专家并行(大EP)集群推理方案之动态均衡技术

业界
DeepSeek开源周里发布的大规模跨节点专家并行(简称“大EP”),揭开了推理服务如何提高吞吐、降低时延的技术秘诀。大EP能实现接近545%的成本降低,但落地过程中仍面临诸如“专家动态均衡”和“通信时延”等问题。如何优化负载均衡、降低通信开销、并充分利用资源成为技术难点,昇腾为此提供了“静态专家负载均衡 + 专家亲和部署”的解决方案。

DeepSeek开源周里发布的大规模跨节点专家并行(简称“大EP”),揭开了推理服务如何提高吞吐、降低时延的技术秘诀。大EP能实现接近545%的成本降低,但落地过程中仍面临诸如“专家动态均衡”和“通信时延”等问题。如何优化负载均衡、降低通信开销、并充分利用资源成为技术难点,昇腾为此提供了“静态专家负载均衡 + 专家亲和部署”的解决方案。


“大EP”推理中的挑战

1、负载不均衡

MoE模型本身不同专家网络的激活次数存在显著差异。部分专家网络可能需要处理海量数据,而另一些则相对“轻松”,这导致部分NPU过载,部分NPU则处于闲置状态,影响推理效率。


图1:专家热度(ceval数据集)

2、资源利用率不足

由于缺乏有效利用专家网络之间的亲和性部署的策略,在传统的部署方式下,NPU之间的协作效率较低,整体资源浪费现象严重。


图2:专家亲和性


昇腾的三大创新策略

针对上述挑战,昇腾通过分层部署、卡间调整以及层间优化等策略,有效解决了“大EP”场景下的负载不均衡、通信开销高、资源利用率不足等问题。

1、热点专家负载均衡

针对不同专家网络的激活次数存在显著差异,昇腾通过以下措施,不仅降低了部分NPU的负担,还显著减少了跨卡、跨节点通信的需求:

采用离线采集数据的方式,统计各层专家的激活次数,识别出热点专家。

对于负载过重的专家,通过冗余策略进行拆分,降低单点压力。

使用贪心算法将专家按权重分配到不同NPU卡上,确保每张卡上的专家负载均衡。


图3:计算负载均衡

2、层内专家亲和部署

针对同一层内的专家网络之间具有较高的协作性,昇腾通过“卡间调整 + 卡内调整”两阶段优化策略,确保高亲和性的专家网络尽可能部署在同一张卡或同一个节点上,显著降低了跨卡、跨节点通信的开销,提升了系统的整体性能。

卡间调整:以整卡为粒度,计算卡与卡之间的亲和性,选择n/2对亲和性最差的卡进行节点分配。


图4:层内专家亲和部署:卡间调整

卡内调整:在卡间调整的基础上,进一步优化卡内专家网络的部署策略。通过交换低亲和性专家网络的方式,提升集群的整体亲和性。


图5:层内专家亲和部署:卡内调整

3、层间专家亲和部署

不同层之间的专家网络也存在一定的协作关系。昇腾通过基于节点粒度的优化策略,确保具有高亲和性的跨层专家网络尽可能部署在同一节点上。这种方式进一步降低了跨节点通信的需求,并提升了系统的响应速度。


图6:层间专家亲和部署:节点间调整


显著收益和效果

提升系统15%吞吐性能:每次前向过程中,各层专家网络的token数分布更加均匀,避免了部分NPU过载,降低了端到端延迟,提升了系统的稳定性。

降低30%通信开销:在大规模集群中,跨卡、跨节点通信的时间占比显著减少。全面提升系统性能,为模型优化提供了更大的空间。

资源利用率提升20%:充分利用NPU之间的亲和性关系,资源利用率提升了约20%。(在传统的部署方式下,资源浪费可能超过40%)。

未来思考与计划

算法优化:针对分布式系统中负载变化的动态特性,探索更加灵活的负载均衡策略,结合在线监测数据,实时调整部署方案。

软硬协同:充分利用昇腾的硬件特点,进一步优化专家并行任务的资源调度算法,提升系统的整体性能。

场景适配:针对不同的应用场景,定制化的负载均衡和亲和部署策略,使方案更加普适,能满足不同客户的实际需求。

昇腾将继续以技术创新为核心驱动力,探索更加高效的算法优化策略,帮助客户在AI领域实现更大的突破。

责任编辑:企业资讯
相关推荐

2025-03-03 09:00:00

DeepSeekAI人工智能

2021-07-09 22:54:38

昇腾产业升级智能化

2023-06-30 17:59:27

Ray离线推理

2021-03-26 09:49:22

架构并行处理

2010-12-23 11:01:19

集群FTPFTP代理

2020-04-09 11:56:10

Elasticsear集群硬件

2022-12-28 13:10:52

昇腾

2023-09-20 16:55:15

华为AI 计算集群

2020-10-19 19:37:18

区块链李鸣数字

2009-03-20 09:49:00

负载均衡CDN网站架构

2020-08-18 10:17:48

昇腾上海技术开放日

2022-06-01 16:47:53

AI模型开源

2020-07-14 13:19:31

华为技术开放日昇腾

2025-02-25 18:41:39

点赞
收藏

51CTO技术栈公众号